12.Nginx日常实践整理记录

2020-09-02
实践整理

12.Nginx日常实践整理记录

2020-09-02

本章目录

[TOC]

0x00 Nginx 封禁 DataForSeoBot、SemrushBot、AhrefsBot、MJ12bot 等恶意爬虫方法

前面简述: 今天早上发现博客网站流量出现异常，登录到服务器后查看nginx日志发现，被 DataForSeoBot 爬虫恶意拉取了博客中的文章，遂出现本文。

DataForSeoBot、SemrushBot、AhrefsBot、MJ12bot 在 Google 后发现是国外的 SEO 爬虫，这些恶性爬虫不会带来流量，还因为大量的抓取请求，造成主机的CPU和带宽资源浪费，所以需要对其屏蔽。

如何屏蔽无用的垃圾蜘蛛爬虫?

1.使用robots.txt屏蔽垃圾蜘蛛。

点击阅读完整原文

本章目录

[TOC]

0x00 Nginx 封禁 DataForSeoBot、SemrushBot、AhrefsBot、MJ12bot 等恶意爬虫方法

前面简述: 今天早上发现博客网站流量出现异常，登录到服务器后查看nginx日志发现，被 DataForSeoBot 爬虫恶意拉取了博客中的文章，遂出现本文。

如何屏蔽无用的垃圾蜘蛛爬虫?

1.使用robots.txt屏蔽垃圾蜘蛛。

# robots.txt for WeiyiGeek Blog By Hexo
# 防止恶意蜘蛛爬取
User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

# 允许正常蜘蛛爬取
User-agent:*
Allow: /
Allow: /archives/
Allow: /tag/
Allow: /about/
Allow: /links/
Allow: /page/
Allow: /tools/
Disallow: /images/
Disallow: /fonts/
Disallow: /*.js
Disallow: /*.css

Sitemap: https://blog.weiyigeek.top/sitemap.xml
Sitemap: https://blog.weiyigeek.top/baidusitemap.xml

2.在 Nginx 站点子配置文件中判断头返回指定响应码

# 使其加入到 server 块中
# 防止恶意爬虫
if ( $http_user_agent ~* "DataForSeoBot|SemrushBot|python|MJ12bot|AhrefsBot|AhrefsBot|hubspot|opensiteexplorer|leiki|webmeup" ){
  return 403;

}

0x01 Nginx 封禁恶意访问(DDOS)的方法

前言简述: Nginx 封禁恶意IP地址的访问，通常有如下三种方式

1.使用 limit_req_zone、limit_conn_zone 模块 方式有可能会误伤友军。
2.使用 shell 脚本定时检测 access.log 统计一段时间IP访问是否到达阈值。
3.使用 nginx + Lua + redis 实现动态封禁IP。

方式1.使用 limit_req_zone、limit_conn_zone 模块

#nginx.conf
http{
...
  # 表示允许相同标识的客户端的访问频次，此处每分钟不能超过30请求
  limit_req_zone $binary_remote_addr zone=limits:10m rate=30r/m;
  limit_conn_zone $binary_remote_addr zone=conn_zone:10m;
  server {
    # 设置一个大小为50的缓冲区当有大量请求（爆发）过来时，超过了访问频次限制的请求可以先放到这个缓冲区内。
    limit_req zone=limits burst=50;
    limit_conn conn_zone 1;
    limit_rate 50k;
  }
...
  
}

方式2.使用shell脚本定时统计 access.log

#!/bin/bash
# @描述: nginx 封禁恶意IP访问
# @Author: WeiyiGeek
# @Blog: blog.weiyigeek.top
# chmod +x /usr/local/bin/checkblackip.sh
# 日志路径示例: /var/log/nginx/blog/blog-2023-04-12.log

if [ "$#" -eq 0 ];then
  echo "usage: ${0} blog"
  exit -1
fi

flag=0
app_name=${1}
log_path=/var/log/nginx
current_day=$(date "+%Y-%m-%d")
current_hour="2023:$(date '+%H')"
log_file="${log_path}/${app_name}/${app_name}-${current_day}.log"
blackip_file="/usr/local/nginx/conf.d/blackip.conf"

# 验证每小时超过30请求的IP地址
grep "${current_hour}" ${log_file} | awk '{print $1}' | sort | uniq -c | sort -r | awk '{if($1>30){print $2}}' > /tmp/deny.ip

for ip in $(cat /tmp/deny.ip);do
  grep -q "${ip}" ${blackip_file}
  if [ $? -ne 0 ];then
    echo "deny ${ip};" >> ${blackip_file}
    flag=1
  fi
done

if [ $flag -eq  1 ];then
  echo -n "nginx reload"
  date -R >> /tmp/${current_day}.deny
  cat /tmp/deny.ip >> /tmp/${current_day}.deny
  /usr/sbin/nginx -s reload
fi

crontab 定时执行: */5 * * * * /usr/local/bin/checkblackip.sh blog

欢迎各位志同道合的朋友一起学习交流，如文章有误请在下方留下您宝贵的经验知识，个人邮箱地址【master#weiyigeek.top】或者个人公众号【WeiyiGeek】联系我。

更多文章来源于【WeiyiGeek Blog - 为了能到远方，脚下的每一步都不能少】, 个人首页地址( https://weiyigeek.top )

专栏书写不易，如果您觉得这个专栏还不错的，请给这篇专栏 【点个赞、投个币、收个藏、关个注、转个发、赞个助】，这将对我的肯定，我将持续整理发布更多优质原创文章！。

最后更新时间：2023-06-06 17:20:23
文章原始路径：_posts/系统运维/Application/Web/WebApp/Nginx/12.Nginx日常实践整理记录.md
转载注明出处，原文地址：https://blog.weiyigeek.top/2020/9-2-591.html
本站文章内容遵循知识共享署名 - 非商业性 - 相同方式共享 4.0 国际协议

WeiyiGeeker

☕️ 请作者喝杯咖啡!

12.Nginx日常实践整理记录

0x00 Nginx 封禁 DataForSeoBot、SemrushBot、AhrefsBot、MJ12bot 等恶意爬虫方法

0x00 Nginx 封禁 DataForSeoBot、SemrushBot、AhrefsBot、MJ12bot 等恶意爬虫方法

0x01 Nginx 封禁恶意访问(DDOS)的方法

如果此篇文章对您有帮助，就请作者喝杯 Coffee ☕️☕️!