Bot 检测(Bot Detection)是广告平台、电商平台、SaaS 系统识别非人类流量的技术总称。 Bot 包括:搜索引擎爬虫、广告平台审核员、安全扫描器、刷量机器人、撞库脚本、爬虫等。 据 Imperva 统计,互联网流量中约 47% 来自 Bot,其中一半是恶意 Bot。
对广告投手来说,Bot 检测既是朋友(拦截审核员让你过审),也是敌人(被识别为 Bot 会被广告平台封号)。 理解 Bot 检测的工作原理,是做合规 + 灰色边缘投放的基础知识。
主流 Bot 检测方案
Cloudflare Bot Management
- 覆盖最广(30%+ 全球网站)
- 基于全球流量数据训练 ML 模型
- "Bot Score" 0-100,30 以下高风险
- 提供 Turnstile(无障碍 CAPTCHA)
Google reCAPTCHA
- v2:经典"我不是机器人"复选框
- v3:无感评分(0.0-1.0),无需用户交互
- Enterprise:企业级,集成更深
- 免费但隐私争议大
DataDome
- 专业级 Bot 防护,主要服务大型电商
- 毫秒级实时拦截
- 价格高(月费数千美元起)
Imperva (前身 Distil Networks)
- 企业级 Web 应用防火墙 + Bot 防护
- 金融、航空、电商常用
PerimeterX (HUMAN)
- 专注高级 Bot 检测,对抗 Headless 浏览器
- 电商高频使用
Bot 检测的常见维度
1. 网络层信号
- IP 信誉:见 什么是 IP 信誉
- ASN 类型:数据中心 ASN 默认高度可疑
- TLS 指纹:浏览器和脚本的 TLS Client Hello 不同(JA3 指纹)
- HTTP/2 指纹:HTTP 帧顺序、Header 顺序泄露客户端
- 地理一致性:IP 国家 vs 时区 vs 语言
2. 浏览器层信号
- User-Agent 一致性:UA 声明 vs Client Hints vs JS 行为
- Headless 检测:webdriver 属性、navigator.plugins、Permission API
- 浏览器指纹:见 什么是浏览器指纹
- JavaScript 执行:执行特定挑战,看返回值是否合法
- Cookie / Storage:Bot 通常不维护持久 Cookie
3. 行为层信号
- 鼠标轨迹:人类鼠标移动有曲线、加速度,Bot 通常是直线
- 键盘节奏:人类打字有间隔变化,Bot 通常等距
- 滚动模式:人类滚动有起伏,Bot 通常匀速
- 页面停留:人类有阅读时间,Bot 通常立刻跳走
- 点击位置:人类点击在按钮中心附近,Bot 可能像素精确
4. 模式层信号
- 请求频率:人类 1-2 req/s,Bot 经常 10+ req/s
- 访问深度:Bot 通常深度爬整站,人类浏览特定页面
- 会话规律性:Bot 经常每天定时请求,人类不规律
- 失败重试:Bot 遇到 4xx 经常重试,人类一次就放弃
常见 Bot 类型与处理
搜索引擎爬虫(合法)
- Googlebot、Bingbot、Baiduspider、YandexBot
- UA 明确标识,反向 DNS 可验证
- 处理:放行(你需要 SEO)
广告平台审核员(半合法)
- Facebook、Google、TikTok 内部审核团队
- 使用真实浏览器,但 IP 来自数据中心
- 处理:合规站点放行;灰色站点用 Cloak 显示白页
恶意爬虫(违法)
- 偷你的内容、价格、用户数据
- 用云服务器、轮换代理
- 处理:直接拦截
Click Bot(违法)
- 刷你的广告点击消耗预算
- 对手的广告主竞争对手雇佣
- 处理:拦截 + 向广告平台报告
注册 Bot(违法)
- 批量注册薅羊毛、骗优惠券
- 处理:CAPTCHA + 设备指纹 + 行为分析
对广告投手的实际影响
反向利用:拦截审核员
投手希望识别 Facebook / Google 审核员的访问 → 给他们看白页(合规版本),给真实用户看黑页。 这正是 广告斗篷(Ad Cloaking)的核心机制。 Cloak 工具实际上是"反向" Bot 检测 —— 用 Bot 检测的技术来识别审核员。
正向利用:拦截恶意点击
投手希望识别竞争对手的 Click Bot,避免广告预算被刷掉。 Cloak 工具同样可以拦截恶意点击,并把流量路由到 Safe Page 减少损失。
需要规避:浏览器自动化
投手用 Selenium / Puppeteer 自动化操作多账户时,必须规避平台对 Headless 浏览器的检测。 指纹浏览器 就是为此而生。
Bot 检测的对抗趋势
2010-2015:CAPTCHA 时代
- 简单图片验证码
- OCR 攻破
2015-2020:JS 挑战 + IP 信誉
- Cloudflare 5 秒挑战
- reCAPTCHA v2
2020-2025:行为分析 + ML
- 无感 Bot 评分
- ML 模型训练
2025+:AI 对抗 AI
- LLM 驱动的"完全模拟人类"Bot
- 风控也用 LLM 检测异常模式
- 军备竞赛
常见问题
Q:怎么判断我的网站被 Bot 攻击了?
看流量异常:突然 PV 飙升但 CVR 暴跌、UA 出现大量未知值、IP 集中在数据中心。
Q:Cloudflare 免费版的 Bot 防护够用吗?
对小流量站点够用。大型电商建议升级到 Pro/Business + Bot Management(额外付费)。
Q:广告投手如何避免被识别为 Bot?
使用指纹浏览器(ipcloak.ai Browser)+ 住宅 IP + 模拟人类行为(鼠标曲线、停留时间)。这是反风控的基础组合。