什么是 Bot 检测？广告平台与风控系统的反爬完整机制

Bot 检测（Bot Detection）是广告平台、电商平台、SaaS 系统识别非人类流量的技术总称。 Bot 包括：搜索引擎爬虫、广告平台审核员、安全扫描器、刷量机器人、撞库脚本、爬虫等。据 Imperva 统计，互联网流量中约 47% 来自 Bot，其中一半是恶意 Bot。

对广告投手来说，Bot 检测既是朋友（拦截审核员让你过审），也是敌人（被识别为 Bot 会被广告平台封号）。理解 Bot 检测的工作原理，是做合规 + 灰色边缘投放的基础知识。

主流 Bot 检测方案

Cloudflare Bot Management

覆盖最广（30%+ 全球网站）
基于全球流量数据训练 ML 模型
"Bot Score" 0-100，30 以下高风险
提供 Turnstile（无障碍 CAPTCHA）

Google reCAPTCHA

v2：经典"我不是机器人"复选框
v3：无感评分（0.0-1.0），无需用户交互
Enterprise：企业级，集成更深
免费但隐私争议大

DataDome

专业级 Bot 防护，主要服务大型电商
毫秒级实时拦截
价格高（月费数千美元起）

Imperva (前身 Distil Networks)

企业级 Web 应用防火墙 + Bot 防护
金融、航空、电商常用

PerimeterX (HUMAN)

专注高级 Bot 检测，对抗 Headless 浏览器
电商高频使用

Bot 检测的常见维度

1. 网络层信号

IP 信誉：见什么是 IP 信誉
ASN 类型：数据中心 ASN 默认高度可疑
TLS 指纹：浏览器和脚本的 TLS Client Hello 不同（JA3 指纹）
HTTP/2 指纹：HTTP 帧顺序、Header 顺序泄露客户端
地理一致性：IP 国家 vs 时区 vs 语言

2. 浏览器层信号

User-Agent 一致性：UA 声明 vs Client Hints vs JS 行为
Headless 检测：webdriver 属性、navigator.plugins、Permission API
浏览器指纹：见什么是浏览器指纹
JavaScript 执行：执行特定挑战，看返回值是否合法
Cookie / Storage：Bot 通常不维护持久 Cookie

3. 行为层信号

鼠标轨迹：人类鼠标移动有曲线、加速度，Bot 通常是直线
键盘节奏：人类打字有间隔变化，Bot 通常等距
滚动模式：人类滚动有起伏，Bot 通常匀速
页面停留：人类有阅读时间，Bot 通常立刻跳走
点击位置：人类点击在按钮中心附近，Bot 可能像素精确

4. 模式层信号

请求频率：人类 1-2 req/s，Bot 经常 10+ req/s
访问深度：Bot 通常深度爬整站，人类浏览特定页面
会话规律性：Bot 经常每天定时请求，人类不规律
失败重试：Bot 遇到 4xx 经常重试，人类一次就放弃

常见 Bot 类型与处理

搜索引擎爬虫（合法）

Googlebot、Bingbot、Baiduspider、YandexBot
UA 明确标识，反向 DNS 可验证
处理：放行（你需要 SEO）

广告平台审核员（半合法）

Facebook、Google、TikTok 内部审核团队
使用真实浏览器，但 IP 来自数据中心
处理：合规站点放行；灰色站点用 Cloak 显示白页

恶意爬虫（违法）

偷你的内容、价格、用户数据
用云服务器、轮换代理
处理：直接拦截

Click Bot（违法）

刷你的广告点击消耗预算
对手的广告主竞争对手雇佣
处理：拦截 + 向广告平台报告

注册 Bot（违法）

批量注册薅羊毛、骗优惠券
处理：CAPTCHA + 设备指纹 + 行为分析

对广告投手的实际影响

反向利用：拦截审核员

投手希望识别 Facebook / Google 审核员的访问 → 给他们看白页（合规版本），给真实用户看黑页。这正是广告斗篷（Ad Cloaking）的核心机制。 Cloak 工具实际上是"反向" Bot 检测 —— 用 Bot 检测的技术来识别审核员。

正向利用：拦截恶意点击

投手希望识别竞争对手的 Click Bot，避免广告预算被刷掉。 Cloak 工具同样可以拦截恶意点击，并把流量路由到 Safe Page 减少损失。

需要规避：浏览器自动化

投手用 Selenium / Puppeteer 自动化操作多账户时，必须规避平台对 Headless 浏览器的检测。指纹浏览器就是为此而生。

Bot 检测的对抗趋势

2010-2015：CAPTCHA 时代

简单图片验证码
OCR 攻破

2015-2020：JS 挑战 + IP 信誉

Cloudflare 5 秒挑战
reCAPTCHA v2

2020-2025：行为分析 + ML

无感 Bot 评分
ML 模型训练

2025+：AI 对抗 AI

LLM 驱动的"完全模拟人类"Bot
风控也用 LLM 检测异常模式
军备竞赛

常见问题

Q：怎么判断我的网站被 Bot 攻击了？

看流量异常：突然 PV 飙升但 CVR 暴跌、UA 出现大量未知值、IP 集中在数据中心。

Q：Cloudflare 免费版的 Bot 防护够用吗？

对小流量站点够用。大型电商建议升级到 Pro/Business + Bot Management（额外付费）。

Q：广告投手如何避免被识别为 Bot？

使用指纹浏览器（ipcloak.ai Browser）+ 住宅 IP + 模拟人类行为（鼠标曲线、停留时间）。这是反风控的基础组合。