行业新闻与博客

随着生成式人工智能抓取工具活动的增加,灰色机器人数量激增

最近,我们观察到生成式 AI 抓取机器人活动激增,对网络环境产生了影响。新数据表明,这些“灰色机器人”越来越多地针对 Web 应用程序。

Barracuda 的最新报告 《生成式人工智能机器人活动趋势》强调,积极收集在线数据的人工智能机器人日益增多。

灰色机器人的崛起

2024 年 12 月至 2025 年 2 月期间,网络应用程序收到了来自生成式 AI 机器人(例如 ClaudeBot 和 TikTok 的 Bytespider)的数百万条请求。

在短短 30 天内,一个被跟踪的 Web 应用程序记录了 970 万个机器人请求,而另一个 Web 应用程序在一天内就面临超过 50 万个机器人请求。进一步分析发现,一个 Web 应用程序在 24 小时内每小时会遇到 17,000 个机器人请求。

与突发性运行的传统机器人不同,这些生成式 AI 抓取机器人保持稳定的流量水平。这种意外模式给 Web 应用程序带来了巨大挑战,使得预测和减轻其影响变得更加困难。

灰色机器人虽然不具有明显的恶意,但却具有极大的破坏性。

他们积极的抓取行为可以:

  • 导致 Web 应用程序流量过大,中断正常运行
  • 未经授权提取和使用受版权保护的数据
  • 扭曲网站分析,影响商业决策
  • 由于 CPU 和带宽使用率较高,增加了云托管成本
  • 增加处理敏感数据的行业(如医疗保健和金融)的合规风险

2025 年初检测到的两个最丰富的生成式 AI 抓取机器人是 ClaudeBot 和 Bytespider。

ClaudeBot 由 Anthropic 运营,收集数据来训练其生成式 AI 模型 Claude。尽管 Claude 的抓取行为十分激进,但 Anthropic 还是提供了有关如何阻止其活动的信息。

TikTok 的 AI 抓取机器人 Bytespider 会收集数据以改进其推荐算法和广告功能。报告显示,Bytespider 的运作缺乏透明度,这使得网络应用程序难以管理其影响。

检测到的其他值得注意的机器人包括 PerplexityBot 和 DeepSeekBot。

保护策略

随着灰色机器人成为在线流量中持续存在的一部分,组织必须采取主动措施来管理其影响。一种常见的方法是部署 robots.txt,这是一种向抓取工具发出信号以避免收集网站数据的工具。然而,这种方法在法律上不可行,许多机器人都会忽略它。

为了更有效的保护,公司正在转向人工智能机器人防御系统,利用机器学习来实时检测和阻止爬虫机器人活动。

随着有关人工智能抓取机器人的伦理、法律和商业影响的争论持续进行,组织必须优先考虑安全性以保护其数据和运营。

需要帮助吗?联系我们的支持团队 在线客服