Nội dung
Trong thời đại AI đang “hot” hơn bao giờ, các bot AI thu thập dữ liệu (bot Gen AI) đang âm thầm thu thập dữ liệu trên website của bạn, gây quá tải hạ tầng và sai lệch số liệu phân tích. Không chỉ ảnh hưởng hoạt động, chúng còn tiềm ẩn rủi ro mất dữ liệu nhạy cảm. Bài viết này sẽ chỉ ra bản chất của bot “xám” – bot ai thu thập dữ liệu và cách để bạn bảo vệ hệ thống hiệu quả.
Khái niệm bot tốt, bot xấu và bot xám
Bot là những phần mềm tự động thực hiện các tác vụ trực tuyến với quy mô lớn. Có bot “tốt” như bot tìm kiếm, bot SEO hay bot hỗ trợ khách hàng – và cũng có bot “xấu” chuyên đánh cắp dữ liệu hoặc thực hiện hành vi gian lận. Tuy nhiên, nằm giữa hai thái cực đó là nhóm bot “xám” (gray bot) – điển hình là bot AI thu thập dữ liệu (Gen AI scraper bots).
Chúng không trực tiếp gây hại, nhưng hoạt động thu thập dữ liệu hàng loạt từ website để huấn luyện AI có thể tạo ra nhiều rủi ro và tranh cãi.
Bài viết này sẽ giúp bạn hiểu rõ hơn về hành vi của bot “xám”, những cái tên nổi bật đang xuất hiện trên thị trường, và cách các doanh nghiệp có thể tự bảo vệ mình khỏi những rủi ro tiềm ẩn từ làn sóng bot AI này.
Các bot xám đang “khát dữ liệu”

Dữ liệu từ hệ thống phát hiện của Barracuda cho thấy:
- Trong khoảng thời gian từ tháng 12 đến cuối tháng 2 năm 2025, các ứng dụng web đã nhận hàng triệu yêu cầu từ các bot AI thu thập dữ liệu, bao gồm ClaudeBot và Bytespider (bot của TikTok).
- Một ứng dụng web được theo dõi đã ghi nhận 9,7 triệu lượt yêu cầu từ bot AI chỉ trong vòng 30 ngày.
- Một ứng dụng khác nhận hơn 500.000 yêu cầu chỉ trong một ngày duy nhất.
- Một trường hợp khác cho thấy lưu lượng bot xám duy trì ổn định suốt 24 giờ, trung bình khoảng 17.000 yêu cầu mỗi giờ.

Sự ổn định và liên tục của lưu lượng lần này là điều bất ngờ. Thông thường, người ta cho rằng lưu lượng truy cập từ các bot “xám” (gray bot) sẽ diễn ra theo từng đợt, tức là tấn công vào một website trong vài phút đến khoảng một giờ rồi giảm dần. Tuy nhiên, cả hai kịch bản: bị tấn công liên tục không ngừng nghỉ hoặc xuất hiện những đợt tăng lưu lượng bất ngờ. Tất cả đều mang đến những thách thức nhất định cho các ứng dụng web.
Tác động đến doanh nghiệp
Các bot “xám” (gray bots) có thể hoạt động tối đa trong việc thu thập dữ liệu và thậm chí có thể sao chép, loại bỏ thông tin mà không có sự cho phép. Hoạt động của các bot này có thể gây quá tải cho lưu lượng truy cập vào ứng dụng web, làm gián đoạn hoạt động vận hành và thu thập một lượng lớn dữ liệu sáng tạo hoặc thương mại có tính chất độc quyền.
Việc quét dữ liệu và sử dụng những nội dung được bảo vệ bản quyền cho mục đích huấn luyện mô hình AI có thể vi phạm quyền hợp pháp của chủ sở hữu dữ liệu. Việc các bot thường xuyên quét thông tin có thể làm tăng tải cho máy chủ, dẫn đến suy giảm hiệu suất của ứng dụng web và ảnh hưởng đến trải nghiệm người dùng. Bên cạnh đó, bot xám cũng có thể làm gia tăng chi phí lưu trữ và vận hành ứng dụng do tiêu tốn tài nguyên điện toán đám mây và băng thông.

Ngoài ra, sự xuất hiện của các bot AI chuyên quét dữ liệu có thể làm sai lệch dữ liệu phân tích website, khiến các tổ chức gặp khó khăn trong việc theo dõi hành vi người dùng thực và ra quyết định dựa trên dữ liệu chính xác. Nhiều ứng dụng web dựa vào việc phân tích hành vi người dùng và các luồng thao tác phổ biến để đưa ra các quyết định kinh doanh. Việc các bot AI làm sai lệch dữ liệu này có thể dẫn đến những nhận định sai và quyết định không hiệu quả.
Cũng tồn tại những rủi ro về quyền riêng tư dữ liệu. Một số ngành như y tế và tài chính có thể gặp vấn đề tuân thủ quy định nếu dữ liệu khách hàng hoặc dữ liệu nội bộ bị quét và thu thập trái phép.
Cuối cùng nhưng không kém phần quan trọng, người dùng và khách hàng có thể mất niềm tin vào nền tảng nếu nội dung do AI tạo ra tràn lan hoặc nếu dữ liệu của họ bị sử dụng mà không có sự đồng thuận.
Các sắc thái của bot xám
Những bot “xám” phổ biến nhất thuộc thế hệ AI (Gen AI) được phát hiện vào đầu năm 2025 bao gồm ClaudeBot và bot của TikTok (Bytespider).

ClaudeBot
ClaudeBot là bot AI hoạt động tích cực nhất trong tập dữ liệu mà Barracuda phân tích được, vượt trội hơn hẳn các bot khác. ClaudeBot thu thập dữ liệu để huấn luyện Claude — một công cụ AI sinh nội dung được thiết kế để sử dụng phổ biến trong đời sống hằng ngày.
Việc ClaudeBot gửi yêu cầu liên tục với tần suất cao có thể ảnh hưởng nghiêm trọng đến nhiều ứng dụng web mà nó nhắm đến. Công ty đứng sau Claude – Anthropic, hiện có đăng tải thông tin trên website của mình về cách ClaudeBot hoạt động cũng như cách chặn hoạt động quét dữ liệu của bot này.
Những nội dung tương tự cũng được đăng tải trên website của một số bot “xám” khác đã bị hệ thống phát hiện của Barracuda ghi nhận, bao gồm GPTbot của OpenAI và Google-Extended.
TikTok
TikTok là nền tảng chia sẻ video ngắn với hơn hai tỷ người dùng trên toàn cầu. TikTok thuộc sở hữu của ByteDance — công ty internet đến từ Trung Quốc. ByteDance sử dụng một bot AI có tên Bytespider để thu thập dữ liệu phục vụ cho việc huấn luyện các mô hình AI sinh nội dung. Lượng dữ liệu này giúp TikTok hiểu rõ hơn về xu hướng và thị hiếu người dùng, từ đó cải thiện hệ thống đề xuất nội dung và các tính năng dựa trên AI khác, chẳng hạn như tìm kiếm từ khóa phục vụ quảng cáo.
Bytespider đã bị ghi nhận là đặc biệt hung hăng và thiếu minh bạch trong hành vi thu thập dữ liệu.
Ngoài ra, hai bot quét dữ liệu AI khác được hệ thống của Barracuda phát hiện vào cuối năm 2024 và đầu năm 2025 là PerplexityBot và DeepSeekBot.
Ngăn chặn bot xám
Dữ liệu cho thấy các bot “xám”, đặc biệt là các bot AI (Gen AI bots), hiện đã trở thành một phần thường trực trong lưu lượng bot trên môi trường trực tuyến và xu hướng này sẽ còn tiếp tục. Vì vậy, đã đến lúc các tổ chức cần tích hợp các mối đe dọa từ bot “xám” vào chiến lược bảo mật của mình.
Hiện có một số hướng dẫn dành cho các website cũng như các công ty đứng sau các Gen AI bot. Ví dụ, các website có thể sử dụng tệp robots.txt — một đoạn mã đơn giản được thêm vào website để báo hiệu với các bot thu thập dữ liệu rằng chúng không nên truy xuất thông tin từ trang web đó.
Tuy nhiên, robots.txt không mang tính ràng buộc pháp lý. Thêm vào đó, để robots.txt hoạt động hiệu quả, website cần nêu rõ tên của bot cụ thể mà họ muốn chặn. Điều này tạo ra kẽ hở để các bot “xám” thiếu minh bạch có thể bỏ qua robots.txt, giấu tên thật của scraper hoặc liên tục thay đổi danh tính để né tránh kiểm soát.
Để đảm bảo ứng dụng web của doanh nghiệp được bảo vệ trước tác động từ các bot “xám”, bạn nên triển khai các giải pháp bảo vệ bot nâng cao có khả năng phát hiện và chặn hoạt động thu thập dữ liệu từ các Gen AI bot.
Giải pháp Barracuda Advanced Bot Protection sử dụng các công nghệ AI và máy học tiên tiến (machine learning) để đối phó với các mối đe dọa đặc thù từ bot “xám”, thông qua các tính năng như phát hiện theo hành vi, dấu vân tay toàn diện và chặn theo thời gian thực.
Gen AI bot không chỉ là một xu hướng tạm thời — như dữ liệu đã cho thấy, chúng đã trở thành xu hướng chủ đạo và khó loại bỏ. Những tranh luận về đạo đức, pháp lý và thương mại xung quanh bot “xám” có thể sẽ còn kéo dài. Trong khi đó, với các công cụ bảo mật phù hợp, bạn hoàn toàn có thể yên tâm rằng dữ liệu của bạn vẫn trong tầm kiểm soát.
*Biên soạn và xử lý nội dung từ: barracuda.com
Liên hệ với Đông Quân – Nhà phân phối sản phẩm Barracuda chính thức tại Việt Nam để được tư vấn các giải pháp phòng chống bot xấu:
- Email: sales.barracuda@dongquan.vn ; support.barracuda@dongquan.vn
- Hotline: (028) 3868 0152