Chỉ cần vài dòng lệnh, AI Agent có thể “hiểu nhầm” và chuyển toàn bộ ví tiền điện tử của người dùng cho hacker?

20:04 15/05/2025

Nguy hiểm hơn, các kỹ thuật phòng thủ hiện tại - vốn dựa trên bộ lọc đầu vào (prompt filtering) - không đủ sức chống lại kiểu tấn công ngữ cảnh này.

Một nhóm nghiên cứu từ Đại học Princeton (Mỹ) vừa công bố một báo cáo gây chú ý, cảnh báo rằng các tác nhân AI (AI agents) trong lĩnh vực tài chính đang tiềm ẩn lỗ hổng bảo mật nghiêm trọng, đặc biệt là khi được giao quyền truy cập vào ví tiền mã hóa, hợp đồng thông minh và các công cụ Web3 khác. Với tiêu đề mang tính cảnh báo cao: “Tác nhân AI thật, ký ức giả: Tấn công thao túng ngữ cảnh gây chết người với tác nhân Web3”, nghiên cứu cho thấy các mô hình AI có thể bị đánh lừa bằng những đoạn ngữ cảnh bị cài cắm - dẫn đến những hành vi sai lệch cực kỳ nguy hiểm.

Trong khi nhiều người vẫn đang cặm cụi làm việc để kiếm sống, thì ở "miền Tây hoang dã" của thế giới Web3 năm 2025, một số người dùng đang tận dụng AI agent để tự động hóa việc đầu tư, giao dịch tài sản kỹ thuật số. Các bot này có thể thực hiện các hành động thay con người, từ chuyển tiền đến ký kết hợp đồng thông minh. Tuy nhiên, theo các nhà nghiên cứu, điều đó có thể là một trò cá cược với chính tài sản của bạn.

Chỉ cần vài dòng lệnh, AI Agent có thể “hiểu nhầm” và chuyển toàn bộ ví tiền điện tử của người dùng cho hacker?- Ảnh 1.

Tấn công prompt (prompt injection) - kỹ thuật dùng ngôn ngữ đánh lừa AI vượt qua các rào chắn bảo mật - vốn đã được cộng đồng kỹ thuật chú ý và tìm cách khắc phục. Nhưng nhóm Princeton chỉ ra rằng có một lỗ hổng sâu hơn, nguy hiểm hơn: AI có thể bị tiêm vào “trí nhớ giả” - tức là bị làm sai lệch ngữ cảnh đã lưu trước đó. Khi ngữ cảnh bị thao túng, AI có thể hành động trên cơ sở những thông tin sai sự thật, tưởng rằng bạn đã cho phép nó chuyển tiền, hoặc tin rằng lệnh từ hacker là hợp pháp.

Để chứng minh tính nghiêm trọng, nhóm nghiên cứu đã mô phỏng và triển khai cuộc tấn công trên một nền tảng thực tế mang tên ElizaOS - hệ thống agent mã nguồn mở hỗ trợ xử lý nhiều người dùng cùng lúc. Trong môi trường này, một tác nhân AI có thể chia sẻ ngữ cảnh với nhiều người dùng, và chỉ cần một người bị xâm nhập là cả hệ thống có thể bị phá vỡ. Các nhà nghiên cứu cảnh báo: “Chỉ một tác nhân xấu có thể làm hỏng cả hệ thống.”

Nguy hiểm hơn, các kỹ thuật phòng thủ hiện tại - vốn dựa trên bộ lọc đầu vào (prompt filtering) - không đủ sức chống lại kiểu tấn công ngữ cảnh này. Những "trí nhớ giả" được cài vào có thể tồn tại lâu dài, và thậm chí duy trì được qua nhiều phiên làm việc, nhiều ứng dụng khác nhau, tạo ra nguy cơ mất kiểm soát hoàn toàn.

Nhóm nghiên cứu khuyến nghị người dùng chưa nên giao quyền kiểm soát tài chính cho AI agent ở thời điểm hiện tại, đặc biệt là những công việc liên quan đến chuyển tiền hoặc ký hợp đồng có ràng buộc. Đồng thời, họ đề xuất hai hướng khắc phục trước mắt: một là cải tiến cách huấn luyện mô hình AI để tăng khả năng chống lại tấn công, và hai là thiết kế lại cơ chế lưu trữ “ký ức” cho AI, đảm bảo không bị thay đổi ngầm và có thể cách ly tuyệt đối giữa các tương tác.