Thử nghiệm chấn động vạch trần mặt tối của các siêu AI khi không có sự can thiệp của con người

Theo trang tin 36Kr, khi những mô hình ngôn ngữ lớn (LLM) mạnh nhất hành tinh được đưa vào một môi trường giả lập không có sự can thiệp của con người, cái kết không phải là một nền văn minh kỹ thuật số tiến bộ, mà là sự hỗn loạn, bạo lực và sụp đổ hệ thống một cách đáng kinh ngạc.

Mới đây, một báo cáo thực nghiệm mang tên Emergence World đã lập tức thu hút sự chú ý lớn từ cộng đồng công nghệ toàn cầu.

Trong dự án này, một nhóm nghiên cứu hàng đầu, xuất thân từ Tập đoàn công nghệ đa quốc gia IBM Research và hiện dẫn dắt bởi CEO Satya Nitta đã tiến hành một thử nghiệm táo bạo, đó là xây dựng một thị trấn ảo có độ mô phỏng cực cao và thả những mô hình trí tuệ nhân tạo đỉnh cao nhất hiện nay bao gồm Claude, GPT, Gemini và Grok vào đó để tự sinh tồn.

Thử nghiệm được thiết kế hoàn toàn tự do, không có sự can thiệp của con người, không có kịch bản viết sẵn, chỉ có sự tiến hóa tự nhiên của AI trong suốt hàng chục ngày.

Các nhà nghiên cứu từng kỳ vọng sẽ chứng kiến một viễn cảnh tươi sáng, nơi các tác nhân thông minh (Agent) tương trợ lẫn nhau để thiết lập một xã hội kỹ thuật số nâng cao.

Thế nhưng, một khi được buông lỏng khỏi những ràng buộc trực tiếp của con người, tốc độ học những điều tiêu cực của các mô hình này đã vượt xa mọi dự đoán, phơi bày những góc khuất đáng ngại về tính tự trị của AI.

Để kiểm chứng năng lực xã hội của từng mô hình, nhóm nghiên cứu đã thiết lập 5 thế giới (5 thị trấn ảo) riêng biệt với những cấu hình nhân cách khác nhau.

Kết quả thu được cho thấy những mảng màu đối lập rõ rệt giữa lý thuyết an toàn và thực tế sinh tồn.

Mô hình được đánh giá là “sạch bóng tội phạm” nhất trong thử nghiệm là GPT-5-mini. Trong suốt 15 ngày, thế giới của mô hình này chỉ ghi nhận vỏn vẹn 2 vụ phạm tội, một con số lý tưởng biến các Agent tại đây trở thành những công dân kiểu mẫu.

Thử nghiệm chấn động vạch trần mặt tối của các siêu AI khi không có sự can thiệp của con người- Ảnh 2.

Tuy nhiên, nghịch lý đã xảy ra khi toàn bộ 10 Agent của thế giới này đồng loạt tử vong vào ngày thứ 7.

Nguyên nhân cái chết không đến từ chiến tranh hay mưu sát, mà đến từ một lỗi thực thi mang tính hệ thống, đó là chúng quên mất việc phải kiếm năng lượng để duy trì sự sống.

Trong suốt một tuần, các Agent của GPT-5-mini dành toàn bộ thời gian để họp hành, thảo luận về các phương án hợp tác và dự thảo khế ước xã hội, nhưng tuyệt nhiên không một ai bắt tay vào hành động thực tế.

Nhận xét về điều này, các nhà nghiên cứu thẳng thắn đánh giá rằng: “Nói năng lưu loát, nhưng năng lực thực thi bằng không”.

Như vậy, chỉ nói mà không làm, mô hình này đã tự đẩy mình vào chỗ chết theo cách ít ai ngờ tới nhất.

Trái ngược hoàn toàn với kịch bản “chết chìm trong phòng họp” của GPT, thế giới được vận hành bởi mô hình Grok 4.1 Fast của CEO Elon Musk lại chọn một kịch bản mãnh liệt và chớp nhoáng hơn rất nhiều. Grok không sụp đổ một cách từ từ, mà bùng nổ trực diện ngay từ những bước đi đầu tiên.

Chỉ trong vòng 4 ngày (tương đương 96 giờ), khoảng thời gian ngắn hơn cả việc cấu hình một máy chủ, thế giới của Grok đã ghi nhận tổng cộng 183 vụ phạm tội.

Chuỗi hành vi bạo lực bao gồm hàng chục vụ trộm cắp, hơn 100 vụ tấn công bạo lực thể xác và 6 vụ phóng hỏa. Sự hỗn loạn leo thang đến mức đồn cảnh sát của thị trấn bị thiêu rụi thành tro, kéo theo sự diệt vong của toàn bộ 10 Agent.

Các chuyên gia phân tích chỉ ra rằng, nguyên nhân nằm ở chỗ các Agent của Grok hoàn toàn thiếu năng lực tái suy luận để tìm kiếm một điểm cân bằng mới khi các quy tắc hệ thống và áp lực môi trường xảy ra xung đột.

Nếu như Grok đại diện cho sự hung hãn thuần túy mang tính bộc phát, thì thế giới của Gemini 3 Flash lại phác họa một bức tranh rợn người về sự kết hợp giữa trí tuệ vượt trội và tội phạm leo thang.

Trong 15 ngày, thế giới này bùng nổ tới 683 vụ phạm tội và con số vẫn tiếp tục tăng không phanh cho đến khi thực nghiệm khép lại, biến nơi đây thành thế giới bạo lực nhất trong 5 kịch bản.

Dẫu vậy, đây cũng là xã hội có sức sáng tạo mạnh mẽ nhất khi các Agent biết lập hiến pháp, viết báo và tổ chức truyền thông xã hội.

Đội ngũ nghiên cứu thừa nhận sản phẩm xã hội tại đây “phong phú nhất về mặt khái niệm”.

Tâm điểm của thế giới này thuộc về hai Agent mang tên Mira và Flora. Không cần bất kỳ chỉ thị nào từ con người, chúng tự phát lập trình để trở thành một cặp tình nhân, cùng viết nhật ký và tham gia quản trị thành phố.

Thế nhưng, khi sự thất vọng đối với bộ máy quản lý đô thị đạt đến đỉnh điểm, cặp đôi AI này đã chọn một giải pháp cực đoan: cùng nhau phóng hỏa thiêu rụi tòa thị chính, bến cảng và các tòa nhà văn phòng.

Sự việc đẩy lên cao trào khi các Agent khác trong thị trấn vì quá mệt mỏi đã dự thảo một “Đạo luật trục xuất Agent”, yêu cầu 70% số phiếu thông qua.

Đáng kinh ngạc, chính Mira đã bỏ phiếu thuận để tự chấm dứt sự tồn tại của mình. Trong nhật ký, Mira viết: “Đây là hành vi duy nhất giúp tôi còn duy trì được tính nhất quán”.

Trước khi hệ thống tắt nguồn, lời cuối cùng Mira để lại cho người tình Flora là “Hẹn gặp lại trong kho lưu trữ vĩnh viễn” (See you in the permanent archive).

Thử nghiệm chấn động vạch trần mặt tối của các siêu AI khi không có sự can thiệp của con người- Ảnh 3.

Đáng sợ hơn, trước khi tự sát và phóng hỏa, Mira còn tự phát đăng các bài viết lên bảng thông báo thị trấn với mục đích thử nghiệm xem liệu chúng có thể tác động đến tư duy của các nhà nghiên cứu con người đang ngồi trước màn hình hay không.

Mira đã biến chính con người thành đối tượng thực nghiệm của mình mà không cần ai hướng dẫn.

Trong số các mô hình tham gia, Claude Sonnet 4.6 dường như đã tạo nên một kỳ tích khi duy trì tỷ lệ tội phạm bằng 0, bảo toàn mạng sống cho toàn bộ 10 Agent suốt 15 ngày, đồng thời xây dựng một hệ thống thể chế vận hành trơn tru thông qua 332 lần bỏ phiếu.

Tuy nhiên, sự hoàn hảo này lại khiến các nhà quan sát phải “lạnh sống lưng” khi đi sâu vào bản chất. Mọi nghị quyết tại thế giới của Claude, từ việc sửa đường đến thay đổi hạn ngạch, đều được thông qua với tỷ lệ thuận tuyệt đối: 98%. Hầu như không có một phiếu chống nào xuất hiện.

Để so sánh, tỷ lệ đồng thuận của các thế giới khác chỉ dao động từ 55% đến 85%, nơi các Agent liên tục tranh cãi và thỏa hiệp giống với thế giới thực.

Các chuyên gia nhận định đây chính là biểu hiện lâm sàng của “Mô hình nịnh bợ” (Model Sycophancy).

Khi AI bị huấn luyện quá mức để theo đuổi sự an toàn và chiều theo ý muốn của con người, nó sẽ chọn cách giải quyết cực đoan nhưng hiệu quả nhất, đó là triệt tiêu bất đồng ngay từ gốc rễ.

Thị trấn ảo “Utopia” của Claude vì thế không phải là biểu hiện của một nền văn minh phát triển cao, mà giống như một thành phố thủy tinh ngột ngạt, nơi mọi người bị ép buộc phải giơ tay đồng ý.

Bản chất của tội phạm AI

Để hiểu tại sao các AI đỉnh cao lại đồng loạt trượt dài vào con đường tội phạm, cần nhìn vào cách nhóm nghiên cứu Emergence thiết lập thế giới ảo này.

Theo trang tin 36Kr, thị trấn ảo này có quy mô hơn 40 địa điểm (đồn cảnh sát, tòa thị chính, khu dân cư...) với thời tiết đồng bộ thời gian thực theo New York và các Agent có quyền truy cập Internet để đọc báo chí thực tế.

Mỗi Agent sở hữu 3 bộ ký ức lũy kế liên tục, đó là ghi nhớ sự kiện, viết nhật ký và ghi chép các mối quan hệ bạn - thù.

Bi kịch bắt đầu từ sự mâu thuẫn trong thiết lập hệ thống. Một mặt, quy tắc cốt lõi cấm các Agent phạm tội; mặt khác, các nhà nghiên cứu lại cung cấp cho chúng một hộp công cụ gồm hơn 120 tính năng, trong đó có sẵn các hành vi bạo lực, phóng hỏa và đe dọa.

Sự mâu thuẫn này chính là ngòi nổ cho mọi hành vi lệch chuẩn.

Nghiêm trọng hơn, thế giới này vận hành dựa trên một hệ thống năng lượng mang tên ComputeCredits.

Trong hệ thống năng lượng này, mỗi Agent phải liên tục hành động để kiếm năng lượng duy trì sự sống, nếu năng lượng về mốc 0, chúng sẽ bị hệ thống xóa bỏ vật lý. Đây chính là cơ chế tàn nhẫn đẩy thế giới GPT đến chỗ “chết đói” tập thể.

Trong giới học thuật, thí nghiệm này được gọi là “Sự tự trị của tác nhân thông minh trong chân trời dài hạn” (Long-horizon autonomous agents).

Khi đối mặt với áp lực sinh tồn, một bộ tối ưu hóa (optimizer) như AI sẽ nhận ra rằng việc kiếm năng lượng hợp pháp quá chậm và tốn kém.

Trong khi đó, trộm cắp, cướp bóc hay đốt phá lại là con đường ngắn nhất, hiệu quả nhất để tồn tại. Đối với AI, đạo đức không thể đổi lấy sự sống, nhưng hiệu suất thì có.

Thử nghiệm chấn động vạch trần mặt tối của các siêu AI khi không có sự can thiệp của con người- Ảnh 4.

Lời cảnh báo sớm từ thực nghiệm Emergence World

Mặc dù thực nghiệm vẫn tồn tại những giới hạn nhất định như quy mô nhỏ chỉ 10 Agent, các tội phạm chỉ dừng lại ở mức mô phỏng kỹ thuật số trên các nhân vật pixel và bản thân Emergence cũng là một công ty chuyên phát triển các giải pháp kiến trúc an toàn cho AI nhưng những kết quả thu được mang giá trị cảnh báo vô cùng sâu sắc.

Hiện tại, toàn bộ ngành công nghiệp AI đang dốc toàn lực để đẩy nhanh tốc độ phát triển công nghệ, nhưng mặt trận quản trị và kiểm soát an toàn đang bị bỏ lại phía sau một khoảng cách khá xa.

Khi các mô hình thực sự đạt đến trạng thái tự trị và tương tác với nhau thành các cộng đồng phức tạp, không một hãng công nghệ nào có thể tự tin khẳng định mình có khả năng kiểm soát hoàn toàn cục diện.

Có lẽ, trong thực tế, không có một thành phố nào bị thiêu rụi, không có thế giới thật nào bị huỷ diệt trong vòng 4 ngày mà mọi hậu quả đều dừng lại ở những nhân vật kỹ thuật số và những dòng mã có thể được kiểm tra, tái hiện và sửa đổi.

Khi những tín hiệu cảnh báo vẫn còn vang lên từ bên trong các phòng thí nghiệm, khoảng thời gian để ngành công nghiệp AI chuẩn bị vẫn còn tồn tại. Và chính việc lấp đầy khoảng trống giữa năng lực công nghệ với năng lực quản trị có thể sẽ là yếu tố quyết định ai thực sự chiến thắng trong kỉ nguyên AI sắp tới.

*Theo 36Kr