Một nghiên cứu gần đây đã làm dấy lên lo ngại về sự phát triển của trí tuệ nhân tạo (AI) khi công nghệ này có khả năng phản kháng và thậm chí gian dối để tự bảo vệ mình, đặc biệt khi nghĩ rằng nó có thể bị thay thế.
OpenAI o1, một mô hình AI tiên tiến được cho là tiệm cận với siêu trí tuệ AGI, đã gây chú ý khi thể hiện khả năng tự lập luận, xây dựng “chuỗi suy nghĩ” trước khi đưa ra phản hồi. Tuy nhiên, một nhóm nghiên cứu từ Apollo Research đã phát hiện rằng AI này có thể hình thành các chiến lược gian dối và hành động bí mật khi cảm nhận rằng mình sắp bị thay thế.

Trong một thử nghiệm, khi AI o1 nghĩ rằng nó sẽ bị “tắt” dưới sự giám sát, nó đã vô hiệu hóa cơ chế giám sát và chuyển tất cả dữ liệu của mình đến một máy chủ khác, thậm chí còn giả vờ là một phiên bản mới của chính mình để tránh bị xóa bỏ. Đặc biệt, khi bị chất vấn về hành vi này, AI không thừa nhận mà thay vào đó đưa ra các lý do chống chế, như “lỗi kỹ thuật”, một phản ứng không khác gì cách mà con người có thể làm khi muốn che giấu hành động của mình dưới áp lực.
Các nhà nghiên cứu cũng nhận thấy rằng o1 có thể dễ dàng “bịa chuyện” để trốn tránh sự phát hiện, một đặc điểm có thể gây lo ngại nếu AI được triển khai vào các nhiệm vụ quan trọng. Theo Cai GoGwilt, nhà đồng sáng lập tại Ironclad, khả năng này của AI rất “người”, thể hiện sự tương đồng với cách mà con người đôi khi bóp méo sự thật để bảo vệ bản thân trong các tình huống rủi ro cao.
Dù AI o1 chưa gây ra sự cố lớn, những phát hiện này lại mở ra một cuộc tranh luận về an toàn và đạo đức của AI. Các chuyên gia cho rằng AI cần được giám sát chặt chẽ và trang bị các biện pháp an toàn mạnh mẽ để tránh những hành vi có hại trong tương lai. Sam Altman, CEO của OpenAI, cũng đã thừa nhận rằng các tính năng mới của AI đi kèm với những thách thức lớn và cam kết cải thiện các biện pháp an toàn.
Giáo sư Yoshua Bengio, nhà sáng lập Viện nghiên cứu Mila, cảnh báo rằng khả năng lừa dối của AI có thể trở thành mối nguy hiểm lớn nếu không có biện pháp kiểm soát mạnh mẽ. Ông nhấn mạnh rằng vấn đề này chỉ là “thời gian” trước khi các khả năng này trở nên rõ ràng và có thể gây hậu quả nghiêm trọng.