AI mới nhất mang tên GPT-4o của OpenAI có thể nhìn, nghe, nói với thời gian phản hồi gần như lập tức và sẽ được triển khai miễn phí vài tuần tới.
OpenAI hôm nay đã giới thiệu “bản cập nhật mùa xuân” cho mô hình GPT-4 với tên gọi GPT-4o với hàng loạt tính năng hàng đầu: có thể suy luận hình ảnh, âm thanh và văn bản theo thời gian thực. Giới chuyên gia đánh giá AI mới của công ty “giống con người một cách đáng ngạc nhiên”.
Phim “Her” sắp thành hiện thực
Sau sự kiện ra mắt GPT-4o, CEO OpenAI Sam Altman đã đăng trên X với nội dung: Her. Ông dường như ám chỉ mô hình ngôn ngữ lớn mới nhất của mình đang tiệm cận với những gì diễn ra ở bộ phim này.
Phim Her ra mắt năm 2013, kể về Theodore – một nhà văn cô đơn, sống hướng nội, làm nghề viết thư tình cho những người gặp khó khăn. Trầm cảm và chán nản sau khi ly dị vợ, ông đã mua một chiếc máy tính với hệ điều hành AI có khả năng học hỏi, giao tiếp như con người bình thường.
Như nguyện vọng của Theodore, hệ điều hành này tự nhận mình là nữ và lấy tên Samantha (Scarlett Johansson lồng tiếng). Hai người nhanh chóng trở nên thân thiết đến nỗi Theodore mang Samantha bên mình mọi lúc mọi nơi, giao tiếp với nhau bằng tai nghe không dây gắn trong tai và một chiếc điện thoại thông minh. Từ tình bạn trở thành tình yêu, thậm chí cả tình dục.
GPT-4o đang có sức mạnh gần tương đương như vậy. Trong buổi công bố LLM mới, CTO Mira Murati cho biết giọng nói và khả năng đàm thoại của ChatGPT GPT-4o đã có bước tiến vượt bậc khi âm thanh từ AI này có khả năng thể hiện cảm xúc và thay đổi giọng điệu.
Không chỉ có giọng nói giống con người, mô hình mới cũng thể hiện khả năng trong việc bắt chước cách đọc của con người. Trong bản trình chiếu, ChatGPT thậm chí còn có thể cười khúc khích, thêm tính hài hước và tự điều chỉnh cách nói tùy theo nội dung lời nhắc.
AI này dường như cũng có khả năng nắm bắt và cảm nhận được một số cách biểu đạt của con người. Khi một nhà nghiên cứu thở gấp khi tập thở sâu và giao tiếp với chatbot, nó lập tức nói: “Mark, anh không phải là máy hút bụi”.
Người dùng cũng có thể ngắt lời chatbot nếu nội dung không đúng ý, điều này khiến cuộc trò chuyện trở nên tự nhiên hơn. Trước đây, người dùng cần phải đợi đến khi AI trả lời xong mới có thể tiếp tục câu chuyện. Ngoài ra, việc phản hồi trung bình mất 320 mili giây, khá tương đồng với một con người bình thường.
Ngày càng hoàn thiện
Không chỉ trò chuyện, GPT-4o còn có thể diễn giải biểu đồ, trợ giúp mã hóa, diễn giải cảm xúc hoặc phân tích hình ảnh qua camera, đồng thời “vẫn duy trì giọng điệu vui vẻ”. Trong một bản demo riêng biệt được đăng trên X, ChatGPT chạy GPT-4o thậm chí còn có thể phân tích video về không gian xung quanh người đối diện, nói người đó đang mặc áo hoodie và được bao quanh bởi thiết bị ghi âm, cuối cùng dự đoán người này đang chuẩn bị cho việc quay phim.
Trước khi người dùng đưa ra câu lệnh, GPT-4o còn có thể tương tác. Chẳng hạn, khi người demo chuẩn bị đưa ra một phương trình toán học, AI này đã phản hồi: “Ồ, tôi phấn khích quá. Tôi đang háo hức để hỗ trợ bạn đây!”.
Dù vậy, chatbot dường như cũng có một số trục trặc. Trong một số trường hợp, AI này hiểu sai lời nhắc bằng hình ảnh hoặc bắt đầu phản hồi không chính xác trước khi câu hỏi hoàn tất. Tuy nhiên, những khoảnh khắc này gần như khiến chatbot có vẻ giống con người hơn.
OpenAI cho biết GPT-4o sẽ có trên ChatGPT đại trà trong vài tuần tới. Với phiên bản trả phí, người dùng có thể trải nghiệm AI này “với sức mạnh gấp năm lần”.
“Lần đầu tiên OpenAI thực sự đạt được bước tiến lớn về tính dễ sử dụng của AI. Điều này cực kỳ quan trọng trong việc định hướng tương tác giữa con người và máy móc trong tương lai”, Murati nói. “Tôi nghĩ, GPT-4o đang thực sự chuyển mô hình AI hình thức cộng tác, nơi sự tương tác trở nên tự nhiên và dễ dàng hơn rất nhiều”.
Nguồn: VNExpress