Một nghiên cứu mới đây cho thấy văn bản do DeepSeek tạo ra có phong cách tương đồng tới 74,2% so với ChatGPT của OpenAI, làm dấy lên nhiều câu hỏi về nguồn dữ liệu đào tạo của mô hình này.
DeepSeek và ChatGPT có mức độ tương đồng cao
Kết quả nghiên cứu được công bố trên arXiv.org ngày 3/3 bởi Copyleaks – một công ty chuyên phân tích và so sánh các mô hình AI. Forbes đánh giá phát hiện này có thể ảnh hưởng lớn đến quyền sở hữu trí tuệ, các quy định liên quan đến AI cũng như sự phát triển của công nghệ trí tuệ nhân tạo trong tương lai.

Để thực hiện nghiên cứu, Copyleaks đã sử dụng công nghệ sàng lọc và bộ phân loại thuật toán nhằm xác định “dấu vân tay” phong cách viết của các mô hình ngôn ngữ lớn, bao gồm OpenAI (ChatGPT), Claude, Google Gemini, Meta Llama và DeepSeek. Kết quả cho thấy, văn bản từ hầu hết các mô hình có sự khác biệt rõ rệt, dễ dàng được nhận diện. Tuy nhiên, đầu ra của DeepSeek lại có mức độ tương đồng cao với các mô hình của OpenAI, đến mức thuật toán phân loại nhiều văn bản từ DeepSeek là do OpenAI tạo ra.
Shai Nisan, Giám đốc khoa học dữ liệu tại Copyleaks, so sánh phương pháp này với việc các chuyên gia phân tích chữ viết tay xác định tác giả một bản thảo bằng cách so sánh nó với mẫu chữ của nhiều người khác nhau. “Kết quả thật đáng ngạc nhiên và mang nhiều ý nghĩa. Chúng tôi không thấy mức độ tương đồng này ở các mô hình khác, điều này đặt ra câu hỏi lớn về cách DeepSeek được đào tạo”, Nisan nói với Forbes.
DeepSeek có đang tận dụng đầu ra từ OpenAI?
Theo Nisan, nghiên cứu không khẳng định DeepSeek là một sản phẩm phái sinh của OpenAI, nhưng mức độ tương đồng cao khiến người ta phải đặt câu hỏi về quy trình phát triển của DeepSeek. Nếu mô hình này thực sự sử dụng dữ liệu từ OpenAI mà không có sự cho phép, điều đó có thể dẫn đến các vấn đề nghiêm trọng liên quan đến quyền sở hữu trí tuệ.
Vấn đề minh bạch trong dữ liệu đào tạo AI cũng được nhấn mạnh. Nhiều chuyên gia cho rằng, các cơ quan quản lý có thể cần yêu cầu các công ty AI công khai thông tin về tập dữ liệu và đầu ra mô hình được sử dụng để đào tạo AI nhằm đảm bảo công bằng và kiểm soát tác động của công nghệ này.
Nisan cũng cho biết, trong quá trình phát triển AI, các mô hình có thể hội tụ về phong cách nếu được đào tạo trên tập dữ liệu có sự chồng chéo. Tuy nhiên, phương pháp của Copyleaks được thiết kế để phát hiện những khác biệt tinh tế, cho thấy sự tương đồng giữa DeepSeek và OpenAI không chỉ đơn thuần do sử dụng dữ liệu chung mà có thể liên quan đến cấu trúc hoặc quy trình đào tạo.
DeepSeek từng bị nghi ngờ sao chép ChatGPT
Đây không phải lần đầu tiên DeepSeek bị nghi ngờ sử dụng dữ liệu từ OpenAI. Cuối năm 2024, phiên bản DeepSeek V3 từng bị phát hiện tự nhận là ChatGPT trong một số truy vấn. Trong thử nghiệm của TechCrunch và phản hồi từ nhiều người dùng, DeepSeek V3 thậm chí khẳng định mình là phiên bản GPT-4 của OpenAI, được phát hành vào năm 2023.
Ngày 29/1, OpenAI cũng phát hiện dấu hiệu cho thấy DeepSeek có thể đã sử dụng kỹ thuật “chưng cất” – một phương pháp giúp mô hình nhỏ hơn học lại từ mô hình lớn để đạt hiệu suất tương tự với chi phí thấp hơn. Đây là kỹ thuật phổ biến trong ngành AI, nhưng nếu DeepSeek thực sự khai thác đầu ra từ ChatGPT mà không có sự đồng ý của OpenAI, điều đó có thể vi phạm điều khoản dịch vụ của công ty Mỹ.
Hiện tại, cả DeepSeek và OpenAI vẫn chưa đưa ra bình luận nào về vấn đề này.