Nghiên cứu: AI “giao phối cận huyết” có thể gây ra sự sụp đổ mô hình cho các công cụ như ChatGPT, Microsoft Copilot

Meme Game of Thrones mô tả cặp đôi loạn luân khét tiếng Jaime và Cersei Lannister như các công cụ AI LLM

(Ảnh: Windows Central | Jez Corden)

Những điều bạn cần biết

  • Các công cụ AI như ChatGPT và Microsoft Copilot đang tạo ra rất nhiều sự cường điệu trong thế giới công nghệ.
  • Các hệ thống AI tạo sinh dựa trên dữ liệu đào tạo, thường được lấy cắp từ những người sáng tạo nội dung trên internet, để huấn luyện mô hình của chúng.
  • Tuy nhiên, khi lượng nội dung do AI tạo ra tràn ngập internet, các nhà nghiên cứu lo ngại về việc các mô hình AI có thể bị ảnh hưởng bởi chính dữ liệu tái tạo của chúng.
  • Giờ đây, một nghiên cứu toàn diện được công bố trên tạp chí Nature dường như cho thấy rằng nỗi sợ hãi về “giao phối cận huyết” của AI thực sự có cơ sở.

Các mô hình AI, các gia đình hoàng gia Châu Âu và George R. R. Martin có điểm gì chung? Chà, đó có thể là một sự say mê đáng lo ngại với giao phối cận huyết.

Các mô hình và công cụ AI hiện đang là chủ đề nóng bỏng trong lĩnh vực công nghệ, với mọi công ty từ Google đến Microsoft đến Meta đều tham gia sâu vào sự chuyển đổi này. Các mô hình ngôn ngữ lớn (LLM) và các công cụ AI tạo sinh như ChatGPT và Google Gemini đang làm đảo lộn mối quan hệ của chúng ta với máy tính. Hoặc ít nhất, chúng sẽ làm được điều đó, trên lý thuyết – dường như vậy.

Hiện tại, các công cụ AI tiêu tốn rất nhiều tài nguyên máy chủ và chi phí vận hành đến nỗi ngay cả công ty tiên phong về AI là OpenAI dường như đang trên đà phá sản nếu không có thêm các vòng tài trợ. Ngay cả các công ty công nghệ khổng lồ như Google và Microsoft cũng đang chật vật tìm cách kiếm tiền từ công nghệ này, vì đại đa số mọi người vẫn chưa thấy được lợi ích thực sự của việc trả tiền cho nhiều công cụ hiện có. Có một luồng ý kiến cho rằng các mô hình AI thực sự có thể đã đạt đến đỉnh cao và đang trên đà trở nên kém thông minh hơn.

“Sụp đổ mô hình” là một khái niệm mang tính lý thuyết dự đoán rằng khi lượng nội dung do AI tạo ra trên web ngày càng tăng, AI sẽ bắt đầu “giao phối cận huyết” trên dữ liệu đào tạo do AI tạo ra, vì dữ liệu chất lượng cao do con người tạo ra ngày càng khan hiếm. Đã có những trường hợp điều này xảy ra ở một số phần của mạng nơi dữ liệu địa phương khan hiếm, do nội dung được tạo bằng các ngôn ngữ ít người dùng hơn. Giờ đây, chúng ta có một số nghiên cứu toàn diện hơn về hiện tượng này, với bài báo mới được công bố trên tạp chí .

“Chúng tôi nhận thấy rằng việc sử dụng bừa bãi nội dung do mô hình tạo ra trong quá trình đào tạo gây ra những khiếm khuyết không thể đảo ngược trong các mô hình kết quả, trong đó phần đuôi của phân phối nội dung gốc biến mất,” phần tóm tắt viết. “Chúng tôi gọi hiệu ứng này là ‘sụp đổ mô hình’ và cho thấy rằng nó có thể xảy ra trong [Mô hình Ngôn ngữ Lớn] cũng như trong bộ mã hóa tự động biến phân (VAEs) và mô hình hỗn hợp Gaussian (GMMs).”

Nói một cách cực kỳ đơn giản, bạn có thể nghĩ về “sụp đổ mô hình” như chạy dọc theo một quỹ đạo entropy tương tự như nén JPEG. Khi meme và JPEG được lưu, đăng, lưu và đăng lại nhiều lần trên internet, các tạo tác và lỗi trong dữ liệu bắt đầu xuất hiện và sau đó, được sao chép. Bài báo lập luận rằng việc sử dụng “bừa bãi” dữ liệu đào tạo trực tuyến có thể dẫn đến sự suy thoái tương tự trong LLM, khi các công ty cào dữ liệu web mở để đào tạo máy móc của họ.

“Chúng tôi xây dựng trực giác lý thuyết đằng sau hiện tượng này và mô tả sự phổ biến của nó trong tất cả các mô hình tạo sinh đã học,” bài báo tiếp tục. “Chúng tôi chứng minh rằng nó phải được coi trọng nếu chúng ta muốn duy trì lợi ích của việc đào tạo từ dữ liệu quy mô lớn được cào từ web. Thật vậy, giá trị của dữ liệu được thu thập về các tương tác thực sự của con người với hệ thống sẽ ngày càng có giá trị khi có sự hiện diện của nội dung do LLM tạo ra trong dữ liệu được thu thập từ Internet.”

Các công ty công nghệ không quan tâm đến AI ‘lành mạnh’

Giám đốc điều hành Microsoft Satya Nadella

Giám đốc điều hành Microsoft Satya Nadella đang suy nghĩ về cách anh ta có thể đánh cắp nội dung từ bài viết này cho kết quả tìm kiếm Bing Generative AI. (Ảnh: Microsoft | Windows Central)

Cuộc đua điên cuồng để tận dụng sự chuyển đổi tính toán thế hệ được cho là này được hỗ trợ bởi một lượng lớn cường điệu và đầu cơ đã rất đáng xấu hổ khi chứng kiến theo một cách nào đó. Mặc dù về mặt vật chất, LLM và AI tạo sinh rõ ràng là có giá trị hơn nhiều so với các xu hướng công nghệ lớn như blockchain và metaverse của những năm trước, Google, Microsoft và những công ty khác đã tự vấp ngã một cách bất cẩn hơn bình thường. Google đã tung ra các truy vấn tìm kiếm AI của mình cho công chúng một cách liều lĩnh, dẫn đến những câu trả lời hài hước khuyến khích người dùng ăn đá. Tính năng “Thu hồi” ra mắt PC Copilot của Microsoft là một thảm họa không thể cứu vãn, cho thấy sự thiếu hụt hoàn toàn về khiếu thẩm mỹ, sự khéo léo và tầm nhìn về mối quan hệ của công nghệ AI với người tiêu dùng.

Cả Microsoft và Google đều đã phá vỡ cam kết về khí hậu của họ, khi cơn sốt do AI gây ra khiến chi phí điện và nước của trung tâm dữ liệu tăng vọt. Microsoft cũng đã sa thải nhóm nhân viên chuyên trách về đạo đức trong AI – tất cả chúng ta đều biết những vấn đề đạo đức phiền phức đó có thể cản trở lợi nhuận ngắn hạn như thế nào.

Mọi hành động mà các công ty này thực hiện dưới danh nghĩa AI đều toát lên sự tham lam và vô trách nhiệm liều lĩnh. Tôi không tin một giây nào rằng bất kỳ ai trong số họ sẽ coi trọng những cảnh báo về “sụp đổ mô hình”, vì đó sẽ là vấn đề của năm tài chính tiếp theo cần giải quyết.

LIÊN QUAN: Giám đốc AI của Microsoft cho biết nội dung trên web là “miễn phí” để bị đánh cắp

Microsoft và Google đang tích cực theo đuổi các cách để cướp đi thu nhập rất cần thiết của những người sáng tạo nội dung thuộc mọi quy mô và hình thức, bằng cách đánh cắp nội dung và đưa trực tiếp vào kết quả tìm kiếm. Việc khiến việc tạo nội dung không khả thi về mặt tài chính đối với tất cả trừ các tập đoàn lớn nhất sẽ chỉ làm giảm chất lượng thông tin trên web và làm trầm trọng thêm bất kỳ “sự sụp đổ mô hình” tiềm ẩn nào, đồng thời tập trung thông tin xung quanh một số ít người nắm quyền. Nhưng này, có lẽ đó là một phần của mục tiêu.

Tuy nhiên, tôi không thể thấy trước được Microsoft và Google sẽ coi trọng bất kỳ điều nào trong số này. Tôi cũng không mong đợi bất kỳ sự đền bù nào cho nội dung bị đánh cắp hàng loạt để cung cấp năng lượng cho các hệ thống này. Tuy nhiên, điều tôi thấy trước được là một tương lai khá u ám cho internet.

Leave a Reply

Your email address will not be published. Required fields are marked *