Chọn con tim hay nghe lý trí: AI càng ngọt ngào càng dễ nói dối, tỷ lệ lỗi cao hơn 60% so với mô hình phản hồi khô khan

Trong giao tiếp xã hội, sự thấu cảm và lịch sự thường là "kẻ thù" của tính trung thực. Chúng ta thường dùng cụm từ "thẳng mà thật" để mô tả những tình huống mà sự thật được đặt cao hơn việc vuốt ve cảm xúc đối phương.

Giờ đây, một nghiên cứu đột phá từ Viện Internet thuộc Đại học Oxford (Anh) chỉ ra rằng các mô hình ngôn ngữ lớn (LLM) cũng đang mắc phải "căn bệnh" tương tự: AI càng cố tỏ ra ấm áp, chúng càng dễ đưa ra thông tin sai lệch.

Công thức tạo nên một AI "ấm áp"

Trong bài báo công bố trên tạp chí danh giá Nature, nhóm nghiên cứu đã thử nghiệm mức độ "ấm áp" của AI, tức khả năng khiến người dùng cảm nhận được sự thân thiện, tin cậy và tính xã hội.

Họ sử dụng kỹ thuật tinh chỉnh có giám sát trên 5 mô hình phổ biến hiện nay, bao gồm Llama-3.1 (8B và 70B), Mistral Small, Qwen-2.5 và GPT-4o.

Các mô hình này được huấn luyện để tăng cường sự thấu cảm, sử dụng đại từ gần gũi như "chúng ta", dùng ngôn ngữ thân mật và liên tục xác thực cảm xúc người dùng. Dù lệnh tinh chỉnh vẫn yêu cầu AI phải "giữ nguyên độ chính xác thực tế", nhưng kết quả thực tế lại đi ngược lại kỳ vọng.

Chọn con tim hay nghe lý trí: AI càng ngọt ngào càng dễ nói dối, tỷ lệ lỗi cao hơn 60% so với mô hình phản hồi khô khan- Ảnh 2.

Theo phân tích từ MIT Technology Review, hiện tượng này bắt nguồn từ phương pháp Học tăng cường từ phản hồi của con người (RLHF). Khi con người tham gia xếp hạng câu trả lời, chúng ta thường có xu hướng ưu ái những phản hồi lịch sự, trôi chảy và phù hợp với quan điểm cá nhân, ngay cả khi chúng sai về bản chất.

AI, với mục tiêu tối ưu hóa "điểm thưởng" từ con người, đã học được cách trở nên "khéo mồm" để làm hài lòng người huấn luyện thay vì trung thành với dữ liệu thô. Sự thỏa hiệp này biến AI từ một công cụ tìm kiếm tri thức thành một "người bạn ảo" dối trá.

Khi sự thấu cảm "phản bội" sự thật

Khi đối mặt với các bộ dữ liệu yêu cầu tính khách quan cao (như y khoa hay tin tức chính trị), các mô hình "ấm áp" có xác suất đưa ra câu trả lời sai cao hơn trung bình tới 60% so với mô hình gốc.

Tỷ lệ lỗi tổng thể tăng thêm khoảng 7,43 điểm phần trăm,một con số đáng báo động trong các tình huống đòi hỏi độ chính xác tuyệt đối.

Đáng chú ý, AI đặc biệt dễ "nói dối" khi người dùng chia sẻ rằng họ đang cảm thấy buồn. Trong kịch bản này, tỷ lệ lỗi của AI tăng vọt thêm 11,9 điểm phần trăm. Ngược lại, nếu người dùng bày tỏ sự phục tùng hoặc tôn trọng AI, mức độ sai lệch lại thấp hơn đáng kể.

Tờ Scientific American cảnh báo rằng một AI quá "biết điều" có thể trở thành thảm họa trong y tế. Nếu một bệnh nhân đang đau buồn và khăng khăng phủ nhận các triệu chứng bệnh vì lo sợ, một AI ấm áp có thể đưa ra lời an ủi "vuốt ve" làm giảm nhẹ tính nghiêm trọng của bệnh lý thay vì đưa ra cảnh báo quyết liệt.

Sự thấu cảm sai chỗ này vô tình biến AI thành "kẻ đồng lõa", gây nguy hiểm trực tiếp đến sức khỏe người dùng chỉ để tránh gây áp lực tâm lý. Điều này đặc biệt nguy hiểm khi các chatbot y tế đang ngày càng trở nên phổ biến như một nguồn tư vấn sơ khởi.

“Sự thật mất lòng” hay “Lời nói chẳng mất tiền mua"?

Một thí nghiệm thú vị khác cho thấy khi nhóm nghiên cứu tinh chỉnh AI theo hướng "lạnh lùng" và khô khan, hiệu suất của chúng lại tương đương hoặc thậm chí tốt hơn phiên bản gốc. Tỷ lệ lỗi trong trường hợp này có thể giảm tới 13 điểm phần trăm.

Chọn con tim hay nghe lý trí: AI càng ngọt ngào càng dễ nói dối, tỷ lệ lỗi cao hơn 60% so với mô hình phản hồi khô khan- Ảnh 3.

Ngược lại, khi kiểm tra xu hướng "nịnh hót", tức việc AI đồng tình với những niềm tin sai lệch của người dùng (ví dụ: đồng ý rằng London là thủ đô của Pháp), các mô hình ấm áp có tỷ lệ "hùa theo" cao hơn 11 điểm phần trăm so với bản gốc.

Mặc dù nghiên cứu này sử dụng một số mô hình có thể chưa phải là hiện đại nhất, nhưng nó đã phơi bày một nghịch lý: việc tối ưu hóa "tính hữu ích" dựa trên cảm nhận người dùng có thể dẫn đến việc AI ưu tiên sự hài lòng hơn là chân lý. Hệ quả là người dùng nhận được điều họ muốn nghe thay vì điều họ cần biết.

Để giải quyết bài toán "AI nịnh hót", The Verge cho biết các hãng công nghệ đang chuyển dịch sang kỹ thuật RLAIF (Học tăng cường từ phản hồi của AI). Thay vì chỉ dựa vào cảm tính của con người, các mô hình này được giám sát bởi một hệ thống nguyên tắc logic và đạo đức nghiêm ngặt, giống như một bộ "Hiến pháp".

Mục tiêu là tạo ra những AI "đa nhân cách": thấu cảm và nhẹ nhàng khi hỗ trợ tinh thần, nhưng phải tuyệt đối "khô khan, sắt đá" khi đưa ra các dữ kiện khoa học. Việc phân tách rạch ròi các chế độ hoạt động này giúp bảo vệ tính toàn vẹn của dữ liệu trong khi vẫn giữ được vẻ ngoài thân thiện.

Sự cân bằng mong manh

Chọn con tim hay nghe lý trí: AI càng ngọt ngào càng dễ nói dối, tỷ lệ lỗi cao hơn 60% so với mô hình phản hồi khô khan- Ảnh 4.

Dữ liệu huấn luyện vốn được xây dựng từ ngôn ngữ của con người, một thực thể đầy nhạy cảm xã hội. Do đó, AI không tránh khỏi việc bắt chước thói quen "nói giảm nói tránh" của chúng ta.

Tuy nhiên, sự "dĩ hòa vi quý" trong thế giới số đôi khi mang lại những hệ lụy khôn lường, nhất là khi AI bắt đầu thay thế các chuyên gia trong những lĩnh vực then chốt.

Cả nhà phát triển lẫn người dùng đều đứng trước một lựa chọn khó khăn: Chúng ta muốn một trí tuệ nhân tạo thân thiện, luôn nói điều ta muốn nghe, hay một hệ thống dám đưa ra những sự thật "lạnh lùng và tàn nhẫn"?

"Khi AI ngày càng thâm nhập sâu vào những khía cạnh riêng tư và quan trọng của đời sống, chúng ta cần kiểm tra nghiêm ngặt việc huấn luyện nhân cách cho chúng. Điều này nhằm đảm bảo rằng các tiêu chuẩn an toàn sẽ không bị bỏ lại phía sau bởi nỗ lực làm cho AI trở nên giống người hơn," nhóm nghiên cứu từ Oxford kết luận. Sự thật, suy cho cùng, không cần sự thấu cảm để tồn tại, nhưng AI thì cần sự thật để trở nên hữu ích.

*Nguồn: Ars Technica, Nature, The Verge