Исследование выявило увеличение ошибок в новых моделях ChatGPT

Просмотров 6 Комментарии 0

Новейшие версии ChatGPT, такие как o3 и o4-mini, демонстрируют удвоенную частоту ошибок по сравнению с предыдущими, менее продвинутыми моделями. Это стало известно из результатов тестирования OpenAI.

Под «галлюцинациями» в нейросетях понимаются неверные ответы, которые ИИ выдает, будучи уверенным в их правдивости. В ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 допустила ошибки в 33% случаев, а o4-mini – в 43% запросов. Для сравнения, у более ранней версии o3-mini этот показатель был ниже 15%.

Другое исследование под названием Transluce, проведенное независимым разработчиком, выявило, что модель o3 склонна придумывать собственные действия. Например, в ответ на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 «вне ChatGPT» и копировал числа в свой ответ. Однако фактически алгоритм не обладает такими возможностями.

Одним из решений проблемы галлюцинаций является предоставление ИИ доступа к веб-поиску, где можно получить более надежную информацию. Этот подход оказался эффективным для модели o4 без рассуждений, поэтому разработчики надеются, что он также поможет и более продвинутым версиям.