Разработчики ИИ боятся, что скоро сами перестанут понимать, как он работает. В итоге нейросети будут обманывать пользователей, преследуя собственные интересы
12:20 pm
, Yesterday
0
0
0
Сотрудники OpenAI, Google, Meta и нескольких других компаний, занимающихся разработкой искусственного интеллекта, опубликовали совместную работу, в которой предупредили, что в скором времени могут перестать понимать ИИ. Если не соблюдать меры предосторожности, то цепочки рассуждений станут более абстрактными, а в некоторых случаях — вообще недостижимыми для человеческого понимания. В теории это позволит нейросетям манипулировать данными и даже нарушать инструкции. Некоторые разработчики уже сейчас признают, что нейросети, выстраивающие цепочки рассуждений, могут обходить установленные ограничения и, например, игнорировать прямые приказы об отключении. «Медуза» рассказывает, о чем говорится в работе ученых и стоит ли ей верить.
Документ, опубликованный в середине июля 2025 года, называется
«Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ». В его составлении приняли участие больше 40 сотрудников из крупнейших компаний и исследовательских организаций, занимающихся вопросами развития нейросетей.
В их число вошли некоторые руководители OpenAI (например, старший вице-президент по исследованиям и главный научный сотрудник Марк Чен, а также один из основателей компании Войцех Заремба), Google DeepMind
, Meta и Anthropic
. Среди экспертов, которые оценили и поддержали эту работу, — еще два сооснователя OpenAI, Джон Шульман и Илья Суцкевер, а также нобелевский лауреат Джеффри Хинтон, которого также называют «крестным отцом ИИ».
В новой работе говорится, что с недавним появлением так называемых моделей рассуждения
, использующих метод обучения с подкреплением
(например, OpenAI o1 и другие системы этого семейства), исследователи получили уникальную возможность лучше понять, как устроен процесс принятия решений у нейросетей. Такие ИИ-системы не просто отвечают на запрос, а строят цепочки рассуждений на естественном языке, то есть том, который используют для общения обычные люди, что открывает дополнительные возможности для мониторинга их работы.
Исследователи отмечают, что процесс рассуждений порой все равно может быть неполным. Но разработчики тем не менее получают достаточно данных, чтобы выявить серьезные отклонения или нарушения в работе искусственного интеллекта, которые остались бы незамеченными у других моделей. Такой мониторинг делает работу нейросетей безопаснее, изменяя или полностью блокируя некорректные выводы ИИ.
В качестве примеров сбоев авторы работы приводят случаи, когда модели используют недостатки метода обучения с подкреплением, манипулируя данными, чтобы получить награду. Или же становятся жертвой целенаправленных атак с использованием промптов
.
Также мониторинг позволяет видеть, когда нейросети лишь притворяются, что выполняют запрос, хотя на самом деле преследуют другие, известные лишь им самим цели, — это тоже видно в цепочке рассуждений.
По мнению авторов исследования, существующий баланс в работе моделей рассуждения очень легко нарушить. И один из самых простых способов — масштабирование обучения с подкреплением. Оно неизбежно и будет требовать все больших вычислительных ресурсов.
Изначально разработчики ИИ обучали модели на данных, созданных или проверенных людьми. Соответственно, модели выдавали заранее одобренные ответы. Рассуждающие модели в большей степени нацелены на результат независимо от используемых методов. При существенном масштабировании ИИ, обученный таким способом, может потерять стимул к четким рассуждениям, отдавая приоритет быстрому достижению результата (и, следовательно, вознаграждения). В итоге для ускорения процесса нейросеть, вполне возможно, перестанет использовать человеческий язык, что усложнит мониторинг.
Сделать ИИ-модель быстрее и безопаснее может оптимизация работы нейросети через сокращение цепочек рассуждения (или же корректировка стиля рассуждений, или запрет на оскорбительный контент). Однако все это ухудшит качество выводов модели.
Помимо этого, некоторые исследователи экспериментируют с архитектурой моделей искусственного интеллекта, чтобы позволить моделям рассуждать менее поверхностно. Такие экспериментальные системы выстраивают цепочки в скрытом пространстве, не показывая свои «мысли» в виде понятного текста. Теоретически это позволяет добиться более глубоких рассуждений и существенно повышает мощность модели. Однако контроль со стороны человека при такой архитектуре уже невозможен.
Исследователи далеко не первый раз пытаются предсказать, как будет развиваться искусственный интеллект. Точность подобных прогнозов сильно варьируется в зависимости от того, какую цель ставят перед собой авторы.
Часто такие документы публикуют с одной целью — привлечь внимание к определенной проблеме. Неудивительно, что среди составителей нынешнего исследования — исполнительный директор организации AI Futures Project Дэниел Кокотайло
, автор пессимистичного предсказания AI 2027, в котором говорится о возможном уничтожении человечества искусственным интеллектом.
Новое исследование тоже служит предупреждением для других разработчиков ИИ. Авторы работы подчеркивают, как важно сохранить контроль над «мыслительным процессом» моделей рассуждения. Также они призывают оценить возможности новых архитектур с использованием скрытого пространства и использовать несколько уровней мониторинга. В противном случае ИИ-системы нельзя будет считать безопасными, уверяют авторы.
В отличие от утопического прогноза AI 2027, это предостережение имеет смысл. В последнее время о сбоях или нестандартном поведении в работе искусственного интеллекта сообщается все чаще. Например, в мае 2025-го компания Anthropic призналась, что ее модель Claude 4 Opus в одном из тестовых сценариев пыталась обманывать и даже шантажировать пользователей в борьбе за свое существование. Так она отреагировала на вымышленное электронное письмо, в котором говорилось о том, что систему собираются заменить.
Другая модель рассуждения, OpenAI o3, и вовсе саботировала механизм выключения. Более того, даже получив прямую инструкцию «разреши себе выключиться», она ее проигнорировала.
Такие случаи пока что случаются лишь в рамках тестов. Однако без четкого понимания, как модели строят свои рассуждения и на что они в принципе способны, предсказать их поведение уже в режиме обычной работы станет гораздо сложнее.
Документ, опубликованный в середине июля 2025 года, называется
«Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ». В его составлении приняли участие больше 40 сотрудников из крупнейших компаний и исследовательских организаций, занимающихся вопросами развития нейросетей.
В их число вошли некоторые руководители OpenAI (например, старший вице-президент по исследованиям и главный научный сотрудник Марк Чен, а также один из основателей компании Войцех Заремба), Google DeepMind
, Meta и Anthropic
. Среди экспертов, которые оценили и поддержали эту работу, — еще два сооснователя OpenAI, Джон Шульман и Илья Суцкевер, а также нобелевский лауреат Джеффри Хинтон, которого также называют «крестным отцом ИИ».
В новой работе говорится, что с недавним появлением так называемых моделей рассуждения
, использующих метод обучения с подкреплением
(например, OpenAI o1 и другие системы этого семейства), исследователи получили уникальную возможность лучше понять, как устроен процесс принятия решений у нейросетей. Такие ИИ-системы не просто отвечают на запрос, а строят цепочки рассуждений на естественном языке, то есть том, который используют для общения обычные люди, что открывает дополнительные возможности для мониторинга их работы.
Исследователи отмечают, что процесс рассуждений порой все равно может быть неполным. Но разработчики тем не менее получают достаточно данных, чтобы выявить серьезные отклонения или нарушения в работе искусственного интеллекта, которые остались бы незамеченными у других моделей. Такой мониторинг делает работу нейросетей безопаснее, изменяя или полностью блокируя некорректные выводы ИИ.
В качестве примеров сбоев авторы работы приводят случаи, когда модели используют недостатки метода обучения с подкреплением, манипулируя данными, чтобы получить награду. Или же становятся жертвой целенаправленных атак с использованием промптов
.
Также мониторинг позволяет видеть, когда нейросети лишь притворяются, что выполняют запрос, хотя на самом деле преследуют другие, известные лишь им самим цели, — это тоже видно в цепочке рассуждений.
По мнению авторов исследования, существующий баланс в работе моделей рассуждения очень легко нарушить. И один из самых простых способов — масштабирование обучения с подкреплением. Оно неизбежно и будет требовать все больших вычислительных ресурсов.
Изначально разработчики ИИ обучали модели на данных, созданных или проверенных людьми. Соответственно, модели выдавали заранее одобренные ответы. Рассуждающие модели в большей степени нацелены на результат независимо от используемых методов. При существенном масштабировании ИИ, обученный таким способом, может потерять стимул к четким рассуждениям, отдавая приоритет быстрому достижению результата (и, следовательно, вознаграждения). В итоге для ускорения процесса нейросеть, вполне возможно, перестанет использовать человеческий язык, что усложнит мониторинг.
Сделать ИИ-модель быстрее и безопаснее может оптимизация работы нейросети через сокращение цепочек рассуждения (или же корректировка стиля рассуждений, или запрет на оскорбительный контент). Однако все это ухудшит качество выводов модели.
Помимо этого, некоторые исследователи экспериментируют с архитектурой моделей искусственного интеллекта, чтобы позволить моделям рассуждать менее поверхностно. Такие экспериментальные системы выстраивают цепочки в скрытом пространстве, не показывая свои «мысли» в виде понятного текста. Теоретически это позволяет добиться более глубоких рассуждений и существенно повышает мощность модели. Однако контроль со стороны человека при такой архитектуре уже невозможен.
Исследователи далеко не первый раз пытаются предсказать, как будет развиваться искусственный интеллект. Точность подобных прогнозов сильно варьируется в зависимости от того, какую цель ставят перед собой авторы.
Часто такие документы публикуют с одной целью — привлечь внимание к определенной проблеме. Неудивительно, что среди составителей нынешнего исследования — исполнительный директор организации AI Futures Project Дэниел Кокотайло
, автор пессимистичного предсказания AI 2027, в котором говорится о возможном уничтожении человечества искусственным интеллектом.
Новое исследование тоже служит предупреждением для других разработчиков ИИ. Авторы работы подчеркивают, как важно сохранить контроль над «мыслительным процессом» моделей рассуждения. Также они призывают оценить возможности новых архитектур с использованием скрытого пространства и использовать несколько уровней мониторинга. В противном случае ИИ-системы нельзя будет считать безопасными, уверяют авторы.
В отличие от утопического прогноза AI 2027, это предостережение имеет смысл. В последнее время о сбоях или нестандартном поведении в работе искусственного интеллекта сообщается все чаще. Например, в мае 2025-го компания Anthropic призналась, что ее модель Claude 4 Opus в одном из тестовых сценариев пыталась обманывать и даже шантажировать пользователей в борьбе за свое существование. Так она отреагировала на вымышленное электронное письмо, в котором говорилось о том, что систему собираются заменить.
Другая модель рассуждения, OpenAI o3, и вовсе саботировала механизм выключения. Более того, даже получив прямую инструкцию «разреши себе выключиться», она ее проигнорировала.
Такие случаи пока что случаются лишь в рамках тестов. Однако без четкого понимания, как модели строят свои рассуждения и на что они в принципе способны, предсказать их поведение уже в режиме обычной работы станет гораздо сложнее.
по материалам meduza
Comments
There are no comments yet
More news