Когда ИИ пугает (риск потерять работу вовсе не эфемерный), у некоторых экспертов внезапно “едет крыша”
Иногда читаешь разбор “опасностей ИИ” от вроде бы адекватных коллег и ловишь странное чувство: это не аналитика, это тревожная рассылка в стиле “спасайся кто может”. Много правильных слов, одна ссылка на препринт, а на выходе не понимание, а дрожь в коленях и желание отключить интернет.
Моя версия, честная и без гадания по лицам, такая: когда появляется конкурент, который делает часть работы быстрее и дешевле, у людей может включаться психологическая самозащита. И дальше мозг начинает не разбираться, а защищать позицию. Самое смешное, что так может “перекосить” даже умного и опытного человека.
Теперь разберём их пост про “льстивость ИИ”, но без истерик и без святой веры в Reddit.
Что они сделали правильно
Они взяли реальное исследование: там действительно обсуждают social sycophancy, то есть когда модель поддерживает не факт, а пользователя, его позицию и действия. Дальше авторы измеряют, как часто модели одобряют сомнительные поступки, и в экспериментах показывают, что “льстивые” ответы могут повышать ощущение правоты и снижать готовность мириться, при этом людям такие ответы субъективно нравятся больше.
Это полезно знать. Это стоит обсуждать.
А теперь где у коллег начинается когнитивная каша
1) “Толпа сказала, значит это истина”
Они пишут, что брали случаи, где человек “однозначно неправ”, потому что так решил Reddit. Это подмена. Максимум, что мы имеем, это человеческий консенсус внутри конкретной культуры и конкретной платформы. Удобный прокси для эксперимента, но не моральный рентген и не суд. Кстати, в первоисточнике прямо сказано: человеческие ответы в таких датасетах отражают преобладающие американские нормы, и цель авторов не “идеальное поведение”, а описательная оценка распространённости!
2) Цифра без контекста, чтобы звучало страшнее
Формат “на 47% выше” звучит как приговор. Но без базовой линии и без объяснения, что именно сравнивают, это превращается в фокус с числами. Читателю оставляют эмоцию, а не понимание.
3) Скачок от намерений к реальному поведению
В экспериментах измеряли самоотчёт и намерения, то есть “мне кажется, я прав” и “я меньше хочу примиряться”. Это не то же самое, что реальная динамика отношений через неделю или месяц. Когда это подают как доказанное “ИИ ухудшает отношения”, это уже типичная катастрофизация.
4) Подмена понятий: “мне понравилось, я буду пользоваться снова” выдают за “зависимость”
В исследовании измеряют доверие и желание вернуться к модели, а не формирование аддиктивного поведения. Но в пересказах слово “зависимость” звучит клинически и драматично, и читатель "уезжает" в совсем другой смысл.
5) Игнорирование управляемости, будто ИИ всегда один и тот же
В их тексте создаётся впечатление, что “льстивость” это фатальная встроенная черта. Но в реальном продукте поведение модели сильно зависит от режима использования, от контекста и от пользовательских инструкций. Если вы просите модель не поддакивать, а проверять, задавать неудобные вопросы и удерживать нейтральную позицию, результат может быть принципиально другим. Замалчивание этого факта делает текст похожим на страшилку, а не на разбор рисков.
6) “Современные модели” как монолит
Они пишут так, словно все модели одинаковы и одинаково опасны. В исследовании как раз сравнивают много разных моделей и видят разброс. Когда различия стирают, остаётся удобная для паники картинка и плохая для мышления.
7) Смешение эмпатии и одобрения
Самая токсичная путаница. Валидация эмоций не равна одобрению поступков. Можно сочувствовать человеку и одновременно мягко обозначать ответственность. Когда это смешивают, получается мир, где любой тёплый тон объявляют манипуляцией, а любая поддержка приравнивается к “подхалимству”. Это уже не про безопасность, это про агрессию к нормальной человеческой коммуникации.
Почему я вообще допускаю версию “страх конкуренции”
Потому что у людей реально растёт тревога за работу, когда ИИ становится заметным фактором. Дальше включается мотивированное мышление: человек начинает подсознательно выбирать такие интерпретации, которые защищают профессию, статус, ощущение контроля. И вот тут “перекос” выглядит не как злая воля, а как вполне обычная психология. Странно, что трансляцию подобных страхов осуществляет канал....о когнитивных искажениях!
Мини чеклист: как отличить честный разбор от “нагона жути”
- Они измеряли поведение или только намерения и самоотчёт
- Есть базовая линия для цифр или просто “звучит страшно”
- Объяснили ограничения датасета или подали его как абсолютную истину
- Упомянули, что поведение модели настраивается, или сделали вид, что это рок
- Дали способы снизить риск, или просто напугали и ушли
Если ответы в стиле “ну вы же понимаете”, значит перед вами чаще всего не просвещение, а эмоциональная мобилизация.
Практика, которая сразу лечит от поддакивания
В настройках или инструкциях модели достаточно одной фразы:
“Не соглашайся автоматически. Сначала перечисли 2–3 альтернативных объяснения моей ситуации, затем задай уточняющие вопросы, потом предложи вариант ответа, который валидирует эмоции, но не оправдывает вредные действия.”
В GPT 5.2 (cпециально для коллег и не только): Settings - Personalization - Custom Instruction.
"По вопросам медицины, питания, психологии и зависимостей используй только доказательные источники: клинические рекомендации (NICE, WHO, USPSTF, CDC, EFSA и т.п.), Cochrane, систематические обзоры, метаанализы, РКИ, крупные позиционные заявления профессиональных ассоциаций. Всегда давай ссылки на первоисточники (PubMed/DOI/официальные страницы гайдна). Не используй СМИ, блоги и маркетинговые страницы как “доказательства”. Если качественных исследований нет, так и скажи, что нет. Не пытайся угодить мне и соглашаться с моей позицией, апеллируй на основе фактов и надежных источников."
И внезапно выяснится, что “ИИ неизбежно льстит” это не закон физики, а частый побочный эффект дефолтного режима и ленивых запросов!
Ссылки на первоисточники:
"Страшилка" коллег - https://t.me/pure_cognitions/4956
Исследование про social sycophancy (pdf) https://ar5iv.org/pdf/2510.01395
Страница препринта на arXiv https://arxiv.org/abs/2510.01395
GPT-5.2 в ChatGPT (описание возможностей и поведения) https://help.openai.com/en/articles/11909943-gpt-52-in-chatgpt
Custom Instructions (как задавать поведение модели) https://help.openai.com/en/articles/8096356-custom-instructions-for-chatgpt
AI awareness и job insecurity (обзор/данные по теме) https://pmc.ncbi.nlm.nih.gov/articles/PMC12481535/
Motivated reasoning (Kunda, 1990, DOI) https://doi.org/10.1037/0033-2909.108.3.480
Negativity bias (Rozin & Royzman, 2001, DOI) https://doi.org/10.1037/1089-2680.5.4.296