Как делать AI-анализ, которому можно доверять

Четыре техники промптинга для предотвращения самых распространённых ошибок ИИ

👋 Привет, я Ленни. Каждую неделю я отвечаю на вопросы читателей о создании продуктов, росте бизнеса и карьерном развитии. Подробнее: Lenny's Podcast | Lennybot | How I AI | Мои любимые курсы по AI/PM, курс публичных выступлений и копилот для подготовки к интервью

P.S. Получи полный бесплатный год Lovable, Manus, Replit, Gamma, n8n, Canva, ElevenLabs, Amp, Factory, Devin, Bolt, Wispr Flow, Linear, PostHog, Framer, Railway, Granola, Warp, Perplexity, Magic Patterns, Mobbin, ChatPRD и Stripe Atlas оформив подписку Insider.


Проблема с ИИ в том, что результат всегда выглядит уверенно — даже если он полон лжи: выдуманные цитаты, ложные выводы и совершенно неверные заключения. Как выразила это приглашённый автор сегодняшнего материала Кейтлин Салливан: «Эти ошибки невидимы до тех пор, пока стейкхолдер не задаст вопрос, на который ты не можешь ответить, или решение не рассыплется три месяца спустя, или ты не поймёшь, что «пользовательские данные», лежащие в основе крупной инвестиции, содержат огромные пробелы.»

Ветеран пользовательских исследований, Кейтлин работает на переднем крае применения ИИ в UX-исследованиях. Она обучила сотни продуктовых менеджеров и исследователей в компаниях разного масштаба эффективному AI-ориентированному изучению клиентов и консультировала команды в таких компаниях, как Canva и YouTube. Ниже она рассказывает о четырёх наиболее действенных техниках получения реальных, достоверных и практически применимых пользовательских инсайтов из ChatGPT, Claude, Gemini или любого LLM на твой выбор. Давай начнём.

Чтобы узнать больше от Кейтлин, найди её в LinkedIn и в её новом курсе Claude Code for Customer Insights.

P.S. Ты можешь послушать этот пост в удобном формате подкаста: Spotify / Apple / YouTube.


Все «анализируют» данные о клиентах с помощью ИИ. Но у всех получаются ответы, полные мусора: галлюцинации, неверные выводы и «инсайты», которые просто повторяют то, что ты сам же и сказал.

Загрузи одни и те же транскрипты разговоров с клиентами в две модели — и получи в ответ игру «выбери своё приключение». Каждая модель выдаст тебе другой нарратив, другие «доказательства» и совершенно разные продуктовые рекомендации — с одинаково высоким уровнем уверенности. Ниже — два реальных результата такого эксперимента. Один вводит в заблуждение. Другой заслуживает доверия. Сможешь определить, который есть который?

Когда они расположены рядом, ты, возможно, заметишь проблемы с левым вариантом. Но на практике так не бывает. Ты получаешь один результат, он звучит уверенно, и ты принимаешь следующее решение, опираясь на него, — и никогда не видишь, чего в нём недостаёт. Именно поэтому верификация так важна.

Вот что отличает эти ответы: левый вариант избирательно берёт три восторженные цитаты и делает уверенный вывод («Да, стройте экран»), не задавая вопроса, отражают ли эти цитаты весь набор данных. Выглядит убедительно, но это AI-эквивалент предвзятости подтверждения.

Правый вариант делает кое-что более сложное. Он оспаривает поверхностный запрос («Не воспринимай обратную связь по экрану как единственный буквальный запрос на функцию»), сегментирует пользователей по реальным потребностям и указывает на ценовой риск с конкретными временны́ми метками участников, которые можно проверить. Это менее аккуратно и не упрощает картину — но зато это правда.

Разница между двумя примерами выше сводится к ключевым шагам в моём рабочем процессе, которые устраняют типичные сбои AI-анализа. Эти шаги заставляют LLM сохранять точные слова клиента, углубляться за поверхностные паттерны и улавливать противоречия в рассказах клиентов, которые искажают итоговые рекомендации. Без таких проверок ложные, но убедительные инсайты попадают в презентацию и влияют на решения стоимостью в миллионы долларов — в неверном направлении.

В этом посте я покажу, как получить актуальные и проверенные инсайты, которым можно доверять. Ты узнаешь о четырёх сбоях, которые незаметно разрушают твой AI-анализ:

  1. Выдуманные доказательства
  2. Ложные или общие инсайты
  3. «Сигнал», который не помогает принимать лучшие решения
  4. Противоречивые инсайты

Я также научу тебя техникам промптинга, которые помогают предотвращать и выявлять эти ошибки до того, как они приведут к неверным итоговым решениям. Эти тактики работают в Claude, ChatGPT, Gemini и применимы к интервью, опросам или любым качественным или смешанным данным, которые ты пытаешься осмыслить с помощью ИИ.

Почему ИИ с трудом справляется с данными пользовательских исследований

Прежде чем перейти к сбоям, нужно понять, что именно делает этот вид данных сложным для ИИ в первую очередь. Модели ошибаются при работе с интервью и опросами по-разному.

Интервью неструктурированы и хаотичны.

45-минутное исследовательское интервью — это запутанный, блуждающий разговор. Участник может противоречить себе. Он уходит в отступления. Говорит что-то важное на 8-й минуте и полностью переформулирует это на 35-й.

LLM справляются с этим, навязывая структуру и слишком быстро делая выводы. Они немедленно находят чёткие темы, подбирают наиболее подходящие цитаты, создают аккуратные резюме — и на этом останавливаются.

Но настоящий анализ требует терпения с хаосом, умения замечать противоречия, взвешивать отступления и улавливать смену тона. Без чёткого руководства ИИ сглаживает всё это во что-то, что выглядит как инсайт, но упускает то, что действительно важно.

Даже когда опросы выглядят структурированными — это не так.

Казалось бы, CSV должен легко поддаваться анализу. Строки и столбцы — что тут сложного? На самом деле — многое.

Столбец из 200 ответов на вопрос «Почему вы отменили подписку?» так же хаотичен, как данные интервью; а может, и хуже — потому что у тебя нет никакого контекста. В интервью ты помнишь, что собеседник замялся или только что пожаловался на конкретную функцию. В опросе ты получаешь «Это было не для меня» — и больше ничего.

Твой CSV, вероятно, тоже не такой чистый, как ты думаешь. Разные инструменты экспортируют по-разному. SurveyMonkey может включать текст вопросов в заголовки, тогда как Qualtrics экспортирует заголовки с внутренними кодами. Некоторые экспорты вообще содержат столбцы с метаданными — временны́е метки, внутренние теги — прямо рядом с ответами клиентов, без чёткого разграничения. Если ты не укажешь ИИ, какие столбцы содержат голос клиента, а какие нужно игнорировать, он будет анализировать всё как сигнал. Я видела, как ИИ воспринимал внутреннюю пометку («помечено для отслеживания») как слова клиента.

Даже «структурированные» столбцы скрывают сложности. Заголовок «Q3_churn probability» ничего не говорит ИИ о шкале, формулировке вопроса или о том, хорошо ли значение 5/5 или плохо.

При анализе интервью AI-моделям требуется помощь со структурой, извлечением доказательств и обнаружением противоречий. При работе с опросами им нужна помощь с интерпретацией, разграничением столбцов и пониманием того, что на самом деле означают скудные ответы.

Четыре сбоя ниже характерны для обоих типов данных и всего похожего. Устранение этих проблем, как правило, повышает надёжность и релевантность результатов твоего AI-анализа в десять раз.

Для чего лучше всего подходит каждый LLM

Не все LLM одинаково подходят для аналитической работы. Я проводила один и тот же процесс анализа в Claude, ChatGPT и Gemini более 100 раз и работала с командами продуктов таких инструментов исследования, как Maze, тестируя промпты в разных моделях, чтобы понять, что даёт результат.

Вот что тебе нужно знать о каждой модели:

Claude: Лучший выбор для глубокого и нюансированного анализа. Выдаёт больше цитат и охватывает больше аспектов без лишних подталкиваний. Компромисс: он выдаёт тебе полный «мозговой штурм», поэтому темы не всегда «доказаны» — получаешь широту, а не только безопасные паттерны.

Gemini (и NotebookLM): Лучший для хорошо подкреплённых тем и теперь — видеоанализа. Даёт меньше тем, но с более надёжной доказательной базой. Рассчитывай на несколько итераций, чтобы получить полноту охвата, и на запрос более длинных цитат. Уникальное преимущество: может анализировать невербальное поведение на видео — пока это недоступно другим.

ChatGPT: Лучший для финальной подачи материала и коммуникации со стейкхолдерами. Самый креативный из трёх — в том числе, к сожалению, с «дословными цитатами». Наименее надёжен с реальными доказательствами (объединяет цитаты), но отлично упаковывает релевантные находки для конкретной аудитории.

Позволю себе пояснить:

Хочешь увидеть транскрипт, использованный в этом примере? Нажми сюда.

Без дополнительных инструкций результаты этих моделей значительно различаются. Есть тематическое пересечение, но ChatGPT упускает реакцию пользователя на соотношение ценности и цены, а все три модели дают разные оценки уверенности и цитаты — одни дословные, другие пересказанные.

Это очевидно, когда видишь все три рядом, но у большинства команд один корпоративный аккаунт LLM — и они не замечают недостатков той модели, которую используют. ChatGPT суммирует и склеивает дословные цитаты вместе, Claude более консервативен с оценками уверенности, а Gemini нередко выбирает слишком короткие фрагменты голоса клиента.

Моя рекомендация: Если есть выбор, используй Claude для аналитической работы. Он охватывает больше аспектов, оставаясь привязанным к реальным данным. Получаешь глубину и широту без лишних усилий. Компромисс в том, что он не фильтрует за тебя. Нередко получаешь подтверждённые паттерны и полуоформленные гипотезы на равных основаниях — и тебе нужно проверять, хорошо ли подкреплены темы. Но это лучшая отправная точка, чем необходимость делать три промпта, прежде чем убедиться, что твой партнёр по анализу ничего не упустил.

Примечание о примерах: Для единообразия примеры в этом посте, как правило, используют ChatGPT. Это по-прежнему самая распространённая модель среди клиентских команд и студентов, и она наиболее склонна к конкретным сбоям, которые я разбираю. Исправления работают и улучшают результаты во всех трёх моделях.

Четыре способа, которыми AI-анализ данных лжёт тебе, — и как это исправить

После более чем 2 000 часов тестирования рабочих процессов клиентского исследования с помощью ИИ я выявила четыре отдельных сбоя AI-анализа — и надёжные способы исправления каждого из них, которые стабильно работают на разных платформах, типах данных, моделях и рабочих процессах.

Сбой №1: Выдуманные доказательства

Как выглядит проблема

Несмотря на огромные улучшения большинства reasoning-моделей, галлюцинации по-прежнему широко распространены. Когда я наблюдаю за работой продакт-менеджеров, проводящих анализ, я постоянно вижу два типа галлюцинаций:

Оба типа остаются незамеченными, если только ты не проверяешь каждую цитату вручную, — но оба нередко вызваны способом промптинга. Ты можешь довольно легко и случайно заставить ChatGPT комбинировать несколько цитат клиентов так, что это нарушает наше понимание того, что говорил клиент. Когда добавляешь фразы вроде «макс. 100 слов» или «для каждой темы дай короткую и репрезентативную цитату, передающую её суть (≤12 слов)», ты почти всегда получишь смесь. Выделенные фрагменты в примере ниже — именно такие комбинации, а не реальные точные слова клиента.

Почему это происходит

LLM не извлекают цитаты как поисковая система — они генерируют текст, который статистически вероятен в данном контексте. Генерация и извлечение — принципиально разные вещи. Модель предсказывает, как должна выглядеть цитата. Если контекст касается раздражения от проверки телефона, она генерирует правдоподобный язык об этом раздражении. Иногда это совпадает с оригиналом, иногда даёт близкий промах, а иногда — полную выдумку.

«Дословно» — это тоже неоднозначное слово для промпта модели. Точные символы? Допустимо ли отличие в пунктуации? А слова-паразиты? Где начинается и заканчивается цитата? Модель заполняет эти пробелы допущениями, которые ты никогда не увидишь. Даже ID участников и временны́е метки могут быть подделаны. Ссылка вроде «[P03, 14:30]» выглядит авторитетно, но ничего не значит, если цитата выдумана.

Исправление: Правила выбора цитат + верификация

Решение этой проблемы — независимо от модели, типа данных или рабочего процесса — состоит из двух частей. Во-первых, определи, как выглядит допустимая цитата — твои «правила» для цитат — это устраняет неоднозначность, позволяющую ИИ заполнять пробелы. А затем убедись, что цитаты в полученном AI-анализе действительно существуют, прежде чем позволишь модели их использовать.

1. Определи свои «правила» цитат

Добавь это в свой промпт для анализа:

ПРАВИЛА ВЫБОРА ЦИТАТНачинай там, где начинается мысль, и продолжай до её полного выраженияВключай рассуждения, а не только выводыСохраняй оговорки и уточнения — они сигнализируют о неуверенностиВключай эмоциональный язык, если он присутствуетУказывай ID участника и примерную временну́ю метку [P02 ~14:30]Не объединяй высказывания из разных частей интервьюЕсли цитата превышает 3 предложения, разбивай её на отдельные цитаты

Это устраняет неоднозначность. Теперь модель знает, что «дословно» значит для тебя: где начинать, где заканчивать, что включать, что не объединять.

Я всегда советую клиентским командам и участникам курсов критически думать о том, что делает цитату «хорошей» именно для них. Ты, вероятно, получишь значительно лучшие результаты сразу, используя мой фрагмент промпта (это мой любимый вставляемый блок), но ещё лучшие результаты — если добавишь собственные определения.

2. Проверяй перед использованием

После первоначального анализа используй этот промпт верификации, чтобы LLM подтвердил подлинность цитат:

ВЕРИФИКАЦИЯ ЦИТАТДля каждой цитаты в приведённом выше анализе:Подтверди, что цитата существует дословно в исходном транскриптеЕсли цитата является близким пересказом, а не точным воспроизведением, — пометь её и приведи реальную формулировкуЕсли цитата не может быть найдена, отметь как НЕ НАЙДЕНОФормат вывода:Цитата: [цитата]Статус: ПОДТВЕРЖДЕНО / ПЕРЕСКАЗ / НЕ НАЙДЕНОЕсли пересказ: Реальная формулировка: [что они сказали]Местоположение: [ID участника, временна́я метка или номер строки]

Вот что происходит, когда ты это запускаешь:

Большинство цитат в предыдущем выводе ChatGPT были пересказом, а не оригинальными дословными высказываниями клиентов. Это произошло при запросе небольшого набора цитат — представь, что происходит, когда ты анализируешь 20 интервью и получаешь столько же паттернов.

Без верификации такие «цитаты» попадают в твою презентацию с именем реального участника. Иногда это не имеет особого значения. В других случаях — это разница между языком продукта, который хорошо резонирует, и сообщениями, которые не конвертируют.

Обычно это занимает всего пять лишних минут, в зависимости от объёма данных. Но это позволяет выявить ошибки, которые иначе подорвут доказательную базу твоих продуктовых решений.

Сбой №2: Ложные или общие инсайты

Как выглядит проблема

ИИ находит темы, слишком широкие и общие для применения, или предвзятые из-за того, чем ты случайно его «прокачал». В интервью получаешь темы, которые могли бы описать любой продукт в своей категории. Я постоянно слышу это от PM: «AI-анализ просто рассказал мне то, что я и так знаю» или «Эти инсайты слишком общие. Я не могу с ними ничего сделать».

Они получают такие результаты:

Верно, вероятно, но бесполезно для сложных решений — нам нужно копать глубже. Эти темы могли бы поступить из огромного количества существующих исследований. Поскольку я работаю здесь с выдуманными данными о Whoop, они могли бы так же легко прийти из любого исследования носимых устройств.

Такие темы не скажут тебе, хотят ли твои пользователи именно эту новую функцию, которую ты исследуешь, достаточно сильно, чтобы оправдать инвестиции, или добавление её оттолкнёт клиентов, которые выбрали тебя именно потому, что ты другой.

Почему это происходит

ИИ по умолчанию ищет консенсус, потому что LLM — это машины по поиску паттернов. Они выявляют (очевидные) паттерны, которые легко всплывают на поверхность, находят то, о чём упомянули несколько участников, — и генерируют тему с совпадающим паттерном.

По-настоящему важный инсайт может быть тем, о чём в этой конкретной партии интервью сказали лишь несколько человек — но если это разделяется большим числом клиентов, это был бы заметный бизнес-сигнал. Или самым важным инсайтом может оказаться напряжение между тем, что люди говорят, что хотят, и тем, что подсказывает их поведение.

LLM также привносят приоры из обучающих данных. Если модель видела тысячи анализов оттока, где цена — тема №1, она будет тяготеть к теме цены, даже если твои полные данные этого не подтверждают.

В опросах эта тенденция к поверхностному сопоставлению паттернов ещё хуже. Когда кто-то пишет «Это не для меня» при отмене подписки, ИИ вынужден угадывать, что это означает. Без руководства он, скорее всего, объединит этот ответ с другими в общую тему «восприятие ценности». Но «не стоит своих денег» может означать:

Это один ответ с четырьмя совершенно разными последствиями для твоего продуктового решения. Умножь эту неоднозначность на сотни ответов на опрос — и твои «темы» превратятся в бессмысленные средние значения, которые ничуть не упрощают принятие решений.

LLM обучены находить консенсус и сжимать информацию. Специфика и ценные пограничные случаи теряются. А если в твоём промпте упоминаются «проблемы с ценами» — посмотри, сколько ответов внезапно окажутся закодированы как связанные с ценами.

В некоторых случаях это может быть полезным, потому что модель следит за тем, чтобы все результаты были релевантны той конкретной вещи, над которой ты работаешь. Но во многих случаях это может быть предвзятой выборкой с самого начала.

Вот пример:

Они могли бы описать любое исследование носимых устройств. Мы не можем принять аппаратное решение на основе этого.

Ещё один пример:

Я попросила ChatGPT найти кластеры тем и их количество для вопроса опроса об оттоке: «Что вы хотели делать, но Whoop не смог вас поддержать?»

Результаты ниже — кластеры, которые тоже не помогают нам принять это решение. Итак, 18% ушедших респондентов нуждаются в «более конкретных руководствах», что звучит как работа, которую нужно выполнить. Но внутри этого кластера слишком много возможных направлений, чтобы принять решение проще. Должен ли Whoop сосредоточиться на более понятных метриках или планах тренировок, или на обоих? К тому же большинство из этого не имеет никакого отношения к нашему решению об экране.

Когда мы просим ИИ кластеризовать ответы опроса, нам нужно давать ему чёткие указания с контекстом, иначе мы оставляем место для посредственных решений и большего ручного труда.

Исправление: Загрузка контекста, которая действительно направляет интерпретацию

Большинство людей привыкли к фреймворкам промптов с разделами вроде «Роль», «Контекст», «Задача», «Формат» и тому подобными. Контекст для большинства из нас означает включение нескольких строк справочной информации в промпт где-то в начале. При использовании ИИ для анализа это часто фокусируется на смысле текущего клиентского исследования. Думай: цели, гипотезы и над какой частью продукта мы работаем.

За прошлый год я видела всё больше людей, которые превращают раздел «контекст» промпта в четыре абзаца всего, о чём только можно подумать, касательно своей работы — часто надиктованных потоком сознания во время обеда.

Но ни три строки целей, ни вся неструктурированная предыстория — не достаточно хороший вариант. Эффективная загрузка контекста содержит как минимум четыре компонента, которые определяют то, как ИИ интерпретирует всё последующее:

  1. Контекст проекта сообщает ИИ об объёме и ставках. «Изучаем, добавлять ли экран» — это конкретное решение с ограничениями. «Проводим исследование клиентов» — расплывчато, поэтому ИИ прибегает к общему анализу, потому что ты не дал ему рамки.
  2. Бизнес-цель сообщает ИИ, чего ты пытаешься достичь. Если тебе нужно знать, привлечёт ли функция новых пользователей или оттолкнёт существующих — чтобы приоритизировать её создание, — скажи об этом. ИИ взвесит доказательства в пользу ответа на твой вопрос и в пользу твоего решения, а не того, которое он сам предполагает.
  3. Контекст продукта даёт ИИ доменные знания. Без него ИИ интерпретирует «хочу видеть свои данные» обобщённо. С ним ИИ понимает это высказывание в контексте носимого устройства без экрана, конкурирующего с Apple Watch, — что является совершенно другой интерпретацией.
  4. Обзор участников сообщает ИИ, кто говорит. «Мне нужны данные в реальном времени» из уст ушедшего пользователя, перешедшего с Garmin, означает нечто иное, чем те же слова от лояльного пользователя, никогда не пробовавшего конкурента. ИИ может правильно взвесить доказательства только если знает, от кого они исходят.

Хорошая новость в том, что многое из того, что я вижу в контексте промптов людей, — избыточно. Зачастую тебе не нужно столько информации, сколько ты думаешь, но она должна быть чёткой, прямой и релевантной — как четыре пункта выше.

Для интервью помести этот контекст в промпт для анализа (или используй как единственный промпт):

КОНТЕКСТ ПРОЕКТА
Мы изучаем, добавлять ли экран к Whoop. Это важное аппаратное решение. Здесь — 10 интервью с ушедшими пользователями.
БИЗНЕС-ЦЕЛЬ
Определить, будет ли экран:
(а) возвращать ушедших пользователей,
(б) не решать основные проблемы ушедших пользователей, или
(в) требовать других условий для успешного повышения удержания.
КОНТЕКСТ ПРОДУКТА
Текущее состояние: Нет экрана, все данные — через приложение. Ценностное предложение — концентрация во время активности и в течение дня, отсутствие отвлекающих факторов, постепенное понимание того, что работает именно для тебя.
Основные конкуренты с экраном: Apple Watch, Garmin, Suunto.
Без экрана: Oura.
Ключевое противоречие: Отсутствие экрана — это ограничение для ключевой аудитории, которая уходит (и всё ещё является нашей целевой аудиторией)? Или это запрос среди аудитории, на которой нам не следует фокусироваться?
ОБЗОР УЧАСТНИКОВ
Все участники — УШЕДШИЕ пользователи.
Время использования Whoop: от 6 месяцев до 2 лет.
Для деталей по конкретному участнику — смотри метаданные в каждом файле.

Для опросов добавь в промпт структуру данных:

Предполагать, что ИИ точно знает, что означает формат твоих данных, — именно поэтому происходят глупые ошибки. Вместо этого потрать 30 секунд, чтобы описать любую часть формата и кодировки твоего CSV-файла, которая может быть не на 100% понятна. Это предотвратит ошибки в вычислениях и проблемы с интерпретацией.

Вот пример контекста опроса, который я назову обязательным (и я нередко добавляю ещё немного):

СТРУКТУРА ДАННЫХ
Столбец A (response_id): Игнорировать
Столбец B (product_tier): «one»/«peak»/«life» — использовать для сегментации
Столбец C (response): Голос клиента — основной объект анализа
Столбец D (status): Внутренний тег — ушедший или активный
Столбец E (source): «partner_discount», …
РУКОВОДСТВО ПО ИНТЕРПРЕТАЦИИ
Аудитория — только ушедшие пользователи — это EXIT-опрос. Нет текущих пользователей.
Фокус на специфике, различиях между сегментами и на том, действительно ли экран решит заявленную потребность.
Примечание: Кодировка столбца D — 0 = ушедший, 1 = активный

Вот что я получила, когда уточнила контекст для интервью: индивидуальные вердикты, подсчёт и рекомендации на основе сценариев, с которыми можно выйти на обсуждение роадмапа.

Индивидуальные ответы проанализированы более тщательно, и каждый получает вердикт, а не просто метку:

Подсчёт даёт чёткий ответ: 30% были бы удержаны благодаря экрану:

Резюме ChatGPT теперь даёт рекомендации на основе сценариев, а не просто темы:

Это упрощённые версии загрузки контекста, но они будут работать для тебя как минимально необходимый уровень. Меньше этого — и ты потратишь своё контекстное окно на последующие исправления. На практике я адаптирую эту структуру под разные вопросы и ситуации клиентского исследования. Например, анализ оттока требует другого контекста, чем приоритизация функций.

Если результаты по-прежнему общие или сбивчивые после загрузки контекста, твой контекст, вероятно, был недостаточно конкретным. Добавь больше деталей о том, что ты на самом деле пытаешься решить, куда стремится твоя команда, и что ты уже знаешь и не хочешь повторять.

Сбой №3: «Сигнал», который не помогает принимать лучшие решения

Как выглядит проблема

Ты просишь ИИ проанализировать сотни ответов опроса об отмене подписки. Он сообщает тебе: «22 респондента упоминали желание иметь экран» или «Настроение по отношению к функции экрана — 72% позитивное».

Отлично. Но стоит ли добавлять экран? Эти цифры не могут ответить на вопрос, потому что они не говорят тебе:

Дефолтный AI-анализ даёт тебе подсчёты и категории. Он не даёт тебе ясности для принятия решений. «22 человека упомянули экраны» ощущается как сигнал, но не является практически применимым, пока ты не знаешь, что именно создание экрана решит на самом деле — и решит ли вообще.

Почему это происходит

LLM обучены находить паттерны и суммировать. «Экран» встречается 22 раза, следовательно, «ценность экрана — тема». Но модель не знает, что «я проверяю телефон 10 раз за тренировку только чтобы увидеть свой пульс» (экран поможет) и «я вернулся к Garmin» (потому что им хочется экран, но ещё нужны другие функции, вроде навигации по трейлам) — требуют совершенно разных решений от твоей команды.

Без руководства ИИ может относиться ко всем упоминаниям одинаково. Он не может отличить сигнал, который должен двигать твой роадмап, от шума, который звучит как сигнал, но таковым не является.

Вот пример:

Видя это, можно подумать: «Много респондентов хотят экран». Но лишь некоторые из них действительно имели бы большинство своих проблем решёнными с помощью экрана, без необходимости другого нового функционала.

Исправление: Few-shot калибровка, которая учит ИИ твоей шкале

Few-shot калибровка означает предоставление ИИ конкретных примеров — и, что важнее, примеров каждого уровня твоей шкалы. Не описаний того, что означают уровни, а реальных примеров ответов, принадлежащих к каждому «вёдру», — и почему.

Вот пример калибровки, которую я использую в своих промптах и агентах для анализа в ситуациях, подобных этому решению об экране:

ШКАЛА СООТВЕТСТВИЯ РЕШЕНИЮ (откалибрована для решения об экране)

1 — ЭКРАН УДЕРЖИТ: Явная боль с видимостью/доступом во время активности
Пример: «Я проверяю телефон 10 раз за тренировку только чтобы увидеть свой пульс»
Почему это 1: Конкретное трение с текущим обходным решением. Экран напрямую это решает. Высококачественный сигнал для инвестиций в экран.

2 — БОЛЕЕ ДЕШЁВОЕ РЕШЕНИЕ УДЕРЖИТ: Звучит как связанное с экраном, но имеет более дешёвое решение
Пример: «Приложение было слишком неудобным для проверки во время тренировки, слишком много нажатий»
Почему это 2: Жалоба на видимость, но телефон присутствовал. Улучшение UX приложения могло бы решить это без аппаратных инвестиций.

3 — НУЖНО ИСПРАВИТЬ ВОВЛЕЧЁННОСТЬ: Перестал пользоваться, экран этого не изменит
Пример: «Просто недостаточно пользовался»
Почему это 3: Формулировка с самообвинением, нет жалобы на функции. Экран не исправляет формирование привычки. Нужно вмешательство в онбординг/вовлечённость.

4 — НУЖНО ИСПРАВИТЬ ОПЕРАЦИОННЫЕ ПРОБЛЕМЫ: Выставление счетов, поддержка, надёжность — не функции
Пример: «Отменял 3 раза и продолжал получать списания. Говорю своему беговому клубу избегать.»
Почему это 4: Сбой доверия/процесса. Экран не имеет значения. Нужно срочное восстановление сервиса.

5 — НЕСВЯЗАННАЯ КОНКУРЕНТНАЯ ПОТЕРЯ: Ушёл к альтернативе, нет жалобы на экран
Пример: «Перешёл на Apple Watch, Whoop был нормальным»
Почему это 5: Нет негативного языка, нет упоминания экрана. Возможно, обусловлено экосистемой/социальным фактором/ценой. Один лишь экран вряд ли вернёт.

Примеры выше выполняют обучение. Я не говорю: «Вот как выглядит хороший результат». Я говорю: «Это хороший результат, и вот почему я его так пометила, чтобы ты мог следовать моему процессу».

Без такой ясности модель изобретает собственную интерпретацию того, как выглядят «причины оттока, связанные с экраном» — и она не всегда совпадёт с твоей. Эта структура работает для любой шкалы. Калибруешь спрос на новые предложения? Определи, как выглядит 1 в сравнении с 5, с чёткими примерами. Приоритизируешь запросы на функции или более точно категоризируешь нейтральную обратную связь? Тот же подход. Ключ — показывать ИИ, а не рассказывать.

Вот пример того, что я получаю, используя подобный подход. Это всего лишь фрагмент двух индивидуальных ответов, но он даёт представление:

При правильной калибровке ИИ может показать тебе, какая обратная связь говорит «строй это» — а какая говорит «сначала исправь что-то другое».

Ты потратишь несколько лишних минут на построение шкалы для своего контекста, но сможешь повторно использовать её в разных анализах. Совмести это с верификацией цитат из сбоя №1 — и получишь практически применимую интерпретацию плюс реальные доказательства голосом клиента. Я создавала агентов, которые интерпретируют данные так, как это делал бы старший исследователь, но практически в реальном времени по мере поступления данных.

Сбой №4: Противоречивые инсайты

Как выглядит проблема

Анализ выглядит отлично, темы чёткие, цитаты убедительные. Сводная таблица готова для твоей презентации. Может быть, то, как ИИ использовал твои руководства по интенсивности обратной связи клиентов, выглядит удивительно, и ты рвёшься донести эти результаты до следующей встречи.

Но ты так и не проверил, надёжно ли всё то, что ИИ сделал до сих пор, или полно ли оно дыр. Ты не искал противоречий в том, что говорили участники. Ты не спрашивал, намекал ли «ярый сторонник»-клиент на поведения, которые свидетельствуют об обратном.

Ты представляешь выводы с уверенностью. Они неверны способами, которые ты не можешь увидеть, — до тех пор, пока кто-то не задаст вопрос, на который ты не можешь ответить, или решение не рухнет через несколько недель.

Это, пожалуй, самый распространённый сбой. Я слышу страшные истории об анализах, которые не выдержали критики на встречах, слишком часто — даже с учётом огромных улучшений LLM за прошлый год. Три других сбоя — выдуманные доказательства, ложные или общие инсайты, «сигнал», который не помогает принимать лучшие решения, — дают результаты, которые выглядят хорошо. Но без шага верификации у тебя нет возможности узнать, что они неверны.

Большинство людей пропускают верификацию противоречий, потому что истории в первом прогоне анализа кажутся полными. ИИ не говорит: «Кстати, я не уверен насчёт участника 03» или «Тебе следует перепроверить этот путь покупателя». Он представляет всё с одинаковым уровнем уверенности.

Почему это происходит

Эксперты-аналитики-люди делают несколько проходов инстинктивно. ИИ — нет, если не сказать ему об этом.

Это предусмотрено. LLM обучены давать связные, полезные ответы, а не помечать собственную неуверенность — по умолчанию. Первый проход всегда является гипотезой. Без ещё одного прохода, который специально ищет ошибки, ты воспринимаешь черновик как окончательный ответ.

Это выглядит готовым к публикации — но, вероятно, игнорирует противоречия в данных:

Исправление: Встраивай финальный шаг верификации в каждый анализ

Верификация означает просьбу к ИИ проверить собственную работу, конкретно искать ошибки, которые, как ты теперь знаешь, следует ожидать. Промпт верификации направлен на конкретные сбои: сфабрикованные доказательства, противоречия, меняющие картину, результаты, которые звучат надёжно, но таковыми не являются.

Вот пример промпта верификации:

ШАГ ВЕРИФИКАЦИИПроверь приведённый выше анализ на наличие:ВЕРИФИКАЦИЯ ЦИТАТПодтверди, что каждая цитата существует дословно в источникеОтметь любые цитаты, которые являются пересказом, комбинацией или не найденыПРОВЕРКА ПРОТИВОРЕЧИЙДля каждого участника проверь, не противоречат ли высказывания в разных местах друг другуИщи: заявленные предпочтения против описанного поведения, уверенность, сменяющуюся колебаниями, сильные мнения, которые смягчаются позже в интервьюОЦЕНКА ДОСТОВЕРНОСТИДля любого вывода, основанного на ограниченных доказательствах, укажи на этоОтметь участников, позиция которых неясна или смешаннаВыведи сводку верификации с флагами и рекомендуемыми правками.

Когда ты заставляешь любой LLM пересмотреть собственную маркировку и интерпретацию, он действительно находит ошибки. Некоторые ошибки будут серьёзными просчётами; некоторые — мелкими преувеличениями чего-то сказанного, объединёнными с другими в паттерн, который не вполне соответствует. В любом случае мы хотим принимать большие, страшные продуктовые решения только на основе доказательств, прошедших вторую (или третью) проверку.

В данном случае ИИ обнаружил серьёзные проблемы в своём первоначальном анализе, когда я провела финальную верификацию, чтобы убедиться, что выводам можно доверять.

Этот шаг добавляет несколько минут к твоему анализу, но может буквально сэкономить тебе миллионы долларов инвестиций в неправильное изменение продукта, если ты стал полагаться на результаты анализа ИИ. В менее экстремальных случаях это всё равно разница между представлением выводов, в которых ты надеешься быть правым, и инсайтами, которые ты проверил на прочность и за которыми стоишь полностью.

В заключение хочу дать тебе один очень быстрый способ проверить, как работают твои последние инсайты с помощью ИИ.

Попробуй это со своим последним анализом

Ты только что узнал о четырёх сбоях, которые разрушают большинство AI-анализов, и о том, как исправить каждый из них:

  1. Выдуманные доказательства → Правила выбора цитат + убедись, что они реальны
  2. Ложные или общие инсайты → Загрузка контекста, которая действительно направляет интерпретацию
  3. «Сигнал», который не помогает принимать лучшие решения → Few-shot калибровка с реальными примерами
  4. Противоречивые инсайты → Проход, который улавливает то, что упустили предыдущие проходы

Если ты применишь хотя бы одно из этих правил к своему следующему проекту, ты получишь лучшие результаты, чем сейчас. Но не жди следующего проекта. Возьми анализ, который ты уже делал с ИИ: резюме интервью, паттерны опроса — что угодно, где ты просил ИИ найти темы или выбрать цитаты. Запусти шаг верификации из сбоя №4 на нём.

Если ты похож на большинство людей, ты найдёшь хотя бы одну несуществующую цитату, одно похороненное противоречие или один «паттерн», основанный на единственном ответе. Это не провал — это система в действии. Теперь ты знаешь, что исправить, прежде чем это попадёт в презентацию.

Верификация — это разница между AI-результатами, которые ты всегда будешь ставить под сомнение, и инсайтами, за которыми ты стоишь.

Главная проблема AI-анализа в том, что результат всегда выглядит уверенно — с чёткими темами, броскими цитатами и аккуратными резюме, готовыми скопировать в Gamma для оформления слайдов. Ничто в результате не сигнализирует «проверь меня снова».

Именно поэтому эти сбои так опасны. Не потому что ИИ плохо справляется с анализом — он становится поразительно хорошим, — а потому что ошибки невидимы до тех пор, пока решение не рассыплется три месяца спустя или ты не поймёшь, что «пользовательские данные», лежащие в основе крупной инвестиции, содержали огромные дыры.

Исправления в этом посте — не о том, чтобы замедлиться, а о том, чтобы сделать AI-анализ тем, что ты можешь реально защитить: доказательства, на которые ты готов поставить свою репутацию, рекомендации, которые тебе не придётся отзывать. Пятнадцать минут верификации сейчас или шесть месяцев создания не того — вот в чём выбор.

Спасибо, Кейтлин! Чтобы узнать больше от Кейтлин, найди её в LinkedIn и в её новом курсе Claude Code for Customer Insights.

Продуктивной и насыщенной недели тебе 🙏


Если эта рассылка тебе полезна, поделись ею с другом и рассмотри подписку, если ещё не оформил её. Доступны групповые скидки, подарочные варианты и реферальные бонусы.

С уважением,

Ленни 👋