Как собрать монетизацию AI-продукта, которая реально работает
👋 Привет, я Lenny. Каждую неделю отвечаю на вопросы читателей про продукт, рост и карьеру. Больше тут: Lenny's Podcast | Lennybot | How I AI | мои любимые курсы по AI/PM, курс публичных выступлений и копилот для подготовки к собеседованиям
P.S. Получи бесплатно на целый год Google AI, Cursor, Lovable, Notion, Manus, Replit, Gamma, n8n, Canva, ElevenLabs, Factory, Wispr Flow, Fin, Supabase, Bolt, Linear, PostHog, Framer, Railway, Granola, Warp, Gumloop, Magic Patterns, Mobbin, Stripe Atlas и ChatPRD — оформи Insider-подписку. Да, это реально.
Сегодняшний приглашённый автор — Vikas Kansal, руководит продуктом в Google AI — пожалуй, самом успешном потребительском подписочном бандле в истории: Gemini 3.1, Nano Banana, NotebookLM, Veo3 и терабайты (!) облачного хранилища. Vikas — на передовой монетизации AI-продуктов, где приходится балансировать между compute-расходами и устойчивым ростом. В этом подробном гест-посте он делится всем, что они с командой поняли про пейволлы в AI.
Погнали.
Ты только что запустил крутой AI-продукт. Рост летит, юзеры подсели на «магию» бесплатного тарифа. А потом приходят счета. В классическом SaaS лишний бесплатный юзер стоит почти ноль. В AI всё иначе: каждый раз, когда такой юзер жмёт Enter, твои GPU гудят, а деньги горят. С монетизацией надо разобраться быстро — иначе compute-расходы похоронят компанию.
Большинство продуктовых команд, проектируя AI-фримиум, всё ещё хватается за классический SaaS-плейбук: базовые фичи — бесплатно, лучшие — за деньги. Но эксперт по росту (и четырёхкратный гость Lenny's Podcast) Elena Verna справедливо замечает: с AI-продуктом приходится отдавать огромный кусок «магии» бесплатно — иначе юзер просто не доберётся до aha-момента. Ему надо своими глазами увидеть, как модель пишет идеальный мейл или генерит идеальную картинку — только после этого он вернётся во второй раз. На нынешнем шумном рынке time to value (TTV) должен быть мгновенным, иначе внимания не удержать.
И тут вылезает парадокс: что делать, когда бесплатная «магия» становится настолько хороша (и затратна по compute), что съедает твой премиум-тариф?
Запуская AI-подписки Google, мы влетели в эту стену лбом. Бесплатный тариф в большинстве задач уже обгонял человека. Бесплатно! Он писал безупречный Python, лепил отличные маркетинговые тексты, мгновенно сворачивал длинные почтовые треды. Мы поняли, что конкурируем сами с собой — и при этом пытаемся построить устойчивый бизнес на рынке, где спрос на AI-compute растёт экспоненциально. Юзеры закономерно спрашивали себя: «Зачем платить 20 долларов в месяц, если бесплатная версия и так умнее меня?»
Классический SaaS-плейбук подсказал бы запейволить часть лучших фич — вирусный генератор подкастов NotebookLM, картинки Nano Banana или Gemini Deep Research. В своё время Slack удачно закрыл историю сообщений, а Figma — командные библиотеки. Но если бы мы закрыли за пейволлом живой разговор с Gemini или Deep Research, юзеры так и не прочувствовали бы ту самую магию, ради которой возвращаются каждый день. Да и главные источники compute-расходов это всё равно не закрыло бы. Реальность AI-продуктов заставила нас полностью пересобрать анатомию пейволла. Вот фреймворк, который у нас вышел.
Современный AI-пейволл нужно строить с обеих сторон уравнения: чего хотят юзеры и за что реально платит компания в compute. То есть уйти от классического SaaS-фримиума к нескольким динамическим тарифам — по использованию и по результату. Если ты строишь AI-пейволл, разверни триггеры апгрейда вокруг этих трёх столпов, которые сводят пользу для клиента и расходы компании:
Когда мы впервые поставили пейволл на AI-фичи Google, инстинкт был классически SaaS-овский: один «премиум»-тариф Gemini Advanced за 20 долларов — плати и получи самую умную модель. Но быстро вылезли две проблемы. Первая — как я уже говорил, бесплатный тариф был настолько хорош, что многие юзеры считали его «умнее себя». Апгрейдиться им было незачем. Вторая оказалась неожиданнее: пауэр-юзеры, которые всё-таки апгрейдились, жрали такие чудовищные объёмы compute, что юнит-экономика выходила страшная. Мы поняли: реальный value — не только в качестве модели и ответа, а в объёме работы, который юзер может прогнать через систему. И цену за этот доступ надо ставить соответствующую — иначе бизнес-модель не сходится.
Поэтому мы перепаковали оффер в тарифы Plus, Pro и Ultra. Каждый бакет — это конкретный уровень интенсивности: чем выше тариф, тем больше квота и шире контекстное окно (до 1 миллиона токенов). Юзер получает предсказуемые предоплаченные тарифы — без шок-счетов в стиле AWS pay-per-use, которые потребители ненавидят. В каждом тарифе доступна большая часть фич: Pro хватит случайному экспериментатору, а пауэр-юзер уйдёт в Ultra. Такой подход выровнял юнит-экономику и распределение подписчиков, и бизнес-модель стала устойчивой. Оказалось, что закрывать интенсивность — рычаг монетизации мощнее, чем закрывать интеллект модели.
Ещё один пример — Midjourney — у них это сделано отлично. У них есть «Fast Mode» и «Relax Mode». Fast Mode даёт мгновенный доступ к GPU и быстрый результат, но ограничен месячным лимитом часов — и стоит соответственно. Когда Fast Hours кончаются, юзеры на Standard и выше переключаются в безлимитный Relax Mode, который работает в очереди по спросу. Платят они не за более качественные картинки, а за приоритет на GPU и возможность сгенерить больше и быстрее. А компания держит юнит-экономику в узде.
Если Столп 1 монетизирует сырой compute и объём, то Столп 2 — продуктивность. Бесплатный тариф может дать юзеру правильный ответ, но в нагрузку — ручную возню: копировать, вставлять, промптить, форматировать. Чтобы юзер апгрейдился, ставь пейволл перед фичами, которые схлопывают многошаговую задачу в один клик. «Pro»-юзеры очень чувствительны к трению — они оправдают подписку часами, которые она экономит из их жизни.
Изначально весь оффер Gemini Advanced строился вокруг «лучшего и самого быстрого ответа», который может выдать фронтир-модель. С тех пор LLM сделали большой скачок — из пассивных генераторов текста в автономных AI-агентов, которые умеют рассуждать, планировать, пользоваться инструментами и помнить контекст, чтобы решать сложные задачи. Мы оседлали этот сдвиг и сделали авто-браузинг Chrome доступным только в старших тарифах. Авто-браузинг Chrome (на Gemini) — AI-агент, который сам ходит по сайтам, заполняет формы, сравнивает товары, кладёт вещи в корзину и решает задачи вроде записи на приём — всё прямо в браузере. Мы упаковали пейволл вокруг сэкономленного труда сотрудника: агент сам ходит по вебу и делает реальную работу за юзера. Мы перестали продавать «ответы» — и начали продавать «часы».
AI-агент Fin от Intercom — золотой стандарт outcome-based ценообразования в AI. Берёт 0,99 доллара за решённый кейс. Дать AI попробовать ответить — бесплатно; платишь только тогда, когда юзер подтвердил, что проблема реально решена. У Sierra это тоже сделано отлично.
Когда мы прикидывали go-to-market для Genie 3 — нашей real-time интерактивной «модели мира», — было ясно, что compute-расходы будут запредельные. На внутреннем догфудинге мы шутили, что TPU плавятся на каждом промпте. Стало понятно: отдавать это каждому бесплатному юзеру — не просто плохая бизнес-затея, а физически невозможная. TPU банально не хватило бы, чтобы тянуть модель на нужных 100K+ QPS для сотен миллионов DAU. Но мы заметили и другое: потребители интуитивно чувствуют, что такие тяжёлые модальности — премиум. Они не ждут, что кинематографичный фотореалистичный 3D-мир будет бесплатным — в отличие от письма на 500 слов.
Поэтому Genie 3 мы открыли только подписчикам самого старшего тарифа. Подняв эту фронтир-«модель мира» в премиум, мы превратили гигантский compute-риск в мощный стимул лезть на верх ценовой лестницы. Заодно показали state-of-the-art модель, не упираясь в потолок мощностей.
Мой совет: делай самые дорогие, тяжёлые по compute модальности главным триггером апгрейда в верхний тариф. Текст и базовую генерацию картинок раздавай всем — это раскачает верх воронки. Но жёсткий пейволл должен щёлкать в тот момент, когда юзер хочет отрендерить кинематографичное видео, запустить real-time симуляцию или зайти в персистентное 3D-окружение.
Хорошо собранные тарифы, увязанные с value, могут забрать у юзера экспериментальный бюджет — но не удержать его. У AI-подписок churn заметно выше, чем у классического SaaS: базовые привычки ещё только формируются. Чтобы дотянуться до lifetime value юзера, нужна экосистема вокруг тарифов — она и удержит, и расширит базу. Ниже — как прокачать конверсию, удержание и стоимость обслуживания, чтобы экосистема жила вдолгую.
Решить, какой value засунуть в какой тариф, — это лишь полдела. Нужно ещё разобраться, когда и как подсовывать апсейл, который реально приносит выручку. Чтобы дотолкнуть сильно вовлечённого бесплатного юзера до апгрейда, нужны конкретные катализаторы конверсии — поведенческие триггеры, контекстные UX-подсказки и грамотная упаковка, которые превращают раздражающий тупик в очевидный апгрейд без раздумий. Показ апгрейд-промпта — скорее искусство, чем наука. Значимые конверсии в итоге сводятся к одному: правильная контекстная подсказка нужному юзеру ровно в момент высокого интента. В AI-подписках Google мы нашли несколько подходов, которые реально работают:
Юзер задаёт промпт, получает ответ — и пять и более раз в одной сессии уточняет именно этот результат follow-up-промптами. Это сигнал: он делает «настоящую работу» и прямо сейчас, скорее всего, готов платить.
Юзер, который за 48 часов заходит в продукт и с десктопа, и с мобильного, официально встроил инструмент в свою повседневку. Это ровно тот момент, чтобы дёрнуть контекстный апсейл.
«Шеринг чатов» в Gemini мы используем не только как петлю роста для acquisition, но и как эффективный триггер апгрейда. Когда получатель кликает по расшаренной ссылке на чат в Gemini, ему предлагают «Продолжить этот чат». Если чат требует модель Pro-тарифа или контекстное окно в 1 миллион токенов, получатель упирается в «мягкий пейволл» — и сразу видит ценность премиум-тарифа на реальном кейсе.
Идеальный триггер апгрейда даст первую конверсию, но настоящая битва — это удержание. Сейчас по всей индустрии churn у AI-подписок печально высокий: юзеры покупают магию в первый день, но не успевают выработать ежедневную привычку к тридцатому. Использование AI по природе эпизодично: юзер может написать 10 отчётов в октябре и ноль — в ноябре, и отменить подписку. Битва за второй месяц — на полном серьёзе.
Чтобы вытащить долгий lifetime value (LTV), бандли AI с уже привычными, «липкими» сервисами. В Google мастер-ходом стал бандл AI-подписок с облачным хранилищем Google One. Облачное хранилище отменяют редко — потерять фото или почту слишком больно. А значит, подписчики Google One почти автоматически доезжают до второго месяца использования AI. Привычка собрана — дальше дело техники.
Если ты независимый стартап, бандли AI с «липкими» рабочими активами: библиотеками сохранённых промптов, командными воркспейсами, проприетарными интеграциями данных. Cursor — отличный пример того, как это делается правильно. Они построили серьёзный ров: вшили AI прямо в IDE и проиндексировали локальную кодовую базу разработчика. Если юзер решит уйти — ему придётся самому снести свой кастомизированный сетап, а собирать его заново долго и дорого.
Ты не можешь позволить себе гонять самую большую и дорогую фронтир-модель на каждый промпт каждого бесплатного юзера. Как мы знаем, наши «пожалуйста» и «спасибо» любимым LLM обходятся в миллионы долларов compute. Поставь на входе лёгкий классификатор — семантический роутинг: если бесплатный юзер спрашивает «Какая столица Франции?» — запрос мгновенно уходит в дешёвую, молниеносную микро-модель (например, Gemini 3.1 Flash-Lite или опенсорсную 8B-модель). Если он закидывает сложную логическую головоломку — запрос идёт в более тяжёлую reasoning-модель с поштучным учётом токенов. Юзер получает мгновенную магию, а ты незаметно бережёшь маржу.
Можно взять Intelligent Prompt Routing от Amazon Bedrock — это cloud-native эндпойнт, который эффективно роутит запросы между разными фундаментальными моделями внутри одного семейства. Он динамически предсказывает качество ответа каждой модели на конкретный запрос и отправляет его туда, где ответ будет лучше. Так оптимизируется и качество, и стоимость одновременно.
Даже с идеально выверенным пейволлом и цветущей экосистемой переход из легаси-SaaS в agentic AI усыпан маржинальными ловушками. Эти анти-паттерны монетизации — типичные структурные ошибки компаний, которые ставят краткосрочную конверсию выше долгосрочной устойчивости. Если не проектировать систему так, чтобы обходить эти ямы, твои самые вовлечённые пауэр-юзеры быстро превратятся в тех, кто тебя обанкротит.
Использование AI естественно скачет вокруг конкретных проектов с дедлайнами или сессий — и юзерам неизбежно нужно ставить подписку на паузу, когда работа закончилась. Если ты гонишь их через лабиринт retention-меню и спрятанных кнопок, лишь бы остановить биллинг, ты рискуешь превратить временный перерыв в окончательный уход. Вместо этого проектируй под естественные приливы и отливы AI-использования. Дай «паузу» в один клик или простой даунгрейд, который сохранит кастомные инструкции и библиотеки промптов. Если уйти не больно — ты сохраняешь отношения и шанс, что юзер вернётся, когда придёт следующая тяжёлая загрузка.
Фронтир-модель, которую ты сегодня обслуживаешь с премией, через пару месяцев почти наверняка станет дешевле, быстрее и превратится в коммодити. Если ты забетонируешь границы тарифов, ты быстро окажешься не с той стороны уравнения юнит-экономики. Либо сольёшь маржу — compute внезапно скакнул, и ты раздаёшь compute на 5000 долларов за подписку в 200. Либо потеряешь юзеров — конкурент уже раздаёт твои «премиум»-фичи бесплатно. Чтобы стратегия монетизации выдержала будущее, вшей гибкость прямо в пейволл. Постоянно аудируй юнит-косты, будь готов спускать вчерашние премиум-фичи в бесплатный тариф по мере того, как compute дешевеет, и всегда держи место на верху лестницы — для следующего большого прорыва в AI.
Даже коммунальщики знают: нельзя брать с клиентов одну и ту же ставку во вторник в 14:00 и в воскресенье в 2 ночи. А AI-инфраструктура вообще держится на пиковой конкуренции за compute. В рабочий день, в B2B-час пик, твои GPU краснеют — и ты, возможно, ещё и платишь surge pricing облачному провайдеру, чтобы держать аптайм. В выходные те же серверы стоят пустыми и горят на амортизации. Если ставка одна 24/7, ты сам стимулируешь юзеров запускать тяжёлые несрочные задачи ровно тогда, когда compute самый дорогой. Введи механики типа «множителей расхода» или compute-«happy hours», когда кредитов хватает вдвое дольше. Это сглаживает нагрузку, радует чувствительных к цене юзеров и превращает простаивающее GPU-время в выходные в чистую прибыль.
Важно держать в голове: сейчас идёт всего третий год того, что, скорее всего, окажется десятилетним сдвигом вокруг AI. Мы прямо посреди «мутной середины» — и в технологии, и в бизнесе gen AI. Юзеры прямо сейчас активно льют на рынок экспериментальные доллары: тестируют, осваивают, играются с новыми AI-инструментами. Но через эту мутную середину идут не только они — мы как лидеры продукта и монетизации тоже. Наш вызов сейчас — не просто поймать эти экспериментальные доллары, а параллельно экспериментировать самим: разобраться, как превратить их в устойчивую юнит-экономику и правильный долгосрочный оффер. Эти экспериментальные бюджеты не вечны.
Как бизнес, фокусируйся на долгосрочной липкости: встраивай продукт в ежедневные рабочие процессы и строй непробиваемый ров вокруг удержания юзеров — пока новизна не выгорела. Путь вперёд один: уже сейчас выравнивать ожидания юзеров с реальными юнит-костами и продолжать эволюционировать оффер по мере того, как они меняются вместе с рынком и технологией. Динамические тарифы, увязанные с value и стоимостью, — первый большой шаг в это будущее.
Жду не дождусь, какие крутые AI-продукты ты соберёшь — и, что важнее, какие устойчивые бизнесы вырастишь вокруг них.
Спасибо, Vikas! Больше — у Vikas в X и в LinkedIn.
Хорошей и продуктивной недели 🙏
Если эта рассылка тебе полезна — поделись с другом и подпишись, если ещё нет. Есть групповые скидки, варианты подарка и реферальные бонусы.
Искренне твой,
Lenny 👋