Сегодня делюсь редким бэкстейджем: как мы за 10 дней спроектировали, сняли и собрали демонстрацию нашего ИИ‑ассистента Wildbots. Расскажу, как родился сценарий, из чего состоит стек, как снижали задержки и стоимость, что пошло не так на площадке — и почему это к лучшему. В конце — честный отзыв тестового пользователя. Покажу инструменты, метрики и конкретные решения, которые можно повторить в вашей команде. 🎬🤖
Зачем мы вообще делали демо
У демо уязвимая цель: одновременно убедить и себя, и зрителя. Для нас это была проверка гипотез «ассистент экономит время» и «ассистент безопасен в боевых сценариях» — не в презентации, а в объективе камеры, где монтаж не спасёт от длинных задержек, сбоев и неестественного диалога. Мы решили снять все как есть, с реальным окружением, реальными запросами и честными метриками 📊.
Подготовка: сценарий, цели и метрики
Перед камерой любое «как-нибудь» превращается в «никогда». Поэтому на старте — чёткий план.
- Сценарий: три сцены — (1) голосовой диалог с ассистентом о задачах клиента, (2) обогащённый контекстом ответ из базы знаний (RAG), (3) автоматизация через инструменты: генерация письма и создание карточки задачи.
- Бизнес-цель: показать экономию времени менеджера на рутине (сбор фактов, черновики коммуникаций, фиксация дел).
- Технические KPI: p95 задержки ответа < 1.8 c; стоимость запроса < $0.015 за ход; точность ссылок в ответе ≥ 95%; ноль утечек приватных данных; устойчивость при деградации сети.
- Ограничения: только публичные или синтетические данные; никакого «склейного» монтажа для сокрытия длинных пауз; весь экран — на одном тейке.
Технический бэкстейдж ассистента
Архитектура
Сердце демо — оркестратор диалога, который решает: когда звать инструменты, когда пользоваться памятью, а когда отвечать напрямую. Мы используем RAG-пайплайн с векторным поиском, короткую и долгую память, а также набор действий: отправка письма, создание задач, генерация резюме разговора. Для многотуровых разговоров хранится «сжатая» история, чтобы держать контекст без роста токенов.
Контент и поиск
- Ингест: документы проходят нормализацию, разбиение на смысловые куски (chunking 500–800 токенов, overlap 80–100), обогащение заголовками и ссылками-источниками.
- Индекс: векторное хранилище с компактными эмбеддингами; поверх — фильтры по типу документа и свежести.
- Реранкинг: лёгкая стадия перекомпоновки результатов, чтобы поднять релевантность и уменьшить галлюцинации.
Цепочки подсказок и безопасность
- Системные роли: отдельные промпты для диалога, извлечения фактов, цитирования источников и форматирования.
- Защита: правила для PII, фильтры по темам, блок-листы инструкций и «немедленная деэскалация» при попытке jailbreak — ассистент вежливо отказывается и предлагает безопасную альтернативу.
- Валидация ссылок: ассистент обязан возвращать источники; оркестратор проверяет их доступность и соответствие тексту.
Оптимизация задержек и стоимости
- Стриминг: как только модель начинает генерировать, мы выводим ответ и синтезируем голос частями. В кадре видно «живое» появление текста.
- Кэш: повторные запросы к документам и эмбеддингам из памяти, плюс детерминированные подсказки для стандартных действий.
- Адаптивные контексты: динамически сокращаем историю и выкладываем только релевантные куски знаний.
Съёмочный бэкстейдж: свет, звук, план
Чтобы демо выглядело честно и при этом читалось с первого взгляда, мы собрали минималистичную, но надёжную схему 🎥:
- Камера: «плечевой» план + оver-the-shoulder на монитор, чтобы зритель видел живой экран.
- Свет: ключевой софтбокс под 45°, заполняющий противоположно, акцент на заднике. Без «глянца», только чистая картинка.
- Звук: петличка с рекордером и резерв на бум-микрофон; шумодав и де-эссер — уже на посте.
- Кэпчер экрана: запись 60 fps, крупные шрифты, высококонтрастные цвета. Курсор — медленный, клики — озвучены.
- Телесуфлер: только для вводных и CTA; живой диалог — импровизация по скелету.
Голос ассистента и A/B-тест
Мы протестировали два голоса TTS: «нейтральный тёплый» и «энергичный с лёгкой улыбкой». Вопрос был не эстетики, а восприятия скорости. Интересно, но даже при равной задержке зрители субъективно оценивали «улыбчивый» голос как более быстрый. В итоге оставили его и слегка подняли темп речи, сохранив разборчивость 🎙️.
Монтаж: честность важнее блеска
- Черновой монтаж: один семнадцатиминутный тейк без склеек на ключевых сценах.
- B‑roll: только справочные вставки (архитектура, графики задержек), чтобы не дробить внимание.
- Сабтайтлы: ручная правка ASR, подсветка ключевых слов, цветные бейджи для «RAG», «Tools», «Safety».
- Цвет: лёгкое выравнивание кожи и контраста, без «инстаграм-фильтров».
- Аудио: шумопонижение, нормализация до −14 LUFS, подчистка щелчков.
Промахи и как мы их исправили
- Блики на мониторе — переставили ключевой свет и заматировали экран антибликовым фильтром.
- Спайки задержек — включили «ленивый прогрев» моделей и warm cache перед дублируемыми сценами, ограничили параллелизм инструментов.
- Избыточная болтливость ассистента — добавили краткий режим ответа и лимит на «ритуальные» фразы. Плюс явные цели в промпте: «ответь в 3–5 предложениях».
- Ссылки без контекста — форсировали цитаты с указанием источника и короткими выдержками.
Отзыв тестового пользователя
«Мне понравилось, что ассистент не пытается казаться умнее, чем есть: спрашивает уточнения и показывает, откуда взял факты. За встречу мы сэкономили минут 15–20 — черновик письма и заметка в CRM появились сами. Пара раз он слишком подробно отвечал, но краткий режим это исправил».
Мы замерили: на её кейсе время до отправки первого корректного письма сократилось с 11:40 до 4:10, точность ссылок — 100%, p95 задержки — 1.6 c. Это не «вау-магия», это скучная инженерия, которую любят клиенты 💚.
Мини‑чек‑лист подготовки демо
- Определите 1–2 метрики успеха и снимайте так, чтобы их было видно.
- Сведите сценарий к проблеме пользователя, а не к параду фич.
- Прогрейте модели и кэши; проверьте деградацию сети.
- Сделайте «краткий режим» речи и текста — зритель благодарен.
- Покажите источники. Доверие важнее красноречия.
- Запишите звук отдельно и держите резерв.
- Оставьте в кадре огрехи — они добавляют правды.
Что дальше
Следующая итерация — персонализация промптов под роли и адаптивный голос: дружелюбный в онбординге, нейтральный в аналитике, уверенный в продажах. Параллельно расширим «инструменты» ассистента — интеграции с таск‑менеджерами и почтой. И да, снимем короткие вертикали с теми же метриками — чтобы сравнить, как они работают в соцсетях.
Если у вас есть вопросы по стеку, безопасности или съёмке — пишите. Разберём реальные кейсы и цифры. Спасибо команде за то, что не боится показать процесс, а не только результат. 🚀
— Константин Романков, Wildbots