- Раздел
- Модели и API
- Сложность
- средняя
- Обновлено
- 2026-05-19
Модели и API
ДоказательстваДанные, права, ограничения и метрики в тексте статьи.
АудитКороткий разбор процесса перед пилотом.
Короткий ответ
Стоимость LLM API нельзя считать только как “цена токенов умножить на запросы”. Реальная стоимость включает input/output tokens, кэш, длинный контекст, RAG-поиск, embeddings, retries, ошибки, логирование, мониторинг, latency и ручную проверку. В бизнесе важна стоимость успешного результата, а не стоимость одного вызова модели.
Если модель стоит дешево, но оператор переписывает половину ответов, она может быть дороже сильной модели. Если RAG снижает ошибки, он может окупиться, даже если добавляет отдельные расходы.
Из чего складывается стоимость
Минимальная формула:
стоимость сценария =
model input tokens
+ model output tokens
+ retries
+ embeddings / search / reranking
+ хранение и логи
+ ручная проверка
+ исправление ошибок
+ инфраструктура и мониторинг
Для агентных сценариев добавьте стоимость нескольких шагов. Агент редко делает один вызов: он читает контекст, вызывает tools, уточняет, генерирует ответ и иногда повторяет попытку.
Токены
Провайдеры обычно тарифицируют входные и выходные токены по-разному. Выход может быть дороже входа. Длинный системный prompt, история диалога и большой RAG-контекст увеличивают стоимость каждого ответа.
Сокращайте не “текст вообще”, а ненужный контекст:
- уберите повторяющиеся инструкции;
- передавайте только нужные документы;
- ограничивайте историю диалога;
- используйте короткие форматы;
- задавайте лимит длины ответа;
- разделяйте дешевые и дорогие задачи.
RAG и embeddings
RAG добавляет расходы:
- embeddings документов;
- хранение индекса;
- поиск;
- reranking;
- токены найденных фрагментов;
- обновление корпуса;
- оценка качества.
Но RAG может снижать общую стоимость, если уменьшает ручные правки и ошибки. Ответ без источника дешевле только до первой дорогой ошибки.
Retries и fallback
Retries часто незаметны в оценке. Если 10% запросов повторяются из-за ошибок формата, rate limit или слабого prompt, стоимость растет. Fallback на другую модель тоже должен быть учтен.
Считайте:
- retry rate;
- долю ошибок API;
- долю ответов неправильного формата;
- среднее число шагов агента;
- долю ручных эскалаций;
- стоимость fallback.
Если агент делает 8 шагов там, где скрипт делает один, “дешевые токены” могут быстро стать дорогими.
Ручная проверка
Самая забытая статья расходов - человек. Если оператор тратит 2 минуты на правку каждого ответа, это нужно считать. Если юрист проверяет 20% документов, это тоже стоимость сценария.
Метрики:
| Метрика | Что показывает |
|---|---|
| Edit rate | Сколько ответов правят |
| Edit time | Сколько минут уходит |
| Escalation rate | Сколько случаев уходит человеку |
| False pass rate | Сколько плохих ответов прошло |
| Rework cost | Сколько стоит исправление |
Для продакшена считайте не “ответ сгенерирован”, а “ответ принят без вреда”.
Unit economics
Считайте стоимость единицы:
- обработанный тикет;
- квалифицированный лид;
- проверенный документ;
- найденный ответ;
- закрытая задача разработки;
- подготовленное КП.
Пример: один тикет стоит 4 рубля токенами, 1 рубль RAG, 6 рублей ручной правкой и 2 рубля инфраструктурой. Полная стоимость - 13 рублей. Если считать только токены, решение будет казаться дешевле в три раза.
Контроль расходов
Практические меры:
- лимиты по пользователю и сценарию;
- max output tokens;
- разные модели для простых и сложных задач;
- кэширование повторяемого контекста;
- короткие prompts;
- мониторинг p95 стоимости;
- alert на аномальные расходы;
- выключатель для агента.
Стоимость должна быть видна владельцу продукта, а не только разработчику в логах.
Чеклист
- Известна цена input и output tokens.
- Учтены RAG, embeddings, retries и logs.
- Считается стоимость успешного сценария.
- Ручные правки переведены в деньги.
- Есть лимиты и alerts.
- Есть fallback и цена fallback.
- Сравниваются модели по качеству и полной стоимости.
- Есть решение, где нужна дорогая модель, а где хватит дешевой.
FAQ
Что важнее: цена токена или качество?
Для бизнес-сценария важнее стоимость успешного результата. Дешевый токен не помогает, если ответ часто правят.
Нужно ли считать embeddings?
Да, если RAG используется регулярно. Индексация, хранение и обновления входят в полную стоимость.
Как снизить расходы быстрее всего?
Убрать лишний контекст, ограничить длину ответа, разделить простые и сложные задачи, считать retries и ручные правки.
Что читать дальше?
Смотрите YandexGPT API, GigaChat API и Qwen API.
Источники
Следующий шаг
Проверьте этот сценарий на своем процессе
Опишите систему учета, данные, ограничения по правам и ожидаемый эффект. Ответим, что можно запускать в пилот, а где сначала нужен порядок в процессе.