- Раздел
- RAG и базы знаний
- Сложность
- сложная
- Обновлено
- 2026-05-19
RAG и базы знаний
ДоказательстваДанные, права, ограничения и метрики в тексте статьи.
АудитКороткий разбор процесса перед пилотом.
Короткий ответ
Локальный RAG нужен, когда документы нельзя отправлять во внешний API или когда объем, latency, требования безопасности и контроль инфраструктуры важнее простоты hosted-сервиса. Но on-premise контур не бесплатен: нужны серверы, модель, векторная база, индексация, мониторинг, обновления и люди, которые отвечают за качество.
Если данных немного и их можно отправлять в облачный API, локальный RAG может быть лишним. Начните с требований: какие документы, какие права, кто пользователь, какая цена ошибки и что запрещено передавать наружу.
Когда нужен локальный контур
Сценарии:
- закрытые юридические документы;
- персональные данные;
- медицинские, финансовые или HR-материалы;
- внутренние регламенты с жесткими правами;
- большой объем запросов;
- требования к размещению внутри периметра;
- интеграция с локальными системами без выхода наружу.
Если причина только “так спокойнее”, посчитайте стоимость. Иногда маскирование, договор с провайдером и ограниченный контекст дешевле и надежнее.
Архитектура
Типовой локальный RAG:
| Слой | Что делает |
|---|---|
| Корпус | Документы, wiki, тикеты, договоры |
| Парсинг | PDF, DOCX, HTML, OCR, таблицы |
| Индексация | Chunking, embeddings, метаданные |
| Векторная база | Поиск релевантных фрагментов |
| Модель | Генерация ответа по источникам |
| Права | Фильтрация до генерации |
| Оценка | Тесты retrieval и generation |
Самые частые проблемы не в модели, а в корпусе: дубли, архивные документы, плохой OCR, противоречия и отсутствие владельцев.
Модель и инфраструктура
Локальная модель требует эксплуатации. Нужно выбрать:
- размер модели;
- GPU или CPU;
- inference server;
- latency;
- контекстное окно;
- качество русского языка;
- формат structured output;
- стоимость обновлений.
Малая модель может быть быстрой, но слабой для сложных ответов. Большая модель может требовать дорогой GPU и хорошего MLOps. Поэтому сравнивайте не “локальная против облачной”, а стоимость успешного ответа.
Векторная база и поиск
Для локального RAG важны:
- качество embeddings;
- chunking под тип документа;
- метаданные;
- фильтры прав;
- reranking;
- свежесть индекса;
- ссылки на источник.
Если пользователь не имеет доступа к документу, этот документ не должен попасть в retrieval. Права должны работать до генерации, а не в prompt.
Стоимость
Локальный RAG включает:
- серверы и GPU;
- хранение документов и индекса;
- резервное копирование;
- мониторинг;
- обновление моделей;
- MLOps/DevOps;
- ручную разметку тестов;
- поддержку пользователей.
На малом объеме cloud API часто дешевле. Локальный контур начинает иметь смысл при строгих требованиях к данным, большом объеме или необходимости полного контроля.
План пилота
- Выберите один корпус документов.
- Опишите права и запреты.
- Подготовьте 100-200 тестовых вопросов.
- Поднимите минимальный индекс.
- Сравните локальную модель с hosted baseline.
- Измерьте retrieval, faithfulness, latency и стоимость.
- Решите, что должно остаться on-premise, а что можно вынести наружу.
Пилот должен ответить на вопрос “зачем локально”, а не просто доказать, что локально возможно.
Чеклист
- Есть юридическое или экономическое основание для локального контура.
- Корпус ограничен и очищен.
- Права применяются до поиска.
- Есть тестовый набор.
- Сравнен hosted baseline.
- Измерены latency и стоимость.
- Есть владелец инфраструктуры.
- Есть процесс обновления документов и индекса.
FAQ
Локальный RAG полностью убирает риски?
Нет. Он снижает риск передачи данных наружу, но остаются ошибки источников, прав, модели, OCR и эксплуатации.
Можно ли начать без GPU?
Иногда да, если объем малый и модель небольшая. Но для рабочих нагрузок часто нужен GPU или гибридный контур.
Что сложнее всего?
Не запуск модели, а качество корпуса, права доступа, мониторинг и регулярная оценка.
Что читать дальше?
Смотрите RAG систему, оценку качества RAG и поиск по документам с ИИ.
Источники
Следующий шаг
Проверьте этот сценарий на своем процессе
Опишите систему учета, данные, ограничения по правам и ожидаемый эффект. Ответим, что можно запускать в пилот, а где сначала нужен порядок в процессе.