Раздел
RAG и базы знаний
Сложность
сложная
Обновлено
2026-05-19
Сценарий

RAG и базы знаний

Доказательства

Данные, права, ограничения и метрики в тексте статьи.

Аудит

Короткий разбор процесса перед пилотом.

Короткий ответ

Локальный RAG нужен, когда документы нельзя отправлять во внешний API или когда объем, latency, требования безопасности и контроль инфраструктуры важнее простоты hosted-сервиса. Но on-premise контур не бесплатен: нужны серверы, модель, векторная база, индексация, мониторинг, обновления и люди, которые отвечают за качество.

Если данных немного и их можно отправлять в облачный API, локальный RAG может быть лишним. Начните с требований: какие документы, какие права, кто пользователь, какая цена ошибки и что запрещено передавать наружу.

Когда нужен локальный контур

Сценарии:

  • закрытые юридические документы;
  • персональные данные;
  • медицинские, финансовые или HR-материалы;
  • внутренние регламенты с жесткими правами;
  • большой объем запросов;
  • требования к размещению внутри периметра;
  • интеграция с локальными системами без выхода наружу.

Если причина только “так спокойнее”, посчитайте стоимость. Иногда маскирование, договор с провайдером и ограниченный контекст дешевле и надежнее.

Архитектура

Типовой локальный RAG:

СлойЧто делает
КорпусДокументы, wiki, тикеты, договоры
ПарсингPDF, DOCX, HTML, OCR, таблицы
ИндексацияChunking, embeddings, метаданные
Векторная базаПоиск релевантных фрагментов
МодельГенерация ответа по источникам
ПраваФильтрация до генерации
ОценкаТесты retrieval и generation

Самые частые проблемы не в модели, а в корпусе: дубли, архивные документы, плохой OCR, противоречия и отсутствие владельцев.

Модель и инфраструктура

Локальная модель требует эксплуатации. Нужно выбрать:

  • размер модели;
  • GPU или CPU;
  • inference server;
  • latency;
  • контекстное окно;
  • качество русского языка;
  • формат structured output;
  • стоимость обновлений.

Малая модель может быть быстрой, но слабой для сложных ответов. Большая модель может требовать дорогой GPU и хорошего MLOps. Поэтому сравнивайте не “локальная против облачной”, а стоимость успешного ответа.

Векторная база и поиск

Для локального RAG важны:

  • качество embeddings;
  • chunking под тип документа;
  • метаданные;
  • фильтры прав;
  • reranking;
  • свежесть индекса;
  • ссылки на источник.

Если пользователь не имеет доступа к документу, этот документ не должен попасть в retrieval. Права должны работать до генерации, а не в prompt.

Стоимость

Локальный RAG включает:

  • серверы и GPU;
  • хранение документов и индекса;
  • резервное копирование;
  • мониторинг;
  • обновление моделей;
  • MLOps/DevOps;
  • ручную разметку тестов;
  • поддержку пользователей.

На малом объеме cloud API часто дешевле. Локальный контур начинает иметь смысл при строгих требованиях к данным, большом объеме или необходимости полного контроля.

План пилота

  1. Выберите один корпус документов.
  2. Опишите права и запреты.
  3. Подготовьте 100-200 тестовых вопросов.
  4. Поднимите минимальный индекс.
  5. Сравните локальную модель с hosted baseline.
  6. Измерьте retrieval, faithfulness, latency и стоимость.
  7. Решите, что должно остаться on-premise, а что можно вынести наружу.

Пилот должен ответить на вопрос “зачем локально”, а не просто доказать, что локально возможно.

Чеклист

  • Есть юридическое или экономическое основание для локального контура.
  • Корпус ограничен и очищен.
  • Права применяются до поиска.
  • Есть тестовый набор.
  • Сравнен hosted baseline.
  • Измерены latency и стоимость.
  • Есть владелец инфраструктуры.
  • Есть процесс обновления документов и индекса.

FAQ

Локальный RAG полностью убирает риски?

Нет. Он снижает риск передачи данных наружу, но остаются ошибки источников, прав, модели, OCR и эксплуатации.

Можно ли начать без GPU?

Иногда да, если объем малый и модель небольшая. Но для рабочих нагрузок часто нужен GPU или гибридный контур.

Что сложнее всего?

Не запуск модели, а качество корпуса, права доступа, мониторинг и регулярная оценка.

Что читать дальше?

Смотрите RAG систему, оценку качества RAG и поиск по документам с ИИ.

Источники

Следующий шаг

Проверьте этот сценарий на своем процессе

Опишите систему учета, данные, ограничения по правам и ожидаемый эффект. Ответим, что можно запускать в пилот, а где сначала нужен порядок в процессе.

Разобрать локальный RAG Вернуться к маршруту раздела →