Чек-лист выбора СХД для RAG и векторных баз
Помогает разделить corpus storage, embedding pipeline, hot vector tier, snapshots, backup и recovery до запуска корпоративной базы знаний.
Типовой контур RAG storage
Что проверить до выбора СХД
Corpus
Объём документов, типы файлов, частота обновления, версионирование, lifecycle и доступы.
Embeddings
Количество chunks, размер embeddings, re-indexing, промежуточные артефакты и места хранения.
Vector DB
Qdrant, Milvus, Weaviate, pgvector или другой стек; latency p95/p99 и размер metadata.
Snapshots
Снапшоты индексов перед массовой переиндексацией, rollback и restore-процедуры.
Частые вопросы
Где хранить корпус документов для RAG?
Обычно corpus хранится в S3/NAS-слое с версионированием, lifecycle и backup. Векторные индексы выносятся на быстрый SSD/All-Flash tier.
Почему vector DB нельзя считать обычной файловой нагрузкой?
Retrieval чувствителен к latency p95/p99, random I/O и metadata. Поэтому для него нужны отдельные тесты и быстрый storage tier.
Получить предварительный подбор
Достаточно компании, email, типа задачи и примерного объёма. Детали уточнит инженер.