AI data lake

AI data lake и S3-хранилище датасетов

Масштабируемое S3/NAS-хранилище для датасетов, документов, логов, медиа, checkpoints, моделей и артефактов экспериментов.

Что закрывает решение

dataset lake

Датасеты разделяются на активный staging tier и долгосрочный S3/NAS-контур. Это ускоряет обучение и сохраняет воспроизводимость версий данных.

model artifacts

Checkpoints, model artifacts и результаты экспериментов хранятся с retention-политиками, чтобы можно было восстановить обучение, сравнить версии и не потерять дорогие GPU-итерации.

checkpoints

Checkpoints, model artifacts и результаты экспериментов хранятся с retention-политиками, чтобы можно было восстановить обучение, сравнить версии и не потерять дорогие GPU-итерации.

логирование экспериментов

Параметр влияет на выбор дисков, сети, схемы защиты данных, мониторинга и SLA. На пресейле проверяем его через профиль нагрузки, рост данных и требования к восстановлению.

versioned datasets

Датасеты разделяются на активный staging tier и долгосрочный S3/NAS-контур. Это ускоряет обучение и сохраняет воспроизводимость версий данных.

Архитектурные варианты

СлойВариантыКомментарий
ПротоколыS3, NFS, SMB, CSI по проектуФинальный набор зависит от клиента, нагрузки и требований к отказоустойчивости.
SDS / ПОCeph RGW, S3-compatible storage, OpenZFS, JuiceFS поверх S3Стек выбирается с учётом компетенций эксплуатации, SLA и стоимости владения.
Защита данныхreplica, mirror, EC, RAIDZ или hybrid tieringРассчитываем полезную ёмкость, rebuild/recovery и поведение в деградированном режиме.

Подходящие платформы

STOR-4U-60HDD · 4U · 60 HDD · до 1,2 ПБ raw при HDD 20 ТБ raw
STOR-4U-60HDD · 4U · 60 HDD · до 1,2 ПБ raw при HDD 20 ТБ raw
HDD-платформа 4U высокой плотности

STOR-4U-60HDD

Максимальная плотность HDD для архивов, геоданных, S3 и больших backup repository.

Диски
60 HDD
Raw
до 1,2 ПБ raw при HDD 20 ТБ
Useful
по replica/EC/RAIDZ и резерву заполнения
Сеть
10/25/40/100GbE по проекту
Лучше всего для:
  • Архивы
  • Геоданные
  • S3 object storage
AI data lakeS3 corpusBackup repositoryCold/warm tier

Открыть страницу Даташит

CLUSTOR-44U-384HDD · 44U · 384 HDD · до 7,68 ПБ raw при HDD 20 ТБ raw
CLUSTOR-44U-384HDD · 44U · 384 HDD · до 7,68 ПБ raw при HDD 20 ТБ raw
Rack-кластер HDD

CLUSTOR-44U-384HDD

Масштабируемый HDD-кластер для ёмких СХД, S3 и частных облаков.

Диски
384 HDD
Raw
до 7,68 ПБ raw при HDD 20 ТБ
Useful
по replica/EC/RAIDZ и резерву заполнения
Сеть
25/40/100GbE spine/leaf по проекту
Лучше всего для:
  • S3 object storage
  • Ceph cluster
  • Архивы
AI data lakeS3 corpusBackup repositoryCold/warm tier

Открыть страницу Даташит

CLUSTOR-44U-480HDD · 44U · 480 HDD · до 9,6 ПБ raw при HDD 20 ТБ raw
CLUSTOR-44U-480HDD · 44U · 480 HDD · до 9,6 ПБ raw при HDD 20 ТБ raw
Rack-кластер HDD высокой плотности

CLUSTOR-44U-480HDD

Плотная 44U-конфигурация для архивов, S3 и больших массивов холодных данных.

Диски
480 HDD
Raw
до 9,6 ПБ raw при HDD 20 ТБ
Useful
по replica/EC/RAIDZ и резерву заполнения
Сеть
25/40/100GbE spine/leaf по проекту
Лучше всего для:
  • Архивы
  • S3 cold tier
  • Backup repository
AI data lakeS3 corpusBackup repositoryCold/warm tier

Открыть страницу Даташит

CLUSTOR-44U-512HDD · 44U · 512 HDD · до 10,24 ПБ raw при HDD 20 ТБ raw
CLUSTOR-44U-512HDD · 44U · 512 HDD · до 10,24 ПБ raw при HDD 20 ТБ raw
Rack-кластер HDD максимальной плотности

CLUSTOR-44U-512HDD

Максимально ёмкий rack-кластер для крупных архивов, резервного хранения и S3.

Диски
512 HDD
Raw
до 10,24 ПБ raw при HDD 20 ТБ
Useful
по replica/EC/RAIDZ и резерву заполнения
Сеть
25/40/100GbE spine/leaf по проекту
Лучше всего для:
  • Крупные архивы
  • S3 object storage
  • Backup/DR repository
AI data lakeS3 corpusBackup repositoryCold/warm tier

Открыть страницу Даташит

Что нужно для точного расчёта

объём датасетов

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

размер объектов

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

число training jobs

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

retention checkpoints

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

политика версионирования

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

требования к immutable storage

Эти данные помогают выбрать диски, сеть, схему защиты и уровень поддержки без завышения бюджета.

Оставить инженерную заявку

Ответьте на несколько вопросов — инженер подготовит проектную конфигурацию, список уточнений или коммерческое предложение.

Параметры задачи
Протоколы / интеграции
Инженерный подбор СХД

Нужно быстро понять конфигурацию, стоимость и риски?

Опишите задачу — подготовим проектную архитектуру, список уточнений, варианты по бюджету и уровню отказоустойчивости.