Отчет по заданию LakeFS
Подготовлен Docker compose образ, включающий сборку LakeFS, minIO (AWS S3 эмулятор) и БД Postgres.
Реализован Workflow пайплайн с использованием фреймворка Snakemake, демонстрирующий загрузку и версионирование датасета “NY 2015 street tree centus tree data”.
После запуска Docker контейнера были сделаны следующие настройки:
Конфигурация AWS (minIO)
aws configure
(указать секреты из конфига Docker-compose: minioadmin / minioadmin
)
Создаем бакет с именем data
:
aws s3 mb s3://data
Задаем локальный endpoint:
export AWS_ENDPOINT_URL=http://localhost:9000
(Linux)
$Env:AWS_ENDPOINT_URL="http://localhost:9000"
(Windows Power Shell)
Конфигурация LakeFS
lakectl config
(указать секреты, выведенные LakeFS при первом запуске)
Создаем репозиторий:
lakectl repo create lakefs://data s3://data
Запуск пайплайна
Пример запуска workflow пайплайна Snakemake (из корневой папки проекта):
snakemake --cores 2 --snakefile lakefs/snakefile.smk