Отчет по заданию Hydra

Объяснение реализации

Реализовано применение фреймворка Hydra. Файл конфигурации config.yaml включает несколько групп параметров: пути к данным и артефактам, файл с данными, параметры для ML-модели.

Консольный скрипт обучения ML-модели

Скрипт trees-training-multirun.py с передачей параметров и возможностью multirun-запуска с подстановкой (перебором) групп параметров, что является частой практикой в DS экспериментах. Конфигурация поддерживает количество используемых ядер процессора NUM_CORES, получаемое из переменной среды ОС. Варианты запуска, примеры:

python src/trees-training-multirun.py
python src/trees-training-multirun.py -m params.epochs=20
python src/trees-training-multirun.py -m params.batch_size=32,64

Ноутбук с получением данных по Compose-API

Ноутбук trees-training-getparams.ipynb с загрузкой параметров конфигурации через Compose-API.

Созданные артефакты

Артефакт обучения ML-модели

Артефакт создан как часть workflow процесса обработки данных. Обучение модели носит демонстрационный характер.

Входной файл: data-data-clean-half.csv.gz

Достигнутая точность: 0.802


Артефакт обучения ML-модели

Артефакт создан как часть workflow процесса обработки данных. Обучение модели носит демонстрационный характер.

Входной файл: data-data-clean-half.csv.gz

Достигнутая точность: 0.802