- preprocessing_time_series.py - старый-добрый скрипт, где впервые приклеены все справочники и нагерены переменные по продукту + лаги по объемам и стоимости продаж
- crossval.py - устаревший файлик с зафиксированной кросс-валидацией (которая не соотносится с лидербордом)
- gridsearch.py - переборщик параметров для xgboost (и в принципе, при допиливании, для любой другой модельки)
- data_split_by_state.py - очень важный скрипт, который раскидывает трейн на штаты (нужен для сборки любого релиза)
- template.ipynb - базовый ноутбук с примером подхвата данных
- data_exploration.ipynb - графики, которые первые пришли в голову при обзоре переменных
- product_clustering.ipynb - кластеризация продуктов
- xgboost_v2.ipynb - xgboost и подбор параметров
- feature_test.ipynb - пример вызова генератора фич прямо из ноутбука и тут же построение и валидация модельки (можно использовать его для проверки своих гипотез)