# Выполнение проекта (Технологии анализа данных на Python)

## Анализ и предварительная обработка данных

Пример работы: https://colab.research.google.com/drive/125y5Ezx-p2ycIOnR-4EsQUvXbVlqTZEz?usp=sharing

1. Загрузить датасет
2. Проанализировать данные
- Вывести информацию о датасете
- Вывести описательную статистику датасета
- Построить графики
3. Обработать числовых колонок
  1. Заполнить пропуски (средним, либо алгоритмом / моделью)
4. Обработать категориальных значений
  1. Обработать биномиальных (булевых) колонок
    - Заполнить пропуски (мода)
  2. Обработать колонок, содержащих множественные значения
    - Различные методы, в том числе разделение одной колонки на несколько
    - Далее проработать как с другими типами колонок
  3. Категориальные колонки
    - Заполнить пропуски (обычно мода)
    - Привести к числовой форме (`mapping` или `pd.get_dummies`, остальное - реже)
5. Проверить, что все пропуски заполнены и все значения числовые (`uint8`, `int32`, `float64`)
6. Сохранить датасет


## Моделирование (Обучение и оценивание моделей)

Пример работы 1 (подготовка данных + все модели, кроме нейронной сети): https://colab.research.google.com/drive/1LGtK1FeSAJWkMOvfOr6wwuxhCZENrzaj?usp=sharing

Пример работы 2 (нейронные сети для решения задач регрессии и классификации): https://colab.research.google.com/drive/1x4og6moQ4__bV6kF-SOmOOA4AYBUaB8i?usp=sharing


---



1. Загрузить предобработанные данные в формате csv с помощью pandas.
2. Выделить целевой признак: получить столбец y и матрицу X из датасета.
3. Разбить данные на обучающую и тестирующую выборки с помощью [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).
4. Провести масштабирование данных (только X_train и X_test) с помощью [StandartScaller](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) (или [MinMaxScaller](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html), по вашему желанию).
5. Обучить следующие модели (**для каждой из них [подобрать гиперпараметры](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) - хотя бы по одному для каждой модели**):

  **- для задачи регрессии:**
    - [Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) - линейная регрессия с L1-регуляризацией;
    - [Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) - линейная регрессия с L2-регуляризацией;
    - [DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor) - регрессор на основе дерева решений;
    - [BaggingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html) - регрессор на основе ансамбля деревьев, обученного с помощью бэггинга;
    - [Полносвязная нейронная сеть](https://www.tensorflow.org/tutorials/keras/regression#regression_with_a_deep_neural_network_dnn) - с помощью TensorFlow, см. пример выше;
    
  **- для задачи классификации:**
    - [KNN](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) - k ближайших соседей;
    - [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) - логистическая регрессия;
    - [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) - классификатор на основе дерева решений;
    - [BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html) - классификатор на основе ансамбля деревьев, обученного с помощью бэггинга;
    - [Полносвязная нейронная сеть](https://towardsdatascience.com/how-to-train-a-classification-model-with-tensorflow-in-10-minutes-fd2b7cfba86) - с помощью TensorFlow, см. пример выше
6. Оценить все построенные модели с использованием метрик:

  **- для задачи регрессии:**
    - [MAE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) - средняя абсолюбная ошибка;
    - [MSE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html) - средняя квадратичная ошибка;
    - коэффициент детерминации (с помощью вызова метода score, как в примерах);

   **- для задачи классификации:**
    - [confusion matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) - матрица путаницы;
    - [classification report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) - отчет о классификации (модели оценивать рекомендуется по среднему значению метрики F1).

7. Выбрать на основе значений метрик лучшую модель (напоминаю, что **чем больше коэффициент детерминации - тем лучше для регрессии**; **чем больше F1 - тем лучше для классификации**).
8. Сохранить на диск лучшую из всех моделей для дальнейшего использования ее в дашборде (если вы обучали модели в Colab, самым удобным вариантом является подключение Google Drive и сохранение модели туда).

## Инференс (создание дашборда с использованием выбранной модели)

Пример работы: https://github.com/otverskoj/streamlit-demo

Пример с запуском из colab: https://colab.research.google.com/drive/14l-AZsmJYIpI4Oi8KDoGftHGsa4G_dlf?usp=sharing

Ознакомьтесь с материалом по ссылке: https://drive.google.com/file/d/1JXvI_B0SwUyM2eQZFhQ8-yyRb6l9XF4J/view?usp=share_link

Сериализуйте вашу модель и представьте её с помощью `streamlit`. Дашборд должен содержать как минимум две страницы:
- описание задачи и данных
- страница с возможностью выполнить запрос к модели

В дашборде достаточно использовать одну модель.