### **Финальный проект по курсу "Основы машинного обучения"**  

#### **Цель проекта:**  
Хочется, чтобы вы применили полученные знания на практике - не в рамках домашки, а в рамках большого исследования. 

Вам нужно смаостоятельно выбрать датасет, провести разведочный анализ (EDA), предобработать данные, обучить несколько моделей, сравнить их результаты и сделать выводы. Я уверена на 100%, что это смогут все. Дальше начинаются вариации относительно вашей оценки.  

#### **Шаги для выполнения:**  
1. **Выбор датасета**  
   - Можно взять готовый датасет (Kaggle, UCI, Google Dataset Search и др.)  
   - **+допбаллы** за самостоятельный парсинг данных (например, сбор отзывов, погоды, цен и т. д.),  

2. **Анализ данных (EDA)**  
   - Визуализация распределений, поиск выбросов, анализ пропусков.  
   - Корреляционный анализ (если уместно).  
   - Формулировка гипотез о данных.  
   - **+допбаллы** за фичаинжиниринг - если вы аргументированно рассказываете какие новые признаки построили и почему.  

3. **Предобработка данных**  
   - Очистка данных (удаление/заполнение пропусков, обработка выбросов).  
   - Кодирование категориальных признаков, нормализация/стандартизация.  
   - **+допбаллы** за аугментацию данных (например, синтетические данные, SMOTE для дисбаланса).  Например, поняли, что не хватает данных и дособрали сами или нагенерировали.

4. **Обучение моделей**  
   - Применить несколько алгоритмов и осмысленно!!! поэкспериментировать в сторону улучшения финальной метрики
   - **+допбаллы** за методы вне программы  

5. **Эксперименты и логирование**  
   - Сравнить модели по метрикам (accuracy, MSE, F1 и т. д.).  
   - **+допбаллы** за корректное логирование (например таблица в `README.md` или автологгирование). 

6. **Визуализация и презентация**  
   - Графики (матрица ошибок, кривые обучения, важность признаков).  
   - Четкие выводы: какая модель лучше и почему, о чем это говорит 

7. **Оформление кода и репозитория**  
   - Код должен быть в **отдельном GitHub-репозитории** с четкой структурой:  
     ```
     /data          # исходные данные  
     /notebooks     # Jupyter-тетрадки с анализом  
     /src           # скрипты предобработки и обучения  
     README.md      # описание проекта, инструкции, результаты  
     ```  

#### **Критерии оценки:**  

Здесь мне признаюсь честно - сложно давать какие-то четкие критерии, поэтому я просто приведу примеры проектов, за которые я бы поставила разные оценки

**4 балла** – "Просто кинул данные в модель и сказал, что всё работает". Есть какой-то взятый непонятно откуда датасет, без просмотра баланса классов, без предобработки. Датасет закинут в самую простую модель, выведена 1 метрика (accuracy 82%, например). И есть комментарий, что это хорошее качество. На этом все.

**5 баллов** – "Сделал чуть больше минимума, но без глубины". Есть минимальный и простой EDA, гистограммы и проч, но без выводов. Минимальное сравнение базовых моделей - например, для задачи классификации взяты просто линейная классификация из коробки без настройки, без подбора гиперпараметров.
**6 баллов** – Хороший EDA с выводами". Проведен разведочный анализ данных с базовыми визуализациями и выводами. Есть простая предобработка данных (удаление пропусков, масштабирование). Сравнение 2-3 базовых моделей. Использовано несколько метрик для оценки качества. Код понятный и с комментариями.
**7 баллов** – "Уверенная работа с моделями". Качественный EDA с полезными выводами. Хорошая предобработка данных. Простая инженерия признаков. Использованы 3-4 модели с базовой настройкой параметров. Разделение данных на обучающую и тестовую выборки. Анализ результатов с подходящими метриками. Присутствуют содержательные выводы по результатам.
**8 баллов** - "Полноценный проект для школьного уровня". Все пункты предыдущего уровня, плюс: осмысленная инженерия признаков, простой подбор гиперпараметров, использование кросс-валидации, анализ важности признаков, понятная визуализация результатов. Делает содержательные выводы о работе модели и возможных улучшениях. Хорошо структурированный, документированный код с понятными объяснениями
**9-10 баллов**  - Что-то сверх 8 баллов.

#### **Что можно делать (но можете выбрать и самостоятельно):**  
- Предсказание цен на жилье  (желательно на датасете с российскими данными, так интереснее)
- Классификация изображений (кошки/собаки, эмоции)  
- Анализ тональности отзывов  
- Прогнозирование погоды или курса акций  
- Мультклассовая классификация


#### **Список понятий для реализации в проекте**

Про это полезно будет почитать и применить, если вы хотите проект высокого качества

##### Предобработка данных
1. Обработка пропущенных значений (заполнение средними, медианами, KNN-imputer)
2. Обработка выбросов (удаление, винзоризация, логарифмирование)
3. Нормализация и стандартизация данных
4. One-hot кодирование
5. Label Encoding и Ordinal Encoding
6. Масштабирование признаков (Min-Max, StandardScaler)
7. Биннинг (разбиение непрерывных данных на категории)

##### Визуализация и анализ данных
1. Корреляционные матрицы (тепловые карты)
2. PCA (метод главных компонент) для визуализации
3. t-SNE для визуализации многомерных данных
4. Визуализация признаков (Boxplot, Violin plot, Scatter plot)
5. Визуализация важности признаков
6. Графики обучения (Learning curves)

##### Инженерия признаков
1. Создание полиномиальных признаков
2. Агрегирование признаков (min, max, mean, std)
3. Работа с временными рядами (признаки на основе дат, скользящие средние)
4. RFE (Recursive Feature Elimination)
5. Взаимодействия признаков (feature interactions)
6. Преобразование признаков на основе распределений

##### Работа с дисбалансом данных
1. Upsampling (SMOTE, ADASYN)
2. Downsampling (RandomUnderSampler)
3. Взвешенные классы в моделях
4. Аугментация данных (для изображений)

##### Модели и алгоритмы
1. Ансамбли моделей (голосование, стекинг)
2. Бэггинг и бустинг (RandomForest, Gradient Boosting)
3. Модели с регуляризацией (Lasso, Ridge, ElasticNet)
4. Нейронные сети для простых задач
5. Метрические алгоритмы (KNN с оптимизацией)
6. Деревья решений с визуализацией

##### Оптимизация гиперпараметров
1. GridSearchCV (поиск по сетке)
2. RandomizedSearchCV (случайный поиск)
3. Bayesian Optimization (байесовская оптимизация)
4. Кросс-валидация (K-Fold, StratifiedKFold)
5. Nested Cross-Validation

##### Оценка моделей
1. Confusion Matrix (матрица ошибок)
2. ROC-AUC кривая и PR-кривая
3. F1-score, precision, recall
4. Метрики для регрессии (RMSE, MAE, R²)
5. Cumulative gains и lift chart
6. Калибровка вероятностей модели

#### Интерпретация моделей
1. SHAP values
2. Partial Dependence Plots
3. Графики остатков для регрессии
4. Feature importance 
5. Анализ ошибок модели

##### Работа с текстом
1. Векторизация текста (TF-IDF, Bag of Words)
2. Word Embeddings (Word2Vec)
3. Предобработка текста (лемматизация, стемминг)
4. Простые текстовые классификаторы

##### Работа с изображениями
1. Простая векторизация изображений
2. Использование предобученных моделей 
3. Аугментация изображений
4. Базовая свёрточная нейросеть

##### Дополнительно
1. Сохранение и загрузка моделей
2. Создание пайплайнов для обработки данных
3. Оформление кода в виде классов и функций
4. Параллельные вычисления для ускорения работы
5. Простые API для моделей
6. Документирование кода и результатов

Реализация даже части из этих понятий с пониманием их работы значительно повысит качество вашего проекта и поможет получить высокую оценку.