# Звіт з аналізу даних та побудови моделей регресії

## Використаний підхід

В даній роботі було проведено аналіз даних з використанням методів машинного навчання. Основні кроки включали:

1.  **Попередня обробка даних:**
    *   Завантаження даних з файлу `financial_regression.csv`.
    *   Перевірка на наявність пропущених значень та їх обробка (заповнення середнім значенням для числових ознак та модою для категоріальних).
    *   Перетворення стовпця `date` з датою на числові ознаки: рік, місяць, день тижня та день місяця.

2.  **Аналіз даних:**
    *   Побудова кореляційної матриці для виявлення взаємозв'язків між змінними.

3.  **Розподіл даних:**
    *   Розділення даних на тренувальний та тестовий набори у співвідношенні 80:20.

4.  **Побудова та оцінка моделей:**
    *   Навчання моделі лінійної регресії.
    *   Навчання та порівняння моделей Ridge, Lasso та Decision Tree регресії.
    *   Оцінка якості моделей за допомогою метрик R^2 та MSE.

5.  **Відбір ознак:**
    *   Застосування методів відбору ознак на основі кореляції (фільтр) та з використанням Lasso (вбудований метод).
    *   Навчання моделей лінійної регресії на відібраних ознаках та порівняння результатів.

6.  **Оптимізація гіперпараметрів:**
    *   Використання Grid Search для підбору оптимальних гіперпараметрів для моделей Ridge та Lasso.
    *   Навчання моделей з оптимальними гіперпараметрами та порівняння результатів.

## Ключові результати

### Попередня обробка та аналіз даних

*   Пропущені значення були успішно оброблені.
*   Кореляційний аналіз виявив взаємозв'язки між деякими змінними. Візуалізація кореляційної матриці дозволила наочно представити ці взаємозв'язки.

### Моделі регресії

*   Базова модель лінійної регресії показала відносно низькі результати, що свідчить про складність задачі та/або наявність нелінійних залежностей.
*   Моделі Ridge, Lasso та Decision Tree показали різні результати, при цьому Decision Tree мала найкращі показники.
*   Відбір ознак на основі кореляції та Lasso регресії дозволив дещо покращити результати для Лінійної регресії.
*   Оптимізація гіперпараметрів за допомогою Grid Search дозволила покращити результати для моделей Ridge та Lasso.

### Порівняння моделей

| Модель         | R^2    | MSE     |
| :--------------- | :------ | :------- |
| Linear Regression | 0.5014 | 3334880.6814|
| Ridge           | 0.5060 | 3304062.2892 |
| Lasso           | 0.5135 | 3253710.8866 |
| Decision Tree  | 0.9785 | 143402.7985 |
| Кореляція | 0.7833 | 1452791.9310 |
| Lasso(відбір) | 0.7382 | 1753371.7084 |
| Ridge (Optimized) | 0.7652 | 1573450.4767 |
| Lasso (Optimized) | 0.7709 | 1535103.3408 |

**Візуалізація R^2:**

![Порівняння R^2](attachment:R_2.png)

**Візуалізація MSE:**

![Порівняння MSE](attachment:MSE.png)

**Візуалізація R^2 після оптимізації:**

![Порівняння R^2](attachment:R_2_O.png)

**Візуалізація MSE після оптимізації:**

![Порівняння MSE](attachment:MSE_O.png)

## Висновки

*   Найкращі результати показала модель **Decision Tree**.
*   Використання **Lasso регресії для відбору ознак** з подальшою оптимізацією гіперпараметрів (Ridge та Lasso) дозволило досягти прийнятної якості.
*   Оптимізація гіперпараметрів за допомогою **Grid Search** дала змогу покращити результати моделей Ridge та Lasso.
*   Для подальшого покращення результатів рекомендується:
    *   Спробувати інші алгоритми регресії (наприклад, Random Forest, Gradient Boosting).
    *   Використовувати методи генерації нових ознак (feature engineering).
    *   Зібрати більше даних, якщо це можливо.
    *   Провести більш ретельний аналіз даних, щоб виявити приховані залежності та закономірності.

## Загальні висновки

Проведена робота показала, що методи машинного навчання можуть бути ефективно використані для аналізу даного набору даних. Використання різних моделей регресії, відбір ознак та оптимізація гіперпараметрів дозволили досягти прийнятних результатів.