## 📘 Практична робота 2 - Основні Положення Машинного навчання та Лінійна Регресія

---

Тема: ознайомитися з основними типами **регресії** в машинному навчанні та розглянути, як застосовувати їх до реальних задач.

### Ось що ми будемо розглядати:

1. **🔑 Лінійна регресія**:
   - Розглянемо простий підхід для прогнозування числових значень, коли залежність між змінними є лінійною.

2. **📊 Лінійна регресія з багатьма ознаками**:
   - Розглянемо ситуацію, коли на вхід подається кілька змінних, і як правильно моделювати взаємозв'язки між ними.

3. **🔢 Поліноміальна регресія**:
   - Додамо нелінійність у модель, використовуючи поліноміальні залежності для кращого моделювання складних даних.

4. **⚖️ Логістична регресія**:
   - Хоча назва схожа на лінійну, логістична регресія використовується для задач **класифікації** та дає змогу прогнозувати ймовірність належності до одного з двох класів.

5. **📝 Приклад реальної задачі**:
   - Ми розглянемо реальний приклад, де будемо використовувати різні типи регресії для вирішення конкретної задачі.

6. **🔧 Нормалізація даних**:
   - Вивчимо важливість підготовки даних і нормалізації для покращення ефективності моделей машинного навчання.

---

Ця робота дозволить вам зрозуміти основи регресії і побудувати прості моделі для прогнозування. Ви дізнаєтеся, як застосовувати ці техніки в реальних задачах і підготувати дані для оптимальної роботи моделей.

# 📚 Опис Використаних Бібліотек

---

### 1. **NumPy**
- Для роботи з багатовимірними масивами та виконання математичних операцій.

### 2. **scikit-learn** (sklearn)
- Для машинного навчання: класифікація, регресія, кластеризація, оцінка моделей.

### 3. **Matplotlib**
- Для візуалізації даних: створення графіків, гістограм, діаграм.

### 4. **Pandas**
- Для роботи з таблицями: обробка, фільтрація, групування даних.

### 5. **Seaborn**
- Для покращеної візуалізації: стилізовані графіки та статистичні діаграми.

---

Ці бібліотеки допоможуть нам ефективно працювати з даними та будувати моделі машинного навчання.

In [None]:
#@title Необхідні імпорти

import numpy as np
from sklearn.linear_model import SGDRegressor, LinearRegression
from sklearn.datasets import make_regression
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import pandas as pd
import matplotlib as mpl
import seaborn as sns
from IPython.display import HTML
import warnings
from matplotlib.animation import FuncAnimation
import random

random.seed(42)
np.random.seed(42)
warnings.filterwarnings('ignore')

# 📊 Лінійна Регресія

Лінійна регресія — це метод машинного навчання з вчителем, який використовується для прогнозування числових значень залежної змінної на основі значень однієї або кількох незалежних змінних. Цей метод передбачає лінійний зв'язок між змінними.

### 🔑 Основні типи лінійної регресії:
- **Проста лінійна регресія**: прогнозує значення залежної змінної на основі однієї незалежної змінної.
- **Множинна лінійна регресія**: прогнозує значення залежної змінної на основі кількох незалежних змінних.

### 🌍 Застосування лінійної регресії:
- **💰 Економіка**: прогнозування попиту, цін, курсів валют.
- **📉 Фінанси**: оцінка кредитних ризиків, прогнозування цін на акції.
- **📈 Маркетинг**: аналіз ефективності рекламних кампаній, прогнозування обсягів продажів.
- **🩺 Медицина**: прогнозування розвитку захворювань, оцінка ефективності лікування.

### ✅ Переваги:
- **🔍 Простота та зрозумілість**: легкий для розуміння та інтерпретації.
- **⚡ Швидкість навчання**: ефективно працює з великими обсягами даних.
- **📊 Оцінка важливості факторів**: дозволяє визначити, які фактори найбільше впливають на результат.

### ❌ Недоліки:
- **🔗 Лінійність**: працює лише за умови лінійного зв'язку між змінними.
- **⚠️ Чутливість до викидів**: викиди можуть значно вплинути на точність моделі.
- **⛔ Обмеження**: не підходить для складних, нелінійних задач.

---

Лінійна регресія є потужним інструментом для простих прогнозів та аналізу взаємозв'язків між змінними, але вимагає, щоб зв'язок між змінними був лінійним.

In [None]:
#@title Логіка генераціі даних


def generate_noisy_regression_data_direct(n_samples, n_features, noise, random_state=None):
    """
    Generate noisy regression data directly.

    Args:
      n_samples: The number of samples.
      n_features: The number of features.
      noise: The standard deviation of the noise.
      random_state: Random seed for reproducibility.

    Returns:
      X, y: The feature matrix and target vector.
    """

    if random_state is not None:
        np.random.seed(random_state)

    X = np.random.rand(n_samples, n_features) * 10  # Features (scaled between 0 and 10)
    true_coefficients = np.random.rand(n_features) * 5  # Random true coefficients
    true_intercept = np.random.rand() * 10  # Random true intercept
    y_true = X @ true_coefficients + true_intercept #Calculate y without noise
    noise_added = np.random.normal(0, noise, n_samples) #Generate noise
    y = y_true + noise_added #Add noise

    return X, y



In [None]:
#@title Логіка візуалізіціі


def plot_data(X, y):
    fig, ax = plt.subplots()
    ax.scatter(X.flatten(), y, alpha=0.6, label='Data')
    ax.set_xlabel('X')
    ax.set_ylabel('y')
    ax.set_title('Регресія')
    ax.legend()
    ax.set_xlim(X.min() - 1, X.max() + 1)
    ax.set_ylim(y.min() - 1, y.max() + 1)
    plt.axis('equal')


    return fig, ax

def plot_model(X, y, model):
    fig, ax = plot_data(X, y)

    # Plot the model
    x_values = np.linspace(X.min(), X.max(), 100)
    y_values = model.predict(x_values.reshape(-1, 1))

    ax.plot(x_values, y_values, color='red', label='Model')
    ax.legend()
    plt.axis('equal')

    return fig, ax


## 🛠 Підготовка даних

Перш ніж навчати будь-який алгоритм машинного навчання, **підготовка даних** є ключовим етапом. Для лінійної регресії нам потрібен набір вхідних даних **X** та відповідні їм значення **y**, які ми хочемо передбачити.

Лінійна регресія найкраще працює з **структурованими табличними даними**. Наш набір **X** — це таблиця, де кожен рядок є окремим спостереженням, а кожна колонка містить характеристики цього спостереження. Набір **y** містить лише одну колонку, оскільки це цільова змінна (правильна відповідь).

### Коротко:
- **X (вхідні дані)**: таблиця з характеристиками об'єктів (наприклад, рік побудови, площа будинку).
- **y (цільова змінна)**: значення, яке ми хочемо передбачити (наприклад, ціна будинку).

In [None]:
# Тестові дані для регресіі
# У прикладі Х буде мати тільки одну характеристику, тобто одну колонку
X, y = generate_noisy_regression_data_direct(n_samples=100, n_features=1, noise=0.5, random_state=42)
# X: [100, 1]
# y: [100]

In [None]:
# Візуалізуємо дані
plot_data(X, y)

## 🧮 Математична форма моделі лінійної регресії

### 📐 Узагальнена форма моделі

Модель машинного навчання описується рівнянням:
$$
y' = f(x)
$$
- **x** — вхідні дані
- **y'** — прогнозоване значення
- **f** — модель прогнозування

---

### 🔑 Лінійна регресія

Модель лінійної регресії — це функція прямої лінії:
$$
y = kx + b
$$
Наша мета — знайти оптимальні значення **k** та **b**, щоб модель найкраще описувала дані.

Замість **k** в лінійній регресії використовується **w**, відповідно до традиційної нотації:
$$
f(x) = wx + b
$$
$$
y' = wx + b
$$
- **(w, b)** — параметри моделі, для яких потрібно знайти оптимальні значення.

---

Це основи лінійної регресії: ми шукаємо оптимальні параметри моделі для того, щоб вона найкраще передбачала значення на основі вхідних даних.

In [None]:
from sklearn.linear_model import LinearRegression

# Визначення моделі лінійноі регресіі
model = LinearRegression()

# Вручну виставити w, та b рандомними значеннями для візуалізаціі
model.coef_ = np.random.rand((1))       # w
model.intercept_ = np.random.rand((1))  # b

# візуалізувати модель
plot_model(X, y, model)

# З графіку, можно побачити, що така модель буде дуже поганою апроксимацією нашіх даних

# 🔍 Як знайти оптимальні значення для параметрів моделі та що робить функція `fit`?

---

### ⚡ Функція помилки

Щоб знайти найкращі значення параметрів моделі (w та b), нам потрібен критерій, який дозволить оцінити, наскільки добре модель працює. Функція помилки допомагає нам виміряти різницю між прогнозами моделі та фактичними значеннями.

**Функція помилки** — це критерій точності нашої моделі. Чим менше її значення, тим кращий прогноз.

#### Як це працює:
1. **Прогнозування**: Модель генерує прогнозоване значення.
2. **Порівняння**: Прогноз порівнюється з фактичним значенням.
3. **Розрахунок помилки**: Різниця між прогнозом і фактичним значенням є помилкою.
4. **Усереднення**: Функція помилки усереднює помилки для всіх спостережень.
5. **Оцінка**: Результат — числове значення "помилковості" моделі.

#### Мета функції помилки:
- **Навчання моделі**: Алгоритм намагається **мінімізувати** функцію помилки для досягнення кращої точності.
- **Порівняння моделей**: Функція помилки дозволяє порівнювати моделі та вибрати найкращу.

---

### 🧑‍🏫 Загальна форма функції помилки

$$
\left\{
    \begin{aligned}
         & y' = f(x) \quad - \text{модель машинного навчання} \\
         & loss = L(f(x), y) \quad - \text{функція помилки}
    \end{aligned}
\right.
$$

Функція помилки залежить від вхідних даних (x), даних-вчителя (y) та параметрів моделі (f).

---

### 📉 Функція помилки для регресії

Одна з найпоширеніших функцій помилки — **середня квадратична помилка** (СКП), або **mean squared error** (MSE), котра використовується в методі найменших квадратів (МНК). Він мінімізує усереднену суму квадратів різниць між фактичними значеннями та прогнозами моделі.

Рівняння МНК:
$$
MSE = \sum \frac{(y_i' - y_i)^2}{n}
$$
де:
- **y'** — прогнозовані значення,
- **y** — фактичні значення,
- **n** — кількість спостережень.

> 📌 Важливо: оскільки MSE враховує всі дані в наборі (X, y), ми можемо зафіксувати параметри та побудувати функцію МНК залежно від **w** і **b**.

---

### 🔧 Функція `fit`

Метод **`fit()`** в машинному навчанні використовується для **навчання моделі** на основі тренувального набору даних. Він оптимізує параметри моделі (наприклад, **w** та **b**) шляхом мінімізації функції помилки, використовуючи методи оптимізації (наприклад, градієнтний спуск).

- **Завдання**: знайти найкращі значення параметрів моделі.
- **Результат**: після навчання модель здатна робити точніші прогнози.

---

Цей процес допомагає створити модель, яка найкраще відповідає даним, мінімізуючи помилки та покращуючи прогнози.

In [None]:
#@title Візуалізація МНК функціі помилки loss=MSE(w, b)

from sklearn.metrics import mean_squared_error
from mpl_toolkits.mplot3d import Axes3D  # ensure 3D toolkit is available

# Визначити допустимі значення для w та b
w_range = np.linspace(model.coef_[0] - 5, model.coef_[0] + 5, 50)
b_range = np.linspace(model.intercept_ - 5, model.intercept_ + 5, 50)
W, B = np.meshgrid(w_range, b_range)

# підрахувати МНК для кожноі комбінаціі
mse_grid = np.zeros_like(W)
for i in range(W.shape[0]):
    for j in range(W.shape[1]):
        y_pred = X * W[i, j] + B[i, j]
        mse_grid[i, j] = np.mean((y.flatten() - y_pred.flatten())**2)

# Create a 3D surface plot for MSE error with DARK_THEME background
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
# Set pane colors for 3D axes

surf = ax.plot_surface(W, B, mse_grid, cmap='viridis', edgecolor='none')

# Add axis titles with the light theme color for contrast
ax.set_xlabel('Weight (w)')
ax.set_ylabel('Intercept (b)')
ax.set_zlabel('MSE')
ax.set_title('3D Surface Plot of MSE for Model Parameters')

fig.colorbar(surf, shrink=0.5, aspect=5)

plt.show()

## 🔍 Знайдення оптимальних параметрів

Знаючи, як оцінити помилковість моделі, може здатися логічним, що ми можемо просто вирішити систему рівнянь регресії та МНК, прирівнявши помилку до 0:

$$
\left\{
    \begin{aligned}
         & \sum\frac{(y' - y)^2}{n} = 0 \\
         & y = wx + b \\
    \end{aligned}
\right.
$$

Але якщо підставити ці значення в рівняння, ми б отримали:

$$
\left\{
    \begin{aligned}
         & \sum\frac{(wx + b - y)^2}{n} = 0 \\
         & y = wx + b \\
    \end{aligned}
\right.
$$

Теоретично, ми могли б знайти значення **w** та **b** для ідеального прогнозу. Однак, ця система рівнянь **швидше за все не має рішення**. Щоб помилка дорівнювала 0, всі наші дані повинні ідеально лягати на пряму. Як ви можете побачити з графіка, це просто неможливо.

In [None]:
# Можемо подивитись яке мінімальне значення помилки змодельоване на нашему графіку
print('Мінімільний МНК на графіку:', mse_grid.min())

### 🧮 Аналітичний метод (використовуючи похідні)

Замість того щоб шукати оптимальні значення **w** та **b** в попередній системі рівнянь, ми можемо скористатися **властивістю похідних**.

#### 📐 Що дають похідні?

Похідна функції дозволяє дізнатися **кут нахилу** функції в певній точці або **швидкість змінювання** функції. Вона показує, як швидко змінюється значення функції щодо зміни її аргументу.


In [None]:
#@title Візуалізація похідной квадратичноі функціі

# Define the quadratic function
def quadratic_function(x):
    return x**2 - 4*x + 3

# Calculate the derivative of the quadratic function
def derivative_quadratic(x):
    return 2*x - 4

# Find the minimum point of the quadratic function (where the derivative is zero)
min_x = 2  # From the derivative 2x - 4 = 0, x = 2

# Calculate the derivative at the minimum point
derivative_at_min = derivative_quadratic(min_x)

# Choose another point for the derivative
other_x = 1  # Example point
derivative_at_other = derivative_quadratic(other_x)


# Generate x values for plotting
x_vals = np.linspace(0, 4, 400)
y_vals = quadratic_function(x_vals)


# Plot the quadratic function
plt.plot(x_vals, y_vals, label="Квадратична функція")

# Plot the tangent line at the minimum point (horizontal line)
plt.axhline(y=quadratic_function(min_x), xmin=0, xmax=1, color='green', linestyle='--', linewidth=2, label='Похідна в мінімумі')


# Plot the tangent line at another point
y_tangent_other = derivative_at_other * (x_vals - other_x) + quadratic_function(other_x)
plt.plot(x_vals, y_tangent_other, color='red', linestyle='--', linewidth=2, label='Похідна при x=1')


# Annotate the minimum point and the other point
plt.scatter(min_x, quadratic_function(min_x), color='green', s=50, label="Мінімальне значення функціі")
plt.scatter(other_x, quadratic_function(other_x), color='red', s=50, label='Інше значення')


# Add labels and title
plt.xlabel("w")
plt.ylabel("loss")
plt.title("Квадратична функція і похідні")
plt.legend()
plt.grid(True)

# Show the plot
plt.show()


На цьому прикладі можна побачити, що при **x = 2**, тобто в точці, де квадратична функція набуває свій мінімум, похідна функції дорівнює **0**. Це означає, що в цій точці швидкість зміни функції стає нульовою, і функція досягає мінімуму.

Ми можемо використати цей принцип, щоб знайти параметри моделі, при яких похідна функції помилки буде дорівнювати 0. Оскільки функція помилки залежить від двох параметрів (w, b), потрібно підраховувати **часткові похідні** для кожного параметра і вирішувати систему рівнянь.

---

### 📝 Фінальна система рівнянь:

$$
\left\{
    \begin{aligned}
         & w = \frac{\sum(x_i - x_{\text{avg}})(y_i - y_{\text{avg}})}{\sum(x_i - \bar{x})^2} \\
         & b = y_{\text{avg}} - w x_{\text{avg}}
    \end{aligned}
\right.
$$

де:
- **$x_{\text{avg}}$, $y_{\text{avg}}$** — середні значення **x** та **y**.

---

Цей метод дозволяє нам знайти оптимальні параметри **w** та **b**, що мінімізують функцію помилки за допомогою аналітичних обчислень.

In [None]:
# для того щоб знайти оптимальні параметри, ми можемо викликати функцію fit
# класс LinearRegression розвʼязую вище описану систему рівнянь для отримання коефіцієнтів моделі
model.fit(X, y)

# візуалізуємо модель ще раз
plot_model(X, y, model)

# Тепер наша пряма, найліпшим образом проходить через дані.
# Звісно це не ідеальна модель, так как, ми бачимо, природа даних є нелінійною, тому що в них є певний разброс.

## 🏃‍♂️ Градієнтний спуск

Аналітичний метод працює добре для лінійної регресії, але має кілька суттєвих недоліків:

### ❗ Недоліки аналітичного методу:
- **Обчислювальна складність**: Для великих наборів даних і великої кількості характеристик рішення системи рівнянь може бути дуже ресурсоємним.
- **Чутливість до мультиколінеарності**: Якщо незалежні змінні сильно корелюють, рішення може бути нестабільним і давати помилкові результати.

### 🚀 Градієнтний спуск

Щоб подолати ці недоліки, застосовується **градієнтний спуск** — найпопулярніший метод оптимізації для нейронних мереж.

Градієнтний спуск — це **ітеративний алгоритм**, який допомагає знайти мінімум функції помилки.

### Як це працює:
1. **Початкові параметри**: Алгоритм починає з випадкових значень параметрів моделі.
2. **Обчислення градієнту**: Градієнт — це напрямок найшвидшого зростання функції помилки в поточній точці.
3. **Оновлення параметрів**: Параметри моделі оновлюються в напрямку, протилежному градієнту. Це допомагає зменшити помилку. Величина кроку визначається через **швидкість навчання** (learning rate).
4. **Повторення**: Алгоритм повторює ці кроки, поки не досягне мінімуму або не буде досягнуто критерію зупинки.

### 🧮 Математичне формулювання:

$$
loss = L(w, b)
$$

Обновлення параметрів:
$$
\left\{
    \begin{aligned}
         & w_i = w_{i-1} - \mu \nabla L(w) \quad - \text{градієнт функції помилки від } w \\
         & b_i = b_{i-1} - \mu \nabla L(b) \quad - \text{градієнт функції помилки від } b \\
         & \mu \quad - \text{швидкість навчання (learning rate)}
    \end{aligned}
\right.
$$

Градієнтний спуск дозволяє ефективно знаходити оптимальні параметри, мінімізуючи функцію помилки через ітерації.

In [None]:
# для того щоб оптимізувати лінійну регресію, за допомогою градієнтного спуску, використовується класс SGDRegressor
# SGDRegressor - Stochastic Gradient Descent Regressor, або регрессор стохастичного градієнтного спуску
# стохастичний означає, що помилка буде підраховуватись не як середня згідно по всьому датасету, а по одному рандомному запису

# max_iter - кількість ітерацій оптимізаціі
# eta0 - швидкість навчання
# learning_rate='constant' - швидкість буде константною протягом всього навчання
model = SGDRegressor(max_iter=100, eta0=0.01, learning_rate='constant')

# натренувати модель
model.fit(X, y)

In [None]:
#@title Візуалізія градієнтного спуску

# Create a fresh model instance for animation and perform one partial fit to initialize parameters
anim_model = SGDRegressor(max_iter=100, tol=1e-3, random_state=42, warm_start=True)
anim_model.partial_fit(X, y)

# Define grid for MSE surface based on the current parameters
w_center = anim_model.coef_[0]
b_center = anim_model.intercept_[0]
w_range = np.linspace(w_center - 5, w_center + 5, 50)
b_range = np.linspace(b_center - 5, b_center + 5, 50)
W, B = np.meshgrid(w_range, b_range)

# Compute the MSE surface over the grid
mse_grid = np.zeros_like(W)
for i in range(W.shape[0]):
    for j in range(W.shape[1]):
        y_pred_grid = X * W[i, j] + B[i, j]
        mse_grid[i, j] = np.mean((y.flatten() - y_pred_grid.flatten())**2)

# Create a figure with 2 subplots: left for 3D loss surface (wider) and right for regression line on data (narrower)
fig = plt.figure(figsize=(12, 6))
gs = fig.add_gridspec(1, 2, width_ratios=[3, 2])
ax_loss = fig.add_subplot(gs[0], projection='3d')
ax_reg = fig.add_subplot(gs[1])
ax_reg.set_aspect('equal')

# Plot the loss surface
surf = ax_loss.plot_surface(W, B, mse_grid, cmap='viridis', edgecolor='none', alpha=0.7)
ax_loss.set_xlabel('Коуфіцієнт (w)')
ax_loss.set_ylabel('Коуфіцієнт (b)')
ax_loss.set_zlabel('МНК')
ax_loss.set_title('3D МНК Поверхня')
fig.colorbar(surf, ax=ax_loss, shrink=0.5, aspect=5)

# Initialize a red scatter point on the loss surface using current parameters
w_current = anim_model.coef_[0]
b_current = anim_model.intercept_[0]
mse_current = np.mean((y - anim_model.predict(X))**2)
point = ax_loss.scatter([w_current], [b_current], [mse_current], color='red', s=50)

# Set up the 2D regression plot with the data
ax_reg.scatter(X, y, alpha=0.6, label='Data')
ax_reg.set_xlabel('X')
ax_reg.set_ylabel('y')
ax_reg.set_title('Оптимізація регресіі')
ax_reg.set_xlim(X.min() - 1, X.max() + 1)
ax_reg.set_ylim(y.min() - 1, y.max() + 1)
line_reg, = ax_reg.plot([], [], color='red', lw=2, label='Model')
ax_reg.legend()

# Define the animation update function
def update(frame):
    # Perform one SGD step
    anim_model.partial_fit(X, y)

    # Update the loss scatter point in the 3D plot
    w_new = anim_model.coef_[0]
    b_new = anim_model.intercept_[0]
    mse_new = np.mean((y - anim_model.predict(X))**2)
    point._offsets3d = ([w_new], [b_new], [mse_new])

    # Update the regression line in the 2D plot
    x_vals = np.linspace(X.min(), X.max(), 100)
    y_vals = anim_model.predict(x_vals.reshape(-1, 1))
    line_reg.set_data(x_vals, y_vals)

    return point, line_reg

# Create the animation (using blit=False since 3D plotting and multiple axes are involved)
anim = FuncAnimation(fig, update, frames=100, interval=200, blit=False)
plt.close()

# Display the animation as HTML
HTML(anim.to_jshtml())

## 📊 Лінійна регресія з багатьма характеристиками

Якщо наші дані мають більше однієї характеристики (тобто таблиця **X** має більше однієї колонки), лінійна регресія набуває наступного вигляду:

$$
y' = w_0x_0 + w_1x_1 + \dots + w_nx_n + b
$$

де:
- **$n$** — кількість характеристик (ознак), що використовуються для прогнозування.
- **$w_0, w_1, \dots, w_n$** — коефіцієнти для кожної характеристики.
- **$b$** — зміщення.

### 🧑‍💻 Як це виглядає на графіку:
- Для **n = 2** (дві характеристики) модель лінійної регресії буде виглядати як **площина** на графіку.
- Для **n > 2** (більше двох характеристик) модель перетворюється на **гіперплощину**, яку неможливо безпосередньо зобразити в 2D.

---

Цей підхід дозволяє враховувати кілька факторів одночасно для більш точного прогнозування, але вимагає додаткових обчислювальних ресурсів для вищих вимірів.

In [None]:
# Генерація даних з 2ма характеристиками
X, y = generate_noisy_regression_data_direct(n_samples=100, n_features=2, noise=0.5, random_state=42)
# X: [100, 2]
# y: [100]

In [None]:
#@title Візуалізація даних з двома характеристиками

from mpl_toolkits.mplot3d import Axes3D

# Assuming you have X and y data as NumPy arrays
# Example data (replace with your actual data)
X = np.random.rand(100, 2)  # 100 samples, 2 features
y = np.random.rand(100)    # 100 target values


fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

ax.scatter(X[:, 0], X[:, 1], y, c=y, cmap='viridis')

ax.set_xlabel('X Характеристика 1')
ax.set_ylabel('X Характеристика 2')
ax.set_zlabel('y Вчитель')
ax.set_title('3D Візуалізація X та y')

plt.show()

In [None]:
# Тренування моделі
model = LinearRegression()
model.fit(X, y)

In [None]:
#@title Візуалізація площини лінійноі регресіі на графіку з данними

import pandas as pd
import matplotlib as mpl
import seaborn as sns
from matplotlib.animation import FuncAnimation
import random
from mpl_toolkits.mplot3d import Axes3D  # ensure 3D toolkit is available


#Visualization
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# Scatter plot of the data points
ax.scatter(X[:, 0], X[:, 1], y, c=y, cmap='viridis', label='Data Points')


# Create a meshgrid for the plane
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

# Predict the z values using the trained model
z = model.predict(np.c_[xx.ravel(), yy.ravel()])
z = z.reshape(xx.shape)


# Plot the plane
ax.plot_surface(xx, yy, z, alpha=0.5, cmap='viridis', label='Regression Plane')

# Customize the plot (labels, title, etc.)
ax.set_xlabel('X Характеристика 1')
ax.set_ylabel('X Характеристика 2')
ax.set_zlabel('y Вчитель')
ax.set_title('Площина регресіі разом із даними')
ax.legend() # Added legend

plt.show()


## 🔢 Поліноміальна регресія

**Поліноміальна регресія** дозволяє моделювати **нелінійні зв'язки** між змінними, що не можуть бути описані прямою лінією, як у випадку лінійної регресії.

### 🚀 Як це працює:
- Замість лінійної залежності \( y = wx + b \), ми використовуємо поліноміальну функцію для опису зв'язку:
  $$ y = w_0 + w_1x + w_2x^2 + \dots + w_nx^n + b $$

### 📊 Застосування:
Поліноміальна регресія дозволяє точніше описати складні патерни в даних, де лінійна модель не дає задовільних результатів. Вона додає в модель **вищі степені** незалежних змінних для кращого відображення нелінійних залежностей.

---

Цей метод є дуже корисним, коли у вас є дані з чіткими **нелінійними трендами**, і він дозволяє значно покращити точність прогнозів у таких випадках.

In [None]:
#@title Логіка генераціі даних

def generate_sinusoidal_regression_data(n_samples=100, noise=0.5, random_state=None):
    rng = np.random.RandomState(random_state)
    X = np.linspace(0, 10, n_samples)
    y = np.sin(X) + rng.normal(0, noise, n_samples)
    return X.reshape(-1,1), y



In [None]:
X, y = generate_sinusoidal_regression_data(n_samples=100, noise=0.5, random_state=42)

plot_data(X, y)

In [None]:
# Звичайна лінійна регресія в даному випадку є поганим алгоритмом для апроксимаціі цих даних
model = LinearRegression().fit(X, y)

plot_model(X, y, model)

In [None]:
# Поліноміальна регресія має наувазі трансформування існуючих характеристик в нелінійні, для створення нелінійноі функціі

# створення поліномних характеристик
X_degree2 = X ** 2
X_degree3 = X ** 3

# Створення новоі матриці Х з новими додатковими характеристиками
# Таким чином кількість характеристик збільшіться до 3, і наша лінійна регресія буде мати 4 коефіцієнти (w0, w1, w2, b)
X_poly = np.concatenate([X, X_degree2, X_degree3], axis=1) # w0x0+w1x0^2+w2x0^3
# X_poly: [100, 3]

# Create a pipeline with polynomial features and linear regression
model = LinearRegression()

# Fit the model to the data
model.fit(X_poly, y)

In [None]:
#@title Візуалізація поліноміальной регресіі

import numpy as np
# Assuming X_poly and y are defined from the previous code
# and model is the trained LinearRegression model

import matplotlib.pyplot as plt

# Generate data points for plotting the fitted curve
x_plot = np.linspace(X.min(), X.max(), 100).reshape(-1,1)
x_plot_poly = np.concatenate([x_plot, x_plot**2, x_plot**3], axis=1)  # Transform x_plot into polynomial features
y_plot = model.predict(x_plot_poly)


# Plot the data points and the fitted curve
plt.scatter(X, y, label='Дані')
plt.plot(x_plot, y_plot, color='red', label='Поліноміальна Регресія')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Поліноміальна Регресія')
plt.legend()
plt.axis('equal')
plt.show()


In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# Також ми можемо використовувати функцію бібліотеки scikit-learn
X_poly = PolynomialFeatures(degree=2).fit_transform(X)
model = LinearRegression().fit(X_poly, y)

## ⚖️ Логістична регресія

**Логістична регресія** — це спеціальний випадок регресії, який використовується для **задач класифікації**, а не для прогнозування числових значень.

### 🚀 Як це працює:
- Логістична регресія моделює ймовірність належності спостереження до одного з двох класів (0 або 1). Вона використовує **сигмоїдну функцію** для перетворення лінійного прогнозу в ймовірність:
  $$ p = \frac{1}{1 + e^{-(wx + b)}} $$

### 📊 Застосування:
- Логістична регресія широко використовується для задач **бінарної класифікації**, таких як:
  - Спам або не спам у поштових системах
  - Хворий або здоровий за медичними показниками

---

Логістична регресія є потужним інструментом для **класифікаційних задач**, де результат може бути одним із двох можливих варіантів (наприклад, 0 або 1).

In [None]:
# Генерація даних класифікаціі

import numpy as np
from sklearn.datasets import make_classification

# Згенерувати дані з однією характеристикою і двома класами
X, y = make_classification(n_samples=100, n_features=1, n_informative=1, n_redundant=0, n_classes=2, n_clusters_per_class=1, random_state=42)

# y - 0 або 1

# Print the generated data (optional)
plot_data(X, y)


In [None]:
# Лінійна регресія буде плохим апроксиматором
# Спроба натренувати поліноміальную регресію

# Create polynomial features
degree = 4  # Example degree, you can change this
poly = PolynomialFeatures(degree=degree)
X_poly = poly.fit_transform(X)

# Fit the polynomial regression model
model = LinearRegression()
model.fit(X_poly, y)

# Generate data points for plotting the fitted curve
x_plot = np.linspace(X.min(), X.max(), 100).reshape(-1,1)
y_plot = model.predict(poly.transform(x_plot))

plt.scatter(X, y, label='Дані')
plt.plot(x_plot, y_plot, color='red', label='Поліноміальна Регресія')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Поліноміальна Регресія')
plt.legend()
plt.axis('equal')
plt.show()

## 🔢 Поліноміальна регресія та її обмеження

Поліноміальна регресія може забезпечити високу точність, але має важливий недолік: її **кінцівки** можуть виходити за межі допустимих значень, що є особливо критичним, коли результат повинен знаходитися в певному діапазоні (наприклад, від 0 до 1).

### 🚨 Проблема:
Уявіть, що ви намагаєтесь передбачити значення, яке завжди повинно бути в діапазоні від 0 до 1, наприклад, ймовірність або клас. Поліноміальна регресія може «випустити» значення за межі цього діапазону, що неприпустимо.

### ⚖️ Рішення: Логістична регресія
Для вирішення цієї проблеми можна використати **логістичну регресію**, яка за допомогою **сигмоїдної функції** "стискає" результат в діапазон від 0 до 1.

### 🧑‍🏫 Як це працює:
Сигмоїдна функція виглядає так:
$$
y' = \frac{1}{1 + e^{-z}} \quad - \text{сігмоїда}
$$
де:
- **z = wx + b** — це вже знайоме рівняння лінійної регресії.

Ця функція гарантує, що результат завжди буде в межах від 0 до 1, що ідеально підходить для задач **класифікації** з двома класами.

---

Таким чином, логістична регресія дозволяє моделювати **бінарні категорії**, стискаючи результат в діапазон [0, 1].

In [None]:
#@title Сігмоіда

import numpy as np
import matplotlib.pyplot as plt

# Define the sigmoid function
def sigmoid(x):
  return 1 / (1 + np.exp(-x))

# Generate x values
x = np.linspace(-10, 10, 100)

# Calculate corresponding y values using the sigmoid function
y = sigmoid(x)

# Plot the sigmoid function
plt.plot(x, y)

# Add labels and title
plt.xlabel("x")
plt.ylabel("sigmoid(x)")
plt.title("Sigmoid Function")
plt.grid(True)

# Show the plot
plt.show()


## ⚖️ Чому сигмоїдна функція потрібна?

Сигмоїдна функція "стискає" результат лінійної регресії, який може набувати будь-яких значень, до діапазону від **0 до 1**.

### 🚀 Для чого це потрібно?
У багатьох задачах машинного навчання, особливо в **задачах класифікації**, нам потрібно передбачити **ймовірність** того, що об'єкт належить до певного класу. Ймовірність завжди знаходиться в межах від 0 до 1, і саме сигмоїдна функція дозволяє привести результат лінійної регресії до цього діапазону.

### ✅ Переваги:
- **🔍 Зручно для інтерпретації**: Результат функції можна інтерпретувати як ймовірність, що робить модель більш зрозумілою.
- **🌊 Плавний перехід**: S-подібна форма функції забезпечує плавний перехід між класами, що відповідає реальним залежностям між ними.

### 📊 Коротко:
Ця функція "перетворює" результат лінійної регресії на ймовірність, що знаходиться в діапазоні від **0 до 1**, забезпечуючи плавний перехід між класами.

In [None]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
import numpy as np
import matplotlib.pyplot as plt

# 1) Дані класифікації (1 ознака, 2 класи)
X_cls, y_cls = make_classification(
    n_samples=200, n_features=1, n_informative=1, n_redundant=0,
    n_classes=2, n_clusters_per_class=1, random_state=42
)

# 2) Навчання
clf = LogisticRegression()
clf.fit(X_cls, y_cls)

# 3) Візуалізація
plt.scatter(X_cls, y_cls, label='Data', alpha=0.6)
x_plot = np.linspace(X_cls.min(), X_cls.max(), 200).reshape(-1, 1)
y_plot = clf.predict_proba(x_plot)[:, 1]  # P(class=1)
plt.plot(x_plot, y_plot, color='red', label='Logistic Regression')
plt.xlabel('X')
plt.ylabel('Probability')
plt.title('Logistic Regression on Classification Data')
plt.legend()
plt.show()


Можна побачити, що ця функція, дуже схожа на попередню поліноміальну регресію, але є більш стабільною. Кінцівки цієі функціі є асимптотами котрі нескінченно наближаються до 0 та 1 відповідно.

# 🏡 Реальний приклад

Ми будемо використовувати популярний датасет **`california_housing`**, який доступний в середовищі **Google Colab**.

### 📊 Опис датасету:

**`california_housing`** — це класичний набір даних у машинному навчанні, особливо для задач регресії. Він містить інформацію про житло в Каліфорнії, отриману з перепису населення Каліфорнії 1990 року.

**Ціль**: передбачити медіанну вартість будинку для району (групи будинків).

### 🏘 Характеристики:
- **`median_income`**: медіанний дохід у групі блоків (в сотнях тисяч доларів).
- **`housing_median_age`**: медіанний вік будинків у групі блоків.
- **`total_rooms`**: повна кількість кімнат на домогосподарство.
- **`total_bedrooms`**: повна кількість спалень на домогосподарство.
- **`population`**: населення групи блоків.
- **`households`**: кількість людей на домогосподарство.
- **`latitude`**: широта групи блоків.
- **`longitude`**: довгота групи блоків.

**Цільова змінна** (те, що потрібно передбачити):
- **`median_house_value`**: медіанна вартість будинку для групи блоків (в сотнях тисяч доларів).

### 📂 Файли:
У папці **sample_data** в **Google Colab** доступні два файли:
- **`california_housing_test.csv`** — тестовий набір даних.
- **`california_housing_train.csv`** — навчальний набір даних.

Цей набір даних дозволяє моделювати залежність вартості будинків від різноманітних характеристик району, таких як дохід, вік будинків, кількість кімнат тощо.

In [None]:
import pandas as pd

# Використовується для тренування
train_data = pd.read_csv('california_housing_train.csv')

# Використовується для оцінювання
test_data = pd.read_csv('california_housing_test.csv')

In [None]:
# Подивимось на наші дані
train_data.head()
print(train_data.head())

In [None]:
# Порахуємо кількисть записів
print('Кількість тренувальних записів:', len(train_data))
print('Кількість тестових записів:', len(test_data))

## 👀 Перегляд даних перед тренуванням

Перед тим як переходити до тренування моделі, варто **оглянути самі дані**. Це допоможе зрозуміти структуру та взаємозв'язки між ознаками, а також виявити потенційні проблеми.

### 🔍 Що можна побачити:
1. **Кореляція між вчителем і ознаками**: Перевіримо, чи є кореляція між **цільовою змінною** (`median_house_value`) та іншими характеристиками (наприклад, `median_income`, `housing_median_age` тощо). Це дасть нам уявлення, які характеристики можуть бути важливими для прогнозування.

2. **Кореляція між характеристиками**: Також можна перевірити, чи є сильна кореляція між самими характеристиками (наприклад, між `total_rooms` та `total_bedrooms`). Якщо дві або більше характеристики сильно корелюють між собою, одна з них може бути зайвою і її можна буде виключити.

### 📊 Зазначення важливих моментів:
- **Зайві характеристики**: Якщо деякі характеристики мають високу кореляцію між собою, їх можна зменшити або виключити, щоб уникнути мультиколінеарності.
- **Покращення якості моделі**: Оцінка кореляції допомагає виявити важливі фактори для моделювання, що може покращити точність прогнозу.

---

Перш ніж почати тренування моделі, обов'язково перевірте дані на наявність кореляцій, щоб забезпечити кращу ефективність і стабільність моделі.

In [None]:
# @title total_rooms vs total_bedrooms

from matplotlib import pyplot as plt
train_data.plot(kind='scatter', x='total_rooms', y='total_bedrooms', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

Видна яскрава кореляція між кількістю кімнат, та спален. В теоріі ми можемо викинути одну з цих ознак, або обʼєднати іх.

In [None]:
# @title housing_median_age

from matplotlib import pyplot as plt
train_data['housing_median_age'].plot(kind='hist', bins=20, title='housing_median_age')
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title longitude vs latitude

from matplotlib import pyplot as plt
train_data.plot(kind='scatter', x='longitude', y='latitude', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
#@title Візуалізація кореляцій вчителя з кожною з характеристик

import matplotlib.pyplot as plt
import seaborn as sns

# Assuming 'train_data' is your DataFrame
# Calculate the correlation matrix
corr_matrix = train_data.corr()

# Extract the correlations with 'median_house_value'
correlations = corr_matrix['median_house_value'].drop('median_house_value')

# Create the grid of plots
num_features = len(correlations)
num_cols = 3  # Number of columns in the grid
num_rows = (num_features + num_cols - 1) // num_cols  # Calculate the number of rows

fig, axes = plt.subplots(num_rows, num_cols, figsize=(15, 5 * num_rows))
axes = axes.flatten()  # Flatten the axes array for easy iteration

for i, feature in enumerate(correlations.index):
    sns.regplot(x=feature, y='median_house_value', data=train_data, ax=axes[i])
    axes[i].set_title(f'Кореляція median_house_value с {feature}')

# Remove any unused subplots
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])


plt.tight_layout()
plt.show()


Нажаль, із графіків складно побачити якусь явну кореляцію між однією з ознак з ціной на будинок. Але можливо є множинна кореляція між декількома ознаками з вчителем. Лінійна регресія як раз допоможе це виявити.

In [None]:
# Підготуємо дані для тренування та оцінювання

train_y = train_data.pop('median_house_value')
train_X = train_data

test_y = test_data.pop('median_house_value')
test_X = test_data

In [None]:
# Спробуємо натренувати декілька моделей лінійноі регресіі, використовуючи різні комбінаціі характеристик

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import pandas as pd
import numpy as np


# Define the features to use for each model
features_list = [

    # поодинокі характеристики
    ['median_income'],
    ['housing_median_age'],
    ['total_rooms'],
    ['total_bedrooms'],
    ['population'],
    ['households'],
    ['latitude'],
    ['longitude'],

    # комбінаціі
    ['median_income', 'housing_median_age'],
    ['total_rooms', 'total_bedrooms', 'population'],

    train_X.columns, # усі характеристики
]

results = []
for features in features_list:
    # Тренування моделі
    model = LinearRegression()
    model.fit(train_X[features], train_y)

    # Генерація прогнозів на тестових даних
    y_pred = model.predict(test_X[features])

    # Оцінювання моделі на тестових даних використовуючи МНК
    mse = mean_squared_error(test_y, y_pred)

    results.append({
        'features': features,
        'mse': mse
    })

for result in results:
    print(f"Характеристики: {result['features']}, МНК: {result['mse']}")

best_model = min(results, key=lambda x: x['mse'])
print(f"\nНайкраща модель: Характеристики: {best_model['features']}, МНК: {best_model['mse']}")


Можна побачити що, всі вище наведені моделі справляються жахливо. МНК набуває огромних значень, що робить лінійну регресію поганим апроксиматором. для цих даних. Але, також можна побачити що найкраща модель була отримана з використанням усіх ознак наших даних. Тобто сумісно вони всі корелюють краще з нашим вчителем ніж поодиноко або в певних комбінаціях.

In [None]:
# Спробуємо поліноміальну регресію

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

# Поліноміальна регресія зі ступенем 2
poly_reg_degree2 = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())
poly_reg_degree2.fit(train_X, train_y)
y_pred_degree2 = poly_reg_degree2.predict(test_X)
mse_degree2 = mean_squared_error(test_y, y_pred_degree2)
print(f"Поліноміальна регресія зі ступенем 2 - МНК: {mse_degree2}")

# Поліноміальна регресія зі ступенем 3
poly_reg_degree3 = make_pipeline(PolynomialFeatures(degree=3), LinearRegression())
poly_reg_degree3.fit(train_X, train_y)
y_pred_degree3 = poly_reg_degree3.predict(test_X)
mse_degree3 = mean_squared_error(test_y, y_pred_degree3)
print(f"Поліноміальна регресія зі ступенем 3 - МНК: {mse_degree3}")


## ⚠️ Проблема перенавчання (Overfitting)

У нашому випадку **поліноміальна регресія** другого ступеня справилася краще, ніж звичайна лінійна регресія, хоча результати все одно були не ідеальні. Однак, поліноміальна регресія третього ступеня виявилась гіршою навіть за лінійну. Це може свідчити про **перенавчання моделі**.

### 🔍 Суть проблеми:
Перенавчання (Overfitting) означає, що модель занадто **сильно вивчає розподіл тренувальних даних** та не може узагальнювати на нові дані.

### 🧑‍🏫 Приклад:
Уявіть собі студента, який готується до іспиту, завчивши всі питання та відповіді на пам'ять. Він успішно відповідає на знайомі питання, але не може відповісти на нові, нетипові завдання. Так само і перенавчена модель "запам'ятовує" тренувальні дані, включаючи випадкові шуми, замість того, щоб виявляти реальні закономірності.

---

### ⚡ Причини перенавчання:
1. **Занадто складна модель**: Модель з великою кількістю параметрів або складною структурою може "запам'ятовувати" всі деталі навчальних даних, включаючи випадкові шуми.
2. **Недостатньо даних**: Якщо навчальний набір даних малий або не є репрезентативним, модель може адаптуватися до обмеженої кількості прикладів, втрачаючи здатність узагальнювати.
3. **Тривале навчання**: Занадто довге навчання може призвести до того, що модель почне "запам'ятовувати" навчальні дані замість того, щоб вчитися на них.

---

Для боротьби з перенавчанням можна застосовувати **методи регуляризації**, використовувати більше даних для навчання або скоротити складність моделі.

In [None]:
from sklearn.model_selection import train_test_split

# Генерація штучних даних
X, y = generate_sinusoidal_regression_data(100, 0.5)
n = 80
art_train_X, art_test_X = X[:n], X[n:]
art_train_y, art_test_y = y[:n], y[n:]

# Поліноміальна регресія 3го ступіню
poly_reg_degree = make_pipeline(PolynomialFeatures(degree=3), LinearRegression())
poly_reg_degree.fit(art_train_X, art_train_y)


# Plot data and model
plt.scatter(art_train_X, art_train_y, label='Тренувальний набір', color='blue')
plt.scatter(art_test_X, art_test_y, label='Тестовий набір', color='orange')

x_plot = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
y_plot = poly_reg_degree.predict(x_plot)
plt.plot(x_plot, y_plot, color='red', label='Перенавченна регресія')

plt.xlabel('X')
plt.ylabel('y')
plt.title('Перенавчена регресія')
plt.legend()
plt.show()

## 🔍 Як виявити проблему перенавчання?

Одна з причин, чому нам потрібен **датасет для оцінювання**, — це щоб дізнатися, чи наша модель натренована правильно і не перенавчена. Графік вище якраз показує випадок, коли модель "вивчила" тренувальний датасет, але не може зрозуміти, як поводяться дані за його межами.

### ⚠️ Як виявити перенавчання?

- **Порівняння точності або помилки на навчальній та валідаційній вибірках**:
  - Якщо **точність на навчальній вибірці** значно вища, ніж на **валідаційній** або **помилка** занадто нижча на навчальній вибірці, це може свідчити про перенавчання.
  - Модель може **занадто добре підлаштуватися** під тренувальні дані, але втрачати здатність **узагальнювати** на нові, невідомі дані.

---

Якщо виявлено перенавчання, можна спробувати **регуляризацію**, **скорочення складності моделі** або збільшення кількості даних для тренування, щоб поліпшити узагальнення.

## 🔧 Нормалізація даних

**Нормалізація даних** — це процес приведення чисел до одного масштабу. Уявіть собі, що у вас є різні вимірювання: відстань в **кілометрах**, вага в **грамах** та вік в **роках**. Щоб їх порівнювати або використовувати разом, потрібно привести їх до спільної одиниці виміру, наприклад, перевести все в **метри**, **кілограми** тощо.

### 🚀 Навіщо це потрібно?
- **🔄 Щоб алгоритм "не заплутався"**: Деякі алгоритми машинного навчання можуть "віддавати перевагу" більшим числам, навіть якщо вони не є такими важливими. Нормалізація допомагає уникнути цієї проблеми.
- **⚡ Прискорення навчання**: Алгоритми, які "крокують" до правильного рішення, можуть робити це швидше, якщо дані нормалізовані, бо вони не "заплутуються" в різних масштабах.
- **🧑‍💻 Зрозумілість даних**: З нормалізованими даними легше працювати та їх аналізувати, бо вони знаходяться в однаковому діапазоні.

---

**Нормалізація** робить дані більш зручними для роботи та покращує ефективність багатьох алгоритмів машинного навчання.

In [None]:
# Імпортуємо класс для нормалізаціі даних
from sklearn.preprocessing import StandardScaler


# Стандартизація, також відома як Z-score нормалізація,
# передбачає перетворення даних таким чином,
# щоб вони мали середнє значення 0 і стандартне відхилення 1.
scaler = StandardScaler()

print('Середні значення ознак до нормалізаціі:', train_X.mean(0))

# Необхідно викликати функцію fit, для того, щоб підрахувати
# поточні значення середнього та стандартного відхилення для подальшоі трансформаціі
scaler.fit(train_X)

# Нормалізація train/test датасетів
train_X_scaled = scaler.transform(train_X)
test_X_scaled = scaler.transform(test_X)

print('Середні значення ознак після нормалізаціі:', train_X_scaled.mean(0))

# Тренуванная поліноміальноі регресіі з нормалізованими даними
model = make_pipeline(PolynomialFeatures(degree=2), LinearRegression())
model.fit(train_X_scaled, train_y)

y_pred = model.predict(test_X_scaled)
mse = mean_squared_error(test_y, y_pred)
print(f"Лінійна регресія з нормалізацією - МНК: {mse}")


## 🚫 Логістична регресія та подальші кроки

Серед невипробуваних алгоритмів, про які ми сьогодні говорили, залишилася лише **логістична регресія**. Однак її застосування в нашому випадку є неможливим, оскільки вона здатна моделювати значення лише в діапазоні від **0 до 1**. Це обмежує її використання для задач, де потрібно передбачити значення поза цими межами.

### 📈 Що робити далі?
- Для **підвищення точності моделі** нам потрібно звернутися до більш складних алгоритмів, які дозволяють працювати з більш складними залежностями та даними.
- Ці **складніші методи** будуть розглянуті в **наступних роботах**, де ми детальніше зупинимося на нейронних мережах та інших потужних підходах.

---

Таким чином, хоча логістична регресія є потужним інструментом для класифікації, для вирішення більш складних задач машинного навчання нам слід звернутися до більш складних моделей.

# 📝 Висновки

У цій роботі ми розглянули **базовий алгоритм лінійної регресії** та його **модифікації**, а також **методи оптимізації параметрів**.

### ✅ Основні моменти:
- **Лінійна регресія** є основою для побудови простих моделей для прогнозування числових значень.
- **Градієнтний спуск** дозволяє ефективно знаходити оптимальні параметри моделі без необхідності вирішувати складні рівняння.
- Обидва ці методи є фундаментальними і використовуються для побудови та навчання більш **складних нейронних мереж**.

---

Незважаючи на свою простоту, лінійна регресія та градієнтний спуск є важливими концепціями, які є основою для більш складних алгоритмів машинного навчання та глибокого навчання.

# 📘 Практична робота 2 (Додаткові техніки) - Метрики, Регуляризація та Аналіз Моделей

---

## Зміст

1. **📊 Метрики оцінювання моделей**
2. **🎯 Регуляризація - боротьба з перенавчанням**
3. **✅ Валідація моделей**
4. **🔍 Аналіз залишків**
5. **⚙️ Feature Engineering**
6. **📈 Інтерпретація коефіцієнтів**

---

Ця робота є доповненням до основної практичної роботи з лінійної регресії. Ми розглянемо більш просунуті техніки для покращення та аналізу моделей машинного навчання.

## 📚 Необхідні імпорти

In [None]:
# Основні бібліотеки
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, learning_curve
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.pipeline import make_pipeline
import warnings
warnings.filterwarnings('ignore')

# Налаштування візуалізації
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
np.random.seed(42)

---

# 📊 1. Метрики оцінювання моделей

Оцінка якості моделі — це критичний етап у машинному навчанні. Різні метрики дають різну інформацію про продуктивність моделі.

## 🔑 Основні метрики регресії

### 1️⃣ MSE (Mean Squared Error) - Середня квадратична помилка

$$
MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2
$$

**Переваги:**
- Сильно штрафує великі помилки
- Математично зручна для оптимізації

**Недоліки:**
- Одиниці виміру — квадрат цільової змінної
- Дуже чутлива до викидів

---

### 2️⃣ RMSE (Root Mean Squared Error) - Корінь з середньої квадратичної помилки

$$
RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}
$$

**Переваги:**
- В тих самих одиницях, що й цільова змінна
- Інтуїтивно зрозуміла

**Недоліки:**
- Чутлива до викидів

---

### 3️⃣ MAE (Mean Absolute Error) - Середня абсолютна помилка

$$
MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|
$$

**Переваги:**
- Менш чутлива до викидів
- Легко інтерпретується

**Недоліки:**
- Не диференційована в нулі (складніше оптимізувати)

---

### 4️⃣ R² (Coefficient of Determination) - Коефіцієнт детермінації

$$
R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}
$$

**Інтерпретація:**
- **R² = 1**: ідеальне передбачення
- **R² = 0**: модель не краща за середнє значення
- **R² < 0**: модель гірша за середнє значення

**Переваги:**
- Нормалізована метрика (зазвичай від 0 до 1)
- Показує частку дисперсії, що пояснюється моделлю
- Не залежить від одиниць виміру

**Недоліки:**
- Може бути оманливою для поліноміальних моделей

---

## 💻 Приклад: Порівняння метрик

In [None]:
# Функція для генерації даних
def generate_regression_data(n_samples=100, noise=10, seed=42):
    """Generate synthetic regression data with outliers"""
    np.random.seed(seed)
    X = np.random.rand(n_samples, 1) * 10
    y = 2 * X.squeeze() + 5 + np.random.randn(n_samples) * noise

    # Add some outliers
    n_outliers = int(n_samples * 0.05)
    outlier_indices = np.random.choice(n_samples, n_outliers, replace=False)
    y[outlier_indices] += np.random.choice([-1, 1], n_outliers) * noise * 3

    return X, y

# Generate data
X, y = generate_regression_data(n_samples=150, noise=5)

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Train model
model = LinearRegression()
model.fit(X_train, y_train)

# Predictions
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Calculate metrics
def calculate_metrics(y_true, y_pred, dataset_name=""):
    """Calculate and display all regression metrics"""
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    print(f"\n{'='*50}")
    print(f"Metrics for {dataset_name}")
    print(f"{'='*50}")
    print(f"MSE  (Mean Squared Error):       {mse:.4f}")
    print(f"RMSE (Root Mean Squared Error):  {rmse:.4f}")
    print(f"MAE  (Mean Absolute Error):      {mae:.4f}")
    print(f"R²   (Coefficient of Determination): {r2:.4f}")
    print(f"{'='*50}\n")

    return {'MSE': mse, 'RMSE': rmse, 'MAE': mae, 'R²': r2}

# Calculate for both sets
train_metrics = calculate_metrics(y_train, y_pred_train, "Training Set")
test_metrics = calculate_metrics(y_test, y_pred_test, "Test Set")

## 📊 Візуалізація метрик

In [None]:
# Create comparison visualization
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Scatter plot with predictions
ax1 = axes[0, 0]
ax1.scatter(X_train, y_train, alpha=0.6, label='Training data', s=50)
ax1.scatter(X_test, y_test, alpha=0.6, label='Test data', s=50, color='orange')
X_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
y_line = model.predict(X_line)
ax1.plot(X_line, y_line, 'r-', linewidth=2, label='Prediction line')
ax1.set_xlabel('X', fontsize=12)
ax1.set_ylabel('y', fontsize=12)
ax1.set_title('Data and Regression Line', fontsize=14, fontweight='bold')
ax1.legend()
ax1.grid(True, alpha=0.3)

# 2. Residuals plot
ax2 = axes[0, 1]
residuals_train = y_train - y_pred_train
residuals_test = y_test - y_pred_test
ax2.scatter(y_pred_train, residuals_train, alpha=0.6, label='Training', s=50)
ax2.scatter(y_pred_test, residuals_test, alpha=0.6, label='Test', s=50, color='orange')
ax2.axhline(y=0, color='red', linestyle='--', linewidth=2)
ax2.set_xlabel('Predicted values', fontsize=12)
ax2.set_ylabel('Residuals', fontsize=12)
ax2.set_title('Residual Plot', fontsize=14, fontweight='bold')
ax2.legend()
ax2.grid(True, alpha=0.3)

# 3. Metrics comparison bar plot
ax3 = axes[1, 0]
metrics_names = ['MSE', 'RMSE', 'MAE']
train_vals = [train_metrics[m] for m in metrics_names]
test_vals = [test_metrics[m] for m in metrics_names]

x_pos = np.arange(len(metrics_names))
width = 0.35
ax3.bar(x_pos - width/2, train_vals, width, label='Training', alpha=0.8)
ax3.bar(x_pos + width/2, test_vals, width, label='Test', alpha=0.8)
ax3.set_xlabel('Metrics', fontsize=12)
ax3.set_ylabel('Error Value', fontsize=12)
ax3.set_title('Error Metrics Comparison', fontsize=14, fontweight='bold')
ax3.set_xticks(x_pos)
ax3.set_xticklabels(metrics_names)
ax3.legend()
ax3.grid(True, alpha=0.3, axis='y')

# 4. R² Score comparison
ax4 = axes[1, 1]
r2_data = [train_metrics['R²'], test_metrics['R²']]
colors = ['#2ecc71' if r > 0.7 else '#f39c12' if r > 0.5 else '#e74c3c' for r in r2_data]
bars = ax4.bar(['Training', 'Test'], r2_data, color=colors, alpha=0.8)
ax4.set_ylabel('R² Score', fontsize=12)
ax4.set_title('R² Score Comparison', fontsize=14, fontweight='bold')
ax4.set_ylim(0, 1)
ax4.axhline(y=0.7, color='green', linestyle='--', alpha=0.5, label='Good (>0.7)')
ax4.axhline(y=0.5, color='orange', linestyle='--', alpha=0.5, label='Fair (>0.5)')
ax4.legend()
ax4.grid(True, alpha=0.3, axis='y')

# Add value labels on bars
for bar, val in zip(bars, r2_data):
    height = bar.get_height()
    ax4.text(bar.get_x() + bar.get_width()/2., height,
             f'{val:.3f}', ha='center', va='bottom', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

## 📋 Порівняльна таблиця метрик

In [None]:
# Create comparison DataFrame
comparison_df = pd.DataFrame({
    'Метрика': ['MSE', 'RMSE', 'MAE', 'R²'],
    'Тренувальний набір': [
        f"{train_metrics['MSE']:.4f}",
        f"{train_metrics['RMSE']:.4f}",
        f"{train_metrics['MAE']:.4f}",
        f"{train_metrics['R²']:.4f}"
    ],
    'Тестовий набір': [
        f"{test_metrics['MSE']:.4f}",
        f"{test_metrics['RMSE']:.4f}",
        f"{test_metrics['MAE']:.4f}",
        f"{test_metrics['R²']:.4f}"
    ],
    'Опис': [
        'Середня квадратична помилка',
        'Корінь з MSE (в одиницях y)',
        'Середня абсолютна помилка',
        'Частка пояснюваної дисперсії'
    ]
})

print("\n" + "="*100)
print("ПОРІВНЯЛЬНА ТАБЛИЦЯ МЕТРИК")
print("="*100)
print(comparison_df.to_string(index=False))
print("="*100)

---

# 🎯 2. Регуляризація - боротьба з перенавчанням

**Регуляризація** — це техніка, яка додає штраф до функції втрат для запобігання перенавчанню моделі. Вона обмежує складність моделі, роблячи її більш узагальнюваною.

## 📐 Типи регуляризації

### 1️⃣ Ridge Regression (L2 Regularization)

Додає штраф, пропорційний **квадрату** коефіцієнтів:

$$
Loss = MSE + \alpha \sum_{j=1}^{p} w_j^2
$$

**Особливості:**
- Зменшує коефіцієнти, але не зануляє їх
- Краще для моделей з багатьма корельованими ознаками
- **α** (alpha) — параметр регуляризації (чим більше, тим сильніший штраф)

---

### 2️⃣ Lasso Regression (L1 Regularization)

Додає штраф, пропорційний **абсолютному значенню** коефіцієнтів:

$$
Loss = MSE + \alpha \sum_{j=1}^{p} |w_j|
$$

**Особливості:**
- Може зануляти коефіцієнти (виконує відбір ознак)
- Створює розріджені моделі
- Корисна, коли багато нерелевантних ознак

---

### 3️⃣ ElasticNet (L1 + L2)

Комбінує обидва типи штрафів:

$$
Loss = MSE + \alpha_1 \sum_{j=1}^{p} |w_j| + \alpha_2 \sum_{j=1}^{p} w_j^2
$$

**Особливості:**
- Баланс між Ridge та Lasso
- Більш стабільна, ніж Lasso при багатьох корельованих ознаках

---

## 💻 Приклад: Порівняння методів регуляризації

In [None]:
# Generate data with many features (some redundant)
np.random.seed(42)
n_samples = 100
n_features = 20

X = np.random.randn(n_samples, n_features)
# Only first 5 features are truly important
true_coef = np.zeros(n_features)
true_coef[:5] = [5, -3, 2, -1, 4]
y = X @ true_coef + np.random.randn(n_samples) * 2

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Standardize features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Train different models
alphas = [0.01, 0.1, 1.0, 10.0, 100.0]
models = {
    'Linear Regression': LinearRegression(),
    'Ridge (α=1.0)': Ridge(alpha=1.0),
    'Lasso (α=1.0)': Lasso(alpha=1.0),
    'ElasticNet (α=1.0)': ElasticNet(alpha=1.0, l1_ratio=0.5)
}

# Train and evaluate
results = []
coefficients = {}

for name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred_train = model.predict(X_train_scaled)
    y_pred_test = model.predict(X_test_scaled)

    train_r2 = r2_score(y_train, y_pred_train)
    test_r2 = r2_score(y_test, y_pred_test)
    train_rmse = np.sqrt(mean_squared_error(y_train, y_pred_train))
    test_rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))

    results.append({
        'Model': name,
        'Train R²': train_r2,
        'Test R²': test_r2,
        'Train RMSE': train_rmse,
        'Test RMSE': test_rmse,
        'Overfitting': train_r2 - test_r2
    })

    if hasattr(model, 'coef_'):
        coefficients[name] = model.coef_

# Display results
results_df = pd.DataFrame(results)
print("\n" + "="*100)
print("ПОРІВНЯННЯ МОДЕЛЕЙ З РЕГУЛЯРИЗАЦІЄЮ")
print("="*100)
print(results_df.to_string(index=False))
print("="*100)

## 📊 Візуалізація коефіцієнтів

In [None]:
# Visualize coefficients
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Coefficients comparison
ax1 = axes[0, 0]
x_pos = np.arange(n_features)
width = 0.2

for i, (name, coef) in enumerate(coefficients.items()):
    offset = (i - len(coefficients)/2 + 0.5) * width
    ax1.bar(x_pos + offset, coef, width, label=name, alpha=0.8)

ax1.axhline(y=0, color='black', linestyle='-', linewidth=0.5)
ax1.set_xlabel('Feature Index', fontsize=12)
ax1.set_ylabel('Coefficient Value', fontsize=12)
ax1.set_title('Coefficients Comparison Across Models', fontsize=14, fontweight='bold')
ax1.legend()
ax1.grid(True, alpha=0.3, axis='y')

# 2. Number of non-zero coefficients
ax2 = axes[0, 1]
non_zero_counts = {name: np.sum(np.abs(coef) > 0.01) for name, coef in coefficients.items()}
colors_bar = plt.cm.viridis(np.linspace(0, 1, len(non_zero_counts)))
bars = ax2.bar(non_zero_counts.keys(), non_zero_counts.values(), color=colors_bar, alpha=0.8)
ax2.set_ylabel('Number of Non-Zero Coefficients', fontsize=12)
ax2.set_title('Feature Selection by Model', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3, axis='y')
plt.setp(ax2.xaxis.get_majorticklabels(), rotation=45, ha='right')

for bar, val in zip(bars, non_zero_counts.values()):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height,
             f'{int(val)}', ha='center', va='bottom', fontsize=11, fontweight='bold')

# 3. R² Score comparison
ax3 = axes[1, 0]
x_pos = np.arange(len(results_df))
width = 0.35
ax3.bar(x_pos - width/2, results_df['Train R²'], width, label='Training R²', alpha=0.8)
ax3.bar(x_pos + width/2, results_df['Test R²'], width, label='Test R²', alpha=0.8)
ax3.set_ylabel('R² Score', fontsize=12)
ax3.set_title('R² Score: Training vs Test', fontsize=14, fontweight='bold')
ax3.set_xticks(x_pos)
ax3.set_xticklabels(results_df['Model'], rotation=45, ha='right')
ax3.legend()
ax3.grid(True, alpha=0.3, axis='y')

# 4. Overfitting measure
ax4 = axes[1, 1]
colors_over = ['#2ecc71' if x < 0.05 else '#f39c12' if x < 0.1 else '#e74c3c'
               for x in results_df['Overfitting']]
bars = ax4.bar(results_df['Model'], results_df['Overfitting'], color=colors_over, alpha=0.8)
ax4.axhline(y=0.05, color='green', linestyle='--', alpha=0.5, label='Good (<0.05)')
ax4.axhline(y=0.1, color='orange', linestyle='--', alpha=0.5, label='Warning (<0.1)')
ax4.set_ylabel('Train R² - Test R² (Overfitting)', fontsize=12)
ax4.set_title('Overfitting Measure', fontsize=14, fontweight='bold')
plt.setp(ax4.xaxis.get_majorticklabels(), rotation=45, ha='right')
ax4.legend()
ax4.grid(True, alpha=0.3, axis='y')

for bar, val in zip(bars, results_df['Overfitting']):
    height = bar.get_height()
    ax4.text(bar.get_x() + bar.get_width()/2., height,
             f'{val:.3f}', ha='center', va='bottom' if val > 0 else 'top',
             fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

## 🔄 Вплив параметра регуляризації (Alpha)

In [None]:
# Study effect of alpha parameter
alphas = np.logspace(-3, 3, 50)
ridge_coefs = []
lasso_coefs = []

for alpha in alphas:
    ridge = Ridge(alpha=alpha)
    ridge.fit(X_train_scaled, y_train)
    ridge_coefs.append(ridge.coef_)

    lasso = Lasso(alpha=alpha, max_iter=10000)
    lasso.fit(X_train_scaled, y_train)
    lasso_coefs.append(lasso.coef_)

ridge_coefs = np.array(ridge_coefs)
lasso_coefs = np.array(lasso_coefs)

# Visualize
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Ridge coefficients path
ax1 = axes[0]
for i in range(n_features):
    ax1.plot(alphas, ridge_coefs[:, i], alpha=0.7, linewidth=2)
ax1.set_xscale('log')
ax1.set_xlabel('Alpha (regularization strength)', fontsize=12)
ax1.set_ylabel('Coefficient Value', fontsize=12)
ax1.set_title('Ridge: Coefficient Path', fontsize=14, fontweight='bold')
ax1.axhline(y=0, color='black', linestyle='--', linewidth=1, alpha=0.5)
ax1.grid(True, alpha=0.3)

# Lasso coefficients path
ax2 = axes[1]
for i in range(n_features):
    ax2.plot(alphas, lasso_coefs[:, i], alpha=0.7, linewidth=2)
ax2.set_xscale('log')
ax2.set_xlabel('Alpha (regularization strength)', fontsize=12)
ax2.set_ylabel('Coefficient Value', fontsize=12)
ax2.set_title('Lasso: Coefficient Path (Feature Selection)', fontsize=14, fontweight='bold')
ax2.axhline(y=0, color='black', linestyle='--', linewidth=1, alpha=0.5)
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n📊 Ключові спостереження:")
print("="*80)
print("1. Ridge: Коефіцієнти поступово зменшуються, але не зануляються")
print("2. Lasso: Коефіцієнти різко зануляються при збільшенні alpha")
print("3. Lasso виконує автоматичний відбір ознак")
print("="*80)

---

# ✅ 3. Валідація моделей

**Валідація** — це процес оцінки продуктивності моделі на незалежних даних для забезпечення її узагальнюючої здатності.

## 🔀 Методи поділу даних

### 1️⃣ Train-Test Split

Простий поділ на навчальну та тестову вибірки (зазвичай 70-30 або 80-20).

**Переваги:**
- Швидко
- Просто

**Недоліки:**
- Результат залежить від випадкового поділу
- Не використовує всі дані для навчання

---

### 2️⃣ Train-Validation-Test Split

Поділ на три частини:
- **Training** (60%) - для навчання
- **Validation** (20%) - для підбору гіперпараметрів
- **Test** (20%) - для фінальної оцінки

---

### 3️⃣ Cross-Validation (Крос-валідація)

Дані поділяються на **k** частин (фолдів). Модель тренується k разів, кожен раз використовуючи різний фолд для валідації.

**Переваги:**
- Використовує всі дані для навчання та валідації
- Більш стабільна оцінка
- Зменшує дисперсію оцінки

**Недоліки:**
- Повільніше (треба тренувати k моделей)

---

## 💻 Приклад: Cross-Validation

In [None]:
from sklearn.model_selection import cross_val_score, KFold

# Prepare data
X, y = generate_regression_data(n_samples=200, noise=8, seed=42)
X_scaled = StandardScaler().fit_transform(X)

# Models to compare
models_cv = {
    'Linear Regression': LinearRegression(),
    'Ridge (α=1)': Ridge(alpha=1.0),
    'Ridge (α=10)': Ridge(alpha=10.0),
    'Lasso (α=0.1)': Lasso(alpha=0.1),
    'Lasso (α=1)': Lasso(alpha=1.0),
}

# Perform cross-validation
cv_results = []
k_folds = 5

for name, model in models_cv.items():
    # Perform k-fold cross-validation
    scores = cross_val_score(model, X_scaled, y, cv=k_folds,
                            scoring='r2', n_jobs=-1)

    cv_results.append({
        'Model': name,
        'Mean R²': scores.mean(),
        'Std R²': scores.std(),
        'Min R²': scores.min(),
        'Max R²': scores.max(),
        'All Scores': scores
    })

# Display results
cv_df = pd.DataFrame([{k: v for k, v in r.items() if k != 'All Scores'}
                      for r in cv_results])
print("\n" + "="*100)
print(f"РЕЗУЛЬТАТИ {k_folds}-FOLD CROSS-VALIDATION")
print("="*100)
print(cv_df.to_string(index=False))
print("="*100)

## 📊 Візуалізація Cross-Validation

In [None]:
# Visualize CV results
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# 1. Box plot of CV scores
ax1 = axes[0]
cv_scores_list = [r['All Scores'] for r in cv_results]
bp = ax1.boxplot(cv_scores_list, labels=cv_df['Model'], patch_artist=True)

# Color boxes
colors = plt.cm.viridis(np.linspace(0, 1, len(cv_scores_list)))
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)
    patch.set_alpha(0.7)

ax1.set_ylabel('R² Score', fontsize=12)
ax1.set_title(f'{k_folds}-Fold Cross-Validation Scores', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3, axis='y')
plt.setp(ax1.xaxis.get_majorticklabels(), rotation=45, ha='right')

# 2. Mean score with error bars
ax2 = axes[1]
x_pos = np.arange(len(cv_df))
means = cv_df['Mean R²']
stds = cv_df['Std R²']

bars = ax2.bar(x_pos, means, yerr=stds, capsize=5, alpha=0.7,
               color=colors, edgecolor='black', linewidth=1.5)
ax2.set_ylabel('Mean R² Score', fontsize=12)
ax2.set_title('Mean Cross-Validation Score (±1 std)', fontsize=14, fontweight='bold')
ax2.set_xticks(x_pos)
ax2.set_xticklabels(cv_df['Model'], rotation=45, ha='right')
ax2.grid(True, alpha=0.3, axis='y')

# Add value labels
for bar, mean, std in zip(bars, means, stds):
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + std,
             f'{mean:.3f}', ha='center', va='bottom', fontsize=10, fontweight='bold')

plt.tight_layout()
plt.show()

## 📈 Learning Curves - Діагностика перенавчання

Learning curves показують, як змінюється продуктивність моделі зі збільшенням розміру навчальної вибірки.

In [None]:
def plot_learning_curves(model, X, y, title="Learning Curves"):
    """Plot learning curves to diagnose overfitting/underfitting"""

    train_sizes, train_scores, val_scores = learning_curve(
        model, X, y, cv=5, n_jobs=-1,
        train_sizes=np.linspace(0.1, 1.0, 10),
        scoring='r2'
    )

    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    val_mean = np.mean(val_scores, axis=1)
    val_std = np.std(val_scores, axis=1)

    plt.figure(figsize=(10, 6))
    plt.plot(train_sizes, train_mean, 'o-', color='#2ecc71', linewidth=2,
             markersize=8, label='Training score')
    plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std,
                     alpha=0.15, color='#2ecc71')

    plt.plot(train_sizes, val_mean, 'o-', color='#e74c3c', linewidth=2,
             markersize=8, label='Cross-validation score')
    plt.fill_between(train_sizes, val_mean - val_std, val_mean + val_std,
                     alpha=0.15, color='#e74c3c')

    plt.xlabel('Training Set Size', fontsize=12)
    plt.ylabel('R² Score', fontsize=12)
    plt.title(title, fontsize=14, fontweight='bold')
    plt.legend(loc='best', fontsize=11)
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()

    # Diagnostic
    gap = train_mean[-1] - val_mean[-1]
    print(f"\n📊 Діагностика для {title}:")
    print(f"   Training score: {train_mean[-1]:.3f}")
    print(f"   Validation score: {val_mean[-1]:.3f}")
    print(f"   Gap (overfitting measure): {gap:.3f}")

    if gap > 0.1:
        print("   ⚠️  ПЕРЕНАВЧАННЯ: великий розрив між навчанням та валідацією")
    elif val_mean[-1] < 0.6:
        print("   ⚠️  НЕДОНАВЧАННЯ: низька продуктивність на обох наборах")
    else:
        print("   ✅ Модель добре збалансована")

# Generate more complex data
X_complex, y_complex = generate_regression_data(n_samples=300, noise=10, seed=42)
X_complex_scaled = StandardScaler().fit_transform(X_complex)

# Compare different models
print("\n" + "="*80)
print("АНАЛІЗ LEARNING CURVES")
print("="*80)

plot_learning_curves(LinearRegression(), X_complex_scaled, y_complex,
                    "Learning Curves: Linear Regression")

plot_learning_curves(Ridge(alpha=10), X_complex_scaled, y_complex,
                    "Learning Curves: Ridge (α=10)")

# Polynomial features (prone to overfitting)
poly_model = make_pipeline(PolynomialFeatures(degree=5), LinearRegression())
plot_learning_curves(poly_model, X_complex_scaled, y_complex,
                    "Learning Curves: Polynomial (degree=5) - Overfitting")

poly_ridge = make_pipeline(PolynomialFeatures(degree=5), Ridge(alpha=10))
plot_learning_curves(poly_ridge, X_complex_scaled, y_complex,
                    "Learning Curves: Polynomial (degree=5) + Ridge")

# 🔍 4. Аналіз залишків (Residual Analysis)

**Залишки** (residuals) — це різниця між фактичними та передбаченими значеннями:

$$
e_i = y_i - \hat{y}_i
$$

Аналіз залишків допомагає перевірити припущення лінійної регресії та виявити проблеми моделі.

## 🎯 Що перевіряємо:

1. **Нормальність розподілу залишків**
2. **Гомоскедастичність** (однорідність дисперсії)
3. **Відсутність патернів** у залишках
4. **Викиди та впливові точки**

---

## 💻 Комплексний аналіз залишків

In [None]:
from scipy import stats

def comprehensive_residual_analysis(model, X_train, X_test, y_train, y_test, model_name="Model"):
    """Perform comprehensive residual analysis"""

    # Predictions and residuals
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)

    train_residuals = y_train - y_train_pred
    test_residuals = y_test - y_test_pred

    # Create figure
    fig = plt.figure(figsize=(16, 12))
    gs = fig.add_gridspec(3, 3, hspace=0.3, wspace=0.3)

    # 1. Residuals vs Fitted values
    ax1 = fig.add_subplot(gs[0, :2])
    ax1.scatter(y_train_pred, train_residuals, alpha=0.6, s=50, label='Training')
    ax1.scatter(y_test_pred, test_residuals, alpha=0.6, s=50, label='Test', color='orange')
    ax1.axhline(y=0, color='red', linestyle='--', linewidth=2)
    ax1.set_xlabel('Fitted values', fontsize=12)
    ax1.set_ylabel('Residuals', fontsize=12)
    ax1.set_title('Residuals vs Fitted Values', fontsize=13, fontweight='bold')
    ax1.legend()
    ax1.grid(True, alpha=0.3)

    # Add trend line
    z = np.polyfit(y_train_pred, train_residuals, 2)
    p = np.poly1d(z)
    x_trend = np.linspace(y_train_pred.min(), y_train_pred.max(), 100)
    ax1.plot(x_trend, p(x_trend), "r-", alpha=0.5, linewidth=2, label='Trend')

    # 2. Q-Q Plot (Normality check)
    ax2 = fig.add_subplot(gs[0, 2])
    stats.probplot(train_residuals, dist="norm", plot=ax2)
    ax2.set_title('Q-Q Plot (Normality Test)', fontsize=13, fontweight='bold')
    ax2.grid(True, alpha=0.3)

    # 3. Histogram of residuals
    ax3 = fig.add_subplot(gs[1, 0])
    ax3.hist(train_residuals, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    ax3.axvline(x=0, color='red', linestyle='--', linewidth=2)
    ax3.set_xlabel('Residuals', fontsize=12)
    ax3.set_ylabel('Frequency', fontsize=12)
    ax3.set_title('Histogram of Residuals', fontsize=13, fontweight='bold')
    ax3.grid(True, alpha=0.3, axis='y')

    # 4. Residuals vs Order (independence check)
    ax4 = fig.add_subplot(gs[1, 1])
    ax4.scatter(range(len(train_residuals)), train_residuals, alpha=0.6, s=40)
    ax4.axhline(y=0, color='red', linestyle='--', linewidth=2)
    ax4.set_xlabel('Observation Order', fontsize=12)
    ax4.set_ylabel('Residuals', fontsize=12)
    ax4.set_title('Residuals vs Order', fontsize=13, fontweight='bold')
    ax4.grid(True, alpha=0.3)

    # 5. Scale-Location plot (Homoscedasticity check)
    ax5 = fig.add_subplot(gs[1, 2])
    standardized_residuals = train_residuals / train_residuals.std()
    ax5.scatter(y_train_pred, np.sqrt(np.abs(standardized_residuals)), alpha=0.6, s=50)
    ax5.set_xlabel('Fitted values', fontsize=12)
    ax5.set_ylabel('√|Standardized Residuals|', fontsize=12)
    ax5.set_title('Scale-Location Plot', fontsize=13, fontweight='bold')
    ax5.grid(True, alpha=0.3)

    # Add trend line
    z = np.polyfit(y_train_pred, np.sqrt(np.abs(standardized_residuals)), 1)
    p = np.poly1d(z)
    ax5.plot(x_trend, p(x_trend), "r-", alpha=0.5, linewidth=2)

    # 6. Residuals distribution comparison
    ax6 = fig.add_subplot(gs[2, :])
    ax6.violinplot([train_residuals, test_residuals], positions=[1, 2],
                   showmeans=True, showmedians=True)
    ax6.set_xticks([1, 2])
    ax6.set_xticklabels(['Training', 'Test'])
    ax6.set_ylabel('Residuals', fontsize=12)
    ax6.set_title('Residuals Distribution: Training vs Test', fontsize=13, fontweight='bold')
    ax6.axhline(y=0, color='red', linestyle='--', linewidth=1, alpha=0.5)
    ax6.grid(True, alpha=0.3, axis='y')

    fig.suptitle(f'Comprehensive Residual Analysis: {model_name}',
                fontsize=16, fontweight='bold', y=0.995)
    plt.show()

    # Statistical tests
    print("\n" + "="*80)
    print(f"СТАТИСТИЧНИЙ АНАЛІЗ ЗАЛИШКІВ: {model_name}")
    print("="*80)

    # Normality test (Shapiro-Wilk)
    shapiro_stat, shapiro_p = stats.shapiro(train_residuals)
    print(f"\n1. Тест нормальності (Shapiro-Wilk):")
    print(f"   Статистика: {shapiro_stat:.4f}, p-value: {shapiro_p:.4f}")
    if shapiro_p > 0.05:
        print("   ✅ Залишки мають нормальний розподіл (p > 0.05)")
    else:
        print("   ⚠️  Залишки НЕ мають нормального розподілу (p ≤ 0.05)")

    # Mean of residuals (should be close to 0)
    mean_residual = np.mean(train_residuals)
    print(f"\n2. Середнє значення залишків: {mean_residual:.6f}")
    if abs(mean_residual) < 0.01:
        print("   ✅ Середнє близьке до нуля")
    else:
        print("   ⚠️  Середнє відхилене від нуля")

    # Homoscedasticity
    print(f"\n3. Гомоскедастичність:")
    print(f"   Std (Training): {train_residuals.std():.4f}")
    print(f"   Std (Test): {test_residuals.std():.4f}")
    ratio = max(train_residuals.std(), test_residuals.std()) / min(train_residuals.std(), test_residuals.std())
    if ratio < 1.5:
        print(f"   ✅ Дисперсія однорідна (ratio: {ratio:.2f})")
    else:
        print(f"   ⚠️  Можлива гетероскедастичність (ratio: {ratio:.2f})")

    # Outliers
    outliers_train = np.sum(np.abs(standardized_residuals) > 3)
    outliers_pct = (outliers_train / len(train_residuals)) * 100
    print(f"\n4. Викиди (|z-score| > 3):")
    print(f"   Кількість: {outliers_train} ({outliers_pct:.1f}%)")
    if outliers_pct < 5:
        print("   ✅ Прийнятна кількість викидів (< 5%)")
    else:
        print("   ⚠️  Багато викидів (≥ 5%)")

    print("="*80)

# Example usage
X, y = generate_regression_data(n_samples=200, noise=10, seed=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Analyze different models
model_lr = LinearRegression()
model_lr.fit(X_train_scaled, y_train)
comprehensive_residual_analysis(model_lr, X_train_scaled, X_test_scaled,
                               y_train, y_test, "Linear Regression")

model_ridge = Ridge(alpha=5.0)
model_ridge.fit(X_train_scaled, y_train)
comprehensive_residual_analysis(model_ridge, X_train_scaled, X_test_scaled,
                               y_train, y_test, "Ridge Regression (α=5)")

---

# ⚙️ 5. Feature Engineering

**Feature Engineering** — це процес створення нових ознак або трансформації існуючих для покращення продуктивності моделі.

## 🛠 Основні техніки

### 1️⃣ Створення нових ознак з існуючих

In [None]:
# Load California Housing dataset
from sklearn.datasets import fetch_california_housing

data = fetch_california_housing()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

print("Оригінальні ознаки:")
print(df.head())

# Create new features
df['rooms_per_household'] = df['AveRooms'] / df['AveOccup']
df['bedrooms_per_room'] = df['AveBedrms'] / df['AveRooms']
df['population_per_household'] = df['Population'] / df['HouseAge']

print("\nНові створені ознаки:")
print(df[['rooms_per_household', 'bedrooms_per_room', 'population_per_household']].head())

### 2️⃣ Логарифмічні трансформації

Корисні для скошених розподілів:

In [None]:
# Visualize skewed distribution and log transformation
fig, axes = plt.subplots(2, 3, figsize=(16, 10))

features_to_transform = ['Population', 'AveRooms', 'target']

for idx, feature in enumerate(features_to_transform):
    # Original distribution
    ax1 = axes[0, idx]
    ax1.hist(df[feature], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
    ax1.set_title(f'Original: {feature}', fontsize=12, fontweight='bold')
    ax1.set_xlabel(feature, fontsize=10)
    ax1.set_ylabel('Frequency', fontsize=10)
    ax1.grid(True, alpha=0.3, axis='y')

    # Add skewness
    skewness = df[feature].skew()
    ax1.text(0.7, 0.95, f'Skew: {skewness:.2f}',
             transform=ax1.transAxes, fontsize=10, verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

    # Log-transformed distribution
    ax2 = axes[1, idx]
    log_feature = np.log1p(df[feature])
    ax2.hist(log_feature, bins=50, alpha=0.7, color='lightcoral', edgecolor='black')
    ax2.set_title(f'Log-Transformed: {feature}', fontsize=12, fontweight='bold')
    ax2.set_xlabel(f'log({feature})', fontsize=10)
    ax2.set_ylabel('Frequency', fontsize=10)
    ax2.grid(True, alpha=0.3, axis='y')

    # Add skewness
    skewness_log = log_feature.skew()
    ax2.text(0.7, 0.95, f'Skew: {skewness_log:.2f}',
             transform=ax2.transAxes, fontsize=10, verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='lightgreen', alpha=0.5))

plt.tight_layout()
plt.show()

# Apply log transformation
df['log_Population'] = np.log1p(df['Population'])
df['log_AveRooms'] = np.log1p(df['AveRooms'])

### 3️⃣ Видалення викидів

In [None]:
def remove_outliers_iqr(df, column, factor=1.5):
    """Remove outliers using IQR method"""
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - factor * IQR
    upper_bound = Q3 + factor * IQR

    outliers_mask = (df[column] < lower_bound) | (df[column] > upper_bound)
    n_outliers = outliers_mask.sum()

    print(f"Ознака '{column}':")
    print(f"  Q1: {Q1:.2f}, Q3: {Q3:.2f}, IQR: {IQR:.2f}")
    print(f"  Bounds: [{lower_bound:.2f}, {upper_bound:.2f}]")
    print(f"  Викидів знайдено: {n_outliers} ({n_outliers/len(df)*100:.1f}%)")

    return df[~outliers_mask]

# Visualize outliers
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Before removing outliers
ax1 = axes[0]
ax1.boxplot([df[col] for col in ['MedInc', 'HouseAge', 'AveRooms']],
            labels=['MedInc', 'HouseAge', 'AveRooms'])
ax1.set_title('Before Removing Outliers', fontsize=14, fontweight='bold')
ax1.set_ylabel('Value', fontsize=12)
ax1.grid(True, alpha=0.3, axis='y')

# Remove outliers
print("\n" + "="*60)
print("ВИДАЛЕННЯ ВИКИДІВ")
print("="*60)
df_clean = df.copy()
for col in ['MedInc', 'AveRooms']:
    df_clean = remove_outliers_iqr(df_clean, col, factor=1.5)
print(f"\nРозмір датасету: {len(df)} → {len(df_clean)}")
print("="*60)

# After removing outliers
ax2 = axes[1]
ax2.boxplot([df_clean[col] for col in ['MedInc', 'HouseAge', 'AveRooms']],
            labels=['MedInc', 'HouseAge', 'AveRooms'])
ax2.set_title('After Removing Outliers', fontsize=14, fontweight='bold')
ax2.set_ylabel('Value', fontsize=12)
ax2.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

### 4️⃣ Порівняння моделей з Feature Engineering

In [None]:
# Prepare datasets
X_original = df[data.feature_names]
y = df['target']

X_engineered = df[[
    'MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup',
    'Latitude', 'Longitude',
    'rooms_per_household', 'bedrooms_per_room', 'population_per_household',
    'log_Population', 'log_AveRooms'
]]

# Train-test split
X_orig_train, X_orig_test, y_orig_train, y_orig_test = train_test_split(
    X_original, y, test_size=0.2, random_state=42
)

X_eng_train, X_eng_test, y_eng_train, y_eng_test = train_test_split(
    X_engineered, y, test_size=0.2, random_state=42
)

# Standardize
scaler_orig = StandardScaler()
X_orig_train_scaled = scaler_orig.fit_transform(X_orig_train)
X_orig_test_scaled = scaler_orig.transform(X_orig_test)

scaler_eng = StandardScaler()
X_eng_train_scaled = scaler_eng.fit_transform(X_eng_train)
X_eng_test_scaled = scaler_eng.transform(X_eng_test)

# Train models
model_orig = Ridge(alpha=1.0)
model_orig.fit(X_orig_train_scaled, y_orig_train)

model_eng = Ridge(alpha=1.0)
model_eng.fit(X_eng_train_scaled, y_eng_train)

# Evaluate
results_fe = []

for name, model, X_tr, X_te, y_tr, y_te in [
    ('Original Features', model_orig, X_orig_train_scaled, X_orig_test_scaled, y_orig_train, y_orig_test),
    ('Engineered Features', model_eng, X_eng_train_scaled, X_eng_test_scaled, y_eng_train, y_eng_test)
]:
    y_pred_train = model.predict(X_tr)
    y_pred_test = model.predict(X_te)

    results_fe.append({
        'Features': name,
        'Train R²': r2_score(y_tr, y_pred_train),
        'Test R²': r2_score(y_te, y_pred_test),
        'Train RMSE': np.sqrt(mean_squared_error(y_tr, y_pred_train)),
        'Test RMSE': np.sqrt(mean_squared_error(y_te, y_pred_test)),
        'Train MAE': mean_absolute_error(y_tr, y_pred_train),
        'Test MAE': mean_absolute_error(y_te, y_pred_test)
    })

results_fe_df = pd.DataFrame(results_fe)
print("\n" + "="*100)
print("ПОРІВНЯННЯ: ОРИГІНАЛЬНІ vs СТВОРЕНІ ОЗНАКИ")
print("="*100)
print(results_fe_df.to_string(index=False))
print("="*100)

improvement = ((results_fe_df.iloc[1]['Test R²'] - results_fe_df.iloc[0]['Test R²'])
               / results_fe_df.iloc[0]['Test R²'] * 100)
print(f"\n✨ Покращення Test R²: {improvement:+.2f}%")


---

# 📈 6. Інтерпретація коефіцієнтів

Коефіцієнти лінійної регресії показують, як зміна кожної ознаки впливає на цільову змінну.

## 💡 Як інтерпретувати:

Для моделі: $y = w_0x_0 + w_1x_1 + ... + b$

- **Коефіцієнт $w_i$** показує, на скільки зміниться $y$ при збільшенні $x_i$ на 1 одиницю (при незмінних інших ознаках)
- **Позитивний коефіцієнт** → збільшення ознаки збільшує цільову змінну
- **Негативний коефіцієнт** → збільшення ознаки зменшує цільову змінну
- **Більший абсолютний коефіцієнт** → більш важлива ознака

---

## 💻 Аналіз важливості ознак

In [None]:
# Train model with all engineered features
model_final = Ridge(alpha=1.0)
model_final.fit(X_eng_train_scaled, y_eng_train)

# Get feature importance
feature_names = X_engineered.columns
coefficients = model_final.coef_

# Create DataFrame
importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Coefficient': coefficients,
    'Abs_Coefficient': np.abs(coefficients)
}).sort_values('Abs_Coefficient', ascending=False)

print("\n" + "="*80)
print("ВАЖЛИВІСТЬ ОЗНАК (КОЕФІЦІЄНТИ МОДЕЛІ)")
print("="*80)
print(importance_df.to_string(index=False))
print("="*80)

# Visualize
fig, axes = plt.subplots(1, 2, figsize=(16, 8))

# 1. Coefficients bar plot
ax1 = axes[0]
colors = ['#2ecc71' if c > 0 else '#e74c3c' for c in importance_df['Coefficient']]
bars = ax1.barh(importance_df['Feature'], importance_df['Coefficient'],
                color=colors, alpha=0.7, edgecolor='black')
ax1.axvline(x=0, color='black', linestyle='-', linewidth=1)
ax1.set_xlabel('Coefficient Value', fontsize=12)
ax1.set_title('Feature Coefficients (Ridge Regression)', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3, axis='x')

# Add value labels
for bar, val in zip(bars, importance_df['Coefficient']):
    width = bar.get_width()
    ax1.text(width, bar.get_y() + bar.get_height()/2.,
             f'{val:.3f}', ha='left' if val > 0 else 'right',
             va='center', fontsize=9)

# 2. Absolute importance
ax2 = axes[1]
colors_abs = plt.cm.viridis(np.linspace(0, 1, len(importance_df)))
bars2 = ax2.barh(importance_df['Feature'], importance_df['Abs_Coefficient'],
                 color=colors_abs, alpha=0.7, edgecolor='black')
ax2.set_xlabel('Absolute Coefficient Value', fontsize=12)
ax2.set_title('Feature Importance (Absolute Values)', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3, axis='x')

# Add value labels
for bar, val in zip(bars2, importance_df['Abs_Coefficient']):
    width = bar.get_width()
    ax2.text(width, bar.get_y() + bar.get_height()/2.,
             f'{val:.3f}', ha='left', va='center', fontsize=9)

plt.tight_layout()
plt.show()

# Feature importance interpretation
print("\n" + "="*80)
print("ІНТЕРПРЕТАЦІЯ TOP-5 ОЗНАК")
print("="*80)
for idx, row in importance_df.head(5).iterrows():
    feature = row['Feature']
    coef = row['Coefficient']
    direction = "збільшує" if coef > 0 else "зменшує"
    print(f"\n{feature}:")
    print(f"  Коефіцієнт: {coef:.4f}")
    print(f"  Інтерпретація: Збільшення {feature} на 1 од. {direction} ціну на {abs(coef):.4f}")
print("="*80)

---

# 📝 Висновки

У цій додатковій практичній роботі ми розглянули:

## ✅ Ключові моменти:

1. **📊 Метрики**: MSE, RMSE, MAE, R² - різні способи оцінки моделей
2. **🎯 Регуляризація**: Ridge, Lasso, ElasticNet - методи боротьби з перенавчанням
3. **✅ Валідація**: Cross-validation та learning curves для надійної оцінки
4. **🔍 Аналіз залишків**: Перевірка припущень та діагностика проблем
5. **⚙️ Feature Engineering**: Створення нових ознак для покращення моделі
6. **📈 Інтерпретація**: Розуміння впливу кожної ознаки на результат

---

## 🎓 Практичні рекомендації:

1. **Завжди використовуйте кілька метрик** для оцінки моделі
2. **Застосовуйте регуляризацію** при великій кількості ознак
3. **Використовуйте cross-validation** для надійної оцінки
4. **Аналізуйте залишки** для виявлення проблем моделі
5. **Експериментуйте з Feature Engineering** - це часто дає найбільше покращення
6. **Інтерпретуйте коефіцієнти** для розуміння бізнес-логіки

---

# 📘 Практична робота 2 - ВИСНОВКИ ТА РЕКОМЕНДАЦІЇ

## 🎯 Загальні Висновки по Лінійній Регресії та Методах Машинного Навчання

---

## 📚 Огляд пройденого матеріалу

У рамках практичної роботи 2 ми детально вивчили:

### Частина 1: Основи Лінійної Регресії
- ✅ Лінійна регресія (проста та множинна)
- ✅ Математична форма моделі ($y = wx + b$)
- ✅ Функції помилки (MSE, МНК)
- ✅ Методи оптимізації (аналітичний та градієнтний спуск)
- ✅ Поліноміальна регресія
- ✅ Логістична регресія
- ✅ Нормалізація даних
- ✅ Проблема перенавчання

### Частина 2: Додаткові Техніки
- ✅ Метрики оцінювання (MSE, RMSE, MAE, R²)
- ✅ Регуляризація (Ridge, Lasso, ElasticNet)
- ✅ Валідація моделей (Cross-validation, Learning curves)
- ✅ Аналіз залишків
- ✅ Feature Engineering
- ✅ Інтерпретація коефіцієнтів

---

# 🎓 Ключові Висновки

## 1️⃣ Лінійна Регресія як Фундамент

### 📊 Що ми дізналися:

**Лінійна регресія** — це базовий, але надзвичайно важливий алгоритм машинного навчання:

```
Математична форма:
    y = w₀x₀ + w₁x₁ + ... + wₙxₙ + b

    де:
    - y — цільова змінна (що передбачаємо)
    - x — ознаки (вхідні дані)
    - w — ваги (коефіцієнти)
    - b — зміщення (bias)
```

### ✅ Переваги лінійної регресії:

| Переваги | Пояснення |
|----------|-----------|
| **Простота** | Легко зрозуміти та реалізувати |
| **Інтерпретованість** | Коефіцієнти показують вплив кожної ознаки |
| **Швидкість** | Швидко навчається та робить передбачення |
| **Стабільність** | Не схильна до дикої нестабільності |
| **Базовий бенчмарк** | Відправна точка для складніших моделей |

### ❌ Обмеження лінійної регресії:

| Обмеження | Пояснення | Рішення |
|-----------|-----------|---------|
| **Лінійність** | Працює лише з лінійними залежностями | Поліноміальна регресія |
| **Чутливість до викидів** | Викиди сильно впливають на модель | Robust регресія, видалення викидів |
| **Мультиколінеарність** | Проблеми при корельованих ознаках | Ridge регресія, відбір ознак |
| **Перенавчання** | При багатьох ознаках | Регуляризація (Lasso, Ridge) |

---

## 2️⃣ Методи Оптимізації

### 🔬 Аналітичний метод (Normal Equation)

**Суть**: Розв'язок системи рівнянь через похідні

$$
w = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2}
$$

$$
b = \bar{y} - w\bar{x}
$$

**Коли використовувати:**
- ✅ Невеликі датасети (< 10,000 зразків)
- ✅ Небагато ознак (< 1,000)
- ✅ Потрібен точний розв'язок

**Коли НЕ використовувати:**
- ❌ Великі датасети (обчислювально складно)
- ❌ Багато корельованих ознак (нестабільність)

---

### 🏃‍♂️ Градієнтний Спуск

**Суть**: Ітеративний метод пошуку мінімуму функції втрат

```
Алгоритм:
1. Почати з випадкових параметрів (w, b)
2. Обчислити градієнт ∇L(w, b)
3. Оновити параметри: w = w - μ·∇L(w)
4. Повторити до збіжності
```

**Переваги:**
- ✅ Працює з великими датасетами
- ✅ Ефективний для нейронних мереж
- ✅ Можна використовувати stochastic/mini-batch варіанти

**Гіперпараметри:**
- **Learning rate (μ)**: швидкість навчання
  - Занадто великий → не збігається
  - Занадто малий → повільно навчається

---

## 3️⃣ Метрики Оцінювання

### 📊 Порівняльна таблиця метрик

| Метрика | Формула | Одиниці | Чутливість до викидів | Коли використовувати |
|---------|---------|---------|----------------------|---------------------|
| **MSE** | $\frac{1}{n}\sum(y_i - \hat{y}_i)^2$ | Квадрат y | Дуже висока | Оптимізація, математичні обчислення |
| **RMSE** | $\sqrt{MSE}$ | Такі ж як y | Висока | Інтерпретація помилки в реальних одиницях |
| **MAE** | $\frac{1}{n}\sum\|y_i - \hat{y}_i\|$ | Такі ж як y | Низька | Наявність викидів, медіанна помилка |
| **R²** | $1 - \frac{SS_{res}}{SS_{tot}}$ | Безрозмірна (0-1) | Середня | Порівняння моделей, частка дисперсії |

### 🎯 Як вибрати метрику:

```
Блок-схема вибору метрики:

Є викиди в даних?
├─ ТАК → Використовуйте MAE
└─ НІ → Потрібно порівнювати моделі?
    ├─ ТАК → Використовуйте R²
    └─ НІ → Потрібні реальні одиниці?
        ├─ ТАК → Використовуйте RMSE
        └─ НІ → Використовуйте MSE для оптимізації
```

### 📈 Інтерпретація R²:

| R² значення | Якість моделі | Інтерпретація |
|-------------|---------------|---------------|
| **0.90 - 1.00** | Відмінна | Модель пояснює 90-100% дисперсії |
| **0.70 - 0.89** | Хороша | Модель добре працює, є простір для покращення |
| **0.50 - 0.69** | Середня | Модель має предиктивну силу, але потребує покращення |
| **0.30 - 0.49** | Погана | Модель слабка, варто спробувати інші підходи |
| **< 0.30** | Дуже погана | Модель майже не працює, потрібні кардинальні зміни |

---

## 4️⃣ Регуляризація - Боротьба з Перенавчанням

### 🎯 Що таке перенавчання?

**Перенавчання (Overfitting)** — модель надто добре "запам'ятовує" тренувальні дані, включаючи шум, і погано узагальнює на нові дані.

```
Ознаки перенавчання:
✅ Висока точність на тренувальних даних
❌ Низька точність на тестових даних
❌ Великий розрив між Train та Test метриками
```

### 📐 Методи регуляризації

#### 1. Ridge Regression (L2)

```
Loss = MSE + α·∑w²

Характеристики:
- Зменшує коефіцієнти
- НЕ зануляє їх повністю
- Працює з корельованими ознаками
- α контролює силу регуляризації
```

**Коли використовувати:**
- ✅ Багато корельованих ознак
- ✅ Всі ознаки потенційно важливі
- ✅ Мультиколінеарність

#### 2. Lasso Regression (L1)

```
Loss = MSE + α·∑|w|

Характеристики:
- Може зануляти коефіцієнти
- Виконує автоматичний відбір ознак
- Створює розріджені моделі
- Корисна при багатьох нерелевантних ознаках
```

**Коли використовувати:**
- ✅ Багато нерелевантних ознак
- ✅ Потрібен відбір ознак
- ✅ Інтерпретованість важлива

#### 3. ElasticNet (L1 + L2)

```
Loss = MSE + α₁·∑|w| + α₂·∑w²

Характеристики:
- Комбінує Ridge та Lasso
- Більш стабільна ніж Lasso
- Баланс між відбором ознак та стабільністю
```

**Коли використовувати:**
- ✅ Компроміс між Ridge та Lasso
- ✅ Корельовані ознаки + потрібен відбір

### 📊 Порівняльна таблиця регуляризації

| Метод | Зануляє коефіцієнти? | Відбір ознак? | Стабільність | Складність інтерпретації |
|-------|---------------------|---------------|--------------|-------------------------|
| **Linear** | Ні | Ні | Низька | Низька |
| **Ridge** | Ні (зменшує) | Ні | Висока | Середня |
| **Lasso** | Так | Так | Середня | Низька |
| **ElasticNet** | Так | Так | Висока | Середня |

---

## 5️⃣ Валідація Моделей

### 🔀 Стратегії поділу даних

#### Стратегія 1: Train-Test Split (70-30 або 80-20)

```
Dataset (100%)
├─ Train (70-80%) → Навчання моделі
└─ Test (20-30%)  → Фінальна оцінка
```

**Переваги:** Швидко, просто
**Недоліки:** Залежить від випадкового поділу

#### Стратегія 2: Train-Validation-Test Split

```
Dataset (100%)
├─ Train (60%) → Навчання моделі
├─ Validation (20%) → Підбір гіперпараметрів
└─ Test (20%) → Фінальна оцінка (торкаємося 1 раз!)
```

**Переваги:** Чітке розділення для кожної мети
**Недоліки:** Менше даних для навчання

#### Стратегія 3: K-Fold Cross-Validation

```
Dataset поділений на 5 частин:
Fold 1: [TEST][Train][Train][Train][Train]
Fold 2: [Train][TEST][Train][Train][Train]
Fold 3: [Train][Train][TEST][Train][Train]
Fold 4: [Train][Train][Train][TEST][Train]
Fold 5: [Train][Train][Train][Train][TEST]

Результат: середня оцінка по 5 ітераціях
```

**Переваги:**
- ✅ Використовує всі дані
- ✅ Більш надійна оцінка
- ✅ Зменшує дисперсію

**Недоліки:**
- ❌ Повільніше (k разів)
- ❌ Не підходить для часових рядів

### 📈 Learning Curves - Діагностика

```
Три можливі сценарії:

1. ПЕРЕНАВЧАННЯ (Overfitting):
   Train Score: високий ━━━━━━━━━━━━━
   Val Score:   низький  ━━━━━━━━
   Рішення: Регуляризація, більше даних, менше ознак

2. НЕДОНАВЧАННЯ (Underfitting):
   Train Score: низький  ━━━━━━━━
   Val Score:   низький  ━━━━━━━
   Рішення: Складніша модель, більше ознак, менше регуляризації

3. ДОБРЕ ЗБАЛАНСОВАНА:
   Train Score: високий ━━━━━━━━━━━━━
   Val Score:   високий ━━━━━━━━━━━
   Рішення: Модель готова! ✓
```

---

## 6️⃣ Feature Engineering

### 🛠 Важливість Feature Engineering

> "Feature Engineering часто дає більше покращення, ніж вибір алгоритму"

### 📋 Чеклист Feature Engineering

#### 1. Створення нових ознак

```python
# Приклади комбінацій:
✅ Співвідношення: rooms_per_household = total_rooms / households
✅ Різниця: price_diff = current_price - previous_price
✅ Добуток: area_value = area * price_per_sqm
✅ Агрегації: avg_income_by_region = group_mean(income, region)
```

#### 2. Трансформації

```python
# Лінеарізація відношень:
✅ Логарифм: log(x) — для експоненційних залежностей
✅ Квадратний корінь: √x — для параболічних
✅ Степені: x², x³ — поліноміальні залежності
✅ Зворотнє: 1/x — гіперболічні
```

#### 3. Обробка викидів

```
Метод IQR (Interquartile Range):
Q1 = 25-й перцентиль
Q3 = 75-й перцентиль
IQR = Q3 - Q1

Викиди:
- Нижня межа: Q1 - 1.5·IQR
- Верхня межа: Q3 + 1.5·IQR

Дії з викидами:
1. Видалити (якщо помилка вимірювання)
2. Обмежити (capping/winsorization)
3. Трансформувати (log, sqrt)
4. Використати robust методи (Huber, MAE)
```

#### 4. Кодування категоріальних змінних

```
Типи кодування:

1. One-Hot Encoding:
   color: ['red', 'blue', 'green']
   → [is_red, is_blue, is_green]

2. Label Encoding:
   size: ['S', 'M', 'L', 'XL']
   → [0, 1, 2, 3]

3. Target Encoding:
   region: ['A', 'B', 'C']
   → [mean_price_A, mean_price_B, mean_price_C]
```

---

## 7️⃣ Аналіз Залишків

### 🔍 Чому важливий аналіз залишків?

Залишки (residuals) = $y_{true} - y_{pred}$ показують помилки моделі

### ✅ Ідеальні залишки повинні:

1. **Мати нормальний розподіл** → Q-Q plot близький до прямої
2. **Мати нульове середнє** → модель не систематично помиляється
3. **Мати однорідну дисперсію** (гомоскедастичність) → немає "воронки"
4. **Не мати патернів** → всі залежності враховані

### 🚨 Проблеми, які виявляє аналіз:

| Проблема | Ознака в графіку | Рішення |
|----------|------------------|---------|
| **Нелінійність** | Патерн у residuals vs fitted | Поліноміальні ознаки, трансформації |
| **Гетероскедастичність** | "Воронка" у residuals | Трансформація y (log), WLS регресія |
| **Викиди** | Точки далеко від 0 | Видалення, robust регресія |
| **Ненормальність** | Q-Q plot не лінійний | Трансформації, інші моделі |

---

## 8️⃣ Практичний Workflow

### 🔄 Покроковий процес побудови моделі

```
┌─────────────────────────────────────────────────────────────────┐
│                    1. РОЗУМІННЯ ЗАДАЧІ                          │
│  - Визначити цільову змінну                                     │
│  - Зрозуміти бізнес-контекст                                    │
│  - Вибрати метрику успіху                                       │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                 2. ДОСЛІДЖЕННЯ ДАНИХ (EDA)                      │
│  - Описова статистика                                           │
│  - Візуалізація розподілів                                      │
│  - Кореляційний аналіз                                          │
│  - Виявлення викидів                                            │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                   3. ПІДГОТОВКА ДАНИХ                           │
│  - Обробка пропущених значень                                   │
│  - Видалення/обробка викидів                                    │
│  - Кодування категоріальних змінних                             │
│  - Feature Engineering                                          │
│  - Нормалізація/Стандартизація                                  │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                  4. ПОДІЛ ДАНИХ                                 │
│  - Train-Validation-Test split                                  │
│  - або Train-Test + Cross-validation                            │
│  - Переконатися в стратифікації (якщо потрібно)                │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│               5. BASELINE МОДЕЛЬ                                │
│  - Проста лінійна регресія                                      │
│  - Оцінка базових метрик                                        │
│  - Встановлення бенчмарку                                       │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│             6. ПОКРАЩЕННЯ МОДЕЛІ                                │
│  - Спробувати Ridge, Lasso, ElasticNet                         │
│  - Підібрати гіперпараметри (α, degree)                        │
│  - Використати Cross-validation                                 │
│  - Експериментувати з ознаками                                  │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                7. ВАЛІДАЦІЯ                                     │
│  - Learning curves (перенавчання?)                              │
│  - Аналіз залишків                                              │
│  - Порівняння метрик Train vs Test                             │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│           8. ФІНАЛЬНА ОЦІНКА НА TEST SET                        │
│  - ОДИН РАЗ оцінити на тестовому наборі                        │
│  - Інтерпретувати результати                                    │
│  - Аналіз коефіцієнтів                                          │
└─────────────────────────────────────────────────────────────────┘
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                  9. DEPLOYMENT (за потреби)                     │
│  - Зберегти модель                                              │
│  - Документувати pipeline                                       │
│  - Моніторинг в продакшені                                      │
└─────────────────────────────────────────────────────────────────┘
```

---

## 9️⃣ Практичні Рекомендації

### 🎯 ДО (Best Practices):

#### ✅ Для всіх проектів:

1. **Завжди починайте з простої моделі**
   ```python
   # Baseline
   model = LinearRegression()
   # Потім покращуйте
   ```

2. **Використовуйте кілька метрик**
   ```python
   metrics = {
       'R²': r2_score(y_true, y_pred),
       'RMSE': sqrt(mean_squared_error(y_true, y_pred)),
       'MAE': mean_absolute_error(y_true, y_pred)
   }
   ```

3. **Завжди стандартизуйте дані**
   ```python
   scaler = StandardScaler()
   X_scaled = scaler.fit_transform(X)
   ```

4. **Використовуйте Cross-Validation**
   ```python
   scores = cross_val_score(model, X, y, cv=5, scoring='r2')
   print(f"R² = {scores.mean():.3f} (±{scores.std():.3f})")
   ```

5. **Аналізуйте залишки**
   ```python
   residuals = y_true - y_pred
   plt.scatter(y_pred, residuals)
   plt.axhline(y=0, color='r', linestyle='--')
   ```

#### ✅ При багатьох ознаках:

6. **Застосовуйте регуляризацію**
   ```python
   # Спочатку спробуйте Ridge
   model = Ridge(alpha=1.0)
   # Потім Lasso для відбору ознак
   model = Lasso(alpha=0.1)
   ```

7. **Перевіряйте кореляцію ознак**
   ```python
   corr_matrix = df.corr()
   high_corr = np.where(np.abs(corr_matrix) > 0.8)
   # Видаліть або об'єднайте корельовані ознаки
   ```

#### ✅ Feature Engineering:

8. **Створюйте нові ознаки**
   ```python
   df['ratio'] = df['feature_1'] / df['feature_2']
   df['interaction'] = df['feature_1'] * df['feature_2']
   ```

9. **Трансформуйте скошені розподіли**
   ```python
   df['log_feature'] = np.log1p(df['feature'])
   ```

10. **Обробляйте викиди**
    ```python
    Q1 = df['feature'].quantile(0.25)
    Q3 = df['feature'].quantile(0.75)
    IQR = Q3 - Q1
    df = df[(df['feature'] >= Q1 - 1.5*IQR) &
            (df['feature'] <= Q3 + 1.5*IQR)]
    ```

### 🚫 НЕ РОБІТЬ (Common Mistakes):

#### ❌ Критичні помилки:

1. **НЕ використовуйте тестовий набір для налаштування**
   ```python
   # НЕПРАВИЛЬНО:
   for alpha in [0.1, 1, 10]:
       model = Ridge(alpha=alpha)
       model.fit(X_train, y_train)
       score = model.score(X_test, y_test)  # ❌

   # ПРАВИЛЬНО:
   for alpha in [0.1, 1, 10]:
       model = Ridge(alpha=alpha)
       scores = cross_val_score(model, X_train, y_train, cv=5)  # ✓
   ```

2. **НЕ стандартизуйте до поділу**
   ```python
   # НЕПРАВИЛЬНО:
   X_scaled = scaler.fit_transform(X)  # ❌
   X_train, X_test = train_test_split(X_scaled, ...)

   # ПРАВИЛЬНО:
   X_train, X_test = train_test_split(X, ...)  # ✓
   X_train_scaled = scaler.fit_transform(X_train)
   X_test_scaled = scaler.transform(X_test)
   ```

3. **НЕ ігноруйте перенавчання**
   ```python
   # Завжди перевіряйте:
   train_score = model.score(X_train, y_train)
   test_score = model.score(X_test, y_test)

   if train_score - test_score > 0.1:
       print("⚠️ Перенавчання! Потрібна регуляризація")
   ```

4. **НЕ забувайте про інтерпретацію**
   ```python
   # Завжди дивіться на коефіцієнти:
   feature_importance = pd.DataFrame({
       'feature': feature_names,
       'coefficient': model.coef_
   }).sort_values('coefficient', key=abs, ascending=False)
   ```

5. **НЕ використовуйте лінійну регресію для всього**
   ```python
   # Якщо R² < 0.5, спробуйте:
   - Поліноміальні ознаки
   - Трансформації
   - Інші алгоритми (Random Forest, XGBoost)
   ```

---

## 🔟 Діагностика Проблем

### 🩺 Таблиця діагностики

| Симптом | Можлива причина | Рішення |
|---------|----------------|---------|
| **Low Train R², Low Test R²** | Недонавчання | Більше ознак, вищий degree, менша регуляризація |
| **High Train R², Low Test R²** | Перенавчання | Регуляризація, менше ознак, більше даних |
| **Патерн у залишках** | Нелінійні залежності | Поліноміальні ознаки, трансформації |
| **"Воронка" у залишках** | Гетероскедастичність | Log-трансформація y, Weighted Least Squares |
| **Викиди у залишках** | Проблемні спостереження | Видалити, Robust регресія |
| **Негативний R²** | Модель гірша за середнє | Переглянути ознаки, інший алгоритм |
| **Нестабільні коефіцієнти** | Мультиколінеарність | Ridge регресія, видалити корельовані ознаки |
| **Багато нульових коефіцієнтів (Lasso)** | Занадто сильна регуляризація | Зменшити α |

---

## 1️⃣1️⃣ Порівняльні Таблиці

### 📊 Вибір моделі

| Ситуація | Рекомендована модель | Альтернатива |
|----------|---------------------|--------------|
| Мало даних, мало ознак | Linear Regression | Ridge (α=0.1) |
| Багато даних, мало ознак | Linear Regression | SGDRegressor |
| Мало даних, багато ознак | Ridge (α=1-10) | Lasso |
| Багато нерелевантних ознак | Lasso (α=0.1-1) | ElasticNet |
| Корельовані ознаки | Ridge (α=1-10) | ElasticNet |
| Потрібна інтерпретація | Linear/Lasso | Ridge |
| Нелінійні залежності | Polynomial + Ridge | Kernel methods |
| Викиди в даних | Huber Regression | MAE loss |

### 🎯 Вибір метрики

| Завдання | Основна метрика | Допоміжні |
|----------|----------------|-----------|
| Порівняння моделей | R² | RMSE, MAE |
| Бізнес-звітність | RMSE або MAE | R² |
| Оптимізація моделі | MSE | R² |
| Наявність викидів | MAE | R² |
| Академічні дослідження | R², RMSE | MSE, MAE |

### 🔧 Підбір гіперпараметрів

| Параметр | Типові значення | Як підбирати |
|----------|----------------|--------------|
| **Ridge α** | 0.01, 0.1, 1, 10, 100 | Grid Search + CV |
| **Lasso α** | 0.001, 0.01, 0.1, 1 | Grid Search + CV |
| **Polynomial degree** | 2, 3, 4 | Обережно! Швидке перенавчання |
| **Learning rate (SGD)** | 0.001, 0.01, 0.1 | Спостерігайте за збіжністю |

---

## 1️⃣2️⃣ Чек-лист Перед Фінальною Оцінкою

### ✅ Перевірте все перед тестуванням:

#### Дані:
- [ ] Немає витоку даних (data leakage)
- [ ] Стандартизація застосована після поділу
- [ ] Пропущені значення оброблені
- [ ] Викиди оброблені або видалені
- [ ] Категоріальні змінні закодовані

#### Модель:
- [ ] Базова модель створена (baseline)
- [ ] Гіперпараметри підібрані через CV
- [ ] Регуляризація застосована (якщо потрібно)
- [ ] Learning curves проаналізовані
- [ ] Залишки перевірені

#### Метрики:
- [ ] Визначені відповідні метрики
- [ ] Train та Validation метрики близькі
- [ ] Немає перенавчання (gap < 0.1 для R²)
- [ ] R² > 0.5 (або обґрунтовано чому менше)

#### Інтерпретація:
- [ ] Коефіцієнти проаналізовані
- [ ] Найважливіші ознаки визначені
- [ ] Результати мають бізнес-сенс
- [ ] Обмеження моделі зрозумілі

---

## 1️⃣5️⃣ Фінальні Висновки

### 🎯 Головні Висновки:

#### 1. **Лінійна регресія — це фундамент**
   - Проста, але потужна
   - Основа для складніших методів
   - Завжди починайте з неї як baseline

#### 2. **Метрики важливі**
   - R² для порівняння моделей
   - RMSE/MAE для інтерпретації помилок
   - Використовуйте кілька метрик одночасно

#### 3. **Регуляризація запобігає перенавчанню**
   - Ridge для загального випадку
   - Lasso для відбору ознак
   - ElasticNet як компроміс

#### 4. **Валідація критична**
   - Cross-validation для надійної оцінки
   - Learning curves для діагностики
   - Тестовий набір торкаємося лише раз

#### 5. **Feature Engineering > Model Selection**
   - Якісні ознаки важливіші за вибір алгоритму
   - Творчий підхід до створення ознак
   - Експериментуйте!

#### 6. **Аналіз залишків виявляє проблеми**
   - Завжди перевіряйте залишки
   - Вони показують, що модель не враховує
   - Діагностика передує лікуванню

#### 7. **Інтерпретованість важлива**
   - Розумійте коефіцієнти моделі
   - Пояснюйте результати стейкхолдерам
   - Довіра до моделі = використання моделі

### 🌟 Підсумок:

```
╔════════════════════════════════════════════════════════════════╗
║                                                                ║
║  Лінійна регресія — це не просто алгоритм, це спосіб мислення║
║                                                                ║
║  Ви навчилися:                                                ║
║   ✓ Будувати та оцінювати моделі                             ║
║   ✓ Запобігати перенавчанню                                   ║
║   ✓ Валідувати результати                                     ║
║   ✓ Аналізувати та покращувати моделі                        ║
║   ✓ Інтерпретувати результати                                ║
║                                                                ║
║  Ці знання є фундаментом для всього машинного навчання!      ║
║                                                                ║
╚════════════════════════════════════════════════════════════════╝

    ___________________________
   /                           \
  |  "Data is the new oil,      |
  |   but models are the        |
  |   refineries."              |
  |                             |
  |  - Keep Learning! 📚        |
   \_____________________________/
          \   ^__^
           \  (oo)\_______
              (__)\       )\/\
                  ||----w |
                  ||     ||
```