# <center>Лекція 4. Лінійні моделі класифікації і регресії
## <center>Частина 2

<a class="anchor" id="4-2"></a>

## Зміст 

- [4.3. Приклад регуляризації логістичної регресії](#4.3)
    + [4.3.1. Логістична регресія з поліноміальними ознаками](#4.3.1)
    + [4.3.2. Налаштування параметра регуляризації](#4.3.2)
- [4.4. Приклади застосування регуляризації](#4.4)
    + [4.4.1. Аналіз відгуків IMDB до фільмів](#4.4.1)
    + [4.4.2. Простий підрахунок слів](#4.4.2)
    + [4.4.3. XOR-проблема](#4.4.3)
- [4.5. Криві валідації й навчання](#4.5)
    + [4.5.1. Як покращити модель?](#4.5.1)
    + [4.5.2. Скільки потрібно даних?](#4.5.2)
- [Висновки](#4.6)

<a class="anchor" id="4.3"></a>

## <span style="color:blue; font-size:1.2em;">4.3. Приклад регуляризації логістичної регресії</span>

[Повернутися до змісту](#4-2)

У 1-ій частині лекції вже наводився приклад того, як поліноміальні ознаки дають змогу лінійним моделям будувати нелінійні розділяючі поверхні. Покажемо це на рисунках.

Подивимося, як регуляризація впливає на якість класифікації за набором даних щодо тестування мікрочіпів з курсу Andrew Ng [Machine Learning](https://www.coursera.org/learn/machine-learning).

<a class="anchor" id="4.3.1"></a>

### <span style="color:blue; font-size:1.2em;">4.3.1. Логістична регресія з поліноміальними ознаками</span>

[Повернутися до змісту](#4-2)

Будемо використовувати логістичну регресію з поліноміальними ознаками і змінювати значення параметра регуляризації C. Спочатку подивимося, як регуляризація впливає на розділяючу границю класифікатора, інтуїтивно розпізнаємо перенавчання і недонавчання. Далі чисельно встановимо близький до оптимального параметр регуляризації за допомогою крос-валідації (`cross-validation`) і сіточного перебору (`GridSearch`).

Для відображення графіків інсталюйте бібліотеку [drawdata](https://pypi.org/project/drawdata/):

```python
pip install drawdata
```

In [None]:
from __future__ import division, print_function

# відключимо всякі попередження Anaconda
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
from matplotlib import pyplot as plt
import seaborn as sns

import numpy as np
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LogisticRegression, LogisticRegressionCV
from sklearn.model_selection import cross_val_score, StratifiedKFold

# підвищимо розмір графіків за замовчуванням
# %config InlineBackend.figure_format = 'svg' 
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = 7, 5

from drawdata import draw_scatter, draw_line, draw_histogram

Завантажуємо дані за допомогою методу `read_csv` бібліотеки` pandas`. У цьому наборі даних для 118 мікрочіпів (об'єкти) вказані результати двох тестів з контролю якості (дві числові ознаки) і вказано чи запустили мікрочіп у виробництво. Ознаки вже центровані, тобто від усіх значень віднято середні значення за стовпцями. Так, "середньому" мікрочіпу відповідають нульові значення результатів тестів.

In [None]:
# завантаження данних
data_microchip_tests = 'https://raw.githubusercontent.com/radiukpavlo/intelligent-data-analysis/main/01_lecture-notes/ida_lecture-04_linear_models/microchip_tests.txt'

data = pd.read_csv(data_microchip_tests,
                   header=None, names = ('test1','test2','released'))

# інформація про набір даних
data.info()

Подивимося на перші й останні 5 рядків.

In [None]:
data.head(5)

In [None]:
data.tail(5)

Збережемо навчальну вибірку й мітки цільового класу в окремих масивах `numpy`.

In [None]:
X = data.iloc[:,:2].values
y = data.iloc[:,2].values

Відобразимо дані. Червоний колір відповідає чіпам зі станом Defective, зелений – нормальним.

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plt.scatter(X[y == 1, 0], X[y == 1, 1], c='green', label='Released')
plt.scatter(X[y == 0, 0], X[y == 0, 1], c='red', label='Defective')
plt.xlabel("Test 1");plt.ylabel("Test 2")
plt.title('2 microchip tests')
plt.legend();

Визначаємо функцію для відображення розділяючої кривої класифікатора.

In [None]:
def plot_boundary(clf, X, y, grid_step=.01, poly_featurizer=None):
    x_min, x_max = X[:, 0].min() - .1, X[:, 0].max() + .1
    y_min, y_max = X[:, 1].min() - .1, X[:, 1].max() + .1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, grid_step),
                         np.arange(y_min, y_max, grid_step))

    # кожній точці в сітці [x_min, m_max]x[y_min, y_max]
    # ставимо у відповідність свій колір
    Z = clf.predict(poly_featurizer.transform(np.c_[xx.ravel(), yy.ravel()]))
    Z = Z.reshape(xx.shape)
    plt.contour(xx, yy, Z, cmap=plt.cm.Paired)

Поліноміальними ознаками до степеня $d$ для двох змінних $x_1$ і $x_2$ ми називаємо такі:

$$\large \{x_1^d, x_1^{d-1}x_2, \ldots x_2^d\} =  \{x_1^ix_2^j\}_{i+j=d, i,j \in \mathbb{N}}$$

Наприклад, для $d=3$ це будуть такі ознаки:

$$\large 1, x_1, x_2,  x_1^2, x_1x_2, x_2^2, x_1^3, x_1^2x_2, x_1x_2^2, x_2^3$$

Намалювавши трикутник Піфагора, ви зрозумієте, скільки таких ознак буде для $d=4,5...$ і взагалі для будь-якого $d$.
Простіше кажучи, таких ознак експоненціально багато, і будувати, скажімо, для 100 ознак поліноміальні степеня 10 може виявитися затратно (а більш того, і не потрібно).

Створимо об'єкт `sklearn`, який додасть до матриці $X$ поліноміальні ознаки аж до степеня 7.

In [None]:
poly = PolynomialFeatures(degree=7)
X_poly = poly.fit_transform(X)

In [None]:
X_poly.shape

Навчимо логістичну регресію з параметром регуляризації $C = 10^{-2}$. Подамо розділяючу границю. Також перевіримо частку правильних відповідей класифікатора за навчальною вибіркою. Бачимо, що регуляризація виявилася занадто сильною, і модель "недонавчилась".

In [None]:
C = 1e-2
logit = LogisticRegression(C=C, n_jobs=-1, random_state=17)
logit.fit(X_poly, y)

In [None]:
plot_boundary(logit, X, y, grid_step=.01, poly_featurizer=poly)

plt.figure(figsize=(7,5), dpi=100)
plt.scatter(X[y == 1, 0], X[y == 1, 1], c='green', label='Released')
plt.scatter(X[y == 0, 0], X[y == 0, 1], c='red', label='Defective')
plt.xlabel("Test 1"); plt.ylabel("Test 2")
plt.title('2 microchip tests; logit with C=0.01')
plt.legend();

print(f"Частка правильних відповідей класифікатора за навчальною вибіркою:
      {round(logit.score(X_poly, y), 3)}")

Збільшимо $C$ до 1. У такий спосіб ми *послаблюємо* регуляризацію. Тепер у рішенні значення ваг логістичної регресії можуть виявитися більшими (за модулем), ніж в попередньому випадку.

In [None]:
C = 1
logit = LogisticRegression(C=C, n_jobs=-1, random_state=17)
logit.fit(X_poly, y)

In [None]:
plot_boundary(logit, X, y, grid_step=.005, poly_featurizer=poly)

plt.figure(figsize=(7,5), dpi=100)
plt.scatter(X[y == 1, 0], X[y == 1, 1], c='green', label='Released')
plt.scatter(X[y == 0, 0], X[y == 0, 1], c='red', label='Defective')
plt.xlabel("Test 1"); plt.ylabel("Test 2")
plt.title('2 microchip tests; logit with C=1')
plt.legend()

print(f"Частка правильних відповідей класифікатора за навчальною вибіркою: 
      {round(logit.score(X_poly, y), 3)}")

Ще збільшимо $C$ – до 10 тисяч. Тепер регуляризації явно недостатньо, і ми спостерігаємо перенавчання. Можнемо помітити, що в попередньому випадку (за $C$ = 1 і "округлою" границею) частка правильних відповідей моделі за навчальною вибіркою не набагато нижча, ніж в третьому випадку, зате за новою вибіркою можемо припустити, що друга модель спрацює значно краще.

In [None]:
C = 1e4
logit = LogisticRegression(C=C, n_jobs=-1, random_state=17)
logit.fit(X_poly, y)

In [None]:
plot_boundary(logit, X, y, grid_step=.005, poly_featurizer=poly)

plt.figure(figsize=(7,5), dpi=100)
plt.scatter(X[y == 1, 0], X[y == 1, 1], c='green', label='Released')
plt.scatter(X[y == 0, 0], X[y == 0, 1], c='red', label='Defective')
plt.xlabel("Test 1"); plt.ylabel("Test 2")
plt.title('2 microchip tests; logit with C=10k')
plt.legend()

print(f"Частка правильних відповідей класифікатора за навчальною вибіркою:
      {round(logit.score(X_poly, y), 3)}")

Щоб обговорити результати, перепишемо формулу для функціоналу, що оптимізується в логістичній регресії, в такому вигляді:

$$\large  J(X,y,w) = \mathcal{L} + \frac{1}{C}||w||^2,$$

де
 - $\mathcal{L}$ – логістична функція втрат, що просумована за всією вибіркою;
 - $C$ – обернений коефіцієнт регуляризації (тієї самої $C$ в `sklearn`-реалізації `LogisticRegression`)

**Проміжні висновки**:
 
 - чим більше значення параметру $C$, тим складніші залежності в даних може відновлювати модель (інтуїтивно $C$ відповідає "складності" моделі ([model capacity](https://en.wikipedia.org/wiki/Capacity_theory#Three_basic_components_of_the_capacity_model)));
 - якщо регуляризація занадто сильна (малі значення $C$), то розв'язком задачі мінімізації логістичної функції втрат може виявитися те, коли багато ваг обнулилися або стали занадто малим;  говорять також, що модель недостатньо "штрафується" за помилки (тобто у функціоналі $J$ "переважує" сума квадратів ваг, а помилка $\mathcal{L}$ може бути відносно великою); в такому випадку модель виявиться *недонавченою* (1 випадок);
 - навпаки, якщо регуляризація занадто слабка (великі значення $C$), то розв'язком задачі оптимізації може стати вектор $w$ з великими за модулем компонентами; в такому випадку більший внесок в оптимізуючий функціонал $J$ має $\mathcal{L}$ і, простіше кажучи, модель занадто "боїться" помилитися на об'єктах навчальної вибірки, тому отримаємо *перенавчання* (3 випадок);
 - то, яке значення $C$ вибрати, сама логістична регресія "не зрозуміє" (або ще кажуть "не вивчить"), тобто це не може бути визначено розв'язком оптимізаційної задачі, якою є логістична регресія (на відміну від ваг $w$ ); так само точно, дерево рішень не може "саме зрозуміти", яке обмеження на глибину вибрати (за один процес навчання); тому $C$ – це *гіперпараметр* моделі, який налаштовується під час крос-валідації, аналогічно до *max_depth* для дерева.

<a class="anchor" id="4.3.2"></a>

### <span style="color:blue; font-size:1.2em;">4.3.2. Налаштування параметра регуляризації</span>

[Повернутися до змісту](#4-2)

Тепер знайдемо оптимальне (в даному прикладі) значення параметра регуляризації $C$. Ми можемо це зробити допомогою `LogisticRegressionCV` – перебору параметрів по сітці з наступною крос-валідацією. Цей клас створений спеціально для логістичної регресії (для неї відомі ефективні алгоритми перебору параметрів), для довільної моделі ми б використовували `GridSearchCV`, `RandomizedSearchCV` або, наприклад, спеціальні алгоритми оптимізації гіперпараметров, що реалізовані в [hyperopt](http://hyperopt.github.io/hyperopt/).

In [None]:
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=17)

c_values = np.logspace(-2, 3, 500)

logit_searcher = LogisticRegressionCV(Cs=c_values, cv=skf, verbose=1, n_jobs=-1)
logit_searcher.fit(X_poly, y)

In [None]:
logit_searcher.C_

Подивимося, як якість моделі (частка правильних відповідей за навчальною та валідаційною вибірками) змінюється у разі зміни гіперпараметра $C$.

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plt.plot(c_values, np.mean(logit_searcher.scores_[1], axis=0))
plt.xlabel('C')
plt.ylabel('Mean CV-accuracy')

Виділимо ділянку з "кращими" значеннями C.

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plt.plot(c_values, np.mean(logit_searcher.scores_[1], axis=0))
plt.xlabel('C')
plt.ylabel('Mean CV-accuracy')
plt.xlim((0,10))

Такі криві називаються *валідаційними*, і в `sklearn` для їхньої побудови є спеціальні методи.

<a class="anchor" id="4.4"></a>

## <span style="color:blue; font-size:1.2em;">4.4. Приклади застосування регуляризації</span>

[Повернутися до змісту](#4-2)

<a class="anchor" id="4.4.1"></a>

### <span style="color:blue; font-size:1.2em;">4.4.1. Аналіз відгуків IMDB до фільмів</span>

[Повернутися до змісту](#4-2)

Будемо розв'язувати задачу бінарної класифікації відгуків IMDb до фільмів (Набір даних [Large Movie Review Dataset v1.0](https://ai.stanford.edu/~amaas/data/sentiment/)). Є навчальна вибірка з розміченими відгуками, щодо 12500 відгуків відомо, що вони хороші, ще про 12500 – що вони погані. Тут вже не так просто відразу розпочати з МН, тому що готової матриці чинників $X$ немає – її треба підготувати. Будемо використовувати найпростіший підхід – мішок слів ("Bag of words"). За такого підходу ознаками відгуку будуть індикатори наявності в ньому кожного слова з усього корпусу, де корпус – це множина всіх відгуків. Ідея ілюструється рисунком:

![img](https://raw.githubusercontent.com/radiukpavlo/intelligent-data-analysis/main/03_img/4_2_10_bag_of_words.png)<br>

In [None]:
import os
import matplotlib.pyplot as plt
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer

Завантажимо дані [звідси](http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz) (це пряме покликання на завантаження, а [тут](http://ai.stanford.edu/~amaas/data/sentiment/) опис набору даних). У навчальній і тестовій вибірках по 12500 тисяч хороших і поганих відгуків до фільмів.

from io import BytesIO
import requests
import tarfile

url = "http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"

def load_imdb_dataset(extract_path=".", overwrite=False):
    #check if existed already
    if os.path.isfile(os.path.join(extract_path, "aclImdb", "README")) and not overwrite:
        print(f"IMDB dataset is already in place.")
        return

    print(f"Downloading the dataset from: {url}")
    response = requests.get(url)

    tar = tarfile.open(mode= "r:gz", fileobj = BytesIO(response.content))

    data = tar.extractall(extract_path)

load_imdb_dataset()

In [None]:
PATH_TO_IMDB = "aclImdb"

try:
    reviews_train = load_files(os.path.join(PATH_TO_IMDB, "train"), categories=['pos', 'neg'])
    text_train, y_train = reviews_train.data, reviews_train.target
    reviews_test = load_files(os.path.join(PATH_TO_IMDB, "test"), categories=['pos', 'neg'])
    text_test, y_test = reviews_test.data, reviews_test.target
except FileNotFoundError:
    print(f"The directory {PATH_TO_IMDB} does not exist. Please check the path and try again.")
except Exception as e:
    print(f"An unexpected error occurred: {e}")


In [None]:
print(f"Number of documents in training data: {len(text_train)}")
print(np.bincount(y_train))
print(f"Number of documents in test data: {len(text_test)}")
print(np.bincount(y_test))

Приклади відгуку та відповідної мітки:

In [None]:
print(text_train[1])

In [None]:
y_train[1] # поганий відгук

In [None]:
text_train[2]

In [None]:
y_train[2] # хороший відгук

<a class="anchor" id="4.4.2"></a>

### <span style="color:blue; font-size:1.2em;">4.4.2. Простий підрахунок слів</span>

[Повернутися до змісту](#4-2)

Складемо словник усіх слів за допомогою CountVectorizer.

In [None]:
cv = CountVectorizer()
cv.fit(text_train)

len(cv.vocabulary_)

Подивимося на приклади отриманих "слів" (краще їх називати токенами). Бачимо, що багато важливих етапів оброблення тексту ми тут пропустили.

In [None]:
print(cv.get_feature_names_out()[:50])
print(cv.get_feature_names_out()[50000:50050])

Закодуємо пропозиції з текстів навчальної вибірки індексами вхідних слів. Використовуємо розріджений формат:

In [None]:
X_train = cv.transform(text_train)
X_train

Подивимося, як перетворення подіяло на одну з пропозицій:

In [None]:
print(text_train[19726])

In [None]:
X_train[19726].nonzero()[1]

In [None]:
X_train[19726].nonzero()

Перетворимо так само тестову вибірку:

In [None]:
X_test = cv.transform(text_test)

Навчимо логістичну регресію:

In [None]:
%%time
logit = LogisticRegression(n_jobs=-1, random_state=7)
logit.fit(X_train, y_train)

Подивимося на частки правильних відповідей за навчальною і тестовою вибірками:

In [None]:
round(logit.score(X_train, y_train), 3), round(logit.score(X_test, y_test), 3),

Коефіцієнти моделі можна гарно відобразити:

In [None]:
def visualize_coefficients(classifier, feature_names, n_top_features=25):
    
    # отримуємо коефіцієнти з великими абсолютними значеннями
    coef = classifier.coef_.ravel()
    positive_coefficients = np.argsort(coef)[-n_top_features:]
    negative_coefficients = np.argsort(coef)[:n_top_features]
    interesting_coefficients = np.hstack([negative_coefficients, positive_coefficients])
    
    # відобразимо коефіцієнти
    plt.figure(figsize=(15, 5))
    colors = ["red" if c < 0 else "blue" for c in coef[interesting_coefficients]]
    plt.bar(np.arange(2 * n_top_features), coef[interesting_coefficients], color=colors)
    feature_names = np.array(feature_names)
    plt.xticks(np.arange(1, 1 + 2 * n_top_features), feature_names[interesting_coefficients], rotation=60, ha="right")

In [None]:
def plot_grid_scores(grid, param_name):
    plt.plot(grid.param_grid[param_name], grid.cv_results_['mean_train_score'],
        color='green', label='train')
    plt.plot(grid.param_grid[param_name], grid.cv_results_['mean_test_score'],
        color='red', label='test')
    plt.legend()

In [None]:
visualize_coefficients(logit, cv.get_feature_names_out())

Підберемо коефіцієнт регуляризації для логістичної регресії. Використовуємо `sklearn.pipeline`, оскільки` CountVectorizer` правильно застосовувати тільки за тими даними, за якими в поточний момент навчається модель (щоб не "підглядати" в тестову вибірку і не брати до уваги по ній частоти входження слів). В даному випадку `pipeline` задає послідовність дій: застосувати` CountVectorizer`, потім навчити логістичну регресію.

In [None]:
%%time
from sklearn.pipeline import make_pipeline

text_pipe_logit = make_pipeline(CountVectorizer(), 
                                LogisticRegression(n_jobs=-1, random_state=7))

text_pipe_logit.fit(text_train, y_train)
print(text_pipe_logit.score(text_test, y_test))

In [None]:
%%time
from sklearn.model_selection import GridSearchCV

param_grid_logit = {'logisticregression__C': np.logspace(-5, 0, 6)}
grid_logit = GridSearchCV(text_pipe_logit, param_grid_logit, cv=3, n_jobs=-1, return_train_score=True)

grid_logit.fit(text_train, y_train)

Краще значення C і відповідна якість на крос-валідації:

In [None]:
grid_logit.best_params_, grid_logit.best_score_

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plot_grid_scores(grid_logit, 'logisticregression__C')

За валідаційною вибіркою:

In [None]:
grid_logit.score(text_test, y_test)

Тепер те ж саме, але з випадковим лісом:

In [None]:
from sklearn.ensemble import RandomForestClassifier

forest = RandomForestClassifier(n_estimators=200, n_jobs=-1, random_state=17)

In [None]:
%%time
forest.fit(X_train, y_train)

In [None]:
round(forest.score(X_test, y_test), 3)

Відповідно результатів вище бачимо, що з використанням логістичної регресії ми досягли більшої частки правильних відповідей з меншими зусиллями (0.855 < 0.879).

<a class="anchor" id="4.4.3"></a>

### <span style="color:blue; font-size:1.2em;">4.4.3. XOR-проблема</span>

[Повернутися до змісту](#4-2)

Тепер розглянемо приклад, де лінійні моделі справляються гірше.

Лінійні методи класифікації будують все ж дуже просту розділяючу поверхню – гіперплощину. Найвідоміший іграшковий приклад, в якому класи можна без помилок розділити гіперплощиною (тобто прямою, якщо це 2D), отримав назву "the XOR problem". XOR – це "виключне АБО", булева функція з такою таблицею істинності:

![img](https://raw.githubusercontent.com/radiukpavlo/intelligent-data-analysis/main/03_img/4_2_11_XOR_table.gif)<br>

XOR дав назву простій задачі бінарної класифікації, в якій класи подано множинами точок, що перетинаються і є витягнутими за діагоналями.

In [None]:
# створюємо дані
rng = np.random.RandomState(0)
X = rng.randn(200, 2)
y = np.logical_xor(X[:, 0] > 0, X[:, 1] > 0)

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plt.scatter(X[:, 0], X[:, 1], s=30, c=y, cmap=plt.cm.Paired)

Очевидно, не можна провести пряму так, щоб без помилок відокремити один клас від іншого. Тому логістична регресія погано справляється з такою задачею.

In [None]:
def plot_boundary(clf, X, y, plot_title):
    
    xx, yy = np.meshgrid(np.linspace(-3, 3, 50),
                     np.linspace(-3, 3, 50))
    clf.fit(X, y)
    
    # відобразимо функцію рішення для кожної точки на координатній площині
    Z = clf.predict_proba(np.vstack((xx.ravel(), yy.ravel())).T)[:, 1]
    Z = Z.reshape(xx.shape)

    image = plt.imshow(Z, interpolation='nearest',
                           extent=(xx.min(), xx.max(), yy.min(), yy.max()),
                           aspect='auto', origin='lower', cmap=plt.cm.PuOr_r)
    contours = plt.contour(xx, yy, Z, levels=[0], linewidths=2,
                               linetypes='--')
    plt.scatter(X[:, 0], X[:, 1], s=30, c=y, cmap=plt.cm.Paired)
    plt.xticks(())
    plt.yticks(())
    plt.xlabel(r'$x_1$')
    plt.ylabel(r'$x_2$')
    plt.axis([-3, 3, -3, 3])
    plt.colorbar(image)
    plt.title(plot_title, fontsize=12)

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plot_boundary(LogisticRegression(), X, y,
              "Логістична регресія, XOR problem")

А ось якщо на вхід подати поліноміальні ознаки, в даному випадку до степеня 2, то задача розв'язується.

In [None]:
from sklearn.pipeline import Pipeline

logit_pipe = Pipeline([('poly', PolynomialFeatures(degree=2)), 
                       ('logit', LogisticRegression())])

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plot_boundary(logit_pipe, X, y,
              "Логістична регресія + квадратичні ознаки. XOR problem")

Тут логістична регресія все одно будувала гіперплощину, але в 6-вимірному просторі ознак $1, x_1, x_2, x_1^2, x_1x_2$ и $x_2^2$. У проекції на початковий простір ознак $x_1, x_2$ границю вийшла нелінійна.

На практиці поліноміальні ознаки дійсно допомагають, але будувати їх явно – обчислювально неефективно. Набагато швидше працює метод опорних векторів з ядровим трюком. За такого підходу в просторі високої розмірності обраховується тільки відстань між об'єктами (що задається функцією-ядром), а явно створювати комбінаторно велику кількість ознак не потрібно. З цим питанням можна детальніше ознайомитися в курсі Євгенія Соколова – [тут](https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem10_linear.pdf) (математика вже серйозна).

<a class="anchor" id="4.5"></a>

## <span style="color:blue; font-size:1.2em;">4.5. Криві валідації й навчання</span>

[Повернутися до змісту](#4-2)

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegressionCV, SGDClassifier
from sklearn.model_selection import validation_curve

<a class="anchor" id="4.5.1"></a>

### <span style="color:blue; font-size:1.2em;">4.5.1. Як покращити модель?</span>

[Повернутися до змісту](#4-2)

Ми вже маємо уявлення щодо перевірки моделі, крос-валідації та регуляризації.
Тепер розглянемо головне питання:

**Якщо якість моделі нас не влаштовує, то що робити?**

- Зробити модель складнішою чи, навпаки, спростити?
- Додати більше ознак?
- Чи потрібно додати більше даних для навчання?

Відповіді на ці питання не завжди лежать на поверхні. Зокрема, іноді використання більш складної моделі призведе до погіршення показників. Або додавання спостережень не призведе до відчутних змін. Здатність прийняти правильне рішення й вибрати правильний спосіб поліпшення моделі, власне кажучи, і відрізняє хорошого фахівця від поганого.

Будемо працювати з уже знайомими даними щодо відтоку клієнтів телеком-оператора:

In [None]:
telecom_churn_url = 'https://raw.githubusercontent.com/radiukpavlo/intelligent-data-analysis/main/01_lecture-notes/ida_lecture-04_linear_models/telecom_churn.csv'

In [None]:
data_telchurn = pd.read_csv(telecom_churn_url).drop('State', axis=1)

data_telchurn['International plan'] = data_telchurn['International plan'].map({'Yes': 1, 'No': 0})
data_telchurn['Voice mail plan'] = data_telchurn['Voice mail plan'].map({'Yes': 1, 'No': 0})

y_telchurn = data_telchurn['Churn'].astype('int').values
X_telchurn = data_telchurn.drop('Churn', axis=1).values

Тут будемо навчати логістичну регресію за допомогою стохастичного градієнтного спуску. Наразі так швидше. Але в подальшому стохастичному градієнтному спуску буде присвячена окрема тема. 

In [None]:
alphas = np.logspace(-2, 0, 20)
sgd_logit = SGDClassifier(loss='log', n_jobs=-1, random_state=17, max_iter=5)
logit_pipe = Pipeline([('scaler', StandardScaler()), ('poly', PolynomialFeatures(degree=2)),
                       ('sgd_logit', sgd_logit)])
val_train, val_test = validation_curve(logit_pipe, X_telchurn, y_telchurn,
                                       param_name='sgd_logit__alpha', param_range=alphas, cv=5,
                                       scoring='roc_auc')

Побудуємо валідаційні криві, що показують, як якість (ROC AUC) за навчальною та валідаційною вибірками змінюється зі зміною параметра регуляризації.

In [None]:
def plot_with_err(x, data, **kwargs):
    mu, std = data.mean(1), data.std(1)
    lines = plt.plot(x, mu, '-', **kwargs)
    plt.fill_between(x, mu - std, mu + std, edgecolor='none',
                     facecolor=lines[0].get_color(), alpha=0.2)

In [None]:
plt.figure(figsize=(7,5), dpi=100)
plot_with_err(alphas, val_train, label='training scores')
plot_with_err(alphas, val_test, label='validation scores')
plt.xlabel(r'$\alpha$')
plt.ylabel('ROC AUC')
plt.legend();

Тенденцію видно відразу, і вона дуже часто зустрічається.

1. Для простих моделей навчальна та валідаційна помилка перебувають приблизно поруч, і вони великі. Це говорить про те, що модель *недонавчилась*: тобто вона не має достатню кількість параметрів.

2. Для сильно ускладнених моделей навчальна та валідаційна помилки значно відрізняються. Це можна пояснити *перенавчанням*: коли параметрів занадто багато або не вистачає регуляризації, алгоритм може "відволікатися" на шум в даних й не враховувати упускати основний тренд.

<a class="anchor" id="4.5.2"></a>

### <span style="color:blue; font-size:1.2em;">4.5.2. Скільки потрібно даних?</span>

[Повернутися до змісту](#4-2)

Відомо, що чим більше даних використовує модель, тим краще. Але як нам зрозуміти в конкретній ситуації, чи допоможуть нові дані? Скажімо, чи доцільно нам витратити \$ N на роботу асесорів, щоб збільшити вибірку вдвічі?

Оскільки нових даних поки може і не бути, розумно змінювати розмір наявної навчальної вибірки та дивитися, як якість розв'язку задачі залежить від обсягу даних, за якими ми навчали модель. У такий спосіб отримують *криві навчання* (*learning curves*).

Ідея проста: ми відображаємо помилку, як функцію від кількості прикладів, що використовуються для навчання. Водночас параметри моделі фіксуються заздалегідь.

In [None]:
from sklearn.model_selection import learning_curve

def plot_learning_curve(degree=2, alpha=0.01):
    train_sizes = np.linspace(0.05, 1, 20)
    logit_pipe = Pipeline([('scaler', StandardScaler()), ('poly', PolynomialFeatures(degree=degree)), 
                           ('sgd_logit', SGDClassifier(n_jobs=-1, random_state=17, alpha=alpha))])
    N_train, val_train, val_test = learning_curve(logit_pipe,
                                                  X, y, train_sizes=train_sizes, cv=5,
                                                  scoring='roc_auc')
    plt.figure(figsize=(7,5), dpi=100)
    plot_with_err(N_train, val_train, label='training scores')
    plot_with_err(N_train, val_test, label='validation scores')
    plt.xlabel('Training Set Size')
    plt.ylabel('AUC')
    plt.legend();

Давайте глянемо, що ми отримаємо для лінійної моделі. Коефіцієнт регуляризації поставимо великим.

In [None]:
plot_learning_curve(degree=2, alpha=10)

Типова ситуація: для невеликого обсягу даних помилки за навчальною вибіркою й в процесі крос-валідації досить сильно відрізняються, що вказує на перенавчання. Для тієї ж моделі, але з великим об'ємом даних помилки "збігаються", що вказує на недонавчання.

Якщо додати ще дані, то помилка за навчальною вибіркою не буде рости, але з іншого боку, помилка за тестовими даними не буде зменшуватися.

Виходить, що помилки "зійшлися", і додавання нових даних не допоможе. Зокрема цей випадок – найцікавіший з точки зору бізнесу. Можлива ситуація, коли ми збільшуємо вибірку в 10 разів. Але якщо не міняти складність моделі, це може і не допомогти. Тобто стратегія "налаштував один раз м далі використовую 10 раз" може і не працювати.

Що буде, якщо змінити коефіцієнт регуляризації?
Бачимо хорошу тенденцію – криві поступово збігаються, і якщо далі рухатися вправо (додавати в модель дані), можна ще підвищити якість за валідаційними даними.

In [None]:
plot_learning_curve(degree=2, alpha=0.05)

А якщо ускладнити ще більше?

Проявляється перенавчання – AUC падає як під час навчання, так і під час валідації.

In [None]:
plot_learning_curve(degree=2, alpha=1e-4)

Будуючи подібні криві, можна зрозуміти, куди рухатися, і як правильно налаштувати складність моделі за новими даними.

<a class="anchor" id="4.6"></a>

## <span style="color:blue; font-size:1.2em;">Висновки</span>

[Повернутися до змісту](#4-2)

1. Помилка за навчальною вибіркою сама по собі нічого не говорить щодо якості моделі.
2. Крос-валідаційна помилка показує, наскільки добре модель підлаштовується під дані (наявний тренд в даних), зберігаючи при цьому здатність узагальнення за новими даними.
3. *Валідаційна крива* – це графік, який показує результат за навчальною та валідаційною вибірками залежно від *складності моделі*:
   - якщо дві криві розташовуються близько одна до дної, а обидві помилки великі – це ознака *недонавчання*;
   - Якщо дві криві далеко одна від одної – це індикатор *перенавчання*.
4. *Крива навчання* – це графік, який показує результати за навчальною та валідаційною вибірками залежно від кількості спостережень:
   - якщо криві збіглися одна до одної, додавання нових даних не допоможе – треба міняти складність моделі;
   - якщо криві не зійшлися, додавання нових даних може поліпшити результат.