<a href="https://colab.research.google.com/github/gurovic/MLCourse/blob/main/150_learning_curves.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Кривые обучения

## 1. Импорт необходимых библиотек

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import learning_curve
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

## 2. Загрузка и подготовка данных

In [None]:
# Загрузка датасета цифр
X, y = load_digits(return_X_y=True)

# Масштабирование данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(f"Размерность данных: {X_scaled.shape}")
print(f"Количество классов: {len(np.unique(y))}")

## 3. Построение кривых обучения

In [None]:
# Создаем конвейер с масштабированием и логистической регрессией
model = make_pipeline(
    StandardScaler(),
    LogisticRegression(max_iter=10000, multi_class='ovr', solver='liblinear')
)

# Вычисляем кривые обучения
train_sizes, train_scores, test_scores = learning_curve(
    estimator=model,
    X=X,
    y=y,
    train_sizes=np.linspace(0.1, 1.0, 10),
    cv=5,
    n_jobs=-1,
    scoring='accuracy'
)

# Вычисляем средние значения и стандартные отклонения
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)

## 4. Визуализация кривых обучения

In [None]:
plt.figure(figsize=(10, 6))
plt.plot(train_sizes, train_mean, color='blue', marker='o', markersize=5, label='Training accuracy')
plt.fill_between(train_sizes, train_mean + train_std, train_mean - train_std, alpha=0.15, color='blue')

plt.plot(train_sizes, test_mean, color='green', linestyle='--', marker='s', markersize=5, label='Validation accuracy')
plt.fill_between(train_sizes, test_mean + test_std, test_mean - test_std, alpha=0.15, color='green')

plt.grid(True)
plt.xlabel('Number of training samples')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.title('Learning Curves for Logistic Regression')
plt.ylim([0.8, 1.03])
plt.show()

## 5. Анализ результатов

### 5.1 Интерпретация кривых

1. **Хорошая сходимость**: если обе кривые сходятся к близким значениям точности
2. **Переобучение**: если тренировочная точность значительно выше валидационной
3. **Недообучение**: если обе кривые сходятся к низкой точности

### 5.2 Рекомендации по улучшению

- **При переобучении**:
  - Увеличить размер обучающей выборки
  - Добавить регуляризацию
  - Упростить модель
  
- **При недообучении**:
  - Добавить новые признаки
  - Усложнить модель
  - Уменьшить регуляризацию

## 6. Дополнительные варианты кривых обучения

In [None]:
from sklearn.model_selection import validation_curve

# Исследуем влияние параметра C (обратная регуляризация)
param_range = np.logspace(-4, 4, 9)
train_scores, test_scores = validation_curve(
    estimator=model,
    X=X,
    y=y,
    param_name='logisticregression__C',
    param_range=param_range,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

# Вычисляем средние и стандартные отклонения
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)

# Визуализация
plt.figure(figsize=(10, 6))
plt.semilogx(param_range, train_mean, label='Training accuracy', color='blue', marker='o')
plt.fill_between(param_range, train_mean + train_std, train_mean - train_std, alpha=0.15, color='blue')

plt.semilogx(param_range, test_mean, label='Validation accuracy', color='green', marker='s', linestyle='--')
plt.fill_between(param_range, test_mean + test_std, test_mean - test_std, alpha=0.15, color='green')

plt.grid(True)
plt.xlabel('Parameter C')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.title('Validation Curve for Logistic Regression')
plt.ylim([0.8, 1.0])
plt.show()

## 7. Практические задания

1. Постройте кривые обучения для модели SVM с RBF-ядром
2. Исследуйте влияние параметра gamma в SVM на кривые обучения
3. Сравните кривые обучения для дерева решений с разной глубиной
4. Реализуйте функцию для автоматического определения пере/недообучения по кривым

In [None]:
# Пример решения задания 1
from sklearn.svm import SVC

svm_model = make_pipeline(
    StandardScaler(),
    SVC(kernel='rbf', C=1.0, gamma=0.01)
)

train_sizes, train_scores, test_scores = learning_curve(
    estimator=svm_model,
    X=X,
    y=y,
    train_sizes=np.linspace(0.1, 1.0, 10),
    cv=5,
    n_jobs=-1
)

# Визуализация (аналогично предыдущему примеру)
# ...

## 8. Заключение

Кривые обучения - мощный инструмент диагностики моделей машинного обучения:

- Позволяют оценить достаточность данных
- Выявляют проблемы пере/недообучения
- Помогают подбирать оптимальные параметры моделей
- Дают наглядное представление о поведении модели

Рекомендуется строить кривые обучения для всех серьезных проектов по машинному обучению.