Градиентный спуск — это широко используемый метод оптимизации, особенно в задачах машинного обучения и глубокого обучения. Он заключается в нахождении минимума (или максимума) функции путём итеративного обновления её параметров в направлении антиградиента (или градиента) функции потерь. Давайте рассмотрим основные аспекты градиентного спуска и его модификации.

### Основная идея градиентного спуска

Для функции \( f(\theta) \) с параметрами \( \theta \) градиентный спуск обновляет параметры по следующему правилу:

\[ \theta = \theta - \eta \nabla f(\theta) \]

где:
- \( \theta \) — параметры модели,
- \( \eta \) — шаг обучения (learning rate),
- \( \nabla f(\theta) \) — градиент функции потерь по параметрам.

### Варианты градиентного спуска

1. **Пакетный (Batch) градиентный спуск**:
   - Обновляет параметры после обработки всего обучающего набора данных.
   - Преимущества: Стабильные обновления, гарантированное снижение функции потерь.
   - Недостатки: Медленность при больших наборах данных.

2. **Стохастический (Stochastic) градиентный спуск (SGD)**:
   - Обновляет параметры после обработки каждого отдельного примера из обучающего набора данных.
   - Преимущества: Быстрая обработка, позволяет избегать локальных минимумов.
   - Недостатки: Шумные обновления, может колебаться вокруг минимума.

3. **Мини-пакетный (Mini-batch) градиентный спуск**:
   - Компромисс между пакетным и стохастическим градиентным спуском. Обновляет параметры после обработки небольшого подмножества (батча) данных.
   - Преимущества: Быстрее пакетного, менее шумный, чем SGD.
   - Недостатки: Необходимость выбора размера батча.

### Модификации градиентного спуска

1. **Momentum (моментум)**:
   - Учитывает предыдущие градиенты для ускорения обучения.
   - Обновление параметров:
     \[ v = \beta v + (1 - \beta) \nabla f(\theta) \]
     \[ \theta = \theta - \eta v \]
   - \( \beta \) — параметр сглаживания, обычно близкий к 1.

2. **Nesterov Accelerated Gradient (NAG)**:
   - Улучшенная версия моментума, учитывает "предвосхищение" градиента.
   - Обновление параметров:
     \[ v = \beta v + (1 - \beta) \nabla f(\theta - \eta \beta v) \]
     \[ \theta = \theta - \eta v \]

3. **AdaGrad**:
   - Адаптирует шаг обучения для каждого параметра на основе частоты обновлений.
   - Обновление параметров:
     \[ g_t = \nabla f(\theta_t) \]
     \[ G_t = G_{t-1} + g_t^2 \]
     \[ \theta = \theta - \frac{\eta}{\sqrt{G_t} + \epsilon} g_t \]
   - \( G_t \) — сумма квадратов градиентов, \( \epsilon \) — малое значение для предотвращения деления на ноль.

4. **RMSProp**:
   - Модификация AdaGrad с экспоненциальным затуханием среднего квадрата градиентов.
   - Обновление параметров:
     \[ E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2 \]
     \[ \theta = \theta - \frac{\eta}{\sqrt{E[g^2]_t} + \epsilon} g_t \]

5. **Adam (Adaptive Moment Estimation)**:
   - Комбинирует идеи RMSProp и моментума.
   - Обновление параметров:
     \[ m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \]
     \[ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \]
     \[ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \]
     \[ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \]
     \[ \theta = \theta - \eta \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} \]

### Выбор метода

- **SGD** и его варианты (мини-пакетный градиентный спуск) часто используются для больших наборов данных.
- **Momentum** и **NAG** ускоряют сходжение, особенно в задачах глубокого обучения.
- **AdaGrad** подходит для задач с разреженными данными.
- **RMSProp** и **Adam** являются наиболее популярными методами, так как они хорошо работают в большинстве случаев и не требуют сложной настройки гиперпараметров.

Эти методы помогают эффективно и точно находить оптимальные параметры моделей, улучшая их производительность и ускоряя обучение.

In [None]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score

# Шаг 1: Импортируем необходимые библиотеки
# (библиотеки уже импортированы выше)

# Шаг 2: Загрузим датасет Iris и подготовим данные
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Используем только два класса для бинарной классификации
X = X[y != 2]
y = y[y != 2]

# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Стандартизируем данные
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Шаг 3: Определим стохастический градиентный спуск с адаптивным градиентом (AdaGrad)
# Используем SGDClassifier из scikit-learn с параметром learning_rate='optimal' для реализации AdaGrad
sgd_adagrad = SGDClassifier(loss='log', penalty='l2', max_iter=1000, tol=1e-3, learning_rate='optimal', eta0=0.01)

# Шаг 4: Обучим модель и оценим её производительность
sgd_adagrad.fit(X_train, y_train)
y_pred = sgd_adagrad.predict(X_test)

# Оценим точность модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Дополнительно: Выводим коэффициенты модели
print("Model coefficients:", sgd_adagrad.coef_)
print("Model intercept:", sgd_adagrad.intercept_)


### Решающее дерево (Decision Tree)

Решающее дерево — это модель машинного обучения, которая используется для классификации и регрессии. Оно представляет собой дерево, где каждый узел обозначает проверку атрибута, каждая ветвь — результат проверки, а каждый лист — метку класса или значение регрессии.

#### Пример кода в Google Colab

```python
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = tree.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
```

### Бустинг (Boosting)

Бустинг — это метод ансамблевого обучения, который создает сильную модель, объединяя несколько слабых моделей (обычно деревьев решений). В процессе бустинга модели обучаются последовательно, и каждая новая модель исправляет ошибки предыдущих.

#### Модификации бустинга

1. **XGBoost**:
   - Оптимизированный градиентный бустинг, который использует регуляризацию и параллельные вычисления.

2. **LightGBM**:
   - Градиентный бустинг, который использует методы для уменьшения времени обучения и потребления памяти. Он строит деревья, используя листовой рост.

3. **CatBoost**:
   - Градиентный бустинг, который специально оптимизирован для категориальных признаков и работает без их предварительного кодирования.

#### Пример кода XGBoost в Google Colab

```python
!pip install xgboost

import xgboost as xgb
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = xgb.XGBClassifier()
model.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
```

### Случайный лес (Random Forest)

Случайный лес — это метод ансамблевого обучения, который создает множество решающих деревьев и объединяет их предсказания. Он использует случайное подмножество признаков для обучения каждого дерева, что уменьшает переобучение.

#### Пример кода в Google Colab

```python
from sklearn.ensemble import RandomForestClassifier

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
forest = RandomForestClassifier(n_estimators=100)
forest.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = forest.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
```

### Бэггинг (Bagging)

Бэггинг (Bootstrap Aggregating) — это метод ансамблевого обучения, который создает множество моделей, обученных на разных подвыборках обучающих данных, и усредняет их предсказания. Самая известная реализация — это случайный лес.

#### Пример кода в Google Colab

```python
from sklearn.ensemble import BaggingClassifier

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
bagging = BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=100)
bagging.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = bagging.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
```

### Сравнение методов

- **Решающее дерево**: Быстрое и интерпретируемое, но может переобучаться.
- **Бустинг**: Высокая точность, но долгое время обучения.
- **Случайный лес**: Стабильность и высокая точность, быстрая работа.
- **Бэггинг**: Улучшает стабильность и уменьшает переобучение.

Каждый метод имеет свои особенности и лучше всего подходит для определенных типов задач и данных.

Для использования CatBoost в Google Colab потребуется установить библиотеку `catboost`, загрузить данные и создать модель. Давайте рассмотрим пример на датасете `Iris`.

### Пример использования CatBoost в Google Colab

1. Установка библиотеки `catboost`.

```python
!pip install catboost
```

2. Импорт необходимых библиотек и загрузка данных.

```python
import numpy as np
import pandas as pd
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Загрузка данных
from sklearn.datasets import load_iris
data = load_iris()
X = data.data
y = data.target

# Преобразование данных в DataFrame для более удобного использования
df = pd.DataFrame(X, columns=data.feature_names)
df['target'] = y

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.2, random_state=42)
```

3. Обучение и оценка модели CatBoost.

```python
# Создание и обучение модели CatBoost
model = CatBoostClassifier(iterations=100, learning_rate=0.1, depth=6, verbose=0)
model.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
```

4. Использование `Pool` для работы с категориальными признаками (если они есть).

Если бы у нас были категориальные признаки, мы могли бы использовать `Pool`, чтобы указать CatBoost, какие столбцы являются категориальными.

```python
# Пример данных с категориальными признаками
data = {
    'numerical_feature': [1, 2, 3, 4, 5, 6],
    'categorical_feature': ['A', 'B', 'A', 'A', 'B', 'B'],
    'target': [0, 1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

X = df[['numerical_feature', 'categorical_feature']]
y = df['target']

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание Pool с указанием категориальных признаков
train_pool = Pool(X_train, y_train, cat_features=['categorical_feature'])
test_pool = Pool(X_test, y_test, cat_features=['categorical_feature'])

# Создание и обучение модели CatBoost
model = CatBoostClassifier(iterations=100, learning_rate=0.1, depth=6, verbose=0)
model.fit(train_pool)

# Предсказание и оценка модели
y_pred = model.predict(test_pool)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
```

В этом примере:
- Мы установили библиотеку `catboost`.
- Загрузили данные и разделили их на тренировочные и тестовые выборки.
- Обучили модель `CatBoostClassifier`.
- Оценили точность модели.

CatBoost автоматически обрабатывает категориальные признаки и часто показывает хорошие результаты на данных с такими признаками. В примере с `Pool` показано, как указать категориальные признаки для улучшения обработки данных.

$a$

## Метрики для обучения модели

### Метрики для регрессии

1. **Mean Squared Error (MSE)**
   - Описывает среднее значение квадратов ошибок между предсказанными и реальными значениями.
   - Формула:
     $$
     text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
     $$
   - Используется, когда важно минимизировать большие ошибки, так как квадраты увеличивают вес больших отклонений.

### Метрики для классификации

1. **Accuracy**
   - Процент правильно классифицированных примеров.
   - Формула:
     $$
     \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
     $$
   - Где:
     - \(TP\) (True Positive): Истинные положительные
     - \(TN\) (True Negative): Истинные отрицательные
     - \(FP\) (False Positive): Ложные положительные
     - \(FN\) (False Negative): Ложные отрицательные
   - Используется, когда классы сбалансированы и одинаково важны.

2. **Precision**
   - Доля правильно предсказанных положительных примеров среди всех предсказанных положительных примеров.
   - Формула:
     $$
     \text{Precision} = \frac{TP}{TP + FP}
     $$
   - Используется, когда важна точность предсказания положительного класса (например, при детекции спама).

3. **Recall** (Sensitivity, True Positive Rate)
   - Доля правильно предсказанных положительных примеров среди всех реальных положительных примеров.
   - Формула:
     $$
     \text{Recall} = \frac{TP}{TP + FN}
     $$
   - Используется, когда важно не пропустить положительный класс (например, при медицинской диагностике).

4. **F1-Score**
   - Гармоническое среднее Precision и Recall.
   - Формула:
     $$
     \text{F1-Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
     $$
   - Используется, когда нужно сбалансировать Precision и Recall (например, при выявлении мошенничества).

5. **ROC-AUC (Receiver Operating Characteristic - Area Under Curve)**
   - Площадь под кривой ROC, которая отображает зависимость между TPR (True Positive Rate) и FPR (False Positive Rate).
   - Используется, когда нужно оценить модель по всем возможным порогам классификации. Хорош для несбалансированных классов.

### Другие метрики

1. **Logarithmic Loss (Log Loss)**
   - Используется для оценки моделей классификации на основе вероятностных предсказаний.
   - Формула:
     $$
     \text{Log Loss} = - \frac{1}{n} \sum_{i=1}^{n} [y_i \log(p_i) + (1 - y_i) \log(1 - p_i)]
     $$

2. **Mean Absolute Error (MAE)**
   - Среднее абсолютное отклонение между предсказанными и реальными значениями.
   - Формула:
     $$
     \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
     $$

3. **R^2 Score (Coefficient of Determination)**
   - Определяет, какая часть дисперсии зависимой переменной объясняется моделью.
   - Формула:
     $$
     R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
     $$

### Примеры использования метрик

1. **MSE**
   - Используется в задачах регрессии, например, для предсказания цен недвижимости, где большие ошибки имеют значение.

2. **ROC-AUC**
   - Используется в задачах классификации с несбалансированными классами, например, при выявлении редких заболеваний.

3. **F1-Score**
   - Используется, когда важно сбалансировать Precision и Recall, например, при выявлении мошенничества.

4. **Accuracy**
   - Используется в задачах с равными и сбалансированными классами, например, для классификации изображений животных.

### Пример кода в Google Colab

In [None]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.ensemble import RandomForestClassifier

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Преобразование задачи в бинарную классификацию
y = (y == 0).astype(int)

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# Вычисление метрик
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_pred_proba)

print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")
print(f"ROC-AUC: {roc_auc:.2f}")

### Линейная регрессия

Линейная регрессия – это один из наиболее простых и широко используемых методов регрессии, который моделирует линейные отношения между зависимой переменной (целью) и одной или несколькими независимыми переменными (признаками).

#### Основная идея

Модель линейной регрессии пытается найти линейное уравнение:

\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \epsilon \]

где:
- \( y \) – зависимая переменная (целевая переменная).
- \( x_1, x_2, \ldots, x_n \) – независимые переменные (признаки).
- \( \beta_0 \) – свободный член (интерсепт).
- \( \beta_1, \beta_2, \ldots, \beta_n \) – коэффициенты регрессии.
- \( \epsilon \) – ошибка модели (разница между предсказанными и реальными значениями).

#### Пример использования линейной регрессии

Пример на Python с использованием библиотеки `scikit-learn`:

```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Создание искусственного набора данных
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")
```

### Другие виды регрессии

Помимо линейной регрессии, существуют и другие методы регрессии, которые могут быть более эффективными в зависимости от задачи.

#### 1. Полиномиальная регрессия

Моделирует нелинейные отношения путем добавления полиномиальных признаков. Полиномиальная регрессия представляет собой линейную регрессию с полиномиальными признаками.

\[ y = \beta_0 + \beta_1 x + \beta_2 x^2 + \ldots + \beta_n x^n + \epsilon \]

Пример на Python:

```python
from sklearn.preprocessing import PolynomialFeatures

# Преобразование признаков в полиномиальные
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X_train)

# Обучение модели на полиномиальных признаках
model = LinearRegression()
model.fit(X_poly, y_train)

# Предсказание на тестовой выборке
X_test_poly = poly.transform(X_test)
y_pred = model.predict(X_test_poly)
```

#### 2. Лассо (Lasso) регрессия

Линейная регрессия с L1-регуляризацией, которая добавляет штраф за абсолютное значение коэффициентов, что помогает избежать переобучения и может занулять некоторые коэффициенты.

\[ \text{Lasso: } \min \left( \frac{1}{2n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} |\beta_j| \right) \]

Пример на Python:

```python
from sklearn.linear_model import Lasso

# Обучение модели Lasso регрессии
model = Lasso(alpha=0.1)
model.fit(X_train, y_train)
```

#### 3. Гребневая регрессия (Ridge Regression)

Линейная регрессия с L2-регуляризацией, которая добавляет штраф за квадраты коэффициентов, что также помогает избежать переобучения.

\[ \text{Ridge: } \min \left( \frac{1}{2n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} \beta_j^2 \right) \]

Пример на Python:

```python
from sklearn.linear_model import Ridge

# Обучение модели Ridge регрессии
model = Ridge(alpha=1.0)
model.fit(X_train, y_train)
```

#### 4. Регрессия Elastic Net

Комбинирует L1 и L2-регуляризацию, что позволяет получить преимущества обеих техник.

\[ \text{Elastic Net: } \min \left( \frac{1}{2n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \alpha \left( \rho \sum_{j=1}^{p} |\beta_j| + \frac{1 - \rho}{2} \sum_{j=1}^{p} \beta_j^2 \right) \right) \]

Пример на Python:

```python
from sklearn.linear_model import ElasticNet

# Обучение модели Elastic Net регрессии
model = ElasticNet(alpha=1.0, l1_ratio=0.5)
model.fit(X_train, y_train)
```

#### 5. Регрессия с опорными векторами (Support Vector Regression, SVR)

Использует метод опорных векторов для регрессии, эффективно моделирует нелинейные зависимости.

Пример на Python:

```python
from sklearn.svm import SVR

# Обучение модели SVR
model = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=0.1)
model.fit(X_train, y_train.ravel())
```

### Заключение

Методы регрессии выбираются в зависимости от задачи и данных. Линейная регрессия является простым и понятным методом, но для более сложных зависимостей могут потребоваться методы с регуляризацией или нелинейные методы, такие как полиномиальная регрессия и регрессия с опорными векторами.

### Когда использовать различные виды регрессии

Различные методы регрессии применяются в зависимости от природы данных, их сложности и специфических требований задачи. Вот более детальный обзор с примерами:

#### 1. Линейная регрессия

**Когда использовать**:
- Данные имеют линейную зависимость.
- Простая модель с малым количеством параметров.
- Интерпретируемость модели важна.

**Пример**:
- Предсказание дохода на основе количества отработанных часов.

```python
# Пример: Предсказание цены дома на основе его площади
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Создание искусственного набора данных
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse:.2f}")
```

#### 2. Полиномиальная регрессия

**Когда использовать**:
- Данные имеют нелинейную зависимость.
- Модель должна учитывать взаимодействие между признаками.

**Пример**:
- Предсказание роста растения в зависимости от времени и условий среды.

```python
from sklearn.preprocessing import PolynomialFeatures

# Преобразование признаков в полиномиальные
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X_train)

# Обучение модели на полиномиальных признаках
model = LinearRegression()
model.fit(X_poly, y_train)

# Предсказание на тестовой выборке
X_test_poly = poly.transform(X_test)
y_pred = model.predict(X_test_poly)
```

#### 3. Лассо (Lasso) регрессия

**Когда использовать**:
- Высокая многомерность данных (много признаков).
- Необходимость отбора признаков (несколько признаков могут быть занулены).

**Пример**:
- Предсказание стоимости квартиры на основе множества факторов (площадь, этаж, район и т.д.).

```python
from sklearn.linear_model import Lasso

# Обучение модели Lasso регрессии
model = Lasso(alpha=0.1)
model.fit(X_train, y_train)
```

#### 4. Гребневая регрессия (Ridge Regression)

**Когда использовать**:
- Высокая многомерность данных.
- Признаки коррелированы между собой.
- Необходимость избежать переобучения.

**Пример**:
- Предсказание продаж на основе исторических данных и маркетинговых расходов.

```python
from sklearn.linear_model import Ridge

# Обучение модели Ridge регрессии
model = Ridge(alpha=1.0)
model.fit(X_train, y_train)
```

#### 5. Регрессия Elastic Net

**Когда использовать**:
- Высокая многомерность данных.
- Сочетание преимуществ L1 и L2-регуляризации.
- Признаки коррелированы и нужно отбирать значимые признаки.

**Пример**:
- Предсказание качества вина на основе химических свойств и экспертовых оценок.

```python
from sklearn.linear_model import ElasticNet

# Обучение модели Elastic Net регрессии
model = ElasticNet(alpha=1.0, l1_ratio=0.5)
model.fit(X_train, y_train)
```

#### 6. Регрессия с опорными векторами (Support Vector Regression, SVR)

**Когда использовать**:
- Нелинейные зависимости в данных.
- Малый набор данных.
- Необходимость в гибкости модели и её устойчивости к выбросам.

**Пример**:
- Предсказание спроса на продукт в зависимости от времени года и экономических факторов.

```python
from sklearn.svm import SVR

# Обучение модели SVR
model = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=0.1)
model.fit(X_train, y_train.ravel())
```

### Заключение

При выборе метода регрессии важно учитывать структуру данных, наличие или отсутствие линейных зависимостей, количество и корреляцию признаков, а также требования к интерпретируемости модели. Линейная регрессия хороша для простых задач с линейными зависимостями, тогда как методы с регуляризацией (Lasso, Ridge, Elastic Net) и нелинейные методы (полиномиальная регрессия, SVR) лучше подходят для сложных задач с большим количеством признаков и нелинейными зависимостями.

# Разложение ошибки на шум, смещение и разброс
Когда мы говорим о качестве модели машинного обучения, важно понимать, откуда берется ошибка модели. Общая ошибка модели можно разложить на три составляющие: шум, смещение (bias) и разброс (variance).

1. Шум (Noise)
Шум – это непредсказуемая часть ошибки, которая возникает из-за сложности или случайности данных. Шум не может быть уменьшен с помощью обучения модели, так как он связан с непредсказуемыми изменениями в данных.

2. Смещение (Bias)
Смещение – это ошибка, которая возникает, когда модель слишком проста и не может адекватно захватить истинные зависимости в данных. Высокое смещение приводит к недообучению модели. Примером может быть использование линейной модели для описания нелинейной зависимости.

3. Разброс (Variance)
Разброс – это ошибка, которая возникает, когда модель слишком сложна и сильно зависит от конкретных обучающих данных. Высокий разброс приводит к переобучению модели. Примером может быть использование полинома высокой степени для описания данных с небольшой линейной зависимостью.

## Bootstrap
Bootstrap – это метод статистической оценки, который использует повторяющуюся выборку с возвращением для оценки точности статистических оценок (например, среднего, медианы и т.д.).

## Принцип работы

- Из исходного набора данных многократно создаются подвыборки путем случайной выборки с возвращением.
- На каждой подвыборке оценивается нужный статистический показатель.
- Эти оценки объединяются для получения распределения оценки.

### Кластеризация

Кластеризация – это метод машинного обучения, используемый для группировки объектов на основе их сходства. Она помогает найти скрытые структуры в данных, разделяя их на несколько групп (кластеров), где объекты внутри каждого кластера более похожи друг на друга, чем на объекты из других кластеров.

### Основные алгоритмы кластеризации

#### 1. K-means

K-means – один из самых популярных алгоритмов кластеризации. Он работает, разделяя данные на \( k \) кластеров, где \( k \) – заранее заданное число.

**Шаги алгоритма K-means**:
1. Инициализация: Выбрать \( k \) начальных центроидов случайным образом.
2. Ассигнование: Назначить каждый объект к ближайшему центроиду.
3. Обновление: Пересчитать центроиды как среднее всех объектов, присвоенных каждому кластеру.
4. Повторение шагов 2 и 3 до тех пор, пока центроиды не перестанут изменяться.

**Преимущества**:
- Простота и скорость.
- Хорошо работает для больших наборов данных.

**Недостатки**:
- Требует заранее заданного числа кластеров \( k \).
- Чувствителен к начальному положению центроидов.
- Может застрять в локальных минимумах.

**Пример использования K-means на Python**:

```python
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt

# Создание искусственных данных
np.random.seed(42)
X = np.random.rand(100, 2)

# Применение K-means
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_

# Визуализация результатов
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red')
plt.show()
```

#### 2. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN – алгоритм кластеризации, основанный на плотности. Он группирует точки, расположенные близко друг к другу, и определяет выбросы (noise points).

**Шаги алгоритма DBSCAN**:
1. Определить точки ядра (core points), которые имеют не менее \( minPts \) соседей в радиусе \( \epsilon \).
2. Объединить точки ядра и их соседей в кластеры.
3. Обозначить точки, не попавшие в кластеры, как выбросы.

**Преимущества**:
- Не требует заранее заданного числа кластеров.
- Может обнаруживать кластеры произвольной формы.
- Устойчив к выбросам.

**Недостатки**:
- Трудно выбрать подходящие значения \( \epsilon \) и \( minPts \).
- Не работает хорошо с кластерами переменной плотности.

**Пример использования DBSCAN на Python**:

```python
from sklearn.cluster import DBSCAN

# Применение DBSCAN
dbscan = DBSCAN(eps=0.1, min_samples=5)
labels = dbscan.fit_predict(X)

# Визуализация результатов
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.show()
```

#### 3. Иерархическая кластеризация

Иерархическая кластеризация создаёт иерархию кластеров, объединяя или разделяя их на разных уровнях.

**Виды иерархической кластеризации**:
- **Агломеративная** (снизу-вверх): Начинается с каждого объекта в отдельном кластере и объединяет пары кластеров.
- **Дивизионная** (сверху-вниз): Начинается с одного кластера, содержащего все объекты, и последовательно разделяет кластеры.

**Шаги агломеративной кластеризации**:
1. Начать с каждого объекта в отдельном кластере.
2. Найти ближайшие кластеры и объединить их.
3. Повторять шаг 2 до тех пор, пока не останется один кластер или не будет достигнуто заданное количество кластеров.

**Преимущества**:
- Не требует заранее заданного числа кластеров.
- Дерево кластеров (дендрограмма) может предоставить визуальную информацию о структуре данных.

**Недостатки**:
- Высокая вычислительная сложность.
- Чувствителен к выбросам и шуму.

**Пример использования агломеративной кластеризации на Python**:

```python
from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as sch

# Применение агломеративной кластеризации
agg_clust = AgglomerativeClustering(n_clusters=3)
labels = agg_clust.fit_predict(X)

# Визуализация дендрограммы
plt.figure(figsize=(10, 7))
dendrogram = sch.dendrogram(sch.linkage(X, method='ward'))
plt.show()

# Визуализация результатов кластеризации
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.show()
```

### Заключение

Кластеризация – это важный метод анализа данных, позволяющий выявить скрытые структуры и группы объектов. Разные алгоритмы кластеризации имеют свои преимущества и недостатки, и выбор подходящего алгоритма зависит от конкретной задачи, структуры данных и требований к результатам.

### Метод ближайших соседей (k-Nearest Neighbors, k-NN)

Метод ближайших соседей (k-NN) — это простой и понятный алгоритм машинного обучения, используемый как для задач классификации, так и для регрессии. Принцип его работы заключается в следующем:

1. Для заданной точки \( x \), которую нужно классифицировать или для которой нужно предсказать значение, находим \( k \) ближайших точек (соседей) из обучающей выборки.
2. В случае классификации:
   - Классифицируем точку \( x \) по большинству классов среди \( k \) ближайших соседей.
3. В случае регрессии:
   - Предсказываем значение как среднее значение среди \( k \) ближайших соседей.

**Пример использования k-NN на Python**:

```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Загрузка данных
iris = load_iris()
X, y = iris.data, iris.target

# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучение модели k-NN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Предсказание и оценка модели
y_pred = knn.predict(X_test)
```

### Leave-One-Out Кросс-Валидация

Leave-One-Out (LOO) кросс-валидация — это особый случай k-Fold кросс-валидации, где \( k \) равно количеству всех образцов в наборе данных. То есть, для каждого образца из набора данных, модель обучается на всех остальных образцах и тестируется на этом одном образце.

**Преимущества LOO**:
- Модель обучается и тестируется на каждом возможном подмножестве данных, что делает оценку очень точной.

**Недостатки LOO**:
- Очень вычислительно затратен для больших наборов данных.

**Пример использования LOO на Python**:

```python
from sklearn.model_selection import LeaveOneOut
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score

# Загрузка данных
iris = load_iris()
X, y = iris.data, iris.target

# Leave-One-Out кросс-валидация
loo = LeaveOneOut()
y_true, y_pred = [], []

for train_index, test_index in loo.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    knn = KNeighborsClassifier(n_neighbors=3)
    knn.fit(X_train, y_train)
    y_pred.append(knn.predict(X_test)[0])
    y_true.append(y_test[0])

accuracy = accuracy_score(y_true, y_pred)
print(f"Accuracy: {accuracy:.2f}")
```

### k-Fold Кросс-Валидация

k-Fold кросс-валидация делит данные на \( k \) равных подмножеств (фолдов). В каждом из \( k \) циклов один из фолдов используется как тестовая выборка, а остальные \( k-1 \) фолдов — как обучающая выборка.

**Преимущества k-Fold**:
- Более стабильная оценка производительности модели по сравнению с обычным разделением на тренировочную и тестовую выборки.
- Все данные используются как для обучения, так и для тестирования.

**Недостатки k-Fold**:
- Более вычислительно затратен по сравнению с обычным разделением данных.

**Пример использования k-Fold на Python**:

```python
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris

# Загрузка данных
iris = load_iris()
X, y = iris.data, iris.target

# k-Fold кросс-валидация
kf = KFold(n_splits=5, shuffle=True, random_state=42)
knn = KNeighborsClassifier(n_neighbors=3)
scores = cross_val_score(knn, X, y, cv=kf, scoring='accuracy')

print(f"Cross-Validation Accuracy Scores: {scores}")
print(f"Mean Accuracy: {scores.mean():.2f}")
```

### Заключение

Метод ближайших соседей (k-NN) — это простой и эффективный алгоритм, который можно использовать как для классификации, так и для регрессии. Однако он может быть вычислительно затратным для больших наборов данных и чувствителен к выбору гиперпараметра \( k \).

Кросс-валидация, включая Leave-One-Out и k-Fold, позволяет получить более точную оценку производительности модели, уменьшая риск переобучения и недообучения. Эти методы широко применяются для оценки и выбора моделей в задачах машинного обучения.