# Бонусный урок: множественная регрессия и прогнозирование временных рядов

В этом уроке мы рассмотрим две основные темы: **множественная регрессия** и **прогнозирование временных рядов**. Мы разберем, как использовать такие методы машинного обучения, как **логистическая регрессия** и **случайный лес** для решения этих задач.

#### Цель урока:
- Научиться применять логистическую регрессию и случайный лес для решения задач множественной регрессии.
- Изучить основы прогнозирования временных рядов и понять, как использовать модели для предсказания на основе прошлых данных.

### 1. Классификация: Множественная регрессия

**Множественная регрессия** — это модель, которая объясняет зависимость целевой переменной от нескольких независимых переменных (факторов). Например, можно спрогнозировать спрос на продукт в зависимости от его цены, рекламы и сезона.

#### Логистическая регрессия
Логистическая регрессия — это один из методов, применяемых для классификации. Она предсказывает вероятность принадлежности наблюдения к одному из двух классов. Мы будем использовать логистическую регрессию для решения задачи бинарной классификации.

##### Пример:
Предположим, что у нас есть данные о покупателях (возраст, доход и уровень образования) и о том, совершил ли покупатель покупку. Нам нужно предсказать вероятность покупки на основе этих данных.

#### Случайный лес
Случайный лес — это ансамблевый метод машинного обучения, который состоит из множества деревьев решений. Случайный лес можно использовать как для регрессии (предсказание количественных переменных), так и для классификации.

#### 1.1 Пример данных для множественной регрессии:
Мы будем использовать синтетический датасет, чтобы продемонстрировать множественную регрессию с помощью логистической регрессии и случайного леса.

##### Сгенерируем датасет для бинарной классификации:
```python
from sklearn.datasets import make_classification
import pandas as pd

# Генерация данных
X, y = make_classification(n_samples=1000, n_features=5, n_informative=3, n_classes=2, random_state=42)

# Создание DataFrame
df = pd.DataFrame(X, columns=['Feature1', 'Feature2', 'Feature3', 'Feature4', 'Feature5'])
df['Target'] = y

# Вывод первых строк данных
df.head()
```

Здесь `Feature1`, `Feature2`, и так далее — это независимые переменные, которые влияют на переменную `Target`, представляющую два класса (0 или 1). Мы будем использовать логистическую регрессию и случайный лес для прогнозирования значения `Target`.

#### 1.2 Логистическая регрессия

##### Шаги:
1. Разделим данные на обучающую и тестовую выборки.
2. Построим модель логистической регрессии.
3. Оценим качество модели на тестовой выборке.

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(df[['Feature1', 'Feature2', 'Feature3', 'Feature4', 'Feature5']],
                                                    df['Target'], test_size=0.3, random_state=42)

# Построение модели логистической регрессии
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

# Предсказания на тестовой выборке
y_pred = log_reg.predict(X_test)

# Оценка точности
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy логистической регрессии: {accuracy:.2f}')
```

##### Получение коэффициентов регрессии
```python
coefficients = log_reg.coef_

# Вывод коэффициентов
print("Коэффициенты логистической регрессии:")
for feature, coef in zip(['Feature1', 'Feature2', 'Feature3', 'Feature4', 'Feature5'], coefficients[0]):
    print(f"{feature}: {coef:.4f}")
```

#### 1.3 Случайный лес

##### Шаги:
1. Построим модель случайного леса.
2. Оценим качество модели.

```python
from sklearn.ensemble import RandomForestClassifier

# Построение модели случайного леса
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Предсказания на тестовой выборке
y_pred_rf = rf_model.predict(X_test)

# Оценка точности
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f'Accuracy случайного леса: {accuracy_rf:.2f}')
```

### 2. Прогнозирование временных рядов

Прогнозирование временных рядов — это процесс предсказания будущих значений на основе исторических данных. Один из наиболее распространенных методов — это использование моделей, таких как **линейная регрессия**, **ARIMA** и **случайный лес**.

#### 2.1 Датасет для временных рядов

Мы сгенерируем временной ряд для примера, где будем прогнозировать будущее значение на основе предыдущих.

##### Генерация синтетического временного ряда:
```python
import numpy as np
import matplotlib.pyplot as plt

# Генерация синтетических данных временного ряда
np.random.seed(42)
time = np.arange(100)
values = np.sin(time / 5) + np.random.normal(0, 0.2, 100)

# Визуализация временного ряда
plt.plot(time, values)
plt.title('Синтетический временной ряд')
plt.xlabel('Время')
plt.ylabel('Значение')
plt.show()
```

#### 2.2 Прогнозирование временных рядов с использованием случайного леса

##### Шаги:
1. Преобразуем данные в формат, пригодный для машинного обучения (создадим лаги).
2. Построим модель случайного леса для прогнозирования будущих значений временного ряда.

```python
# Преобразование временного ряда в формат для машинного обучения
def create_lags(data, lags=5):
    df = pd.DataFrame(data, columns=['Value'])
    for i in range(1, lags + 1):
        df[f'Lag_{i}'] = df['Value'].shift(i)
    return df.dropna()

# Создаем лаги
df_lags = create_lags(values, lags=5)

# Разделение на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df_lags.drop(columns=['Value']), df_lags['Value'], test_size=0.2, shuffle=False)

# Построение модели случайного леса для временного ряда
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)

# Прогнозирование
y_pred_rf = rf_model.predict(X_test)

# Оценка качества
print(f'MAE случайного леса для временного ряда: {mean_absolute_error(y_test, y_pred_rf):.2f}')
```

Таким образом, вы научились применять логистическую регрессию и случайный лес для решения задач множественной регрессии и прогнозирования временных рядов.