### 4. Практические примеры на простую линейную регрессию (расширенная версия)

#### Понятие простой линейной регрессии
Простая линейная регрессия предполагает, что между зависимой переменной \( y \) и независимой переменной \( x \) существует линейная зависимость, которая может быть описана следующим уравнением:
y = β₀ + β₁ * x + ε

Где:
- y — зависимая переменная (целевая переменная),
- x — независимая переменная (признак),
- β₀ — свободный член (intercept),
- β₁ — коэффициент наклона (slope),
- ε — ошибка (шум).


#### Пример 1: Предсказание зарплаты по опыту работы

В этом примере рассмотрим зависимость между количеством лет опыта работы и предполагаемой зарплатой. Мы используем библиотеку `scikit-learn` для построения модели простой линейной регрессии.

```python
import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Данные: опыт работы (X) и зарплата (y)
X = np.array([[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]])  # Опыт работы в годах
y = np.array([30000, 35000, 40000, 45000, 50000, 60000, 70000, 80000, 90000, 100000])  # Зарплата

# Создание модели линейной регрессии
model = LinearRegression()

# Обучение модели на данных
model.fit(X, y)

# Предсказание на основе модели
y_pred = model.predict(X)

# Вывод коэффициентов
print(f"Коэффициент наклона (slope): {model.coef_[0]}")
print(f"Свободный член (intercept): {model.intercept_}")

# Визуализация исходных данных и линии регрессии
plt.scatter(X, y, color='blue', label='Исходные данные')
plt.plot(X, y_pred, color='red', label='Линия регрессии')
plt.title("Простая линейная регрессия: Зарплата от опыта работы")
plt.xlabel("Опыт работы (годы)")
plt.ylabel("Зарплата")
plt.legend()
plt.show()
```

**Что делает этот код:**
1. Создаётся модель линейной регрессии на основании данных об опыте работы и зарплате.
2. Модель обучается на этих данных.
3. Вычисляются предсказанные значения зарплаты на основе линейной зависимости.
4. Визуализируется прямая линия регрессии, которая наилучшим образом описывает зависимость зарплаты от опыта.

#### Пример 2: Оценка качества модели

Оценка модели важна для понимания того, насколько хорошо она описывает данные. Один из стандартных способов оценки — это среднеквадратическая ошибка (MSE). Ещё одна полезная метрика — коэффициент детерминации \( R^2 \), который показывает долю объяснённой дисперсии.

Добавим в наш пример оценку качества модели:

```python
from sklearn.metrics import mean_squared_error, r2_score

# Оценка средней квадратической ошибки (MSE)
mse = mean_squared_error(y, y_pred)
print(f"Среднеквадратическая ошибка (MSE): {mse}")

# Оценка коэффициента детерминации R^2
r2 = r2_score(y, y_pred)
print(f"Коэффициент детерминации (R^2): {r2}")
```

**Что мы получаем:**
- **MSE** показывает среднее квадратное отклонение предсказанных значений от фактических. Чем меньше MSE, тем лучше модель описывает данные.
- **R²** показывает, какая доля вариативности зависимой переменной объясняется независимой переменной. Чем ближе \( R^2 \) к 1, тем лучше модель.

#### Пример 3: Предсказание новых данных

После построения и оценки модели её можно использовать для предсказания значений на новых данных. Например, мы можем предсказать зарплату для человека с 11 годами опыта.

```python
# Новые данные (11 лет опыта)
new_experience = np.array([[11]])

# Предсказание на новых данных
new_salary_pred = model.predict(new_experience)
print(f"Предсказанная зарплата для 11 лет опыта: {new_salary_pred[0]}")
```

**Объяснение:**
- Мы использовали обученную модель для предсказания зарплаты человека с 11 годами опыта. Модель линейной регрессии прогнозирует значение зарплаты на основании ранее полученных данных.

#### Пример 4: Линейная регрессия с реальными данными

В этом примере мы применим линейную регрессию на более сложных данных — наборе `Boston Housing` из библиотеки `scikit-learn`. Он содержит информацию о ценах на недвижимость в Бостоне и различные характеристики, такие как площадь, количество комнат и т.д.

```python
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

# Загрузка данных
boston = load_boston()
X = boston.data[:, np.newaxis, 5]  # Количество комнат как независимая переменная
y = boston.target  # Цены на недвижимость как зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = model.predict(X_test)

# Оценка качества модели
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Среднеквадратическая ошибка на тестовой выборке: {mse}")
print(f"Коэффициент детерминации на тестовой выборке: {r2}")

# Визуализация
plt.scatter(X_test, y_test, color='blue', label='Реальные данные')
plt.plot(X_test, y_pred, color='red', label='Предсказания')
plt.title("Линейная регрессия: Цена на недвижимость от количества комнат")
plt.xlabel("Количество комнат")
plt.ylabel("Цена на недвижимость")
plt.legend()
plt.show()
```

**Выводы:**
- Мы применили линейную регрессию на реальных данных, разделив их на обучающую и тестовую выборки.
- После обучения модели мы оценили её точность с использованием метрик MSE и R².
- Линия регрессии визуализировала, как изменяется цена на недвижимость в зависимости от количества комнат.

#### Заключение

Линейная регрессия — это простой, но мощный метод регрессии, который может быть использован для решения широкого круга задач предсказания. Она легко интерпретируема, и её результаты можно визуализировать, что делает её полезной в приложениях с понятной линейной зависимостью между переменными.