# Линейная регрессия в Python
В этом ноутбуке представлен пример реализации линейной регрессии, объяснение её теоретических основ и использование функции потерь.

## 1. Теория линейной регрессии
Линейная регрессия — это метод машинного обучения для предсказания значения зависимой переменной (y) на основе независимой переменной (X). Модель имеет следующую форму:

$$y = \beta_0 + \beta_1 X + \epsilon$$

Где:
- $y$ — целевая переменная,
- $X$ — независимая переменная,
- $\beta_0$ — свободный член (intercept),
- $\beta_1$ — коэффициент наклона (slope),
- $\epsilon$ — ошибка (шум).

### Функция потерь
Для обучения модели используется **среднеквадратичная ошибка (MSE)**:

$$MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$$

Где:
- $y_i$ — истинные значения,
- $\hat{y}_i$ — предсказанные значения,
- $n$ — количество наблюдений.

## 2. Импорт необходимых библиотек

In [None]:
# Импортируем библиотеки
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

## 3. Создание данных
Сгенерируем синтетический набор данных для демонстрации линейной регрессии.

In [None]:
# Генерация данных
np.random.seed(42)  # Фиксируем случайное значение для воспроизводимости
X = 2 * np.random.rand(100, 1)  # Случайные значения для X
y = 4 + 3 * X + np.random.randn(100, 1)  # Генерация зависимой переменной с добавлением шума

# Визуализация данных
plt.scatter(X, y, color='blue', alpha=0.6)
plt.title('Сгенерированные данные')
plt.xlabel('X')
plt.ylabel('y')
plt.show()

## 4. Разделение данных на обучающую и тестовую выборки

In [None]:
# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f'Размер обучающей выборки: {len(X_train)}')
print(f'Размер тестовой выборки: {len(X_test)}')

## 5. Обучение модели линейной регрессии

In [None]:
# Создание и обучение модели
model = LinearRegression()
model.fit(X_train, y_train)

# Вывод коэффициентов
print(f'Свободный член (intercept): {model.intercept_[0]}')
print(f'Коэффициент наклона (slope): {model.coef_[0][0]}')

## 6. Оценка модели
Рассчитаем предсказания и оценим качество модели с помощью MSE и $R^2$.

In [None]:
# Предсказания и оценка
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Среднеквадратичная ошибка (MSE): {mse:.2f}')
print(f'Коэффициент детерминации (R^2): {r2:.2f}')

## 7. Визуализация результатов

In [None]:
# Визуализация обученной модели
plt.scatter(X, y, color='blue', alpha=0.6, label='Данные')
plt.plot(X, model.predict(X), color='red', linewidth=2, label='Модель')
plt.title('Линейная регрессия')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

## 8. Упражнения
Попробуйте выполнить следующие задачи самостоятельно:
1. Сгенерируйте набор данных с другим уровнем шума и обучите модель.
2. Измените коэффициенты в формуле генерации данных и проверьте, как это влияет на модель.
3. Напишите функцию для ручного расчета MSE.