# Практикум по линейным моделям в машинном обучении

## Импорт необходимых библиотек

In [25]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import warnings
warnings.filterwarnings('ignore')

# Устанавливаем сид для воспроизводимости результатов
np.random.seed(42)
plt.style.use('default')

---

## Блок 1: Основы линейной регрессии

### Задание 1.1: Понимание простейшей линейной модели y = wx + b

**Теория:**
Линейная регрессия - это простая модель, которая пытается найти прямую линию, наилучшим образом описывающую зависимость между входной переменной x и выходной переменной y.

Простейшая модель имеет вид: **y = w*x + b**

где:
- **w** - вес (наклон прямой)
- **b** - смещение (точка пересечения с осью y)
- **x** - входной признак
- **y** - целевая переменная

**Задание:**
1. Создайте простые данные и изучите, как меняется линия при разных весах
2. Постройте несколько линий с разными параметрами
3. Поймите геометрический смысл весов

In [26]:
# Ваш код здесь
# 1. Создайте x от 0 до 10 с шагом 0.5

# 2. Постройте 4 разные линии с параметрами:
# y1 = 2*x + 1 (w=2, b=1)
# y2 = -1*x + 5 (w=-1, b=5)  
# y3 = 0.5*x + 2 (w=0.5, b=2)
# y4 = 3*x - 2 (w=3, b=-2)

# 3. Постройте все линии на одном графике
# Подпишите каждую линию: f"y = {w}x + {b}"
# Добавьте legend, xlabel, ylabel, title


### Задание 1.2: Создание данных с шумом и визуализация

**Теория:**
В реальных данных всегда есть шум - случайные отклонения от идеальной зависимости. Наша задача - найти линию, которая лучше всего описывает общую тенденцию.

**Задание:**
1. Создайте данные по формуле y = 3*x + 2 + шум
2. Визуализируйте исходные данные и истинную зависимость
3. Добавьте разное количество шума и посмотрите на результат

In [28]:
# Ваш код здесь
# 1. Создайте x от 0 до 10, 50 точек
np.random.seed(42)

# 2. Создайте "истинную" зависимость: y_true = 3*x + 2

# 3. Добавьте шум: y_noisy = y_true + np.random.normal(0, 1, len(x))

# 4. Постройте график:
# - scatter plot зашумленных данных
# - линию истинной зависимости (красная линия)
# - добавьте легенду и подписи осей

# 5. Создайте еще 2 датасета с разным уровнем шума (std=0.5 и std=2)
# Постройте их в subplot(1, 3) для сравнения

### Задание 1.3: Ручной подбор весов

**Теория:**
Прежде чем использовать автоматические алгоритмы, попробуем подобрать веса вручную, чтобы понять, как работает процесс обучения.

**Задание:**
1. Попробуйте разные значения весов и смещений
2. Вычислите ошибку для каждого варианта
3. Найдите наилучшие параметры визуально

In [30]:
# Ваш код здесь
# Используйте данные из предыдущего задания (x, y_noisy)

# 1. Попробуйте разные веса и смещения:
weights_to_try = [1, 2, 3, 4, 5]
biases_to_try = [0, 1, 2, 3, 4]

# 2. Для каждой комбинации:
# - вычислите предсказания: y_pred = w*x + b  
# - вычислите MSE c numpy 
# - сохраните результат

# 3. Найдите комбинацию с минимальной ошибкой

# 4. Постройте график:
# - исходные данные (scatter)
# - лучшую найденную линию
# - истинную линию для сравнения
# Выведите MSE лучшей модели

### Задание 1.4: Введение в sklearn и автоматическое обучение

**Теория:**
Sklearn автоматически находит оптимальные веса, минимизируя функцию потерь (обычно MSE - среднеквадратичную ошибку).

**Задание:**
1. Используйте LinearRegression для автоматического поиска весов
2. Сравните с вашим ручным подбором
3. Изучите найденные коэффициенты

In [32]:
# Ваш код здесь
# 1. Подготовьте данные: x должен быть двумерным массивом
X = x.reshape(-1, 1)  # превращаем в столбец
y = y_noisy

# 2. Создайте и обучите модель
# обучите модель

# 3. Получите коэффициенты (поля класса coef_ и intercept_):

# 4. Сделайте предсказания и вычислите MSE (методы модели fit() и функция mean_squared_error())

# 5. Постройте график сравнения:
# - исходные данные
# - линия sklearn
# - ваша лучшая ручная линия  
# - истинная линия

# 6. Выведите найденные параметры и сравните их с истинными (w=3, b=2)

---

## Блок 2: Работа с многомерными данными

### Задание 2.1: Модель с несколькими признаками

**Теория:**
В реальности у нас обычно больше одного признака. Модель становится:
**y = w₁*x₁ + w₂*x₂ + w₃*x₃ + ... + b**

Каждый признак имеет свой вес, который показывает, насколько сильно этот признак влияет на результат.

**Задание:**
1. Создайте данные с 3 признаками
2. Изучите влияние каждого признака отдельно
3. Обучите модель и проанализируйте веса

In [34]:
# Ваш код здесь
# 1. Создайте синтетические данные:
np.random.seed(42)
n_samples = 100

# Массивы признаков с np.random.uniform с границами (0, 10), (1, 5) и (0, 1)

# Целевая переменная (например, зарплата)
# y = 2*возраст + 5*опыт + 10*образование + 20 + шум

# 2. Создайте X матрицу признаков

# 3. Постройте 3 графика зависимости y от каждого признака отдельно

# 4. Обучите LinearRegression и выведите веса
# Сравните найденные веса с истинными [2, 5, 10]

### Задание 2.2: Влияние масштаба признаков

**Теория:**
Если признаки имеют очень разные масштабы, это может повлиять на веса модели. Например, возраст (20-60) и зарплата (20000-100000) имеют разные порядки.

**Задание:**
1. Создайте данные с признаками разного масштаба
2. Обучите модель без масштабирования
3. Примените StandardScaler и сравните результаты

In [36]:
# Ваш код здесь
# 1. Создайте данные с разными масштабами 20, 60 ; 20000, 100000 ; 0, 40:
np.random.seed(42)

# Целевая переменная (например, стоимость страховки)
#y = 0.1*age + 0.0001*income + 2*experience + 100 + шум

# 2. Обучите модель БЕЗ масштабирования
# обучите и получите коэффициенты

# 3. Примените StandardScaler, используйте fit_transform
scaler = StandardScaler()
# обучите на масштабированных данных

# 4. Сравните коэффициенты и MSE
# Постройте bar plot коэффициентов до и после масштабирования

# 5. Объясните, почему коэффициенты изменились

### Задание 2.3: Интерпретация весов модели

**Теория:**
Веса модели показывают, как изменится целевая переменная при изменении признака на единицу (при условии, что остальные признаки не изменяются).

**Задание:**
1. Обучите модель на осмысленных данных
2. Проинтерпретируйте каждый вес
3. Найдите самые важные признаки

In [38]:
# 1. Создаём реалистичные данные о недвижимости
np.random.seed(42)
n_houses = 200

area = np.random.uniform(50, 200, n_houses)        # кв.м
rooms = np.random.randint(1, 6, n_houses)           # количество
floor = np.random.randint(1, 20, n_houses)             # этаж
distance_center = np.random.uniform(1, 50, n_houses) # км от центра

# Цена квартиры (тыс. руб)
price = (area * 100 +           # 100 тыс за кв.м
        rooms * 500 +           # 500 тыс за комнату  
        floor * 10 +                # 10 тыс за этаж
        distance_center * (-20) +    # -20 тыс за км от центра
        5000 +                     # базовая цена
        np.random.normal(0, 500, n_houses))  # шум

# 2. Обучаем модель

# 3. Строим bar plot весов с подписями признаков
# Добавляем значения на столбцы

# 4. Выводим интерпретацию каждого веса

# 5. Ранжируем признаки по важности (по абсолютному значению весов)
# Качество модели


---

## Блок 3: Кодирование категориальных признаков

### Задание 3.1: Проблема с категориальными данными

**Теория:**
Линейная регрессия работает только с числами. Если у нас есть категориальные признаки (пол, город, образование), их нужно преобразовать в числа.

**НЕ ПРАВИЛЬНО:** просто присвоить числа (Мужчина=1, Женщина=2) - это создает ложный порядок.

**ПРАВИЛЬНО:** использовать One-Hot Encoding - создать отдельную колонку для каждой категории.

**Задание:**
1. Создайте данные с категориальными признаками
2. Покажите проблему с обычным кодированием
3. Сравните с правильным подходом

In [40]:
# Ваш код здесь
# 1. Создайте данные о сотрудниках:
np.random.seed(42)
n_people = 150

age = np.random.uniform(25, 55, n_people)
experience = np.random.uniform(0, 30, n_people)

# Категориальные признаки
gender = np.random.choice(['Мужчина', 'Женщина'], n_people)
education = np.random.choice(['Среднее', 'Высшее', 'Магистр'], n_people)

# Зарплата зависит от всех факторов
base_salary = (age * 1000 + experience * 2000 + 30000)

# Добавляем влияние пола и образования
gender_bonus = np.where(gender == 'Мужчина', 5000, 0)  # условный пример

education_bonus = np.select([
    education == 'Среднее',
    education == 'Высшее', 
    education == 'Магистр'
], [0, 10000, 20000])

salary = base_salary + gender_bonus + education_bonus + np.random.normal(0, 3000, n_people)

# 2. Попробуйте НЕПРАВИЛЬНЫЙ способ - LabelEncoder
le_пол = LabelEncoder()
# Обучите модель с неправильным кодированием

# 3. Выведите веса и объясните, почему они могут быть неправильными

### Задание 3.2: One-Hot Encoding - правильный способ

**Теория:**
One-Hot Encoding создает отдельную бинарную колонку для каждой категории:

Пол: Мужчина → [1, 0], Женщина → [0, 1]
Образование: Среднее → [1, 0, 0], Высшее → [0, 1, 0], Магистр → [0, 0, 1]

**Задание:**
1. Примените One-Hot Encoding к тем же данным
2. Сравните результаты с предыдущим подходом
3. Проинтерпретируйте новые веса

In [42]:
# Ваш код здесь
# Используйте данные из предыдущего задания

# 1. Примените OneHotEncoder
from sklearn.preprocessing import OneHotEncoder

# Для пола
ohe_gender = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' избегает мультиколлинеарности
gender_onehot = ohe_gender.fit_transform(gender.reshape(-1, 1))

# Для образования
ohe_education = OneHotEncoder(sparse_output=False, drop='first')
education_onehot = ohe_education.fit_transform(education.reshape(-1, 1))

# 2. Создайте матрицу признаков

# 3. Обучите модель


# 4. Создайте названия признаков для интерпретации
feature_names = ['Возраст', 'Опыт'] + list(ohe_gender.get_feature_names_out(['Пол'])) + list(ohe_education.get_feature_names_out(['Образование']))

# 5. Постройте bar plot весов с подписями
# Проинтерпретируйте веса категориальных признаков

# 6. Сравните MSE между правильным и неправильным кодированием

### Задание 3.3: Работа с ColumnTransformer

**Теория:**
ColumnTransformer позволяет применять разные виды предобработки к разным типам признаков одновременно.

**Задание:**
1. Создайте данные со смешанными типами признаков
2. Используйте ColumnTransformer для автоматической обработки
3. Создайте полный pipeline

In [None]:
# Ваш код здесь
# 1. Создайте DataFrame с разными типами данных
data = pd.DataFrame({
    'возраст': age,
    'опыт': experience,
    'пол': gender,
    'образование': education,
    'зарплата': salary
})

# 2. Разделите на признаки и целевую переменную методами pandas

# 3. Определите числовые и категориальные признаки
numeric_features = ['age', 'experience']
categorical_features = ['gender', 'education']

# 4. Создайте ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(drop='first'), categorical_features)
    ])

# 5. Создайте Pipeline
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])


"""
Справка по разбиению на тестовую и обучающуюю выборки

Чтобы протестировать работу модели полезно разбить данные на обучающую и тестовую выборки.
Это позволяет оценить, как модель будет работать на новых, не видимых данных.

Это можно сделать с помощью функции из sklearn train_test_split(),
Она принимает - массив признаков (X) и массив целевой переменной (y), 
а также параметры test_size и random_state.
Выдает - 4 массива: X_train, X_test, y_train, y_test
"""


# 6. Разделите данные на train/test и обучите pipeline
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 7. Обучите и оцените модель
# Выведите MSE на train и test

ValueError: Found input variables with inconsistent numbers of samples: [200, 100]