# Домашнее задание: Нормализация и стандартизация в линейной регрессии
**Дедлайн 15 февраля, 23:59**, продлен до 21 февраля 23:59

## Теоретическая часть

### Зачем нужны нормализация и стандартизация?
Когда мы работаем с данными, например, в линейной регрессии, важно, чтобы все признаки (столбцы данных) были в одном масштабе. Это нужно, чтобы:
1. **Алгоритмы работали быстрее** (например, градиентный спуск).
2. **Коэффициенты модели были проще интерпретировать**.
3. **Данные стали устойчивее к выбросам**.

#### Нормализация
Нормализация меняет данные так, чтобы они были в диапазоне от 0 до 1. Формула:

$$ x_{\text{норм}} = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} $$

#### Стандартизация
Стандартизация делает так, чтобы данные имели среднее значение 0 и стандартное отклонение 1. Формула:

$$ x_{\text{стандарт}} = \frac{x - \mu}{\sigma} $$
где: $$\mu$$ — среднее значение, $$\sigma$$ — стандартное отклонение

## Практическая часть

### Тестовые данные
Мы будем работать с реальными данными — **ценами на дома** в Бостоне. 
Датасет лежит в этой же папке в репозитории, [вот ссылка](Boston.csv)

Признаки:
- `RM` — среднее количество комнат в доме.
- `LSTAT` — процент населения с низким статусом.
- `MEDV` — цена дома (целевая переменная).

Описание всех признаков (на всякий случай)

- `CRIM` — уровень преступности на душу населения по городам
- `ZN` — доля жилой земли, отведенной под участки более 25 000 кв.футов
- `INDUS` — доля нежилых коммерческих площадей по городам
- `CHAS` — фиктивная переменная реки Чарльз (= 1, если участок примыкает к реке; 0 в противном случае)
- `NOX` —  концентрация оксидов азота (частей на 10 миллионов)
- `RM` — среднее количество комнат в жилом доме
- `AGE` — доля домов, занятых владельцами, построенных до 1940 года
- `DIS` — взвешенное расстояние до пяти центров занятости Бостона
- `RAD` — индекс доступности к радиальным магистралям
- `TAX` — полная ставка налога на имущество за $10 000
- `PTRATIO` — соотношение учеников к учителям по городам
- `B` — 1000(Bk - 0.63)^2, где Bk — доля чернокожего населения по городам
- `LSTAT` — процент населения с низким статусом
- `MEDV` —  Медианная стоимость домов, занятых владельцами, в $1000

In [14]:
import pandas as pd

data = pd.read_csv("Boston.csv")

X = data[['rm', 'lstat']].values
y = data['medv'].values

### Задание 1: Нормализация

- Напишите функцию для нормализации данных. (1 балл)
- Примените её к данным X. (1 балл)
- Постройте график до и после нормализации. (1.3 балла)

### Задание 2: Стандартизация

- Напишите функцию для стандартизации данных. (1 балл)
- Примените её к данным X. (1 балл)
- Постройте график до и после стандартизации. (1.3 балла)

### Задание 3: Регрессия

- Обучите модель линейной регрессии на исходных, нормализованных и стандартизированных данных. Используйте ``from sklearn.linear_model import LinearRegression``(1 балл)
- Сравните коэффициенты модели, используйте атрибут ``coef_``(1 балл)
- Напишите выводы (1.3 балла)