# Линейная регрессия

# Задание 1

Считайте файл weights_heights.csv

In [None]:
import pandas as pd

df = pd.read_csv("weights_heights.csv")

Выведите первые 10 строк датафрейма. Выведите размер датафрейма

In [None]:
df.head()

### Разобьем данные на тренировочную и тестовую выборки

In [None]:
from sklearn.model_selection import train_test_split

X = df[['Height']] # матрица объект-признак. Обычно признаков > 1
y = df['Weight'] # вектор целевой переменной

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2)

In [None]:
X.shape

# Проверим, как работает функция линейной регрессии из sklearn

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

model = LinearRegression()

model.fit(Xtrain, ytrain) # обучение модели

coef = float(model.coef_) # веса при признаках
intercept = model.intercept_ # свободный коэффициент (w0)
print(f'''
Вес при признаке "рост": {coef:.3f},
Свободный коэффициент:  {intercept:.3f}''')

$ Weight = w_0 + w_1\cdot Height$

$ Weight = -83 + 3\cdot Height$

Возьмите любую пару рост и вес из датафрейма. Проверьте, что если подставить их в нашу формулу, получится что-то похожее

In [None]:
h = df['Height'][0]
w = df['Weight'][0]

In [None]:
w

In [None]:
intercept + h * coef

In [None]:
pred_test = model.predict(Xtest) # делаем предсказание

mean_squared_error(pred_test, ytest) ** 0.5 # ошибка примерно 10 фунтов

In [None]:
pred_train = model.predict(Xtrain)

mean_squared_error(pred_train, ytrain) ** 0.5

Модель не переобучена. Как мы это поняли?

### Это тот редкий случай, когда мы можем изобразить график с линейной регрессией.

In [None]:
from matplotlib import pylab as plt
%matplotlib inline

scatter(df['Height'], df['Weight'])

plot(X, coef * X + intercept, 'r')

# Задание 2

Поработаем с датасетом Бостон.

In [None]:
from sklearn.datasets import load_boston

data = load_boston()
print(data.DESCR)

In [None]:
X_full = data.data
y_full = data.target

Разбейте данные на train и test. Обучите линейную регрессию на train и сделайте предсказание на train и test.

In [None]:
# your code here
Xtrain, Xtest, ytrain, ytest = train_test_split(X_full, y_full, test_size=0.2)

model = LinearRegression()
model.fit(Xtrain, ytrain) # обучение модели
pred_train = model.predict(Xtrain)
pred_test = model.predict(Xtest)

Выведите MSE на train и на test. Выведите RMSE. На сколько в среднем мы ошибаемся на train и test? Модель переобучена, недообучена или все ок?

In [None]:
mean_squared_error(pred_test, ytest) ** 0.5 

In [None]:
mean_squared_error(pred_train, ytrain) ** 0.5

Нарисуем матрицу корреляций признаков.

In [None]:
import seaborn as sns

data1 = pd.DataFrame(data=np.c_[data['data'], data['target']],
                     columns=list(data['feature_names']) + ['target'])

plt.figure(figsize=(12,9))

corr = data1.corr()

sns.heatmap(corr,annot=True,linewidths=.5,fmt= '.2f',\
            mask=np.zeros_like(corr, dtype=bool), \
            cmap=sns.diverging_palette(100,200,as_cmap=True), square=True)

In [None]:
data1.head()

Мы можем удалять признаки

In [None]:
del data1['RAD']

Создавать новые из уже существующих

In [None]:
data1['NEW'] = data1['LSTAT'] ** 2

Посмотрим на новую матрицу объект-признак

In [None]:
y = data1['target']

X = data1.drop('target', axis=1)

X.head()

In [None]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2)
model = LinearRegression()
model.fit(Xtrain, ytrain) # обучение модели
pred_train = model.predict(Xtrain)
pred_test = model.predict(Xtest)
print(mean_squared_error(pred_test, ytest) ** 0.5, mean_squared_error(pred_train, ytrain) ** 0.5)

Можем изучить каждый признак в отдельности, изучить его распределение с ЦП

In [None]:
for c in data1.columns:
    if c != 'target':
        print(c)
        scatter(data1[c], data1['target'])
        show()

Попробуйте убрать из данных признаки с наименьшей корреляцией с target (1, 2 или 3 признака) и обучить линейную регрессию на оставшихся признаках. Как изменилось качество?

In [None]:
#your code here

# Задание 3. 

Откроем новый датасет Clean\_Dataset.csv: в нем собрана информация про полеты и их цены. Поработайте с признаками: какие-то проще будет отбросить, какие-то понадобится превратить из категориальных в числовые. 

Обучите линейную регрессию. 

In [None]:
# your code here