# Линейная регрессия

# Задание 1

Считаем наш датасет: файл, в котором содержится информация об объеме батарейки телефона (мАч) и его цене. 

In [None]:
import pandas as pd

data = pd.read_csv('phones.csv')

Посмотрим на данные, узнаем, сколько их.

In [None]:
data.head()

In [None]:
data.shape

### Разобьем данные на тренировочную и тестовую выборки

In [None]:
from sklearn.model_selection import train_test_split

X = df[['battery']] # у нас всего один признак, но sklearn ждет от нас матрицу, поэтому мы не можем взять просто один столбец
y = df.price

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)

# Проверим, как работает функция линейной регрессии из sklearn

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

model = LinearRegression()

model.fit(Xtrain, ytrain) # обучение модели

coef = float(model.coef_.item()) # веса при признаках
intercept = model.intercept_ # свободный коэффициент (w0)
print(f'''
Вес при признаке "размер батарейки": {coef:.3f},
Свободный коэффициент:  {intercept:.3f}''')

$ Weight = w_0 + w_1\cdot Height$

$ Weight = 5.478 + 9.999\cdot Height$

Возьмем любую пару "объем батарейки" и "цена" из датафрейма. Проверим, что если подставить их в нашу формулу, получится что-то похожее

In [None]:
x = data['battery'][0]
y = data['price'][0]

In [None]:
y

In [None]:
intercept + x * coef

In [None]:
pred_test = model.predict(Xtest) # делаем предсказание

mean_squared_error(pred_test, ytest) ** 0.5 # ошибка примерно 60 рублей

In [None]:
pred_train = model.predict(Xtrain)

mean_squared_error(pred_train, ytrain) ** 0.5

Модель не переобучена. Как мы это поняли?

### Это тот редкий случай, когда мы можем изобразить график с линейной регрессией.

In [None]:
from matplotlib import pylab as plt

plt.scatter(data['battery'][:50], data['price'][:50])

plt.plot(X[:50], coef * X[:50] + intercept, 'r')
plt.show()

# Задание 2

Поработаем с датасетом Medical insurance costs.

In [None]:
data = pd.read_csv('insurance.csv')
data.head()

In [None]:
data.sex = data.sex.apply(lambda x: 0 if x == 'male' else 1)
data.smoker = data.smoker.apply(lambda x: 0 if x == 'no' else 1)
data = pd.get_dummies(data, 'region', drop_first=True)

In [None]:
data.info()

In [None]:
y = data.charges
X = data.drop('charges', axis=1)

Разбейте данные на train и test. Обучите линейную регрессию на train и сделайте предсказание на train и test.

In [None]:
# your code here
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(Xtrain, ytrain) # обучение модели
pred_train = model.predict(Xtrain)
pred_test = model.predict(Xtest)

Выведите MSE на train и на test. Выведите RMSE. На сколько в среднем мы ошибаемся на train и test? Модель переобучена, недообучена или все ок?

In [None]:
mean_squared_error(pred_test, ytest) ** 0.5 

In [None]:
mean_squared_error(pred_train, ytrain) ** 0.5

Нарисуем матрицу корреляций признаков.

In [None]:
import seaborn as sns
import numpy as np

plt.figure(figsize=(12,9))

corr = data.corr()

sns.heatmap(corr,annot=True,linewidths=.5,fmt= '.2f',\
            mask=np.zeros_like(corr, dtype=bool), \
            cmap=sns.diverging_palette(100,200,as_cmap=True), square=True)

Мы можем удалять признаки

In [None]:
del data['region_northwest']

Создавать новые из уже существующих

In [None]:
data['smoker'] = data['smoker'] ** 2

Посмотрим на новую матрицу объект-признак

In [None]:
y = data.charges
X = data.drop('charges', axis=1)

X.head()

In [None]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(Xtrain, ytrain) # обучение модели
pred_train = model.predict(Xtrain)
pred_test = model.predict(Xtest)
print(mean_squared_error(pred_test, ytest) ** 0.5, mean_squared_error(pred_train, ytrain) ** 0.5)

Можем изучить каждый признак в отдельности, изучить его распределение с ЦП

In [None]:
for c in data.columns:
    if c != 'charges':
        print(c)
        plt.scatter(data[c], data['charges'])
        plt.show()

# Задание 3. 

Возьмем датасет про доставку еды: в нашем датасете есть базовая информация о доставке (на каком транспортном средстве ехал курьер, было это утром, днем или вечером, в какую погоду и так далее). Проверьте, нет ли в датасете пропущенных ячеек: scikit-learn не умеет работать с отсутствующими данными, их нужно убрать или каким-либо образом заполнить. Используйте One Hot Encoding для категориальных признаков. Обучите линейную регрессию для предсказания времени доставки и посчитайте, на сколько минут в среднем ошибается ваша модель. я?

In [None]:
# your code here