In [1]:
from pandas import read_csv
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn import metrics

### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №1](#toc0_)
Загрузите датасет house_price.csv  с информацией о стоимости домов. 

In [2]:
file = read_csv('house_price.csv')

### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №2](#toc0_)
Выполните очистку данных: удалите столбцы, в которых менее 1000 непустых значений, а затем удалите все строки, где есть пустые значения. Выведите количество оставшихся строк и столбцов.

In [3]:
file = file.dropna(axis=1, thresh=1000).dropna()
print(f'Количество строк: {len(file)}\nКоличество столбцов: {len(file.columns)}')

Количество строк: 1094
Количество столбцов: 75


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №3](#toc0_)
Удалите все нечисловые столбцы. Выведите количество оставшихся столбцов.

In [4]:
file = file.select_dtypes(include=np.number)
print(f'Количество столбцов: {len(file.columns)}')

Количество столбцов: 38


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №4](#toc0_)
Разбейте набор данных на обучающую и тестовую выборки.

In [5]:
# SalePrice - the property's sale price in dollars. This is the target variable that you're trying to predict.
X_train, X_test, Y_train, Y_test = train_test_split(file.drop('SalePrice', axis=1), file['SalePrice'], test_size = 0.3, random_state = 42)
print(X_train.shape, Y_train.shape)
print(X_test.shape, Y_test.shape)

(765, 37) (765,)
(329, 37) (329,)


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №5](#toc0_)
Обучите модель методом линейной регрессии и оцените качество модели (RMSE и R2)

In [6]:
model1 = LinearRegression().fit(X_train, Y_train)
y_pred = model1.predict(X_test)
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(Y_test, y_pred))}\n' +
      f'R2: {np.round(metrics.r2_score(Y_test, y_pred), 2)}')

RMSE: 33973.676462189134
R2: 0.84


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №6](#toc0_)
Обучите модель методом Лассо c перекрестной проверкой. Выведите коэффициенты (сделайте выводы). Оцените качество модели. 

In [7]:
model2 = Lasso()
grid_search = GridSearchCV(model2, {'alpha': [0.1, 1, 10]}, cv=5)
grid_search.fit(X_train, Y_train)
print('Лучший коэффициент через автоматический перебор: best_alpha =', {grid_search.best_params_['alpha']})

Лучший коэффициент через автоматический перебор: best_alpha = {10}


In [8]:
model2.alpha = 10
model2.fit(X_train, Y_train)
print(f'Коэффициенты: {model2.coef_}')
y_pred = model2.predict(X_test)
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(Y_test, y_pred))}\n' +
      f'R2: {np.round(metrics.r2_score(Y_test, y_pred), 2)}')

Коэффициенты: [-3.18986159e+00 -2.39877369e+02 -1.18771217e+02  2.47255870e-01
  2.09481562e+04  4.84518402e+03  1.92328190e+02  1.25737840e+02
  2.84465539e+01  4.94204692e+00 -1.03405858e+01 -6.08822284e+00
 -4.71593985e+00  4.50281551e+01  3.27815619e+01  3.36846717e+01
  3.58306388e+00  1.11286621e+04 -2.60863163e+03  5.41344073e+03
  2.54412862e+02 -8.43919105e+03 -2.51580477e+04  6.49392939e+03
  4.42449039e+03  3.18765063e+01  1.91497777e+04  6.27964251e+00
  1.72262771e+01 -3.90628118e+00 -7.93242441e+00  4.58619502e+01
  5.03501772e+01 -2.86399416e+01 -1.00719155e+00 -2.24211864e+02
 -3.75608581e+02]
RMSE: 33959.616226042875
R2: 0.84


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №7](#toc0_)
Обучите модель методом Ridge с разными значениями alpha, оцените качество модели и выберите оптимальный вариант. Выведите коэффициенты и сделайте выводы. 

In [9]:
model3 = Ridge()
grid_search = GridSearchCV(model3, {'alpha': [0.1, 1, 10]}, cv=5)
grid_search.fit(X_train, Y_train)
print('Лучший коэффициент через автоматический перебор: best_alpha =', {grid_search.best_params_['alpha']})

Лучший коэффициент через автоматический перебор: best_alpha = {10}


In [10]:
model3.alpha = 10
model3.fit(X_train, Y_train)
print(f'Коэффициенты: {model3.coef_}')
y_pred = model3.predict(X_test)
print(f'RMSE: {np.sqrt(metrics.mean_squared_error(Y_test, y_pred))}\n' +
      f'R2: {np.round(metrics.r2_score(Y_test, y_pred), 2)}')

Коэффициенты: [-3.01443446e+00 -2.53731422e+02 -1.23877187e+02  2.26464737e-01
  2.09920643e+04  4.83045024e+03  2.15161915e+02  1.39786651e+02
  2.89206925e+01  6.66574538e+00 -8.39645689e+00 -4.89697203e+00
 -6.62768356e+00  1.77756205e+01  5.92051335e+00  8.45024029e+00
  3.21463760e+01  9.93015155e+03 -2.79550171e+03  4.58330435e+03
  2.38872396e+02 -8.03068140e+03 -1.50153095e+04  5.92566038e+03
  4.76150971e+03  3.66909714e+01  1.66831168e+04  1.14939179e+01
  1.85945035e+01 -2.74944360e+00 -6.64496790e+00  4.79584016e+01
  5.22687955e+01 -3.04843150e+01 -9.95063214e-01 -2.19343569e+02
 -4.03854130e+02]
RMSE: 33915.53729726643
R2: 0.84


### <a id='toc1_1_1_'></a>[ЗАДАНИЕ №8](#toc0_)
Сравните качество всех трех моделей.

Вывод: модель с самым низким значением RMSE (среднеквадратичная ошибка) является лучшей. В данном случае, это 3 модель с RMSE: 33915.53729726643. Более низкий RMSE указывает на то, что модель имеет меньшую ошибку прогнозирования, что делает ее предпочтительной.