# Анализ и построение модели по данным о ценах на дома

## Импорт пакетов
- `matplotlib.pyplot` - рисование графиков
- `pandas` - работа с таблицами
- `numpy` - работа с матрицами
- `linear_model` - модель линейной регрессии

In [1]:
import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

# импортировать из пакета с моделями модель линейной регрессии
from sklearn import linear_model

from sklearn.metrics import r2_score, mean_squared_error

from sklearn.preprocessing import PolynomialFeatures

import xgboost as xg 

%matplotlib inline

## Анализ данных

`kc_house_data.csv`

[Dataset source](https://www.kaggle.com/harlfoxem/housesalesprediction?select=kc_house_data.csv)

### Загрузка данных

In [2]:
import os
notebook_path = os.path.abspath("Notebook.ipynb")    # получить "точку отсчета" для поиска файла
data_csv = os.path.join(os.path.dirname(notebook_path), "data/kc_house_data.csv")
df = pd.read_csv(data_csv)

## Подготовка данных

In [3]:
# разделить данные на train (80%) и test (20%)
msk = np.random.rand(len(df)) < 0.8
train = short_df[msk]
test = short_df[~msk]

NameError: name 'short_df' is not defined

## Простая линейная регрессия

In [None]:
# создать объект линейной регрессии
simple_regr = linear_model.LinearRegression()

# разделить независимую и зависимую переменные
X_train = np.asanyarray(train[['bathrooms']])
y_train = np.asanyarray(train[['price']])

# обучить модель
simple_regr.fit(X_train, y_train)

# вывести результаты обучения
print('Coefficients: ', simple_regr.coef_)
print('Intercept: ',simple_regr.intercept_)

In [None]:
plt.scatter(train.bathrooms, train.price,  color='red')
plt.plot(X_train, simple_regr.coef_[0][0]*X_train + simple_regr.intercept_[0], '-g', linewidth=6)
plt.xlabel("bathrooms", fontsize=20)
plt.ylabel("price", fontsize=20)

In [None]:
# использовать обученную модель для предсказания на test выборке
y_predicted = simple_regr.predict(test[['bathrooms']])
X_test = np.asanyarray(test[['bathrooms']])
y_test = np.asanyarray(test[['price']])

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Полиномиальная регрессия (квадратичная) 2D

In [None]:
X_train = np.asanyarray(train[['bathrooms']])
y_train = np.asanyarray(train[['price']])

X_test = np.asanyarray(test[['bathrooms']])
y_test = np.asanyarray(test[['price']])


poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)

poly_regr = linear_model.LinearRegression()
poly_regr.fit(X_train_poly, y_train)

# The coefficients
print('Coefficients: ', poly_regr.coef_)
print('Intercept: ', poly_regr.intercept_)

plt.scatter(train.bathrooms, train.price,  color='blue')
XX = np.arange(0.0, 10.0, 0.1)
yy = poly_regr.intercept_[0]+ poly_regr.coef_[0][1]*XX+ poly_regr.coef_[0][2]*np.power(XX, 2)
plt.plot(XX, yy, '-r' )
plt.xlabel("bathrooms")
plt.ylabel("price")

X_test_poly = poly.fit_transform(X_test)
y_predicted = poly_regr.predict(X_test_poly)

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Полиномиальная регрессия (кубическая) 2D

In [None]:
poly3 = PolynomialFeatures(degree=3)
X_train_poly3 = poly3.fit_transform(X_train)
cubic_regr = linear_model.LinearRegression()
y3_train = cubic_regr.fit(X_train_poly3, y_train)

# The coefficients
print ('Coefficients: ', cubic_regr.coef_)
print ('Intercept: ',cubic_regr.intercept_)

plt.scatter(train.bathrooms, train.price,  color='blue')
XX = np.arange(0.0, 10.0, 0.1)
yy = cubic_regr.intercept_[0]+ cubic_regr.coef_[0][1]*XX + cubic_regr.coef_[0][2]*np.power(XX, 2) + cubic_regr.coef_[0][3]*np.power(XX, 3)
plt.plot(XX, yy, '-r' )
plt.xlabel("bathrooms")
plt.ylabel("price")

test_x_poly3 = poly3.fit_transform(X_test)
y3_predicted = cubic_regr.predict(test_x_poly3)

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Множественная линейная регрессия (2D)

In [None]:
# выбрать даннные для обучения / предсказания
columns = ['bathrooms','sqft_living15']

# разделить независимую и зависимую переменные / train и test
X_train = np.asanyarray(train[columns])
y_train = np.asanyarray(train[['price']])

X_test = np.asanyarray(test[columns])
y_test = np.asanyarray(test[['price']])

In [None]:
# создать объект линейной регрессии
multiple_regr = linear_model.LinearRegression()

# разделить независимую и зависимую переменные
X_train = np.asanyarray(train[columns])
y_train = np.asanyarray(train[['price']])

# обучить модель
multiple_regr.fit(X_train, y_train)

# вывести результаты обучения
print('Coefficients: ', multiple_regr.coef_)
print('Intercept: ', multiple_regr.intercept_)

In [None]:
from mpl_toolkits import mplot3d
from mpl_toolkits.mplot3d import Axes3D
# Creating figure
fig = plt.figure(figsize = (15, 10))

# ax = plt.axes(projection ="3d")
ax = Axes3D(fig, azim=-100, elev=15)

# Creating plot
ax.scatter3D(train.bathrooms, 
             train.sqft_living15, 
             train.price, 
             c = train.price, 
             marker='X', 
             cmap='jet',    # https://matplotlib.org/3.2.1/tutorials/colors/colormaps.html
             s=150,
            facecolor='black')
ax.set_xlabel('bathrooms', fontsize=20)
ax.set_ylabel('sqft_living15', fontsize=20)
ax.set_zlabel('price', fontsize=20)

xspan = np.linspace(train.bathrooms.min(), train.bathrooms.max())
yspan = np.linspace(train.sqft_living15.min(), train.sqft_living15.max())
xspan, yspan = np.meshgrid(xspan, yspan)

Z = multiple_regr.intercept_[0] + multiple_regr.coef_[0][0] * xspan
+ multiple_regr.coef_[0][1] * yspan

surf = ax.plot_surface(xspan, yspan, Z, cmap='jet', alpha=0.4, linewidth=0)

In [None]:
# использовать обученную модель для предсказания на test выборке
y_predicted = multiple_regr.predict(test[columns])
X_test = np.asanyarray(test[columns])
y_test = np.asanyarray(test[['price']])

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Множественная линейная регрессия (N-D)

In [None]:
# выбрать даннные для обучения / предсказания
columns = ['bathrooms', 'grade', 'condition', 'yr_built', 'sqft_living15']

# разделить независимую и зависимую переменные / train и test
X_train = np.asanyarray(train[columns])
y_train = np.asanyarray(train[['price']])

X_test = np.asanyarray(test[columns])
y_test = np.asanyarray(test[['price']])

In [None]:
# создать объект линейной регрессии
multiple_regr = linear_model.LinearRegression()

# обучить модель
multiple_regr.fit(X_train, y_train)

# вывести результаты обучения
print('Coefficients: ', multiple_regr.coef_)
print('Intercept: ', multiple_regr.intercept_)

# использовать обученную модель для предсказания на test выборке
y_predicted = multiple_regr.predict(test[columns])

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Обучение модели (Train) - XGBoost for Regression

In [None]:
# разделить независимую и зависимую переменные / train и test
from sklearn.model_selection import train_test_split
Y = df['price'].copy()
X = df.drop(['id','date', 'price'],axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=42)

In [None]:
xgb_r = xg.XGBRegressor(#objective ='reg:linear', 
                  n_estimators=900,learning_rate=0.05,max_depth=5) 

# Fitting the model 
xgb_r.fit(X_train, y_train) 

# Predict the model 
y_predicted = xgb_r.predict(X_test) 

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Полиномиальная регрессия (квадратичная) N-D

In [None]:
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)

poly_regr = linear_model.LinearRegression()
poly_regr.fit(X_train_poly, y_train)

# The coefficients
print('Coefficients: ', poly_regr.coef_)
print('Intercept: ', poly_regr.intercept_)

X_test_poly = poly.fit_transform(X_test)
y_predicted = poly_regr.predict(X_test_poly)

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")

## Полиномиальная регрессия (4-я степень) N-D

In [None]:
poly3 = PolynomialFeatures(degree=4)
X_train_poly3 = poly3.fit_transform(X_train)
cubic_regr = linear_model.LinearRegression()
cubic_regr.fit(X_train_poly3, y_train)

# The coefficients
print ('Coefficients: ', cubic_regr.coef_)
print ('Intercept: ',cubic_regr.intercept_)

test_x_poly = poly3.fit_transform(X_test)
y_predicted = cubic_regr.predict(test_x_poly)

# вывести результаты оценки предсказания
print(f'R2: {r2_score(y_test, y_predicted)}')
print(f"MSE: {mean_squared_error(y_test, y_predicted, squared=True)}")
print(f"MAE: {mean_squared_error(y_test, y_predicted, squared=False)}")