In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load in 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt  # graphs
import seaborn as sns


# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Any results you write to the current directory are saved as output.

In [None]:
df = pd.read_csv('/kaggle/input/housesalesprediction/kc_house_data.csv', sep = ',')
df.head()

In [None]:
df.tail(5)

In [None]:
print(df.shape)

In [None]:
print(df.size)

In [None]:
list(df.columns)

In [None]:
df.dtypes

## **Характеристика и описание данных на основе кода, выполненного выше**  
Объем данных: 453873 значений  
Количество строк: 21613  
Количество параметров: 21  
### Названия параметров:  
1. id - ID сделки по продаже  
2. date - дата сделки  
3. price - цена продажи  
4. bedrooms - количество спальных комнат  
5. bathrooms - количество ванных комнат, где значение .5 обозначает туалет без ванны  
6. sqft_living - жилая площадь внутри дома в квадратных футах  
7. sqft_lot - площадь земли около дома в квадратных футах  
8. floors - количество этажей дома  
9. waterfront - бинарная переменная для обозначения наличия вида на воду из дома  
10. view - индекс от 0 до 4 для обозначения визуального состояния собственности  
11. condition - индекс от 1 до 5 для обозначения состояния дома  
12. grade - индекс для оценки качества постройки и дизайна дома, где 1-3 - плохое качество, 7 - среднее, 11-13 - высокое  
13. sqft_above - площадь надземных помещений (начиная с 1 этажа, не считая подвалов) в квадратных футах  
14. sqft_basement - площадь подземных помещений (подвалы) в квадратных футах  
15. yr_built - год постройки дома  
16. yr_renovated - год последнего капитального ремонта  
17. zipcode - почтовый код дома  
18. lat - широта (координаты) дома  
19. long - долгота (координаты) дома  
20. sqft_living15 - жилая площадь 15 ближайших домов в квадратных футах  
21. sqft_lot15 - площадь земли 15 ближайших домов в квадратных футах

### Типы данных столбцов
id                 int64  
date              object  
price            float64  
bedrooms           int64  
bathrooms        float64  
sqft_living        int64  
sqft_lot           int64  
floors           float64  
waterfront         int64  
view               int64  
condition          int64  
grade              int64  
sqft_above         int64  
sqft_basement      int64  
yr_built           int64  
yr_renovated       int64  
zipcode            int64  
lat              float64  
long             float64  
sqft_living15      int64  
sqft_lot15         int64  

## 4.1 Проверка на наличие нулевых и потерянных значений

In [None]:
df.isnull().sum()

### Визуализация домов на карте
Для визуализации изначально использовалась библиотека gmplot, однако из-за того что Google Maps требуют привязки банковской карты для бесплатного использования, было решено использовать folium, которая взаимодействует с OpenStreetMaps.
Расшифровка подписи - жилая площадь/площадь участка в квадратных футах.
Карта сохраняется в output.

In [None]:
# Creating a map
import folium
from folium.plugins import MarkerCluster
HousesMap = folium.Map(location = [47.501143, -121.824001])

In [None]:
#creating a Marker for each point in df
mc = MarkerCluster()
for row in df.itertuples():
    mc.add_child(folium.Marker(location=[row.lat, row.long], popup = str(row.sqft_living) + '/' + str(row.sqft_lot)))
HousesMap.add_child(mc)

In [None]:
HousesMap.save('/kaggle/working/map.html')

## Другая визуализация данных

In [None]:
df1=df[['price', 'bedrooms', 'bathrooms', 'sqft_living',
    'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
    'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
    'lat', 'long', 'sqft_living15', 'sqft_lot15']]
h = df1.hist(bins=25,figsize=(16,16),xlabelsize='10',ylabelsize='10',xrot=-15)
sns.despine(left=True, bottom=True)
[x.title.set_size(12) for x in h.ravel()];
[x.yaxis.tick_left() for x in h.ravel()];

In [None]:
sns.set(style="whitegrid", font_scale=1)

In [None]:
f, axes = plt.subplots(1, 2,figsize=(15,5))
sns.boxplot(x=df['bedrooms'],y=df['price'], ax=axes[0])
sns.boxplot(x=df['floors'],y=df['price'], ax=axes[1])
sns.despine(left=True, bottom=True)
axes[0].set(xlabel='Bedrooms', ylabel='Price')
axes[0].yaxis.tick_left()
axes[1].yaxis.set_label_position("right")
axes[1].yaxis.tick_right()
axes[1].set(xlabel='Floors', ylabel='Price')

f, axe = plt.subplots(1, 1,figsize=(12.18,5))
sns.despine(left=True, bottom=True)
sns.boxplot(x=df['bathrooms'],y=df['price'], ax=axe)
axe.yaxis.tick_left()
axe.set(xlabel='Bathrooms / Bedrooms', ylabel='Price');

In [None]:
f, axes = plt.subplots(1, 2,figsize=(15,5))
sns.boxplot(x=df['waterfront'],y=df['price'], ax=axes[0])
sns.boxplot(x=df['view'],y=df['price'], ax=axes[1])
sns.despine(left=True, bottom=True)
axes[0].set(xlabel='Waterfront', ylabel='Price')
axes[0].yaxis.tick_left()
axes[1].yaxis.set_label_position("right")
axes[1].yaxis.tick_right()
axes[1].set(xlabel='View', ylabel='Price')

f, axe = plt.subplots(1, 1,figsize=(12.18,5))
sns.boxplot(x=df['grade'],y=df['price'], ax=axe)
sns.despine(left=True, bottom=True)
axe.yaxis.tick_left()
axe.set(xlabel='Grade', ylabel='Price');

## Подготовка данных

In [None]:
df['date'] = pd.to_datetime(df['date'])
df = df.set_index('id')
df.price = df.price.astype(int)
df.bathrooms = df.bathrooms.astype(int)
df.floors = df.floors.astype(int)
df.head(5)

In [None]:
df["house_age"] = df["date"].dt.year - df['yr_built']
df['renovated'] = df['yr_renovated'].apply(lambda yr: 0 if yr == 0 else 1)

df = df.drop('date', axis=1)
df = df.drop('yr_renovated', axis=1)
df = df.drop('yr_built', axis=1)
df.head(5)

In [None]:
df.describe().transpose()

In [None]:
correlation = df.corr(method='pearson')
columns = correlation.nlargest(10, 'price').index
columns

In [None]:
corr = df.corr()
corr.style.background_gradient(cmap='coolwarm').set_precision(2)

## Дополнительная визуализация данных

In [None]:
plt.figure(figsize=(12,8))
sns.scatterplot(x='price',y='sqft_living',data=df)

In [None]:
plt.figure(figsize=(12,8))
sns.scatterplot(x='long',y='lat',data=df,hue='price')

## Работа с выбросами в данных

In [None]:
df.sort_values('price',ascending=False).head(20)

In [None]:
non_top_1_perc = df.sort_values('price',ascending=False).iloc[216:]

In [None]:
plt.figure(figsize=(12,8))
sns.scatterplot(x='long',y='lat',
                data=non_top_1_perc,hue='price',
                palette='RdYlGn',edgecolor=None,alpha=0.2)

In [None]:
df.shape

## Обнаружение выбросов происходит на базе определения Z-score

In [None]:
from scipy import stats
z = np.abs(stats.zscore(df))
print(z)

In [None]:
threshold = 3
print(np.where(z > 3))

In [None]:
df_o = df[(z < 3).all(axis=1)]

In [None]:
df_o.shape

## Подключение фреймворка Keras

In [None]:
import keras
from keras import metrics
from keras import regularizers
from keras.optimizers import Adam, RMSprop
from keras.callbacks import TensorBoard, EarlyStopping, ModelCheckpoint
from keras.utils import plot_model
from keras.models import load_model
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Activation
from keras.layers import Conv2D, MaxPooling2D

## Деление датасета и скейлинг данных

In [None]:
X = df.drop('price',axis=1)
y = df['price']

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler


X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=101)

scaler = MinMaxScaler()

X_train= scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

print(X_train.shape)
print(X_test.shape)

## Подготовка модели

In [None]:
from sklearn import metrics

def print_evaluate(true, predicted, train=True):  
    mae = metrics.mean_absolute_error(true, predicted)
    mse = metrics.mean_squared_error(true, predicted)
    rmse = np.sqrt(metrics.mean_squared_error(true, predicted))
    r2_square = metrics.r2_score(true, predicted)
    if train:
        print("========Training Result=======")
        print('MAE: ', mae)
        print('MSE: ', mse)
        print('RMSE: ', rmse)
        print('R2 Square: ', r2_square)
    elif not train:
        print("=========Testing Result=======")
        print('MAE: ', mae)
        print('MSE: ', mse)
        print('RMSE: ', rmse)
        print('R2 Square: ', r2_square)

In [None]:
model = Sequential()

model.add(Dense(X_train.shape[1],activation='relu'))
model.add(Dense(32,activation='relu'))
# model.add(Dropout(0.2))

model.add(Dense(64,activation='relu'))
# model.add(Dropout(0.2))

model.add(Dense(128,activation='relu'))
model.add(Dense(256, activation='relu'))
model.add(Dense(512, activation='relu'))
model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1))

model.compile(optimizer=Adam(0.001), loss='mse')

## Тренируем модель

In [None]:
r = model.fit(X_train, y_train.values,
              validation_data=(X_test,y_test.values),
              batch_size=128,
              epochs=500)

In [None]:
plt.figure(figsize=(10, 6))

plt.plot(r.history['loss'], label='loss')
plt.plot(r.history['val_loss'], label='val_loss')
plt.legend()

In [None]:
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

print_evaluate(y_train, y_train_pred, train=True)
print_evaluate(y_test, y_test_pred, train=False)

In [None]:
df['price'].mean()

## Средняя ошибка предсказания составила 74274, что допустимо с учетом средней цены в 540088 

In [None]:
prediction = model.predict(X_test)

In [None]:
a = np.empty(6484)
b = np.arange(1, 6484, 1)
ind = np.arange(len(a))
np.put(a, ind, b)
print(a)

In [None]:
plt.plot(a, y_test, 'r-', label='actual')
plt.plot(a, prediction, 'b-', label='predicted')
plt.legend(loc='best')
plt.show()

## Подготовим датасет без выбросов для тренировки модели

In [None]:
X_o = df_o.drop('price',axis=1)
y_o = df_o['price']

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler


X_train_o, X_test_o, y_train_o, y_test_o = train_test_split(X_o, y_o, test_size=0.3, random_state=101)

scaler = MinMaxScaler()

X_train_o = scaler.fit_transform(X_train_o)
X_test_o = scaler.transform(X_test_o)

print(X_train_o.shape)
print(X_test_o.shape)

## Тренируем модель на базе данных без выбросов

In [None]:
model2 = Sequential()

model2.add(Dense(X_train.shape[1],activation='relu'))
model2.add(Dense(32,activation='relu'))
# model.add(Dropout(0.2))

model2.add(Dense(64,activation='relu'))
# model.add(Dropout(0.2))

model2.add(Dense(128,activation='relu'))
model2.add(Dense(256, activation='relu'))
model2.add(Dense(512, activation='relu'))
model2.add(Dense(1024, activation='relu'))
model2.add(Dropout(0.2))
model2.add(Dense(1))

model2.compile(optimizer=Adam(0.001), loss='mse')

In [None]:
r_o = model2.fit(X_train_o, y_train_o.values,
              validation_data=(X_test_o, y_test_o.values),
              batch_size=128,
              epochs=500)

In [None]:
plt.figure(figsize=(10, 6))

plt.plot(r_o.history['loss'], label='loss')
plt.plot(r_o.history['val_loss'], label='val_loss')
plt.legend()

In [None]:
y_train_o_pred = model2.predict(X_train_o)
y_test_o_pred = model2.predict(X_test_o)

print_evaluate(y_train_o, y_train_o_pred, train=True)
print_evaluate(y_test_o, y_test_o_pred, train=False)

In [None]:
df_o['price'].mean()

## Средняя ошибка предсказания по датасету без выбросов: 56547, средняя цена: 479467

In [None]:
prediction = model2.predict(X_test)

In [None]:
a = np.empty(6484)
b = np.arange(1, 6484, 1)
ind = np.arange(len(a))
np.put(a, ind, b)
print(a)

In [None]:
plt.plot(a, y_test, 'r-', label='actual')
plt.plot(a, prediction, 'b-', label='predicted')
plt.legend(loc='best')
plt.show()