# Предсказание стоимости жилья

В проекте вам нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. На основе данных нужно предсказать медианную стоимость дома в жилом массиве. Обучите модель и сделайте предсказания на тестовой выборке. Для оценки качества модели используйте метрики RMSE, MAE и R2.

In [1]:
n=1+1
print(n)

2


## Загрузка данных и первоначальный анализ

Импортируем необходимые методы

In [3]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.mllib.evaluation import RegressionMetrics
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.feature import StringIndexer, StandardScaler, OneHotEncoder, VectorAssembler
from pyspark.ml.regression import LinearRegression
      
RANDOM_SEED = 1234

Запускаем спарк сессию

In [4]:
spark = SparkSession.builder \
                    .master("local") \
                    .appName("California_Housing") \
                    .getOrCreate()

RuntimeError: Java gateway process exited before sending its port number

Читаем спарк методом данные и сохраняем в таблицу df

In [None]:
df = spark.read.option('header', 'true').csv('/datasets/housing.csv', inferSchema = True) 
df.printSchema()

Посмотрим на первые десять строк

In [None]:
df.show(10)

Не удобный формат просмотра данных, преобразуем в превычный формат Pandas

In [None]:
df_pd = df.toPandas()
df_pd.head() # просмотрим первые пять строк

In [None]:
df_pd.info()

всего строк данных - 20640

<b>В колонках датасета содержатся следующие данные:</b>

* longitude — широта;
* latitude — долгота;
* housing_median_age — медианный возраст жителей жилого массива;
* total_rooms — общее количество комнат в домах жилого массива;
* total_bedrooms — общее количество спален в домах жилого массива (<b>имеются пропуски</b>);
* population — количество человек, которые проживают в жилом массиве;
* households — количество домовладений в жилом массиве;
* median_income — медианный доход жителей жилого массива;
* median_house_value — медианная стоимость дома в жилом массиве;
* ocean_proximity — близость к океану.


все данные формата FLOAT64 кроме колонки ocean_proximity - формат object

Посмотрим статистику

In [None]:
df_pd.describe()

* На первый взгляд данные правдоподобные, не очень ясно в чем измеряется median_income, возможно в тысячах долларов в месяц.

In [None]:
df_pd['ocean_proximity'].value_counts()

* Видимо это значат следующее:

<1H OCEAN:    один час езды до океана

INLAND:        далеко от океана

NEAR OCEAN:    рядом с океаном

NEAR BAY:      рядом с бухтой

ISLAND:        остров

Просмотрим колонки 

In [None]:
columns = df_pd.columns
print(columns)

* Названия колонок нормальные, править нет необходимости

Посмотрим на распределения: Создадим функцию построения гистограмм

In [None]:
def hist(col):
    plt.hist(df_pd[col], range = (df_pd[col].min(), df_pd[col].max()), bins=100, label = col)
    plt.ylabel('Частотность')
    plt.xlabel(col)
    plt.legend()
    plt.grid();

In [None]:
hist('longitude')

In [None]:
hist('latitude')

* Видно что в данные входят 2 крупных города

In [None]:
hist('housing_median_age')

* Видно выброс на 52 - есть предположение что либо все что получалось выше почему то запихали в 52, либо в местности достаточно много пожилого населения существенно влияющего на медианный возраст.

In [None]:
hist('total_rooms')

In [None]:
hist('total_bedrooms')

In [None]:
hist('population')

In [None]:
hist('households')

* 4 гистограммы выше вполне правдободобны, без выбросов

In [None]:
hist('median_income')

* Здесь есть выброс по верхнему значению медианного дохода - опять же или у тех кто выше запихали в этот максимум или действительно есть много богатых массивов влияющих на медиану.

In [None]:
hist('median_house_value')

* здесь я склонен думать, что действительно есть много массивов с очень дорогими домами, хотя опять же запихивание более дорогих в эту медиану возможно.

Просмотрим таблицу корреляций

In [None]:
df_pd.corr()

Визуализируем корреляции:

In [None]:
scatter_matrix(df_pd,diagonal='kde', figsize=(18, 18))

plt.show()

* 'total_rooms', 'total_bedrooms', 'population', 'households' по этим столбцам корреляция закономерна и понятна.

In [None]:
df_pd.duplicated().sum() #проверка на явные дубликаты

* Явных дубликатов нет

* <b>Вывод: </b> Данные правдоподобны, наблюдаются выбросы по максимальным значениям медианного возраста и медианной стоимости, но интерпретировать их сложно без доступа к разработчикам.


* необходимо изучить пропуски в столбце total_bedrooms и по возможности заполнить их правдоподобными значениями - как вариант выбрать медианное значение по столбцу.


* столбец ocean_proximity необходимо преобразовать из строковых значений в числовые


* столбец median_house_value является целевым для обучения

## Преобразование и подготовка данных

### Заполнение пропусков в столбце total_bedrooms

Как я понял все нужные действия преобразования нужно осуществлять уже не методами Pandas, а методами PySpark, тогда как анализ выше привычными методами Pandas нормально.

Получим среднее значение по столбцу total_bedrooms


In [None]:
mean = df.select(F.mean('total_bedrooms')).collect()[0][0]
print(mean)

Заполним пустые ячейки в столбце:

In [None]:
df = df.na.fill({'total_bedrooms': mean})

Проверим есть ли пропуски:


In [None]:
df.filter(df['total_bedrooms'].isNull()).show()

В столбце больше нет пропусков

### Преобразуем колонку ocean_proximity из строковых значений в числовые

In [None]:
idx = StringIndexer(inputCol = 'ocean_proximity', 
                        outputCol= 'ocean_proximity_idx') 
df_x = idx.fit(df).transform(df)
df_x = df_x.drop('ocean_proximity')
df_x.toPandas().head()

Метод OHE 

In [None]:
encoder = OneHotEncoder(inputCol = 'ocean_proximity_idx', 
                        outputCol= 'ocean_proximity_ohe')
df_ohe = encoder.transform(df_x)
df_ohe.toPandas().head()

### Масштабируем данные


Преобразуем все столбцы кроме median_house_value, ocean_proximity_ohe и ocean_proximity_idx

Что бы потом выделить обучение только по числовым данным и добавив категорияальные преобразованные OHE

In [None]:
numeric = ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms',
                  'population', 'households', 'median_income']

numeric_assy = VectorAssembler(inputCols=numeric, outputCol="num_features")

df_num = numeric_assy.transform(df_ohe) 

In [None]:
df_num.toPandas().head()

Масштабируем числовые данные

In [None]:
scaler = StandardScaler(inputCol="num_features", outputCol="num_features_scaled")

df_num = scaler.fit(df_num).transform(df_num) 

In [None]:
df_num.toPandas().head()

Выделяем таблицу с категориальными пробразованными данными, масштабированными числовыми данными и целевой столбец


In [None]:
df_catnum = df_num['ocean_proximity_ohe', 'num_features_scaled', 'median_house_value', ]
df_catnum.show()

Выделим только числовые данные и целевой признак

In [None]:
df_numer = df_num['num_features_scaled', 'median_house_value', ]
df_numer.show()

Далее разделим эти два типа данных на выборки, признаки и ели.

### Разделение на тренировочную, тестовую выборки таблица с категориями и числами

In [None]:
df_train_catnum, df_test_catnum = df_catnum.randomSplit([.8,.2], seed=RANDOM_SEED)

In [None]:
df_train_catnum.count()

In [None]:
df_test_catnum.count()

Выделим признаки для обучения и целевой признак

In [None]:
target_train_catnum = df_train_catnum['median_house_value']
features_train_catnum = df_train_catnum['ocean_proximity_ohe', 'num_features_scaled']

In [None]:
target_test_catnum = df_test_catnum['median_house_value']
features_test_catnum = df_test_catnum['ocean_proximity_ohe', 'num_features_scaled']

### Разделение на тренировочную, тестовую выборки таблица только числами

In [None]:
df_train_numer, df_test_numer = df_numer.randomSplit([.8,.2], seed=RANDOM_SEED)

In [None]:
df_train_numer.count()

In [None]:
df_test_numer.count()

Выделим признаки для обучения и целевой признак

In [None]:
target_train_numer = df_train_numer['median_house_value']
features_train_numer = df_train_numer['num_features_scaled']

In [None]:
target_test_numer = df_test_numer['median_house_value']
features_test_numer = df_test_numer['num_features_scaled']

## Обучение моделей только c числовыми данными  и числовые и категориальные данные

Модель только числовые данные

In [None]:
model_numer = LinearRegression(featuresCol = features_train_numer, labelCol = target_train_numer)
# инициализируем модель LinearRegression

In [None]:
model_numer = LinearRegression(featuresCol = "all_features", labelCol = target) # инициализируем модель LinearRegression
model_numer.fit(features_train_numer, target_train_numer) # обучим модель на тренировочной выборке
predictions_valid_numer = model_numer.predict(features_test_numer) # получим предсказания модели на тестовой выборке

# Анализ результатов