## Предсказание стоимости жилья

В проекте вам нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. На основе данных нужно предсказать медианную стоимость дома в жилом массиве — median_house_value. Обучите модель и сделайте предсказания на тестовой выборке. Для оценки качества модели используйте метрики RMSE, MAE и R2.

В колонках датасета содержатся следующие данные:
- longitude — широта;
- latitude — долгота;
- housing_median_age — медианный возраст жителей жилого массива;
- total_rooms — общее количество комнат в домах жилого массива;
- total_bedrooms — общее количество спален в домах жилого массива;
- population — количество человек, которые проживают в жилом массиве;
- households — количество домовладений в жилом массиве;
- median_income — медианный доход жителей жилого массива;
- median_house_value — медианная стоимость дома в жилом массиве;
- ocean_proximity — близость к океану.

# Подготовка данных

Импортируем необходимые модули.

In [1]:
import pandas as pd 
import numpy as np
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F
from pyspark.ml.feature import StringIndexer, VectorAssembler, StandardScaler, OneHotEncoder
from pyspark.ml import Pipeline
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
import pyspark.ml.tuning as tune

Введем константы.

In [2]:
SEED = 515

Создадим локальную Spark-сесссию.

In [3]:
spark = SparkSession.builder \
                    .master('local[*]') \
                    .appName('California Housing') \
                    .getOrCreate()

Загрузим данные.

In [4]:
file_path = 'datasets/housing.csv'

housing = spark.read.load(file_path, format='csv', sep=',', inferSchema=True, header='true')

Выведем информацию на экран.

In [5]:
housing.show(5)
print('Number of rows:', housing.count())
print('Number of distinct rows:', housing.distinct().count())

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|ocean_proximity|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|  -122.23|   37.88|              41.0|      880.0|         129.0|     322.0|     126.0|       8.3252|          452600.0|       NEAR BAY|
|  -122.22|   37.86|              21.0|     7099.0|        1106.0|    2401.0|    1138.0|       8.3014|          358500.0|       NEAR BAY|
|  -122.24|   37.85|              52.0|     1467.0|         190.0|     496.0|     177.0|       7.2574|          352100.0|       NEAR BAY|
|  -122.25|   37.85|              52.0|     1274.0|         235.0|     558.0|     219.0|       5.6431|          341300.0|       NEAR BAY|
|  -122.25|   37.85|              

Выведем пропущенные значения в каждой колонке.

In [6]:
def nan_count(df):
    return df.select([F.count(F.when(F.isnan(c) | F.col(c).isNull(), c)).alias(c) for c in df.columns]).show()

nan_count(housing)

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|ocean_proximity|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|        0|       0|                 0|          0|           207|         0|         0|            0|                 0|              0|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+



Заменим пропущенные значения нулем. Возможно, что они образовались в результате их незаполнения по причине отсутствия спальни.

In [7]:
housing = housing.na.fill(0)

Создадим несколько новых столбцов с признаками:
- Отношение количества комнат total_rooms к количеству домовладений households (rooms_per_household).
- Отношение количества жителей population к количеству домовладений households (population_in_household).
- Отношение количества спален total_bedrooms к общему количеству комнат total_rooms (bedroom_index).

In [8]:
housing = housing.withColumn('rooms_per_household', F.col('total_rooms') / F.col('households')) \
                 .withColumn('population_in_household', F.col('population') / F.col('households')) \
                 .withColumn('bedroom_index', F.col('total_bedrooms') / F.col('total_rooms'))

housing.printSchema()

root
 |-- longitude: double (nullable = false)
 |-- latitude: double (nullable = false)
 |-- housing_median_age: double (nullable = false)
 |-- total_rooms: double (nullable = false)
 |-- total_bedrooms: double (nullable = false)
 |-- population: double (nullable = false)
 |-- households: double (nullable = false)
 |-- median_income: double (nullable = false)
 |-- median_house_value: double (nullable = false)
 |-- ocean_proximity: string (nullable = true)
 |-- rooms_per_household: double (nullable = true)
 |-- population_in_household: double (nullable = true)
 |-- bedroom_index: double (nullable = true)



Удалим столбцы с координатами домов и проверим наличие пропущенных значений после обработки.

In [9]:
housing = housing.drop('longitude', 'latitude')
housing.show(5)

nan_count(housing)

+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+-------------------+-----------------------+-------------------+
|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|ocean_proximity|rooms_per_household|population_in_household|      bedroom_index|
+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+-------------------+-----------------------+-------------------+
|              41.0|      880.0|         129.0|     322.0|     126.0|       8.3252|          452600.0|       NEAR BAY|  6.984126984126984|     2.5555555555555554|0.14659090909090908|
|              21.0|     7099.0|        1106.0|    2401.0|    1138.0|       8.3014|          358500.0|       NEAR BAY|  6.238137082601054|      2.109841827768014|0.15579659106916466|
|              52.0|     1467.0|         190.0|     496.0|     177.0|       7.2574|  

В результате подготовки данных заменены пропущенные значения и добавлены новые признаки.

# Обучение моделей

Разделим признаки на числовые и категориальные, а также исходный датасет на тренировочную и тестовую части.

In [10]:
num_cols = ['housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 
            'households', 'median_income', 'rooms_per_household', 
            'population_in_household', 'bedroom_index']
cat_col = 'ocean_proximity'
housing = housing.withColumnRenamed('median_house_value', 'label')
train, test = housing.randomSplit([0.8, 0.2], seed=SEED)

Создадим конвейер для трансформации признаков и подгонки модели.

In [11]:
ocean_proximity_indexer = StringIndexer(inputCol=cat_col, 
                                        outputCol=cat_col+'_idx')

ocean_proximity_encoder = OneHotEncoder(inputCol=cat_col+'_idx', 
                                        outputCol=cat_col+'_ohe')

cat_assembler = VectorAssembler(inputCols=[cat_col+'_ohe'],
                                outputCol='cat_features')

num_assembler = VectorAssembler(inputCols=num_cols, outputCol='num_features')

standardScaler = StandardScaler(inputCol='num_features', outputCol='num_features_scaled')

vec_assembler_all_cols = VectorAssembler(inputCols=['cat_features', 'num_features_scaled'], outputCol='features')
vec_assembler_num_cols = VectorAssembler(inputCols=['num_features_scaled'], outputCol='features')

lr = LinearRegression()

housing_pipe_all_cols = Pipeline(stages=[ocean_proximity_indexer, ocean_proximity_encoder, cat_assembler, 
                                         num_assembler, standardScaler, vec_assembler_all_cols, lr])
housing_pipe_num_cols = Pipeline(stages=[num_assembler, standardScaler, vec_assembler_num_cols, lr])

Создадим объекты для подбора гиперпараметров модели с помощью кросс-валидации.

In [12]:
evaluator = RegressionEvaluator(metricName='rmse')

grid = tune.ParamGridBuilder()
grid = grid.addGrid(lr.regParam, [1000, 100, 10, 1, 0, 0.1, 0.01, 0.001])
grid = grid.addGrid(lr.elasticNetParam, [0, 1])
grid = grid.build()

cv_all_cols = tune.CrossValidator(estimator=housing_pipe_all_cols,
                         estimatorParamMaps=grid,
                         evaluator=evaluator,
                         numFolds=5,
                         parallelism=6,
                         seed=SEED)

cv_num_cols = tune.CrossValidator(estimator=housing_pipe_num_cols,
                         estimatorParamMaps=grid,
                         evaluator=evaluator,
                         numFolds=5,
                         parallelism=6,
                         seed=SEED)

 Подберем гиперпараметры модели на тренировочном датасете со всеми признаками и выберем лучшую модель.

In [13]:
models_all_cols = cv_all_cols.fit(train)
best_lr_all_cols = models_all_cols.bestModel

print('* Величина rmse на тренировочном датасете')
print(best_lr_all_cols.stages[6].summary.rootMeanSquaredError)

print('* Гиперпараметры лучшей модели:')
print(best_lr_all_cols.stages[6].explainParam(lr.regParam))
print(best_lr_all_cols.stages[6].explainParam(lr.elasticNetParam))

* Величина rmse на тренировочном датасете
68997.35098272265
* Гиперпараметры лучшей модели:
regParam: regularization parameter (>= 0). (default: 0.0, current: 1.0)
elasticNetParam: the ElasticNet mixing parameter, in range [0, 1]. For alpha = 0, the penalty is an L2 penalty. For alpha = 1, it is an L1 penalty. (default: 0.0, current: 0.0)


Получим предсказание на тестовом датасете со всеми признаками и вычислим значения необходимых метрик.

In [14]:
test_results_all_cols = best_lr_all_cols.transform(test)

print('* Величины метрик для датасета со всеми признаками:')
for metric in ['rmse', 'mae', 'r2']:
    print(metric+' =', RegressionEvaluator(metricName=metric)
                       .evaluate(test_results_all_cols))

* Величины метрик для датасета со всеми признаками:
rmse = 70636.97641005708
mae = 49636.05277072887
r2 = 0.622014301601133


Подберем гиперпараметры модели на тренировочном датасете только с числовыми признаками и выберем лучшую модель.

In [15]:
models_num_cols = cv_num_cols.fit(train)
best_lr_num_cols = models_num_cols.bestModel

print('* Величина rmse на тренировочном датасете')
print(best_lr_num_cols.stages[3].summary.rootMeanSquaredError)

print('* Гиперпараметры лучшей модели:')
print(best_lr_num_cols.stages[3].explainParam(lr.regParam))
print(best_lr_num_cols.stages[3].explainParam(lr.elasticNetParam))

* Величина rmse на тренировочном датасете
74589.05777642179
* Гиперпараметры лучшей модели:
regParam: regularization parameter (>= 0). (default: 0.0, current: 100.0)
elasticNetParam: the ElasticNet mixing parameter, in range [0, 1]. For alpha = 0, the penalty is an L2 penalty. For alpha = 1, it is an L1 penalty. (default: 0.0, current: 1.0)


Получим предсказание на тестовом датасете только с числовыми признаками и вычислим значения необходимых метрик.

In [16]:
test_results_num_cols = best_lr_num_cols.transform(test)

print('** Величины метрик для датасета только с числовыми признаками:')
for metric in ['rmse', 'mae', 'r2']:
    print(metric+' =', RegressionEvaluator(metricName=metric)
                       .evaluate(test_results_num_cols))

** Величины метрик для датасета только с числовыми признаками:
rmse = 75659.5798555686
mae = 54721.94809752035
r2 = 0.5663503339294567


In [17]:
# отключим соединение со Spark
spark.stop()

# Анализ результатов

- В работе получены предсказания стоимости жилья с помощью моделей линейной регрессии библиотеки PySpark.
- Модель полученная, на основе датасета со всеми признаками (качественные и количественные) обладает лучшей предсказательной способность, о чем говорит меньшая величина метрик rmse и mae, а также увеличение метрики r2.
- Метрика rmse примерно в 1,5 раза превосходит mae, что говорит о наличии экстремальных значений в датасете (жилье высокой стоимости), которые могут завышать значения rmse.