## Предсказание стоимости жилья


### План проведения работы:

- `longitude` — широта;
- `latitude` — долгота;
- `housing_median_age` — медианный возраст жителей жилого массива;
- `total_rooms` — общее количество комнат в домах жилого массива;
- `total_bedrooms` — общее количество спален в домах жилого массива;
- `population` — количество человек, которые проживают в жилом массиве;
- `households` — количество домовладений в жилом массиве;
- `median_income` — медианный доход жителей жилого массива;
- `median_house_value` — медианная стоимость дома в жилом массиве;
- `ocean_proximity` — близость к океану.

# Подготовка данных

In [41]:
import pandas as pd 
import numpy as np
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F

RANDOM_SEED = 42 #ответ на главный вопрос жизни, вселенной и всего такого

from pyspark.ml.feature import StringIndexer, VectorAssembler, StandardScaler
from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.evaluation import BinaryClassificationEvaluator, MulticlassClassificationEvaluator
from pyspark.ml.feature import OneHotEncoder

#### Инициализируем локальную Spark-сессию.

In [42]:
spark = SparkSession.builder \
                    .master("local") \
                    .appName("California_Housing") \
                    .getOrCreate()

#### Прочтем содержимое файла /datasets/housing.csv.

In [43]:
df_housing = spark.read.option('header', 'true').csv('/datasets/housing.csv', inferSchema = True) 
df_housing.printSchema()

root
 |-- longitude: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- housing_median_age: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- total_bedrooms: double (nullable = true)
 |-- population: double (nullable = true)
 |-- households: double (nullable = true)
 |-- median_income: double (nullable = true)
 |-- median_house_value: double (nullable = true)
 |-- ocean_proximity: string (nullable = true)



В основном у столбцов тип данных число с плавающей точкой и хранят количественные данные, ктоме столбца ocean_proximity - у него строковый тип данных и он хранит категориальные данные.

In [44]:
pandas_df_housing = pd.DataFrame(df_housing.dtypes, columns=['column', 'type']).head(10)
print(pandas_df_housing)

               column    type
0           longitude  double
1            latitude  double
2  housing_median_age  double
3         total_rooms  double
4      total_bedrooms  double
5          population  double
6          households  double
7       median_income  double
8  median_house_value  double
9     ocean_proximity  string


Данные загруженны коректно.

In [45]:
df_housing.show(10)

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|ocean_proximity|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+---------------+
|  -122.23|   37.88|              41.0|      880.0|         129.0|     322.0|     126.0|       8.3252|          452600.0|       NEAR BAY|
|  -122.22|   37.86|              21.0|     7099.0|        1106.0|    2401.0|    1138.0|       8.3014|          358500.0|       NEAR BAY|
|  -122.24|   37.85|              52.0|     1467.0|         190.0|     496.0|     177.0|       7.2574|          352100.0|       NEAR BAY|
|  -122.25|   37.85|              52.0|     1274.0|         235.0|     558.0|     219.0|       5.6431|          341300.0|       NEAR BAY|
|  -122.25|   37.85|              

In [6]:
df_housing.describe().toPandas()

                                                                                

Unnamed: 0,summary,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0,20640
1,mean,-119.56970445736148,35.6318614341087,28.639486434108527,2635.7630813953488,537.8705525375618,1425.4767441860463,499.5396802325581,3.8706710029070246,206855.81690891477,
2,stddev,2.003531723502584,2.135952397457101,12.58555761211163,2181.6152515827944,421.3850700740312,1132.46212176534,382.3297528316098,1.899821717945263,115395.6158744136,
3,min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0,<1H OCEAN
4,max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0,NEAR OCEAN


В данных 20640 строк, на первый взгляд без выбросов.

#### Исследуем данные на наличие пропусков и заполните их, выбрав значения по своему усмотрению.

In [7]:
columns = df_housing.columns
check_val = [None, np.nan]

for column in columns:
    print(column, df_housing.where(F.isnan(column) | F.col(column).isNull()).count())

longitude 0
latitude 0
housing_median_age 0
total_rooms 0
total_bedrooms 207
population 0
households 0
median_income 0
median_house_value 0
ocean_proximity 0


Пропуски только в столбце total_bedrooms

In [8]:
#df_housing = df_housing.na.drop(subset='total_bedrooms')


In [9]:
mean_total_bedrooms = df_housing.select(F.mean('total_bedrooms')).collect()[0][0]
print('Среднее значение колонки total_bedrooms:', mean_total_bedrooms)

Среднее значение колонки total_bedrooms: 537.8705525375618


In [10]:
df_housing = df_housing.na.fill({'total_bedrooms': mean_total_bedrooms})

In [11]:
columns = df_housing.columns
check_val = [None, np.nan]

for column in columns:
    print(column, df_housing.where(F.isnan(column) | F.col(column).isNull()).count())

longitude 0
latitude 0
housing_median_age 0
total_rooms 0
total_bedrooms 0
population 0
households 0
median_income 0
median_house_value 0
ocean_proximity 0


Больше пропусков нет.

#### Преобразуем колонку с категориальными значениями техникой One hot encoding.

In [12]:
categorical_cols = ['ocean_proximity']
numerical_cols  = ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households',
                  'median_income']
target = 'median_house_value'

##### Метод StringIndexer

In [13]:
indexer = StringIndexer(inputCol='ocean_proximity', 
                        outputCol='ocean_proximity_idx')
df_housing = indexer.fit(df_housing).transform(df_housing)
cols = [c for c in df_housing.columns for i in categorical_cols if (c.startswith(i))]
df_housing.select(cols).show(3) 

                                                                                

+---------------+-------------------+
|ocean_proximity|ocean_proximity_idx|
+---------------+-------------------+
|       NEAR BAY|                3.0|
|       NEAR BAY|                3.0|
|       NEAR BAY|                3.0|
+---------------+-------------------+
only showing top 3 rows



Категориальный признак в столбце ocean_proximity пребразован из строковых в числовой.

##### Метод OneHotEncoding.

In [14]:
encoder = OneHotEncoder(inputCol='ocean_proximity_idx', 
                        outputCol='ocean_proximity_ohe')
df_housing = encoder.fit(df_housing).transform(df_housing)
cols = [c for c in df_housing.columns for i in categorical_cols if (c.startswith(i))]
df_housing.select(cols).show(3) 

+---------------+-------------------+-------------------+
|ocean_proximity|ocean_proximity_idx|ocean_proximity_ohe|
+---------------+-------------------+-------------------+
|       NEAR BAY|                3.0|      (4,[3],[1.0])|
|       NEAR BAY|                3.0|      (4,[3],[1.0])|
|       NEAR BAY|                3.0|      (4,[3],[1.0])|
+---------------+-------------------+-------------------+
only showing top 3 rows



##### Метод VectorAssembler.

In [15]:
categorical_assembler = \
        VectorAssembler(inputCols=[c+'_ohe' for c in categorical_cols],
                        outputCol='categorical_features')
df_housing = categorical_assembler.transform(df_housing) 

#### Преобразуем числовые признаки

In [16]:
numerical_assembler = VectorAssembler(inputCols=numerical_cols,
                                      outputCol='numerical_features')
df_housing = numerical_assembler.transform(df_housing)

In [17]:
standardScaler = StandardScaler(inputCol='numerical_features',
                                outputCol='numerical_features_scaled')
df_housing = standardScaler.fit(df_housing).transform(df_housing) 

                                                                                

Проверим результат:

In [18]:
print(df_housing.columns)

['longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value', 'ocean_proximity', 'ocean_proximity_idx', 'ocean_proximity_ohe', 'categorical_features', 'numerical_features', 'numerical_features_scaled']


Соберем трансформированные категорийные и числовые признаки с помощью VectorAssembler:

In [19]:
all_features = ['categorical_features','numerical_features_scaled']

final_assembler = VectorAssembler(inputCols=all_features, 
                                  outputCol='features') 
df_housing = final_assembler.transform(df_housing)
df_housing.select(all_features).show(3)

+--------------------+-------------------------+
|categorical_features|numerical_features_scaled|
+--------------------+-------------------------+
|       (4,[3],[1.0])|     [-61.007269596069...|
|       (4,[3],[1.0])|     [-61.002278409814...|
|       (4,[3],[1.0])|     [-61.012260782324...|
+--------------------+-------------------------+
only showing top 3 rows



In [20]:
df = df_housing.select(['features','median_house_value'])
df.show(3)

+--------------------+------------------+
|            features|median_house_value|
+--------------------+------------------+
|[0.0,0.0,0.0,1.0,...|          452600.0|
|[0.0,0.0,0.0,1.0,...|          358500.0|
|[0.0,0.0,0.0,1.0,...|          352100.0|
+--------------------+------------------+
only showing top 3 rows



In [21]:
df_numerical = df_housing.select(['numerical_features_scaled','median_house_value'])
df_numerical.show(3)

+-------------------------+------------------+
|numerical_features_scaled|median_house_value|
+-------------------------+------------------+
|     [-61.007269596069...|          452600.0|
|     [-61.002278409814...|          358500.0|
|     [-61.012260782324...|          352100.0|
+-------------------------+------------------+
only showing top 3 rows



**Вывод**
- Проверили пропуски (найдено 207 пропусков в столбец total_bedrooms) и заменили пропуски на средние значения в столбце.
- Преобразовали колонку с категориальными значениями техникой One hot encoding.
- Преобразовали колонку с численными 

# Обучение моделей

## Разделение на выборки

Разделяем наш датасет на две части — выборку для обучения и выборку для тестирования качества модели.

In [22]:
df_train, df_test = df.randomSplit([.7,.3], seed=RANDOM_SEED)
print(df_train.count(), df_test.count())

[Stage 58:>                                                         (0 + 1) / 1]

14509 6131


                                                                                

In [23]:
df_num_train, df_num_test = df_numerical.randomSplit([.7,.3], seed=RANDOM_SEED)
print(df_num_train.count(), df_num_test.count())

14509 6131


### Обучение модели на всех данных из файла

In [24]:
lr = LinearRegression(featuresCol = 'features',labelCol='median_house_value', maxIter=10, regParam=0.2, elasticNetParam=0.6)
lr_model = lr.fit(df_train)

23/04/21 11:09:13 WARN BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS
23/04/21 11:09:13 WARN BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeRefBLAS
                                                                                

Подведем итог модели по набору обучающих данных и распечатаем некоторые показатели:

In [25]:
training_summary = lr_model.summary

In [26]:
print("RMSE на тренировочных данных: %f" % training_summary.rootMeanSquaredError)
print("R2 на тренировочных данных: %f" % training_summary.r2)
print("MAE на тренировочных данных: %f" % training_summary.meanAbsoluteError)

RMSE на тренировочных данных: 69808.184078
R2 на тренировочных данных: 0.633925
MAE на тренировочных данных: 50521.073820


RMSE измеряет разницу между прогнозируемыми значениями по модели и фактическими значениями. Однако одно только RMSE не имеет смысла, пока мы не сравним с фактическим значением «median_house_value», таким как среднее, минимальное и максимальное

In [27]:
df_train.describe().show()

+-------+------------------+
|summary|median_house_value|
+-------+------------------+
|  count|             14509|
|   mean| 207246.7892342684|
| stddev|115381.59958870789|
|    min|           14999.0|
|    max|          500001.0|
+-------+------------------+



После такого сравнения наша RMSE выглядит довольно хорошо.

In [28]:
lr_predictions = lr_model.transform(df_test)
lr_predictions.select('prediction','median_house_value','features').show(5)
lr_evaluator = RegressionEvaluator(predictionCol='prediction', \
                 labelCol='median_house_value',metricName='r2')
print("R2 на тестовых данных = %g" % lr_evaluator.evaluate(lr_predictions))

+------------------+------------------+--------------------+
|        prediction|median_house_value|            features|
+------------------+------------------+--------------------+
|242267.81673128402|          300000.0|[0.0,0.0,0.0,0.0,...|
|344266.39514970675|          414300.0|[0.0,0.0,0.0,1.0,...|
| 306018.1537162665|          292200.0|[0.0,0.0,0.0,1.0,...|
|  306535.072991314|          316300.0|[0.0,0.0,0.0,1.0,...|
| 457704.1014488548|          500001.0|[0.0,0.0,0.0,1.0,...|
+------------------+------------------+--------------------+
only showing top 5 rows

R2 на тестовых данных = 0.65026


In [29]:
test_result = lr_model.evaluate(df_test)
print("Среднеквадратическая ошибка (RMSE) на тестовой выборке = %g" % test_result.rootMeanSquaredError)

                                                                                

Среднеквадратическая ошибка (RMSE) на тестовой выборке = 68260


In [30]:
lr_evaluator_mae = RegressionEvaluator(predictionCol='prediction', \
                 labelCol='median_house_value',metricName='mae')
print("MAE на тестовых данных = %g" % lr_evaluator_mae.evaluate(lr_predictions))

MAE на тестовых данных = 49888.3


### Обучение модель только на числовых переменных

In [31]:
lr_num = LinearRegression(featuresCol = 'numerical_features_scaled', labelCol='median_house_value', maxIter=10, regParam=0.5, elasticNetParam=0.9)
lr_model_num = lr_num.fit(df_num_train)

In [32]:
training_summary_num = lr_model_num.summary

In [33]:
print("RMSE: %f" % training_summary_num.rootMeanSquaredError)

RMSE: 69749.772019


In [34]:
df_num_train.describe().show()

+-------+------------------+
|summary|median_house_value|
+-------+------------------+
|  count|             14509|
|   mean|205580.80998001242|
| stddev|115026.89848308219|
|    min|           14999.0|
|    max|          500001.0|
+-------+------------------+



In [35]:
print("R2 на тренировочных данных: %f" % training_summary_num.r2)

R2 на тренировочных данных: 0.632280


In [36]:
print("MAE на тренировочных данных: %f" % training_summary_num.meanAbsoluteError)

MAE на тренировочных данных: 50911.130985


In [37]:
lr_predictions_num = lr_model_num.transform(df_num_test)
lr_predictions_num.select('prediction','median_house_value','numerical_features_scaled').show(5)
lr_evaluator_num = RegressionEvaluator(predictionCol='prediction', \
                 labelCol='median_house_value',metricName='r2')
print("R2 на тестовых данных = %g" % lr_evaluator_num.evaluate(lr_predictions_num))

+------------------+------------------+-------------------------+
|        prediction|median_house_value|numerical_features_scaled|
+------------------+------------------+-------------------------+
|106875.20989484433|          103600.0|     [-62.040445150874...|
|193894.03099082084|          106700.0|     [-62.005506847089...|
| 80474.45119088236|           73200.0|     [-62.005506847089...|
| 86239.45935887145|           78300.0|     [-62.000515660834...|
|161029.11204810534|           90100.0|     [-61.985542102068...|
+------------------+------------------+-------------------------+
only showing top 5 rows

R2 на тестовых данных = 0.623903


In [38]:
test_result_num = lr_model_num.evaluate(df_num_test)
print("Среднеквадратическая ошибка (RMSE) на тестовых данных = %g" % test_result_num.rootMeanSquaredError)

Среднеквадратическая ошибка (RMSE) на тестовых данных = 71266.4


                                                                                

In [39]:
lr_evaluator_num_mae = RegressionEvaluator(predictionCol='prediction', \
                 labelCol='median_house_value',metricName='mae')
print("MAE на тестовых данных = %g" % lr_evaluator_num_mae.evaluate(lr_predictions_num))

MAE на тестовых данных = 51487.5


# Анализ результатов


### При удалении пропусков

**При построении модели линейной регрессии на всех данных были получены следующие результаты:**

- RMSE
    - на тренировочных данных = 69394.282630
    - на тестовой выборке = 69694.6
- R2
    - на тренировочных данных = 0.643696
    - на тестовых данных = 0.626811
- MAE
    - на тренировочных данных: 50618.862160
    - на тестовых данных = 49829.8


**При построении модели линейной регрессии только на числовых данных были получены следующие результаты:**

- RMSE
    - на обучающих данных = 69747.003721
    - на тестовых данных = 69874
- R2
    - на тренировочных данных = 0.634815
    - на тестовых данных = 0.633814
- MAE
    - на тренировочных данных: 50735.515295
    - на тестовых данных = 51020.8

### При замене пропусков средними 

**При построении модели линейной регрессии на всех данных были получены следующие результаты:**

- RMSE
    - на тренировочных данных = 69808.184078
    - на тестовой выборке = 68260
- R2
    - на тренировочных данных = 0.643696
    - на тестовых данных = 0.65026
- MAE
    - на тренировочных данных: 50521.073820
    - на тестовых данных = 49888.3


**При построении модели линейной регрессии только на числовых данных были получены следующие результаты:**

- RMSE
    - на обучающих данных = 69749.772019
    - на тестовых данных = 71266.4
- R2
    - на тренировочных данных = 0.634815
    - на тестовых данных = 0.623903
- MAE
    - на тренировочных данных: 50911.130985
    - на тестовых данных = 51487.5

После замены пропусков метрики качества изменились, возможно они изменились еще из-за разбиения выборок на тестовую и обучающую, потому что количество вхождений элементов в выборку и их рандомизация тоже меняется. После замены изменения зафиксировались и отображены выше в виде всех значений метрик качетсва при удалении и при замене.