#  Предсказание стоимости дома

В проекте нам нужно обучить модель линейной регрессии на данных о [жилье в Калифорнии в 1990 году](https://www.kaggle.com/datasets/camnugent/california-housing-prices) (CC0: Public Domain). 

В колонках датасета содержатся следующие данные:
- `longitude` — широта;
- `latitude` — долгота;
- `housing_median_age` — медианный возраст жителей жилого массива;
- `total_rooms` — общее количество комнат в домах жилого массива;
- `total_bedrooms` — общее количество спален в домах жилого массива;
- `population` — количество человек, которые проживают в жилом массиве;
- `households` — количество домовладений в жилом массиве;
- `median_income` — медианный доход жителей жилого массива;
- `median_house_value` — медианная стоимость дома в жилом массиве;
- `ocean_proximity` — близость к океану.

На основе данных нужно предсказать медианную стоимость дома в жилом массиве — `median_house_value`. 

Для оценки качества модели используйте метрики RMSE, MAE и R2.

## Цель исследования

Целью исследования являетя разработка модели прогнозирования стоимости жилья с применением распределенных вычислений. 

### Постановка задачи

В данной работе нам надо, используя распределенные вычисления:
- провести анализ данных;
- построить две модели линейной регрессии, предсказывающие стоимость жилья: одну на полном наборе признаков, другую только на числовых признаках;
- сравнить результаты работы по метрикам RMSE, MAE и R2.

### Основные этапы

1. Инициализируем локальную Spark-сессию.
2. Прочитаем содержимое файла `/datasets/housing.csv`.
3. Выведем типы данных колонок датасета, применив методы pySpark.
4. Выполним предобработку данных:
    - Исследуем данные на наличие пропусков и заполним их.
    - Преобразуем колонку с категориальными значениями техникой One hot encoding.
5. Построим две модели линейной регрессии на разных наборах данных:
    - используя все данные из файла;
    - используя только числовые переменные, исключив категориальные.
6. Для построения модели возьмем оценщик LinearRegression из библиотеки MLlib.
7. Сравним результаты работы линейной регрессии на двух наборах данных по метрикам RMSE, MAE и R2. 
8. Сделаем выводы.

### Выводы

## Загрузка библиотек

In [1]:
from os.path import exists

In [2]:
import pandas as pd 
import numpy as np

In [9]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F

## Подготовка данных

### Загрузка данных

Определим путь для загрузки данных: в текущей директории или корневой.

In [12]:
data_path = './datasets/housing.csv'
if not exists(data_path):
    data_path = data_path[1:]
data_path

'./datasets/housing.csv'

Инициализируем локальную Spark-сессию.

In [10]:
spark = SparkSession.builder \
                    .master("local") \
                    .appName("California Housing median value prediction") \
                    .getOrCreate()

22/08/01 23:03:44 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).


Прочитаем содержимое файла данных.

In [13]:
df_housing = spark.read.load(data_path, 
                             format='csv',
                             sep=',',
                             inferSchema=True,
                             header='true'
                            )
df_housing.count() 

20640

Выведем типы данных колонок датасета.

In [14]:
df_housing.printSchema()

root
 |-- longitude: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- housing_median_age: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- total_bedrooms: double (nullable = true)
 |-- population: double (nullable = true)
 |-- households: double (nullable = true)
 |-- median_income: double (nullable = true)
 |-- median_house_value: double (nullable = true)
 |-- ocean_proximity: string (nullable = true)



**ВЫВОД**

Мы загрузили датасет в котором 20640 объектов и 10 признаков. 

9 признаков из 10 имеют тип double, один признак строковый. 

Все признаки могут содержать пустые значения.

### Предобработка данных

#### Анализ пропусков

Исследуем данные на наличие пропусков и заполним их.

#### Кодирование категориальных признаков

Преобразуем колонку с категориальными значениями техникой One hot encoding.

### Разделение  на обучающую и тестовые выборки

## Обучение моделей

Для построения модели возьмем оценщик LinearRegression из библиотеки MLlib. 

Построим две модели линейной регрессии на разных наборах данных: полном наборе и только на числовых признаках.

### Полный набор данных

### Только числовые признаки

## Анализ результатов

Сравним результаты работы двух моделей на тестовой выборке по метрикам RMSE, MAE и R2. 

## Выводы