# Технологии обработки больших данных

## Занятие 6. Машинное обучение в PySpark. Регрессия 

1. Поставновка задачи регрессии и отличие от классификации
2. Линейная регрессия в pyspark
3. Метрики качества регрессии
4. Домашнее задание 
  
**Рекомендованная литература:** 
- Learning Spark 2 edition
- [Spark Regression](https://spark.apache.org/docs/latest/ml-classification-regression.html#regression)
- [Open Data Science Mlcourse ч.4](https://habr.com/ru/company/ods/blog/323890/)
- [Метрики качества регрессии](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0_%D0%B2_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B0%D1%85_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8_%D0%B8_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%B8#.D0.9E.D1.86.D0.B5.D0.BD.D0.BA.D0.B8_.D0.BA.D0.B0.D1.87.D0.B5.D1.81.D1.82.D0.B2.D0.B0_.D1.80.D0.B5.D0.B3.D1.80.D0.B5.D1.81.D1.81.D0.B8.D0.B8)

## Установка pyspark в изолированой среде venv / conda env !

! pip install pyspark

In [1]:
import pyspark

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()

22/05/23 23:32:32 WARN Utils: Your hostname, calc resolves to a loopback address: 127.0.1.1; using 192.168.42.232 instead (on interface usb0)
22/05/23 23:32:32 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/05/23 23:32:33 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


## 1. Поставновка задачи регрессии и отличие от классификации

![Classification](img/classification.png)

![sigmoid](img/sigmoid.jpg)

![Regression](img/regression.jpg)

Датасет - оценка медианной стоимости домовладения штата Калифорния в зависимости от характеристик квартала: 
- longitude - Долгота положения центра квартала - чем меньше, тем западнее находится квартал (блок);
- latitude - Широта положения центра квартала - чем больше, тем севернее находится квартал (блок);
- housingMedianAge - средний возраст дома, чем больше, тем старше;
- totalRooms - Общее количество комнат в квартале;
- totalBedrooms - Общее количество спален в квартале;
- population - Общее количество людей, проживающих в пределах квартала;
- households - Общее число домашних хозяйств (группа людей или семья), проживающих в пределах квартала;
- medianIncome - Средний доход домашних хозяйств в пределах квартала (в десятках тысяч долларов США);
- medianHouseValue - Средняя стоимость дома в пределах квартала (в долларах США) - целевая переменная.

In [2]:
data_path = 'sample_data/california_housing_test.csv'

In [3]:
df = spark.read.format('csv').\
        options(header='true', inferschema='true').load(data_path,header=True)

df.show(5)

+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|longitude|latitude|housing_median_age|total_rooms|total_bedrooms|population|households|median_income|median_house_value|
+---------+--------+------------------+-----------+--------------+----------+----------+-------------+------------------+
|  -122.05|   37.37|              27.0|     3885.0|         661.0|    1537.0|     606.0|       6.6085|          344700.0|
|   -118.3|   34.26|              43.0|     1510.0|         310.0|     809.0|     277.0|        3.599|          176500.0|
|  -117.81|   33.78|              27.0|     3589.0|         507.0|    1484.0|     495.0|       5.7934|          270500.0|
|  -118.36|   33.82|              28.0|       67.0|          15.0|      49.0|      11.0|       6.1359|          330000.0|
|  -119.67|   36.33|              19.0|     1241.0|         244.0|     850.0|     237.0|       2.9375|           81700.0|
+---------+--------+----

In [4]:
df.printSchema()

root
 |-- longitude: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- housing_median_age: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- total_bedrooms: double (nullable = true)
 |-- population: double (nullable = true)
 |-- households: double (nullable = true)
 |-- median_income: double (nullable = true)
 |-- median_house_value: double (nullable = true)



## 2. Линейная регрессия в pyspark

In [5]:
from pyspark.ml.regression import LinearRegression
from pyspark.ml.feature import VectorAssembler

In [6]:
feature_vec = VectorAssembler(inputCols=['housing_median_age'], outputCol='Features')
vec_df = feature_vec.transform(df)

lr = LinearRegression(featuresCol='Features', labelCol='median_house_value', predictionCol='predict')

# Fit the model
lrModel = lr.fit(vec_df)

22/05/23 23:32:38 WARN Instrumentation: [8f22374b] regParam is zero, which might cause numerical instability and overfitting.


In [7]:
# Print the coefficients and intercept for linear regression
print(f"median_house_value = {int(lrModel.coefficients.values)} * housing_median_age + {int(lrModel.intercept)}")

median_house_value = 823 * housing_median_age + 182090


## 3. Метрики качества регрессии

$MSE = \dfrac{1}{n}\sum \limits_{i=1}^{n}(model(x_i) - y_i)^2$

MSE применяется в ситуациях, когда нам надо подчеркнуть большие ошибки и выбрать модель, которая дает меньше больших ошибок прогноза. Грубые ошибки становятся заметнее за счет того, что ошибку прогноза мы возводим в квадрат. И модель, которая дает нам меньшее значение среднеквадратической ошибки, можно сказать, что что у этой модели меньше грубых ошибок.

$RMSE = \sqrt{\dfrac{1}{n}\sum \limits_{i=1}^{n}(model(x_i) - y_i)^2}$

RMSE получается путем извлечения корня из MSE, в результате размерность ошибки в тех же величинах что и целевая переменная.

$MAE = \dfrac{1}{n}\sum \limits_{i=1}^{n}|model(x_i) - y_i|$

Среднеквадратичный функционал сильнее штрафует за большие отклонения по сравнению со среднеабсолютным, и поэтому более чувствителен к выбросам. При использовании любого из этих двух функционалов может быть полезно проанализировать, какие объекты вносят наибольший вклад в общую ошибку — не исключено, что на этих объектах была допущена ошибка при вычислении признаков или целевой величины.

Среднеквадратичная ошибка подходит для сравнения двух моделей или для контроля качества во время обучения, но не позволяет сделать выводов о том, на сколько хорошо данная модель решает задачу. Например, MSE = 10 является очень плохим показателем, если целевая переменная принимает значения от 0 до 1, и очень хорошим, если целевая переменная лежит в интервале (10000, 100000). В таких ситуациях вместо среднеквадратичной ошибки полезно использовать коэффициент детерминации — R2

$R^2 = 1 - \dfrac{\sum \limits_{i=1}^{n}(model(x_i) - y_i)^2}{\sum \limits_{i=1}^{n}(y_i - \overline{y})^2}$

Коэффициент детерминации измеряет долю дисперсии, объясненную моделью, в общей дисперсии целевой переменной. Фактически, данная мера качества — это нормированная среднеквадратичная ошибка. Если она близка к единице, то модель хорошо объясняет данные, если же она близка к нулю, то прогнозы сопоставимы по качеству с константным предсказанием.

In [8]:
trainingSummary = lrModel.summary
trainingSummary.residuals.show()
print("RMSE: %f" % trainingSummary.rootMeanSquaredError)
print("r2: %f" % trainingSummary.r2)

+-------------------+
|          residuals|
+-------------------+
| 140373.47606918076|
| -41003.55632255983|
|  66173.47606918076|
| 124849.91154469695|
|-116038.00773494894|
|-145562.16917565712|
|-150503.55632255983|
|-30838.007734948944|
| -43.74963701382512|
| -43420.78202875439|
| -94150.68537152742|
|-154262.16917565712|
| 40861.395348826656|
| 35932.685838502395|
|  18173.47606918076|
| -63579.99179807605|
|-13143.749637013825|
| -66002.95940633546|
|  96497.04059366454|
| 203384.95987331046|
+-------------------+
only showing top 20 rows

RMSE: 112627.326567
r2: 0.008356




## 4. Домашнее задание 

Добейтесь значения R2 > 0.6