# Cas pratique sur la base de données diamonds  
### Import de la base de données  
La base de données diamonds, que vous connaissez déjà pour avoir travaillé dessus notamment avec R, fait partie des bases que databricks met à disposition directement sur son système de gestion de données (DBFS).  Vous la trouverez au format csv en suivant ce chemin : `/databricks-datasets/Rdatasets/data-001/csv/ggplot2`.  
- Affichez les bases qui se trouvent dans ce même chemin avec la fonction `dbutils.fs.ls`.  
- Importez la base `diamonds` en utilisant `spark.read` et affichez les 10 premières lignes.  
- utilisez la fonction `printSchema()` pour affichez les variables de la base et leurs types. Si les types ne correspondent pas, revenez à votre import et spécifiez la valeur du paramètre `inferSchema`.

In [2]:
# le dossier en question contient les tables au format csv présentes dans la librairie ggplot2 de R : 
dbutils.fs.ls("/databricks-datasets/Rdatasets/data-001/csv/ggplot2")

In [3]:
# On importe la table et on affiche les 10 premières lignes avec display : 
diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header="true", inferSchema = "true")
display(diamonds.limit(10))

_c0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [4]:
# printschema() affiche l'ensemble des variables du dataframe et leurs types
diamonds.printSchema()

### Quelques manipulations de bases de données  
L'API dataframes de Spark offre un grand nombre de fonctions natives qui permettent de mettre en oeuvre la pluspart des traitements que l'on a l'habitude de faire avec `pandas`. Vous pouvez notamment trouver un inventaire de ces fonctions dans [cet article](https://hackersandslackers.com/transforming-pyspark-dataframes/). En vous aidant de cette syntaxe, faites le traitement suivant :   
- Dans la table `diamonds`, créez une nouvelle variable `categ_price`, égale à :  
  - "low" si le prix du diamant est inférieur à 1000$, 
  - "medium" si le prix du diamant est inférieur à 3000$,  
  - "high" si le prix du diamant est inférieur à 8000$,
  - "very high" si le prix est au delà.  
 _Indications_ : Vous aurez besoin pour cette question des fonctions `withColumn()`, `when()`, `col()`, et `lit()`.

In [6]:
# création d'une nouvelle variable : on entre dans une syntaxe assez spécifique avec notamment
# withColumn() et lit()
# un petit exemple : 
from pyspark.sql.functions import lit
test = diamonds.withColumn('test', lit("texte"))
display(test.select("test"))

test
texte
texte
texte
texte
texte
texte
texte
texte
texte
texte


In [7]:
# Pour notre cas on fait quelque chose de plus complexe
from pyspark.sql.functions import lit, when, col
diamonds = diamonds.withColumn('categ_price', when(col("price") <= 1000, lit("0. low")).when(col("price") <= 3000, lit("1. medium")).when(col("price") <= 8000, lit("2. high")).otherwise(lit("3. very high")))
display(diamonds.select("price", "categ_price"))

price,categ_price
326,0. low
326,0. low
327,0. low
334,0. low
335,0. low
336,0. low
336,0. low
337,0. low
337,0. low
338,0. low


In [8]:
# On peut vérifier aussi en repassant par pandas : 
import pandas as pd
pandas_diamonds = diamonds.toPandas()
print(pandas_diamonds.loc[pandas_diamonds.price >= 8000, ["price", "categ_price"]])

### SQL  
Databricks vous offre aussi la possibilité de coder directement en SQL. 
- Refaites l'import des données (dans une table `diamonds_sql`) et la création de `categ_price` en utilisant le langage SQL.

On utilise `%sql` our coder directement en SQL :

In [11]:
%sql
/* On affiche les 10 premières lignes après avoir importé la table */
DROP TABLE IF EXISTS diamonds_sql; 

CREATE TABLE diamonds_sql
USING csv
OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true", inferSchema "true");

SELECT * from diamonds_sql
LIMIT 10

_c0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [12]:
%sql
/* On crée la variable avec des case when */ 
DROP TABLE IF EXISTS diamonds_sql_categ;
CREATE TABLE diamonds_sql_categ AS
SELECT *, 
CASE    
        WHEN price <= 1000 THEN 'low'
        WHEN price <= 3000 THEN 'medium'
        WHEN price <= 8000 THEN 'high'
        ELSE 'very high'
    END AS categ_price
FROM diamonds_sql;

SELECT price, categ_price FROM diamonds_sql_categ


price,categ_price
326,low
326,low
327,low
334,low
335,low
336,low
336,low
337,low
337,low
338,low


- Stockez la table SQL avec categ_price dans un dataframe python que vous nommerez `df_sql`

In [14]:
df_sql = sqlContext.sql('select * from diamonds_sql_categ')
display(df_sql)

_c0,carat,cut,color,clarity,depth,table,price,x,y,z,categ_price
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,low
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,low
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,low
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63,low
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,low
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48,low
7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47,low
8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53,low
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49,low
10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39,low


## MLlib  
Un des grands avantages de Spark est sa librairie MLlib, qui permet de faire tourner un grand nombre de modèles de régressions, classifications, etc... Même si cette librairie n'est pas aussi complète que `scitkit-learn`, elle permet tout de même de rendre accessibles beaucoup de modèles pour des bases de données très volumineuses. Vous pouvez explorer les possibilités offertes par cette librairie en parcourant [sa documentation](https://spark.apache.org/docs/latest/ml-guide.html).

### Régression linéaire   
Avec MLlib, la régression linéaire se fait à partir de deux variables :  
1) une variable contenant toutes les valeurs numériques de nos variables explicatives concaténées dans un même vecteur grâce à la fonction `VectorAssembler`.    
2) la variable que l'on souhaite expliquer (pour nous, ça sera le prix).  
Vous pouvez par exemple vous inspirer de [cet article](https://towardsdatascience.com/building-a-linear-regression-with-pyspark-and-mllib-d065c3ba246a) dans lequel l'auteure décrit bien les différentes étapes pour mener à bien sa régression.  

- Avant de mener votre régression, transformez vos variables caractères en indicatrices.

__Correction__  
On le fait "à la main" en créant les indicatrices en parcourant les valeurs des variables caractères :

In [18]:
diamonds.select("cut").distinct().show()

In [19]:
diamonds_num = diamonds
# pour passer nos variables catégorielles en numérique on fait le traitement à la main. 
# On pourrait aussi utiliser StringIndexer et OneHotEncoderEstimator ou encore
# faire une boucle sur diamonds.select("cut").distinct().rdd.flatMap(lambda x: x).collect()
for i in ["Premium", "Ideal", "Good", "Fair"]:
  diamonds_num = diamonds_num.withColumn(f'cut_{i}', when(col("cut") == i, lit(1)).otherwise(lit(0)))
display(diamonds_num)

_c0,carat,cut,color,clarity,depth,table,price,x,y,z,categ_price,cut_Premium,cut_Ideal,cut_Good,cut_Fair
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,0. low,0,1,0,0
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,0. low,1,0,0,0
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,0. low,0,0,1,0
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63,0. low,1,0,0,0
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,0. low,0,0,1,0
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48,0. low,0,0,0,0
7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47,0. low,0,0,0,0
8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53,0. low,0,0,0,0
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49,0. low,0,0,0,1
10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39,0. low,0,0,0,0


In [20]:
diamonds.select("color").distinct().show()

In [21]:
for i in ["F", "E", "D", "J", "G", "I"]:
  diamonds_num = diamonds_num.withColumn(f'color_{i}', when(col("color") == i, lit(1)).otherwise(lit(0)))

In [22]:
diamonds_num.select("clarity").distinct().show()

In [23]:
for i in ["VVS2", "SI1", "IF", "I1", "VVS1", "VS2", "SI2"]:
  diamonds_num = diamonds_num.withColumn(f'clarity_{i}', when(col("clarity") == i, lit(1)).otherwise(lit(0)))

In [24]:
display(diamonds_num)

_c0,carat,cut,color,clarity,depth,table,price,x,y,z,categ_price,cut_Premium,cut_Ideal,cut_Good,cut_Fair,color_F,color_E,color_D,color_J,color_G,color_I,clarity_VVS2,clarity_SI1,clarity_IF,clarity_I1,clarity_VVS1,clarity_VS2,clarity_SI2
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43,0. low,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31,0. low,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,0. low,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63,0. low,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75,0. low,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48,0. low,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0
7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47,0. low,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0
8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53,0. low,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49,0. low,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,1,0
10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39,0. low,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


__Analyse de l'impact des caractéristiques du diamant sur le prix__  
- Créez un dataframe contenant une colonne regroupant l'ensemble des variables explicatives passées en numériques et une colonne contenant le prix.  
- Faites tourner un modèle de régression linéaire et commentez les coefficients et le R2 de votre modèle. 
- Évaluez maintenant la qualité prédictive de votre modèle en créant une base d'entraînement et une base de test et en sortant la RMSE et la MAE de votre modèle sur la base de test.

In [26]:
print(diamonds_num.columns)

In [27]:
# On crée notre dataframe avec les features et le y 
# on regroupe toutes les variables numériques avec VectorAssembler
from pyspark.ml.feature import VectorAssembler
name_num = diamonds_num.drop("_c0", "color", "clarity", "cut", "price", "categ_price").columns
vectorAssembler = VectorAssembler(inputCols = name_num, outputCol = 'features')

diamonds_reg = vectorAssembler.transform(diamonds_num)
diamonds_reg.select(['features', 'price']).show(20)

In [28]:
# On fait tourner le modèle de régression linéaire et on sort les coefficients
from pyspark.ml.regression import LinearRegression
lr = LinearRegression(featuresCol = 'features', labelCol='price', maxIter=100)
lr_model = lr.fit(diamonds_reg)
coeff = {}
for i in range(len(name_num)):
  coeff[name_num[i]] = lr_model.coefficients[i]
print(coeff)

In [29]:
print(lr_model.coefficients)

In [30]:
# on sort le R2
lr_summary = lr_model.summary
print(lr_summary.r2)

In [31]:
# on sort les p-values : 
lr_summary.pValues
p_val = {}
for i in range(len(name_num)):
  p_val[name_num[i]] = str(lr_summary.pValues[i])
print(p_val)

On déduit des p-values qu'on peut sortir y et z

In [33]:
name_num = diamonds_num.drop("_c0", "color", "clarity", "cut", "price", "categ_price", "y", "z").columns
vectorAssembler = VectorAssembler(inputCols = name_num, outputCol = 'features')
diamonds_reg = vectorAssembler.transform(diamonds_num)

In [34]:
# On fait maintenant un modèle de prédiction
splits = diamonds_reg.randomSplit([0.7, 0.3])
train_diamonds = splits[0]
test_diamonds = splits[1]

lr_train_test = lr.fit(train_diamonds)
print(lr_train_test.summary.r2)

In [35]:
# on applique la prédiction
lr_predictions = lr_train_test.transform(test_diamonds)
display(lr_predictions)

_c0,carat,cut,color,clarity,depth,table,price,x,y,z,categ_price,cut_Premium,cut_Ideal,cut_Good,cut_Fair,color_F,color_E,color_D,color_J,color_G,color_I,clarity_VVS2,clarity_SI1,clarity_IF,clarity_I1,clarity_VVS1,clarity_VS2,clarity_SI2,features,prediction
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31,0. low,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 6, 9), List(0.23, 56.9, 65.0, 4.05, 1.0, 1.0))",241.53905074893737
6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48,0. low,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 11, 14), List(0.24, 62.8, 57.0, 3.94, 1.0, 1.0))",-1346.1564247656752
9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49,0. low,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,1,0,"List(0, 21, List(0, 1, 2, 3, 7, 9, 19), List(0.22, 65.1, 61.0, 3.87, 1.0, 1.0, 1.0))",-1024.614101734277
14,0.31,Ideal,J,SI2,62.2,54.0,344,4.35,4.37,2.71,0. low,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,"List(0, 21, List(0, 1, 2, 3, 5, 11, 20), List(0.31, 62.2, 54.0, 4.35, 1.0, 1.0, 1.0))",-3008.791628204156
29,0.23,Very Good,D,VS2,60.5,61.0,357,3.96,3.97,2.4,0. low,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,"List(0, 21, List(0, 1, 2, 3, 10, 19), List(0.23, 60.5, 61.0, 3.96, 1.0, 1.0))",258.846513182034
31,0.23,Very Good,F,VS1,60.0,57.0,402,4.0,4.03,2.41,0. low,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 8), List(0.23, 60.0, 57.0, 4.0, 1.0))",369.5690712603309
35,0.23,Very Good,D,VS1,61.9,58.0,402,3.92,3.96,2.44,0. low,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 10), List(0.23, 61.9, 58.0, 3.92, 1.0))",579.3803658255674
37,0.23,Good,E,VS1,64.1,59.0,402,3.83,3.85,2.46,0. low,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 6, 9), List(0.23, 64.1, 59.0, 3.83, 1.0, 1.0))",153.37922309011535
44,0.26,Good,D,VS1,58.4,63.0,403,4.19,4.24,2.46,0. low,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,"List(0, 21, List(0, 1, 2, 3, 6, 10), List(0.26, 58.4, 63.0, 4.19, 1.0, 1.0))",593.0997360391539
45,0.32,Good,H,SI2,63.1,56.0,403,4.34,4.37,2.75,0. low,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,"List(0, 21, List(0, 1, 2, 3, 6, 20), List(0.32, 63.1, 56.0, 4.34, 1.0, 1.0))",-1861.33936473624


In [36]:
# on sort MAE et rmse pour juger de la qualité de la prédiction
test_result = lr_train_test.evaluate(test_diamonds)
# RMSE
print(test_result.rootMeanSquaredError)
# MAE
print(test_result.meanAbsoluteError)

### Classification  
- Entraînez un modèle randomforest qui permettent de classer le diamant en `categ_price` en fonction de ses caractéristiques. Proposez des indicateurs pour évaluer la qualité prédictive de votre modèle.   

__Indications__  
Pour utiliser les variables catégorielles pour la classification, transformez les en index avec `StringIndexer`. Vous devrez aussi utiliser cette fonction pour votre variable expliquée! Vous pouvez ensuite créez votre colonne "features" mais au sein de celle-ci vous devrez ensuite appliquer un VectorAssembler pour indiquer quels sont les variables catégorielles (fixez bien le paramètre `maxCategories` à cet effet).