In this section, let us present to you some Machine Learning algorithms, there are many, but 3 algorithms below can be considered as the most popular in Machine Learning :

- 1/ Regression - Linear Regression
- 2/ Classification - Random Forest
- 3/ Clustering - KMeans

This notebook will focus on the first one, we'll take a dataset and then build a linear regression model based on it. 

"Linear regression is the most basic type of regression and commonly used predictive analysis.  The overall idea of regression is to examine two things: (1) does a set of predictor variables do a good job in predicting an outcome variable?  Is the model using the predictors accounting for the variability in the changes in the dependent variable? (2) Which variables in particular are significant predictors of the dependent variable?  And in what way do they--indicated by the magnitude and sign of the beta estimates--impact the dependent variable?  These regression estimates are used to explain the relationship between one dependent variable and one or more independent variables. (3) What is the regression equation that shows how the set of predictor variables can be used to predict the outcome?  The simplest form of the equation with one dependent and one independent variable is defined by the formula y = c + b*x, where y = estimated dependent score, c = constant, b = regression coefficients, and x = independent variable."

(source : http://www.statisticssolutions.com/what-is-linear-regression/)

### Read dataset (csv format) from HDFS

Here we use the dataset from https://gist.github.com/seankross/a412dfbd88b3db70b74b#file-mtcars-csv

Les données ont été extraites du magazine américain Motor Trend de 1974 et comprennent la consommation de carburant et 10 aspects de la conception et des performances automobiles pour 32 automobiles (modèles 1973-1974).

Une base de données avec 32 observations sur 11 variables (numériques).

[, 1]	mpg	Miles/gallon (US)
[, 2]	cylindre	Nombre de cylindres
[, 3]	afficher	Déplacement (cu.in.)
[, 4]	hp	Puissance brute
[, 5]	merde	Rapport de pont arrière
[, 6]	poids	Poids (1000 lb)
[, 7]	qsec	1/4 de mile de temps
[, 8]	contre	Moteur (0 = en forme de V, 1 = droit)
[, 9]	suis	Transmission (0 = automatique, 1 = manuelle)
[,dix]	engrenage	Nombre de vitesses avant
[,11]	glucides	Nombre de carburateurs

La variable cible est la consommation en carburant des véhicules `mpg Miles/gallon` en fonction des variables explicatives.

In [2]:
%spark
import org.apache.spark.sql._            
val spark = SparkSession.builder().getOrCreate()

val data = spark.read.format("com.databricks.spark.csv")
                .option("header", "true")
                .option("inferSchema", "true") 
                .load("/opt/hupi/DATA/UPPA_2022/Data/regression/mtcars.csv")

In [3]:
%spark
data.show()

In [4]:
%spark
data.printSchema()

In [5]:
%spark
z.show(data.describe())

### Some descriptions of data
#### Statistics summary 

In [7]:
%spark
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}

// Convert df to RDD to be able to use the library MultiVariateStatisticalSummary.
val rdd = data.drop("model").map(l => (l(0).asInstanceOf[Double], 
                                       l(1).asInstanceOf[Integer].toDouble, 
                                       l(2).asInstanceOf[Double],
                                       l(3).asInstanceOf[Integer].toDouble,
                                       l(4).asInstanceOf[Double],
                                       l(5).asInstanceOf[Double],
                                       l(6).asInstanceOf[Double],
                                       l(7).asInstanceOf[Integer].toDouble, 
                                       l(8).asInstanceOf[Integer].toDouble,
                                       l(9).asInstanceOf[Integer].toDouble,
                                       l(10).asInstanceOf[Integer].toDouble)).rdd

// Convert rdd to the rdd of vectors
val observations = rdd.map(l => Vectors.dense(l._1, l._2, l._3, l._4, l._5))       

In [8]:
%spark
// Compute column summary statistics.
val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)
println("Vectors of observations' mean : " + summary.mean)  
println("Vectors of observations' variance : " + summary.variance)  
println("Vectors of observations' number of column not null : " + summary.numNonzeros)  
println()

In [9]:
%spark
import org.apache.spark.mllib.linalg._
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.rdd.RDD

// calculate the correlation matrix using Pearson's method. Use "spearman" for Spearman's method
// If a method is not specified, Pearson's method will be used by default.
val correlMatrix: Matrix = Statistics.corr(observations, "pearson")
println(correlMatrix.toString)

In this example, we don't have many variables descriptives, so we suppose that we can use all variables to build the regression model. Otherwise, we need to do a selection of variables to select the variables that affect the most the target variable. To do selection variable, depending on the type of variables, we can use different methods. In Spark, we have some basic tools to do that, for example https://spark.apache.org/docs/latest/ml-features.html#feature-selectors.

###  Vector Assembler

To prepare for the construction of linear regression by using ML library, we have to have a data with 2 columns only ("label" and "features"). To have that, we need to put all the variables descriptives into a single vector column named "features" and column of the target variable should be renamed to "label". 

In [11]:
%spark
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors

val assembler = new VectorAssembler()
  .setInputCols(Array("cyl", "disp", "hp", "drat", "wt", "qsec", "vs", "am", "gear", "carb"))
  .setOutputCol("features")
  
val training = assembler.transform(data)
                        .select("mpg", "features")
                        .withColumnRenamed("mpg", "label")

val Array(train, test) = data.randomSplit(Array(0.8, 0.2))                        

### Build a linear regression model 

To have the best model, we can try to fluctuate the parameters such as : number of max iterations, regularization parameters, etc. To find all the parameters supported by Spark that we can play with, you can see it in : https://spark.apache.org/docs/1.6.2/api/scala/index.html#org.apache.spark.ml.regression.LinearRegression

In [13]:
%spark
import org.apache.spark.ml.regression.LinearRegression

val lr = new LinearRegression()
  .setMaxIter(10)
  .setRegParam(0.3)
  .setElasticNetParam(0.8)

// Fit the model
val lrModel = lr.fit(training)

// Print the coefficients and intercept for linear regression
println(s"Coefficients: ${lrModel.coefficients} Intercept: ${lrModel.intercept}")

### Evaluation of model 

Some other metrics that can be computed : https://spark.apache.org/docs/1.6.2/api/scala/index.html#org.apache.spark.ml.regression.LinearRegressionTrainingSummary

In [15]:
%spark
// Summarize the model over the training set and print out some metrics
val trainingSummary = lrModel.summary
println(s"numIterations: ${trainingSummary.totalIterations}")
println(s"objectiveHistory: [${trainingSummary.objectiveHistory.mkString(",")}]")
trainingSummary.residuals.show()
println(s"RMSE: ${trainingSummary.rootMeanSquaredError}")
println(s"r2: ${trainingSummary.r2}")

### Conclusion

Without any optimization, the quality of the model is pretty good (r2 = 0.76). In reality, we can try to optimize this indicator by removing the anomalies, selecting the most important features to train model, adding more observations or more variables and fluctuating the parameters when we train model...


### Note :

All models created in Spark can be saved in HDFS by doing : 

* model.save(sc, "file:///Apps/spark/data/mllib/testModelPath") 

To load it for future usage : 

* val sameModel = SVMModel.load(sc, "file:///Apps/spark/data/mllib/testModelPath"). 

In this example, it's SVM model, so it's SVMModel.load

Plus, for some models, we can convert it to PMML format. It's good if you knew already PMML, if not, it's also fine ;) you can read here : https://www.ibm.com/developerworks/library/ba-ind-PMML1/index.html.

You can see list of supported models in Spark here : https://spark.apache.org/docs/2.0.0-preview/mllib-pmml-model-export.html

# Exercice
## Comment peut-on transformer ce code en créant un pipeline ? 
## Comment peut-on améliorer le modèle avec une cross-validation ?

### Pre-processing
Préparer les phases de `assembler` et on va ajouter l'étape de `Standardisation` des données.
Il faut donc créer deux objets :
- VectorAssembler
- StandardScaler (https://spark.apache.org/docs/3.2.1/ml-features.html#standardscaler)

Rechercher dans la documentation les fonctions nécessaires : https://spark.apache.org/docs/3.2.1/ml-guide.html

Nous appelerons ces deux objets (ie. variables immuables "val") *assembler* et *scaler*. Ces deux premières étapes du pipeline, ont pour objectif de transformer et formater les données pour le modèle et de normaliser les données numériques, afin que les variables numériques soient comparables entre elles.

In [18]:
%spark
val assembler =

In [19]:
%spark
val scaler =

### Model
Créer le modèle de régression linéaire de votre choix (Linéaire simple, Lasso, Ridge, ElasticNet).
Créer les ensembles de test et d'entraînement.

In [21]:
%spark
val lr =

In [22]:
%spark
val train, test =

### Pipeline
Créer la chaîne pipeline avec les différentes étapes `stages`.
Puis entraîner le modèle.

In [24]:
%spark
val pipeline =

In [25]:
%spark
val lrModel =

### Metrics
Calculer les métriques des erreurs usuelles, qui sont le RMSE et le coefficient de détermination (noté r2).
Le coefficient de détermination est une mesure de la qualité de la prédiction d'une régression linéaire. Il représente le pourcentage de la variance expliquée par la régression (ie. des prédictions faites) sur la variance totale de la variable réelle. Cet indicateur estime donc la corrélation entre les prédictions et la réalité. Plus il est proche de 1, plus le modèle est performat.

**! Attention :**
Ici il ne suffit pas de faire `lrModel.summary` car ici `lrModel` est de type pipeline. Il faut donc extraire d'abord du pipeline la composante représentant le modèle.
Pour cela vous allez avoir besoin des objets suivants :
- la fonction .stages(*numero_stage*) --> en spécifiant le numéro de l'étape qu'on souhaite extraire
- la fonction .asInstanceOf[*type_stage*] --> en spécifiant le type de l'objet qu'on souhaite extraire du pipeline
- la librairie du *type_stage* à extraire : import org.apache.spark.ml.regression.LinearRegressionModel


In [27]:
%spark
val trainingSummary =

### Test
Appliquer le modèle entraîner sur l'ensemble de données de test. Vous allez donc devoir utiliser la fonction `.transform`, qui permet d'appliquer le modèle, avec les différentes étapes du pipeline qui sont nécessaires, automatiquement.

Ensuite, évaluer les prédictions effectuées à l'aide de l'indicateur **RMSE**. Pour cela vous allez avoir besoin des objets suivants :
- la librairie *org.apache.spark.ml*, contenant la fonction *evaluation.RegressionEvaluator* donc cela donne *org.apache.spark.ml.evaluation.RegressionEvaluator*
- instancier un objet, qu'on appelera *evaluator*, permettant de calculer le RMSE entre la variable réelle `Water` (en tant que LabelCol) et la variable prédite `prediction` (en tant que Predictionol).

Suivre la documentation suivante : https://spark.apache.org/docs/2.1.1/api/scala/index.html#org.apache.spark.ml.evaluation.RegressionEvaluator

Enfin, appliquer l'objet *evaluator* créé, à l'objet *predictions* (dataframe contenant les prédictions faites sur l'ensemble de test), en utilisant la fonction *.evaluate*.
Puis pour finir afficher le résultat du RMSE.

In [29]:
%spark
val predictions =

In [30]:
%spark
val evaluator =

In [31]:
%spark
val rmse =
println(s"Root Mean Squared Error (RMSE) on test data = $rmse")

### Cross validation
L'objectif est d'utiliser la méthode de **Cross-validation** pour ajuster les différents paramètres de la régression linéaire.
Les paramètres à ajuster sont les suivants :
- regParam
- elasticNetParam

Afin de réaliser cela, nous allons tout d'abord créer une grille de recherche.
Par exemple, voici l'ensemble des valeurs que nous allons tester pour chaque paramètre :
- Pour `regParam` nous allos vouloir tester les valeurs suivantes : 0.1, 0.01, 0.2, 0.3
- Pour `elasticNetParam` nous allos vouloir tester les valeurs suivantes : 0.1, 0.8
Une fois que la grille est créée, il faut ensuite créer le modèle de cross-validation, puis pour terminer l'appliquer à l'ensemble d'entraînement.

En étudiant la documentation construisez les objets suivants :
- paramGrid
- cv
- cvModel

Enfin tester à nouveau le nouveau modèle `cvModel` sur l'ensemble de test.

In [33]:
%spark
val paramGrid =

In [34]:
%spark
val cv =

In [35]:
%spark
val cvModel = 

In [36]:
%spark
val predictionsCvModel =

In [37]:
%spark
val evaluatorCvModel =

In [38]:
%spark
val rmse =

# Correction
à venir

In [40]:
%spark
import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.regression.LinearRegressionModel
import org.apache.spark.ml.evaluation.RegressionEvaluator

val assembler = new VectorAssembler()
  .setInputCols(Array("cyl", "disp", "hp", "drat", "wt", "qsec", "vs", "am", "gear", "carb"))
  .setOutputCol("features")

val scaler = new StandardScaler()
  .setInputCol("features")
  .setOutputCol("scaledFeatures")
  .setWithStd(true)
  .setWithMean(true)
  
val lr = new LinearRegression()
  .setMaxIter(10)
  .setRegParam(0.3)
  .setElasticNetParam(0.8)
  .setLabelCol("mpg")

val Array(train, test) = data.randomSplit(Array(0.8, 0.2)) 

val pipeline = new Pipeline()
  .setStages(Array(assembler, scaler, lr))
  
val lrModel = pipeline.fit(train)

// Summarize the model over the training set and print out some metrics
println(s"numIterations: ${trainingSummary.totalIterations}")
println(s"objectiveHistory: [${trainingSummary.objectiveHistory.mkString(",")}]")
trainingSummary.residuals.show()
println(s"RMSE: ${trainingSummary.rootMeanSquaredError}")
println(s"r2: ${trainingSummary.r2}")

// Make predictions.
val predictions = lrModel.transform(test)

// Select example rows to display.
predictions.select("prediction", "mpg", "features").show(5)

// Select (prediction, true label) and compute test error.
val evaluator = new RegressionEvaluator()
  .setLabelCol("mpg")
  .setPredictionCol("prediction")
  .setMetricName("rmse")
  
val rmse = evaluator.evaluate(predictions)
println(s"Root Mean Squared Error (RMSE) on test data = $rmse")

In [41]:
%spark


In [42]:
%spark


In [43]:
%spark


In [44]:
%spark
