In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

### Spark ML : la librairie de machine learning de Spark
La librairie Spark pour le machine learning s’appelle *ml* . 
Elle comprend différents modules 

In [60]:
from pyspark.ml import clustering
from pyspark.ml import classification
from pyspark.ml import regression
from pyspark.ml import stat

### Introspecter les objets
On peut profiter du mot clef *__dict__* pour trouver les objets contenus dans chacun de ces modules, et filtrer sur des mots clefs.
Le module de Stat propose certains tests :

In [59]:
[k for k in stat.__dict__.keys() if "Test" in k ]

['ChiSquareTest', 'KolmogorovSmirnovTest']

Le module de clutering quelques algorithmes  :

In [61]:
[k for k in clustering.__dict__.keys() if "Model" in k ]

['JavaPredictionModel',
 'JavaModel',
 'HasCollectSubModels',
 'GaussianMixtureModel',
 'KMeansModel',
 'BisectingKMeansModel',
 'LDAModel',
 'DistributedLDAModel',
 'LocalLDAModel']

Les modules de classification d'autres :

In [62]:
[k for k in classification.__dict__.keys() if "Classifier" in k]

['TreeClassifierParams',
 'DecisionTreeClassifier',
 'RandomForestClassifier',
 'GBTClassifier',
 'MultilayerPerceptronClassifier']

Il y a plus de modules de régression : 

In [63]:
[k for k in regression.__dict__.keys() if "Regression" in k]

['LinearRegression',
 'LinearRegressionModel',
 'LinearRegressionSummary',
 'LinearRegressionTrainingSummary',
 'IsotonicRegression',
 'IsotonicRegressionModel',
 'DecisionTreeRegressionModel',
 'RandomForestRegressionModel',
 'GBTRegressionModel',
 'AFTSurvivalRegression',
 'AFTSurvivalRegressionModel',
 'GeneralizedLinearRegression',
 'GeneralizedLinearRegressionModel',
 'GeneralizedLinearRegressionSummary',
 'GeneralizedLinearRegressionTrainingSummary']

### Autour des algorithmes,des outils pour passer à l'échelle
Les algorithmes classiques doivent être adaptés pour : 
1. Préciser les types pour être convertis de Python vers Scala
2. Être distribués sur tout le cluster
3. Transformer les données en chiffre

Spark propose plusieurs classes pour nous aider dans ces tâches : 

In [71]:
from pyspark.ml import Transformer
from pyspark.ml import Estimator
from pyspark.ml import param
from pyspark.ml import Pipeline
from pyspark.ml import evaluation

Maintenant que nous savons faire nous pouvons introspecter ces modules pour imaginer ce qu'ils contiennent.

In [72]:
modules = [Transformer,Estimator,param,Pipeline, evaluation]
noms    = ["Transformer","Estimator","param","Pipeline", "evaluation"]
for nom, module in zip(noms, modules):
    print(nom, [k for k in module.__dict__.keys() if "_" not in k])
    

Transformer ['transform']
Estimator ['fitMultiple', 'fit']
param ['array', 'sys', 'basestring', 'xrange', 'unicode', 'ABCMeta', 'copy', 'np', 'JavaObject', 'DenseVector', 'Vector', 'Matrix', 'Identifiable', 'Param', 'TypeConverters', 'Params', 'shared']
Pipeline ['stages', 'setStages', 'getStages', 'setParams', 'copy', 'write', 'read']
evaluation ['sys', 'abstractmethod', 'ABCMeta', 'since', 'JavaParams', 'Param', 'Params', 'TypeConverters', 'HasLabelCol', 'HasPredictionCol', 'HasRawPredictionCol', 'HasFeaturesCol', 'JavaMLReadable', 'JavaMLWritable', 'Evaluator', 'JavaEvaluator', 'BinaryClassificationEvaluator', 'RegressionEvaluator', 'MulticlassClassificationEvaluator', 'ClusteringEvaluator']


* Transformer : Algorithme qui change une Dataframe en une autre (notamment en appliquant un modèle). Ce sont soit des modèles, soit des algorithmes d’ajouts de features
 * transform
* Estimator : Objet pour créer un modèle sur une Dataframe
 * **fitMultiple**
 * **fit**
* param : Paramètres des estimators et transformers. 
 * **DenseVector**
 * **Vector** : Classe pour transformer les colonnes des DataFrame en vecteur *sparse*, c'est à dire que les valeurs nulles sont supprimées du vecteur. Seule reste les valeures entières associées à leur position dans le vecteur. C'est un moyen très efficace d'optimisation mémoire dans un contexte où les matrices sont souvent creuses.
 * **Matrix**
 * **Params** : Souvent des dictionnaire clefs : valeurs
 * **shared**
* Pipeline : Permet d’organiser le chaînage d’Estimator et de  transformers
 * **stages**
 * **setStages**
 * **getStages**
 * **setParams**