
# Introduction

Le but de cette partie est d'entrainer un perceptron dont
la fonction d'activation est une <u>fonction sigmoïde</u>.

Nous utilisons pour cela Apache Spark avec le langage 
Scala.

Le fichier de données `crimes_fromWf_withClusters_sparkReady` recense:

- 7 catégories, dans l'ensemble $C = \{0..6\}$, donc $|C| = 7$,
- 39 features (ou colonnes).

Les features sont binaires, elles prennent donc des valeurs dans $\mathbb{B} = \{0, 1\}$.

Pour une ligne donnée du fichier (un échantillon) on obtient donc un features vector sous la forme $fv_i = (f_{i,1},\   f_{i,2}, ...,\ f_{i,j})$, où:

 - $fv$ est un feature vector,
 - $fv_i$ est un feature vector représentant l'échantillon $i$,
 - $f_j$ est la feature à la colonne $j$, $f_j \in \mathbb{B}$.
 
Dans notre cas la cardinalité de tous les $fv_i$ est $|fv| = 39$. C'est-à-dire que tout les $fv_i$ ont le même nombre de features.

Nous cherchons à établire, pour tout les $i$, à quelle catégorie correspond $fv_i$.
Nous devont donc construire ou approximer une fonction de prédiction $p$ tel que $p(fv_i) \rightarrow c$, où $c \in C$.


# Traitement

## Imports des outils nécessaires

In [2]:
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.sql.Dataset
import org.apache.spark.sql.Row
import org.apache.spark.ml.classification.MultilayerPerceptronClassifier
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

## Import des données

In [3]:
// Import des données avec cluster
// Le fichier `crimes_fromWf_withClusters_sparkReady.txt` à
// été reformaté en un fichier `clu.txt` 
val cluData = spark.read.format("libsvm").load("../data/clu-days.txt")
cluData.show

+-----+--------------------+
|label|            features|
+-----+--------------------+
|  6.0|(39,[6,16,34],[1....|
|  2.0|(39,[6,16,34],[1....|
|  2.0|(39,[6,16,34],[1....|
|  0.0|(39,[6,17,34],[1....|
|  0.0|(39,[7,17,34],[1....|
|  0.0|(39,[8,17,34],[1....|
|  0.0|(39,[8,17,34],[1....|
|  0.0|(39,[9,17,34],[1....|
|  0.0|(39,[10,17,34],[1...|
|  0.0|(39,[11,17,34],[1...|
|  0.0|(39,[11,17,34],[1...|
|  2.0|(39,[12,17,34],[1...|
|  0.0|(39,[13,17,34],[1...|
|  0.0|(39,[6,17,34],[1....|
|  1.0|(39,[9,17,34],[1....|
|  1.0|(39,[9,17,34],[1....|
|  0.0|(39,[13,17,34],[1...|
|  4.0|(39,[8,17,34],[1....|
|  2.0|(39,[9,16,34],[1....|
|  1.0|(39,[13,17,34],[1...|
+-----+--------------------+
only showing top 20 rows



## Préparation des données

On sépare les datasets en deux sous-ensembles:

- Un pour l'entrainement ($70\%$ des données),
- Un pour le test ($30\%$ de données).

In [4]:
// 0.7 et 0.3 pour un séparation à 70/30
// le paramètre `seed` sert ... de seed à la fonction random.
val splits = cluData.randomSplit(Array(0.7, 0.3)) 

val train = splits(0)
val test = splits(1)

## Perceptron sigmoïde sans couches cachées

Comme ce perceptron ne possède pas de couches cachées, il y a donc ici deux couches:

- une en entrée comportant 39 neurones,
- une en sortie comportant 7 neurones.

En effet, comme vu précédement, $|C| = 7$, comme notre fonction $p(fv_i) \rightarrow c$ nous fournit un résultat dans l'ensemble $C$, il y a donc bien 7 neurones en sortie de notre perceptron.
De même, $|fv| = 39$, la couche d'entrée est donc composée de 39 neurones dont le signal d'entrée est respectivement est la valeur de $f$. Rappelons que $f_j \in \mathbb{B}$.

In [11]:
// Les couches sont représentées par un vecteur d'entiers
val layers = Array[Int](39, 7)

// Création du perceptron
// 100 itérations maximum 

val p = new MultilayerPerceptronClassifier() 
val trainer = p.setLayers(layers).setMaxIter(1)

### Entrainement
L'entrainement du perceptron se fait sur le dataset d'entrainement
et non pas sur celui de test.

In [12]:
val model = trainer.fit(train)

### Résultat
On test le modèle sur le dataset de test afin de déterminer la pertinence du modèle. Il est important de ne pas tester le modèle sur les données d'entrainement pour ne pas biaiser les résultats 

In [13]:
val result = model.transform(test)

// extraction des données générées
val predictionAndLabels = result.select("prediction", "label")

// On utilise un MulticlassClassificationEvaluator pour évaluer la pertinence
val evaluator = new MulticlassClassificationEvaluator().setMetricName("accuracy")

println("Pertinence du modèle sans couches cachées: " + evaluator.evaluate(predictionAndLabels))

                                                                                Pertinence du modèle sans couches cachées: 0.4814310390645761


On obtient donc une pertinence de 59,2%, c'est à dire que ce perceptron est capable de prédire un peu plus d'un crime sur deux.

Voici une fonction générique permettant d'entrainer une perceptron :

In [142]:
def trainNN(layers : Array[Int],
            train : Dataset[Row], test: Dataset[Row],
            maxIter: Int)
 : Double = {

 // Création du perceptron
 val p = new MultilayerPerceptronClassifier() 
 val trainer = p.setLayers(layers).setMaxIter(maxIter) 
  
 // Entrainement
 val model = trainer.fit(train)
 // Test de la pertinence de ce nouveau modèle
 val result = model.transform(test)
 // extraction des données générées
 val predictionAndLabels = result.select("prediction", "label")

 // On utilise un MulticlassClassificationEvaluator pour évaluer la pertinence
 val evaluator = new MulticlassClassificationEvaluator().setMetricName("accuracy")

 evaluator.evaluate(predictionAndLabels)
}

In [19]:
// Création des couches

(100 until 1000 by 100).foreach((nl)=>{ 
 val layers = Array[Int](39,nl,7)
 println(nl + ";" + trainNN(layers, train, test, 40))
})


100;0.5923617822508082                                                          
200;0.5926283867097677                                                          
300;0.5924284333655481                                                          
400;0.5916619455460392                                                          


Name: java.lang.InterruptedException
Message: null
StackTrace:   at java.util.concurrent.locks.AbstractQueuedSynchronizer.tryAcquireSharedNanos(AbstractQueuedSynchronizer.java:1326)
  at scala.concurrent.impl.Promise$DefaultPromise.tryAwait(Promise.scala:208)
  at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:218)
  at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)
  at scala.concurrent.Await$$anonfun$result$1.apply(package.scala:190)
  at scala.concurrent.BlockContext$DefaultBlockContext$.blockOn(BlockContext.scala:53)
  at scala.concurrent.Await$.result(package.scala:190)
  at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:81)
  at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:102)
  at org.apache.spark.rpc.RpcEndpointRef.askWithRetry(RpcEndpointRef.scala:78)
  at org.apache.spark.storage.BlockManagerMaster.updateBlockInfo(BlockManagerMaster.scala:67)
  at org.apache.spark.storage.BlockManager.org$apache

## Perceptron sigmoïde avec une couche cachée

Nous allons entrainer un autre réseau de neurones possédant cette fois ci une couche cachée.
La règle est que le nombre de neurones $n$ de cette couche doit être $n \le |fv|^2$, c'est-à-dire $n \le 32^2 \Leftrightarrow n \le 1024 $.

In [119]:
// Création des couches
val layers = Array[Int](39, 1024, 7)

println("Pertinence du modèle avec une couche cachée: " + trainNN(layers, train, test, 100))

                                                                                Pertinence du modèle avec une couche cachée: 0.592461758922918


## Perceptron sigmoïde avec deux couches cachées

Nous allons enfin entrainer un dernier réseau de neurones possédant cette fois ci deux couche cachée. La couche d'entrée prends toujours 39 neurones, et celle de sortie 7 neurones. Nous avons choisi d'utiliser respectivement 512 et 256 neurones pour les première et seconde couches cachées.

In [143]:
// Création des couches
val layers = Array[Int](39, 512, 256, 7)

println("Pertinence du modèle avec deux couches cachées: " + trainNN(layers, train, test, 100))

                                                                                Pertinence du modèle avec deux couches cachées: 0.591828573332889


# Analyse critique

Déterminer les paramètres optimaux pour obtenir la meilleur pertinance du modèle peut se faire soit mathématiquement soit empiriquement. Face à la complexitée de ces modèles nous avons choisi de déterminer les paramètres optimaux de façon empirique. Nos paramêtres sont:

- $t$ : le nombre d'itérations maximum pour l'entrainement du perceptron (training),
- $n_l$ : le nombre de neurones $n$ composants la couche $l$, la couche d'entrée étant $l=0$.

Il est bon de noter que les couches d'entrée et de sortie ne peuvent pas changer, le nombre de features et de catégories à prédire étant fixes.

Nous pouvons donc obtenir plusieurs mesures de la pertinance en fonction :

- du nombre d'itérations, formant une courbe.
- du nombre d'itérations et du nombre de neurones dans **une** couche, formant un plan,
- du nombre d'itérations, du nombre de couches et du nombre de neuronnes dans chaque couches, formant un plan en plus de 3 dimentions.

Nous avons commencé par "jouer" à la main avec les paramètres pour déterminer si leurs modification provoquait effectivement des changements de la pertinance du modèle. Nous avons donc modifié les paramètres de façon dichotomique pour obtenir un premier feeling de leur importance. Mais les résultats ne se sont pas du tout avérés correspondre à nos attentes. En effet, le perceptron sans couche cachée nous donne une pertinance d'environ $0.5924$, indiquant:

- que les données ne sont pas linéairement séparables, sans quoi la pertinance serait bien plus proche de 1,
- que les données, bien que n'étant pas linéairement séparables, sont néanmoins très réparties, c'est à dire qu'il est certainement possible de séparer linéairement des groupes de données. Cela résulte sans doute du prétraitement de nos données qui consistait à réduire les catégories en groupes de catégories.

Nous avons remarqué que le nombre d'itérations maximum $t$ influait sur la pertinance du modèle, mais celà est une évidence pour un perceptron et ne nous apprend rien de bien utile. Voici néanmoins un graphique représentant la pertinance en fonction de $t$:

![Pertinance en fonction de t](img/t.png "Pertinance en fonction de $t$")

Nous avons donc déterminé qu'il était inutile d'entrainer le perceptron avec $ t > 40$.

Nous avons été néanmoins beaucoup plus surpris que l'ajout de couches cachées n'améliore pas la pertinance.
L'ajout de couches cachées permets en théorie de faire émerger l'intelligence du réseau de neurone, mais dans notre cas, l'ajout de la couche cachée n'a en rien amélioré la pertinance du modèle. Nous avons testé si $t = 40$ était toujours pertinant avec une couche cachée à chaques entrainement et c'est bien le cas. Voici la pertinance du modèle en fonction de $n_1$ pour $t = 40$: