<a href="https://colab.research.google.com/github/EmmanuelADAM/IntelligenceArtificiellePython/blob/master/DetectionAlertes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Détection d'alertes par réseaux de neurones

Dans cet exercice, le but est de créer un système très basique de détection de messages douteux  par Réseaux de Neurones en se basant uniquement sur des mots clés trouvés dans les sujets de mails.

Une version plus évoluée étudierait aussi le texte transormé en sac de mots.


---
*L’observation du contenu des communications par les gouvernements dans un but de sécurité permettrait de détecter les mails potentiellement dangereux et de lever des alertes.
Cependant la masse d’information échangée est trop importante pour garantir une bonne analyse.
Des réseaux de neurones peuvent être utilisés pour guider la détection de problèmes potentiels.*

*Il s’agit donc ici de définir un réseau de neurones et de lui faire apprendre à détecter des textes à risque.*

---

Les exemples d’apprentissage seront constitués :
- d’une série de valeurs indiquant si oui ou non un terme est présent dans le texte analysé,
- de la réponse attendue (dans la ligne danger)

Pour chaque texte, des mots-clés sont détectés, et le danger potentiel du texte est indiqué. Voici les exemples d’apprentissage :
 - 'bombe', 'feu' => danger
 - 'bombe', 'patisserie' => _
 - 'bombe', 'acide' => danger
 - 'bombe', 'canon' => danger
 - 'fille', 'canon' => _
 - 'mec', 'canon' => _
 - 'patisserie', 'acide' => _
 - 'canon', 'balle' => danger
 - 'balle', 'tennis' => _
 - 'fille', 'acide' => danger
 
 Il faut transformer cela en un ensembles de vecteurs d'entrées et de sorties.

| bombe | feu | patisserie | fille | canon | mec | acide | balle | tennis | *danger* |
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
| 1., | 1., | 0., | 0., | 0., | 0., | 0., | 0., | 0. |  1  |
| 1., | 0., | 0., | 0., | 0., | 0., | 1., | 0., | 0. |  1  |
| 1., | 0., | 0., | 0., | 1., | 0., | 0., | 0., | 0. |  1  |
| 0., | 0., | 0., | 0., | 1., | 0., | 0., | 1., | 0. |  1  |
| 0., | 0., | 0., | 1., | 0., | 0., | 1., | 0., | 0. |  1  |
| 1., | 0., | 1., | 0., | 0., | 0., | 0., | 0., | 0. |  0  |
| 0., | 0., | 0., | 1., | 1., | 0., | 0., | 0., | 0. |  0  |
| 0., | 0., | 0., | 0., | 1., | 1., | 0., | 0., | 0. |  0  |
| 0., | 0., | 1., | 0., | 0., | 0., | 1., | 0., | 0. |  0  |
| 0., | 0., | 0., | 0., | 0., | 0., | 0., | 1., | 1. |  0  |



---
## Importer les librairies

In [None]:
import tensorflow.keras as keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import numpy as np
#pour les graphiques
import matplotlib.pyplot as plt
#SI bug plus loin lors du dessin des graphiques, ajouter ces 2 lignes
import os
os.environ['KMP_DUPLICATE_LIB_OK']='True'

---

### Définir les entrées et sorties attendues

Les entrées correspondent aux présente des mots clés par sujet de mail.
Ici, les entrées d'apprentissage sont consituées de 70% de l'exemple présenté (donc 9 lignes de  10 valeurs 0,1). Les sorties d'apprentissage correspondent au fait que chaque entrée soit un spam ou non.

Les entrées et sorties de validations sont donc constitués des 40% restants


In [None]:
#définissez les entrées sorties sur base du tableau
tableau = np.array([[...], [...], ....], float) #remplissez les ... avec les valeurs de l'exemple

#on prend un pourcentage de lignes pour apprendre, le reste pour valider
#on mélange les lignes pour pouvoir avoir des exemples d'apprentissage
# et de validation homogènes (au cas où les exemples auraient été saisis dans un ordre précis)
# mais le mieux est de mieux choisir ces exemples qui ont un impact important dans la qualité de l'apprentissage
np.random.shuffle(tableau)

keywords = ("bombe", "feu", "patisserie", "fille", "canon", "mec", "acide", "balle", "tennis")    
nb_lignes = tableau.shape[0]
nb_val = len(keywords)

#on décide que 70% des lignes sont des lignes d'apprentissage, le reste étant les lignes de validation
nb_lignes_app = nb_lignes * 70 // 100
nb_lignes_val = nb_lignes - nb_lignes_app

#A FAIRE : 
# remplir les entrees et sorties d'apprentissage et de validation avec les bonnes valeurs

# les "nb_val" premieres colonnes sont les entrees
# entrees_app = ...
# entrees_val = ...

# la derniere colonne est la sortie
# sorties_app = ...
# sorties_val = ...


---

### Choisir le modèle de réseau
- ici les couches sont séquentielles

In [None]:
model = Sequential()

---

### Définir l'architecture du réseau
Choisissez la struture du réseau, le nb de couches cachées, etc.
- une première couche composée de 
  - 10 neurones en entrée , plus le neurone BIAS (ou non)
  - x neurones en sortie 
- une couche composée
  - y neurones en entrée (ceux de la couche précédente) et 
  - de 1 neurone en sortie (Spam ou non)


In [None]:
avec_bias = True
#une premiere couche constituée de 12 neurones en entrée, ...
model.add(Dense(nb neurones en 1ere couche cachée, input_shape=(nb_val,), activation=celle que vous voulez))

# si vous voulez plusieurs couches cachées, autant de add que nécessaire 
model.add(...)

#une derniere couche constituée de 1 neurone en sortie, 
# nb neurones de la couche précédente en entrée et acivation sigmide
model.add(Dense(1, activation='sigmoid'))

---

### Compiler le  réseau
- ici, on précise que l'algo de correction d'erreur est *'adam'*, et que l'erreur calculée est la moyenne des valeurs absolues des erreurs commises. On indique également que l'on veut voir apparaître en plus la précision de l'apprentissage (accuracy).

(vous pouvez chosir un autre optimizer et un autre clacul de loss)

In [None]:
model.compile(optimizer='adam', loss='MSE', metrics=['accuracy'])

---

### Entraîner le réseau 
- ici on  le fait  'parler' (verbose=1), et on lance xx cycles d'apprentissage *(epochs à préciser)*


In [None]:
tests = model.fit(entrees_app, sorties_app, 
                    validation_data=(entrees_val, sorties_val),
                    epochs=??, verbose=1)

---

## Dessiner l'évolution de l'erreur et de la pertinence


In [None]:
history_dict = tests.history
eval_tests = list(history_dict.keys())
print("les ensembles de valeurs récupérées lors des tests sont ")
print(eval_tests)
print("-> [perte sur exemple d'entrainement, qualité sur exemples d'entrainement,perte sur exemple de validation, qualité sur exemples de validation]")

#### Tracer l'erreur d'entrainement / l'erreur de validation
- L'erreur d'entrainement et l'erreur de validation doivent suivre des courbes quasi parallèle.
- L'erreur d'entrainement doit être plus faible que l'erreur de validation
    - si les courbes divergent, si la courbe de validation s'éloigne de la courbe d'entrainement, il y a alors un sur-apprentissage (overfitting) trop adapté aux données d'entrainement, sans doute trop poussé (diminuer les epochs?).
    - s'il y a une erreur d'entrainement trop grande, il y a sous-apprentissage

In [None]:
import matplotlib.pyplot as plt

loss = history_dict[eval_tests[0]]
val_loss = history_dict[eval_tests[2]]

epochs = range(1, len(loss) + 1)

# draw the loss evolution in blue
plt.plot(epochs, loss, 'b--', label='erreur sur exemples d\'apprentissage')
# draw the accuracy evolution in blue
plt.plot(epochs, val_loss, 'r--', label='erreur sur exemples de validation')
plt.title('Erreur')
plt.xlabel('Epochs')
plt.ylabel('Erreur')
plt.legend()

plt.show()

In [None]:
acc = history_dict[eval_tests[1]]
val_acc = history_dict[eval_tests[3]]

epochs = range(1, len(loss) + 1)

# draw the loss evolution in blue
plt.plot(epochs, acc, 'b--', label='précision sur exemples d\'apprentissage')
# draw the accuracy evolution in blue
plt.plot(epochs, val_acc, 'r--', label='précision sur exemples de validation')
plt.title('précision')
plt.xlabel('Epochs')
plt.ylabel('précision')
plt.legend()

plt.show()

---
## Utilisation du réseau
Quelle est la probabilité que les textes contenant les mots :
1. bombe et feu
2. mec patisserie feu

soient des textes suspects ?

In [None]:
entreesTests = np.array([ [...], [...], ...], float) # A FAIRE
predictions = model.predict(entreesTests)
print(predictions)

### Correction des exemples

On décide quand même que le texte contenant les mots « patisserie » et « feu » soit dangereux à plus de 95%.

Ajouter une ou des lignes aux exemples d’entrainement.

Relancer l’apprentissage du réseau et vérifier que les textes sont bien détecter.