# Le machine learning vient en aide au service com' pour détecter les bad buzz
***

![headline_blog.jpg](attachment:f646c36a-b3fd-47a2-b73e-ead24c355c06.jpg)

De nos jours, les réseaux sociaux sont très présents et très réactifs. Le moindre bad buzz peut prendre des proportions phénoménales. Pour les services communication, il est primordiale de détecter au plus tôt une mauvaise pub pour agir en conséquence.  
C'est là que peut intervenir le machine learning. En effet, grâce aux récents développements, les algortihmes sont capables de mieux comprendre les textes et donc les messages des gens sur la toile.

Pour aider le service communication, nous pouvons leur proposer plusieurs approches selon leur demande et leurs moyens : 
 - une approche simple qui est peu gourmande en ressource
 - une approche plus complexe utilisant des réseaux de neurones
 - et enfin une approche plus fine et subtile avec un modèle qui fait son chemin BERT

Mais une fois le modèle de prédiction réalisé, il faut le rendre disponible pour un utilisateur non initié aux arcanes de l'informatique. Mais surtout, il faut que toute mise à jour soit transparente pour l'utilisateur par l'apport d'une démarche MLOps.

## I) La détection par approche simple

Quand on entend approche "modèle sur mesure simple", on pense aux premiers modèles créés dans l'histoire de l'IA.

Un premier modèle de classification simple est la Naïve Bayésienne. Il s'agit d'un modèle linéaire, c'est-à-dire qu'il part du principe que les éléments sont parfaitement distinct les uns des autres. Un second modèle serait celui du XGBoost. Contrairement à son cousin, il est non linéaire, c'est-à-dire que les éléments ont des points communs et donc il est difficile de les différencier strictement. Le schéma suivant est plus parlant : 

![linear_blog.jpg](attachment:21e26119-b7dc-4889-84ee-159236faeaa6.jpg)

Le graphique A montre une représentation des données pour le modèle Naïve Bayésien. Tandis que le graphique B montre une représentation des données pour le modèle XGBoost.

## II) La détection par réseau de neurones

![neurones_blog.jpg](attachment:19ccc101-0034-43a9-befa-99de043a2616.jpg)

Ici, on touche à quelque chose de très connu par le publique mais sans vraiment savoir comme cela fonctionne.

L'idée est de construire une architecture copiée sur le cerveau humain où chaque neurone gère un calcul. Et pour l'appliquer à la détection de sentiment d'un texte, on peut le simplifier en disant que chaque mot de la phrase est géré par un neurone.

![rnn_simple.jpg](attachment:64f13d69-3c40-4f72-8a37-c813a5d27f6e.jpg)

En plus de cela, comme dans le cerveau humain, les neurones communiquent entre eux permettant ainsi de gérer le sens d'une phrase dans son ensemble, voire même son contexte. Le neurone final nous donnera la réponse que l'on cherche, c'est-à-dire le sentiment positif ou négatif de la phrase.

Plus on demande à un réseau de neurones de gérer des informations complexes, plus on va ajouter de neurones. Et plus exactement, nous allons ajouter des couches de neurones : 

![neutral-network-blog.jpg](attachment:22442437-0cb9-463a-9429-bfa095958449.jpg)

Dans cet esprit, il existe des réseaux de neurones évolués intégrant des couches intermédiaires complexes utilisant des méthodes de gestion de l'information particulière. On pourra en citer 2 : 
 - LSTM
 - GRU

### LSTM ou Long Short Term Memory

Comme son nom l'indique, cette méthode a une gestion de la mémoire à long terme et à court à terme.

L'idée principale est de parfaitement comprendre le sens d'une phrase. En tant qu'humain, nous savons que certains mots apportent plus de sens à une phrase que d'autres. Cependant, ils peuvent être situé plus ou moins loin dans une phrase. Un réseau de neurones simple va très vite oublier les premiers mots d'une phrase une fois arrivé à la fin. Le LSTM permet de choisir quelle est l'information antérieure pertinente pour la suite de la phrase et donc pour comprendre le contexte globale.

![LSTM-Core-768x466.png](attachment:4e7602f5-861f-4737-a27e-d17526174f8c.png)

Cela a l'air complexe à première vue, mais en réalité cela peut se résumer ainsi, dans un neurone, il y rentre principalement 2 informations : 
 - le mot qu'il doit gérer
 - les mots précédents utiles, la fameuse mémoire
 
Et de ce neurones en sort principalement 2 informations : 
 - le sens du mot obtenu
 - la mémoire sur les mots à garder mise à jour

### GRU ou Gated Recurrent Unit

Ce modèle est basé sur le même principe que le LSTM à ceci près qu'il est moins complexe car a moins d'entrées et de sorties. Mais surtout, il est plus rapide et moins gourmand en ressources matérielles puisque ne fait pas de copie en mémoire des paramètres des neurones.

![GRU-768x502.png](attachment:517362b9-cafe-4167-a617-5039a985f3e5.png)

## III) La détection par modèle BERT

![presskit_ss_bio_bert-560x420.png](attachment:0c37fb90-511b-43f3-8191-5f63d8c53a7f.png)

Non, ici, nous n'allons pas parler d'une des marionnettes de Sesame Street, mais du modèle de la firme Google.

BERT signifie Bidirectional Encoder Representations from Transformers. Comme son nom l'indique : 
 - il est bidirectionnel donc il lit la phrase dans les 2 sens pour améliorer le contexte
 - c'est un encodeur
 - il est basé sur les modèles de transformers
 
Voilà à quoi ressemble l'architecture d'un transformer...

![attention_research_1.jpg](attachment:14ea6ebb-d5b3-4f6e-86bb-26b4cb218c7f.jpg)

Nous n'allons pas le détailler ici... Ce qu'il faut retenir c'est que la partie gauche est un encodeur et la partie droite un décodeur. Si on prend le décodeur et qu'on en met plusieurs les uns à la suite des autres, on se retrouve avec le modèle BERT.  
Au passage, si on prend le décodeur, on se retrouve avec ChatGPT.

Une autre particularité de BERT est de présenter différents modèles de base déjà entraînés sur des données bien définies telles que Wikipédia par exemple. Cette particularité permet au développeur de s'affranchir de récolter des données et d'entraîner son modèle pendant des heures, des jours, voir des semaines selon ses ressources techniques.

## IV) Et les performances dans tout ça...

Les performances peuvent être facilement résumées. Partant du principe que le langage humaine est quelque chose de complexe avec de nombreuses subtilités, il est évident que cela fait appel à des modèles avancés pour le gérer correctement.

![Définition-performance-commerciale.jpg](attachment:398d1461-cb3a-4d4f-9c97-bc0934e54569.jpg)

Bien évidemment, qui dit complexité, dit temps de traitement plus lourd. Par ailleurs, les données sont l'aspect crucial de tout projet de machine learning. Prenons en compte le fait qu'il faudra faire avec d'innombrables lignes de texte avec tous les styles de registre possible.

Mais ce milieu est en constante évolution. En effet, il existe par exemple le modèle RoBERTa ou A Robustly Optimized BERT Pretraining Approach. Il présente la particularité de mieux gérer l'ironie dans un texte. Cela ouvre d'incroyables perspectives.

## V) Accessible à l'utilisateur

Quel que soit le modèle choisi, il faut maintenant le rendre accessible à l'utilisateur. C'est là qu'intervient le concept de MLOps. Cela consiste à suivre plusieurs étapes.

![deploy_pipeline_blog.jpg](attachment:ece97357-b51e-45db-8b47-4f6397ed902d.jpg)

La première étape est de mettre en place un outil de version de code comme Git pour suivre les modifications du développement. Il est ansi plus facile de revenir sur une version antérieure si jamais des anomalies ont été incorporées.  

La seconde étape est de réaliser des tests unitaires permettant de valider ou non l'ensemble du code livré. Ainsi, lorsque l'on met à jour le moindre élément du code, de l'application ou autre, ces tests vont intervenir à chaque livraison (ou push) sur le Git. Si on configure une CI (ou intégration continue) sur le Git, le passage de ces tests unitaires sera la condition sine qua none pour la suite des opérations.  

La troisième étape est de mettre en place un outil de déploiement de l'application. A chaque livraison sur le Git ET si les tests unitaires passent, cet outil va automatiquement réaliser un build de l'application et le rendre disponible en ligne.

S'il y a le moindre problème dans un des maillons de la chaîne, l'utilisateur final ne sera et ne devra pas être affecté. SI en bout de chaîne, l'application n'est pas viable, on peut revenir à une précédente version. Certes, il n'y aura pas les dernières mise à jour, mais elle sera fonctionnelle et permettra à l'utilisateur de réaliser son activité.