In [2]:
# Import des bibliothèques pour la manipulation de données
import pandas as pd  # Pandas pour la manipulation de données tabulaires

# Import des bibliothèques pour la visualisation de données
import matplotlib.pyplot as plt  # Matplotlib pour la création de graphiques
import seaborn as sns  # Seaborn pour des visualisations statistiques attrayantes

# Import des bibliothèques de traitement du langage naturel (NLP)
import nltk  # Bibliothèque NLTK pour le traitement du langage naturel
from nltk.corpus import stopwords  # Liste de mots vides pour le prétraitement
from nltk.tokenize import word_tokenize  # Tokenisation de mots
import string  # Opérations de chaînes de caractères

# Téléchargement des ressources nécessaires de NLTK (commenté car téléchargement uniquement nécessaire une fois)
# nltk.download('stopwords')  # Téléchargement des mots vides
# nltk.download('punkt')  # Téléchargement des modèles de tokenisation

# Import des composants de la bibliothèque Transformers pour l'utilisation de modèles pré-entraînés
from transformers import AutoTokenizer, AutoModelForSequenceClassification  # Transformers pour NLP

# Import de la fonction softmax pour normaliser les scores de classification
from scipy.special import softmax  # SciPy pour des opérations mathématiques avancées

# Import de la barre de progression pour les boucles (utile pour surveiller l'avancement)
from tqdm.notebook import tqdm  # TQDM pour une barre de progression interactive

import re  # Module d'expressions régulières en Python pour la manipulation de texte

import numpy as np  # NumPy pour des opérations numériques avancées

from wordcloud import WordCloud  # WordCloud pour la création de nuages de mots

from bs4 import BeautifulSoup

## Anaconda et Jupyter : distinction et usages

**Anaconda** et **Jupyter** sont deux outils importants utilisés dans le domaine de la science des données et du machine learning, mais ils jouent des rôles distincts :

**1. Anaconda**

* **Définition :** Anaconda est une distribution logicielle gratuite et open-source qui regroupe un ensemble de paquets et d'outils préinstallés pour le data science et le machine learning. 
* **Fonctionnalités principales :**
    * **Gestionnaire de paquets conda :** Installation, mise à jour et suppression de paquets Python et R.
    * **Environnements virtuels:** Création d'environnements isolés pour gérer les dépendances de bibliothèques pour différents projets.
    * **Navigateur Anaconda (interface graphique optionnelle) :** Interface conviviale pour la gestion des paquets, des environnements et des applications liées à la data science.
    * **Inclusion de Python et de bibliothèques populaires :** Python (langage de programmation central), NumPy, Pandas, Matplotlib, Scikit-learn, etc.

**En résumé, Anaconda est une plateforme complète qui fournit les outils nécessaires pour démarrer rapidement des projets de data science et de machine learning.**

**2. Jupyter**

* **Définition :** Jupyter est une application web open-source utilisée pour la création de notebooks interactifs. Ces notebooks permettent de combiner du code, du texte enrichi, des visualisations et des résultats d'exécution dans un seul document.
* **Fonctionnalités principales :**
    * **Création de notebooks interactifs :** Écriture de code (Python, R, Julia, etc.), ajout de texte explicatif, génération de visualisations et observation des résultats en direct.
    * **Partage et collaboration :** Les notebooks Jupyter peuvent être facilement partagés et modifiés par des collaborateurs.
    * **Support de différents langages de programmation :** Jupyter n'est pas spécifique à Python et peut être utilisé avec divers langages.

**En résumé, Jupyter est un outil interactif permettant de développer du code, documenter son travail et visualiser les résultats de manière interactive, facilitant l'apprentissage, l'analyse et la communication des résultats.**

**Relation entre Anaconda et Jupyter**

Anaconda et Jupyter sont souvent utilisés de concert. Anaconda installe Jupyter Notebook par défaut, ce qui permet d'utiliser facilement les bibliothèques et les environnements gérés par Anaconda dans vos notebooks interactifs.


## Définition et utilisation de chaque bibliothèque importée :

**1. Pandas:**

* **Définition:** Bibliothèque open-source pour la manipulation de données tabulaires.
* **Utilisation:**
    * Lire et écrire des données dans différents formats (CSV, Excel, etc.).
    * Nettoyer et transformer les données.
    * Analyser les données et calculer des statistiques.
    * Visualiser les données.

**2. Matplotlib:**

* **Définition:** Bibliothèque open-source pour la création de graphiques et de visualisations scientifiques.
* **Utilisation:**
    * Créer différents types de graphiques (barres, courbes, diagrammes, etc.).
    * Personnaliser les graphiques avec des couleurs, des titres, des légendes, etc.
    * Intégrer des graphiques dans des notebooks ou des applications web.

**3. Seaborn:**

* **Définition:** Bibliothèque open-source basée sur Matplotlib pour créer des visualisations statistiques attrayantes.
* **Utilisation:**
    * Créer des graphiques à barres, des courbes de distribution, des heatmaps, etc.
    * Appliquer des thèmes et des palettes de couleurs prédéfinies.
    * Faciliter la création de visualisations statistiques complexes.

**4. NLTK:**

* **Définition:** Bibliothèque open-source pour le traitement du langage naturel (NLP).
* **Utilisation:**
    * Tokeniser les mots d'un texte.
    * Supprimer les mots vides.
    * Lemmatiser les mots.
    * Taguer les parties du discours.
    * Analyser le sentiment d'un texte.

**5. Transformers:**

* **Définition:** Bibliothèque open-source pour l'utilisation de modèles de langage pré-entraînés pour le NLP.
* **Utilisation:**
    * Charger un modèle de langage pré-entraîné.
    * Encodage de texte en vecteurs.
    * Classification de texte.
    * Génération de texte.

**6. SciPy:**

* **Définition:** Bibliothèque open-source pour des opérations mathématiques avancées.
* **Utilisation:**
    * Calculer des statistiques avancées.
    * Résoudre des équations différentielles.
    * Optimiser des fonctions.

**7. tqdm:**

* **Définition:** Bibliothèque open-source pour afficher une barre de progression interactive dans les boucles.
* **Utilisation:**
    * Surveiller l'avancement d'un processus long.
    * Afficher des informations sur l'itération en cours.

**8. re:**

* **Définition:** Module Python pour la manipulation de texte avec des expressions régulières.
* **Utilisation:**
    * Rechercher et remplacer des motifs dans le texte.
    * Extraire des informations du texte.
    * Valider des formats de texte.

**9. NumPy:**

* **Définition:** Bibliothèque open-source pour des opérations numériques avancées sur des tableaux multidimensionnels.
* **Utilisation:**
    * Effectuer des calculs mathématiques sur des tableaux.
    * Créer des matrices et des vecteurs.
    * Appliquer des fonctions mathématiques aux tableaux.

**10. WordCloud:**

* **Définition:** Bibliothèque open-source pour créer des nuages de mots à partir de texte.
* **Utilisation:**
    * Générer des nuages de mots à partir d'un corpus de texte.
    * Personnaliser les nuages de mots avec des couleurs, des polices, etc.

**11. BeautifulSoup:**

* **Définition:** Bibliothèque open-source pour analyser et extraire des données de documents HTML et XML.
* **Utilisation:**
    * Extraire du texte et des attributs des balises HTML.
    * Naviguer dans l'arborescence du document.
    * Analyser la structure du document.


La moyenne (mean) et la médiane (median) sont deux mesures statistiques utilisées pour représenter le centre d'une distribution de données. Voici leurs différences principales :

1. **Moyenne (mean) :**
   - La moyenne est la somme de toutes les valeurs divisée par le nombre total de valeurs.
   - Elle est sensible aux valeurs extrêmes, également appelées valeurs aberrantes (outliers). Cela signifie qu'une seule valeur extrême peut considérablement affecter la moyenne.
   - La moyenne est souvent utilisée lorsque les données sont relativement symétriques et sans valeurs aberrantes significatives.

2. **Médiane (median) :**
   - La médiane est la valeur au milieu de l'ensemble de données lorsqu'il est trié par ordre croissant ou décroissant.
   - Contrairement à la moyenne, la médiane n'est pas influencée par les valeurs extrêmes. Elle ne considère que la valeur centrale, indépendamment de la magnitude des autres valeurs.
   - La médiane est utile lorsque les données sont asymétriques ou contiennent des valeurs aberrantes.

En résumé, la moyenne est sensible aux valeurs extrêmes, tandis que la médiane ne l'est pas. Le choix entre la moyenne et la médiane dépend de la nature des données et de l'objectif de l'analyse statistique.

## stop words
Les "stop words", littéralement "mots vides" en français, sont des mots très courants et généralement peu informatifs qui sont souvent supprimés lors du traitement de texte ou de la recherche d'informations textuelles. Ces mots sont généralement des articles, des prépositions, des conjonctions et d'autres mots très fréquents dans une langue donnée.

Les "stop words" sont exclus des analyses textuelles telles que l'indexation de documents ou la recherche d'informations, car ils n'apportent pas de sens significatif à la compréhension du contenu. En les retirant, on peut réduire la taille du corpus de texte et améliorer la précision des analyses textuelles en se concentrant sur les mots qui portent une signification plus distinctive.

Exemples courants de "stop words" en anglais incluent : "the", "is", "and", "of", "in", "to", "a", etc. Pour chaque langue, il existe une liste spécifique de "stop words" adaptée à cette langue, basée sur la fréquence d'utilisation des mots dans des textes courants et leur faible contribution à la sémantique générale du texte.

## Pre-traitement de text :
Ce code effectue un prétraitement du texte en supprimant les balises HTML, les caractères non alphabétiques, en convertissant le texte en minuscules et en supprimant les "stop words" (mots vides). Voici une explication ligne par ligne :

1. `stop_words = set(stopwords.words('english'))`: Cette ligne charge un ensemble de "stop words" en anglais à partir de la bibliothèque NLTK (Natural Language Toolkit). Les "stop words" sont stockés dans un ensemble pour une recherche efficace.

2. `def preprocess_text(text):`: Cette ligne définit une fonction nommée `preprocess_text` qui prend en entrée un texte à prétraiter.

3. `if re.match(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', text):`: Cette condition vérifie si le texte ressemble à une URL à l'aide d'une expression régulière. Si c'est le cas, le contenu de l'URL pourrait être récupéré, mais dans ce code, il est laissé en commentaire (dans le `pass`).

4. Sinon, le texte est considéré comme un texte brut et les balises HTML sont supprimées à l'aide de BeautifulSoup.

5. `text = re.sub(r'[^a-zA-Z\s]', '', text)`: Cette ligne supprime tous les caractères non alphabétiques du texte.

6. `text = text.lower()`: Cette ligne convertit tout le texte en minuscules pour normaliser le texte.

7. `words = word_tokenize(text)`: Cette ligne divise le texte en mots individuels (tokenization) à l'aide de la fonction `word_tokenize` de NLTK.

8. `words = [word for word in words if word not in stop_words]`: Cette ligne filtre les "stop words" du texte en supprimant les mots qui sont présents dans l'ensemble des "stop words" défini précédemment.

9. `return ' '.join(words)`: Cette ligne réassemble les mots traités en une seule chaîne de caractères, en les séparant par des espaces.

10. `tqdm.pandas()`: Cette ligne active l'utilisation de la fonction `progress_apply()` de pandas avec tqdm pour afficher une barre de progression lors de l'application de la fonction `preprocess_text` à chaque ligne du DataFrame.

11. `data['Processed_Text'] = data['Text'].progress_apply(preprocess_text)`: Cette ligne applique la fonction `preprocess_text` à chaque texte de la colonne 'Text' du DataFrame `data` et stocke le résultat dans une nouvelle colonne appelée 'Processed_Text'.

12. `data.head()`: Cette ligne affiche les premières lignes du DataFrame après le prétraitement du texte.

## Models 
Bien sûr, voici une liste complète des modèles et bibliothèques populaires pour l'analyse des sentiments en Python :

1. **TextBlob** :
   - TextBlob est une bibliothèque Python simple et facile à utiliser pour le traitement du langage naturel, qui offre des fonctionnalités d'analyse des sentiments.
   - Il fournit une méthode `sentiment` qui renvoie une polarité (positif, négatif ou neutre) et une subjectivité du texte.

2. **VADER (Valence Aware Dictionary and sEntiment Reasoner)** :
   - VADER est un lexique et un outil de traitement des sentiments spécialement conçu pour les médias sociaux.
   - Il est intégré dans la bibliothèque NLTK (Natural Language Toolkit) et fournit une analyse des sentiments basée sur des règles et des scores lexicaux.

3. **TextBlob avec Pattern Analyzer** :
   - TextBlob dispose également d'un analyseur de modèle basé sur la bibliothèque Pattern.
   - Cet analyseur fournit une analyse des sentiments basée sur un modèle de classification de phrases entraîné sur des données annotées.

4. **scikit-learn** :
   - La bibliothèque scikit-learn peut être utilisée pour l'analyse des sentiments en utilisant des techniques de classification supervisée.
   - Vous pouvez entraîner des modèles de classification tels que Naive Bayes, SVM (Support Vector Machines) ou des méthodes basées sur les arbres de décision sur des données annotées avec des sentiments pour prédire les sentiments sur de nouveaux textes.

5. **Transformers (Hugging Face)** :
   - Les modèles basés sur les Transformers, tels que BERT, RoBERTa, DistilBERT, etc., peuvent également être utilisés pour l'analyse des sentiments en fine-tunant ces modèles sur des tâches d'analyse de sentiments.
   - La bibliothèque Hugging Face fournit une API simple et un accès à de nombreux modèles pré-entraînés pour le traitement du langage naturel, y compris des modèles pour l'analyse des sentiments.

6. **Transformers (Hugging Face) avec RoBERTa** :
   - RoBERTa est un modèle de langage basé sur les Transformers, entraîné par Facebook.
   - Vous pouvez utiliser RoBERTa pour l'analyse des sentiments en fine-tunant le modèle sur des tâches d'analyse de sentiments.
   - La bibliothèque Hugging Face fournit une interface simple pour charger et utiliser des modèles RoBERTa pré-entraînés pour l'analyse des sentiments.
   - Avec RoBERTa, vous pouvez obtenir des résultats précis sur une variété de tâches liées à l'analyse des sentiments, y compris la classification binaire (positif/négatif) ou la classification multi-classes (positif/neutre/négatif).

Ces outils et bibliothèques offrent différentes approches pour l'analyse des sentiments, chacune avec ses propres avantages et inconvénients en fonction du contexte d'application et des besoins spécifiques.

In [1]:
# Définition du modèle pré-entraîné à utiliser (dans ce cas, le modèle de sentiment basé sur RoBERTa pour Twitter)
MODEL = "cardiffnlp/twitter-roberta-base-sentiment"

# Initialisation du tokenizer avec le modèle pré-entraîné
tokenizer = AutoTokenizer.from_pretrained(MODEL)

# Initialisation du modèle de classification de séquence basé sur RoBERTa pour Twitter
model = AutoModelForSequenceClassification.from_pretrained(MODEL)

NameError: name 'AutoTokenizer' is not defined

## Init du MODEL 
Ce code initialise un modèle pré-entraîné pour l'analyse des sentiments basé sur RoBERTa pour Twitter en utilisant la bibliothèque Transformers de Hugging Face. Voici une explication ligne par ligne :

1. `MODEL = "cardiffnlp/twitter-roberta-base-sentiment"` :
   - Cette ligne définit le nom du modèle pré-entraîné à utiliser. Dans ce cas, le modèle choisi est "twitter-roberta-base-sentiment", qui est spécialement entraîné pour l'analyse des sentiments sur des tweets.

2. `tokenizer = AutoTokenizer.from_pretrained(MODEL)` :
   - Cette ligne initialise le tokenizer associé au modèle pré-entraîné spécifié. Le tokenizer est responsable de la tokenisation du texte en entrée, c'est-à-dire de la division du texte en tokens compréhensibles par le modèle. 
   - `AutoTokenizer.from_pretrained(MODEL)` charge automatiquement le tokenizer approprié pour le modèle spécifié.

3. `model = AutoModelForSequenceClassification.from_pretrained(MODEL)` :
   - Cette ligne initialise le modèle de classification de séquence basé sur RoBERTa pour Twitter.
   - `AutoModelForSequenceClassification.from_pretrained(MODEL)` charge automatiquement le modèle pré-entraîné spécifié et configure le modèle pour effectuer la classification de séquence, où l'objectif est de prédire la classe (ou le label) d'une séquence donnée, dans ce cas, le sentiment du tweet.

En résumé, ce code charge un modèle pré-entraîné et son tokenizer associé spécifiquement conçus pour l'analyse des sentiments sur des tweets en utilisant RoBERTa. Ces modèles pré-entraînés sont utiles pour effectuer rapidement et efficacement l'analyse des sentiments sur de grands volumes de données de texte provenant de Twitter.

In [None]:
def roberta_scores(text):
    encoded_text = tokenizer(text, return_tensors='pt')
    output = model(**encoded_text)
    scores = output.logits.detach().numpy()
    scores = softmax(scores, axis=1)
    scores_dict = {
        'rta_neg': scores[0, 0],
        'rta_neu': scores[0, 1],
        'rta_pos': scores[0, 2]
    }
    return scores_dict

Ce code définit une fonction `roberta_scores(text)` qui prend en entrée un texte et renvoie un dictionnaire contenant les scores de sentiment prédits pour ce texte par le modèle RoBERTa. Voici une explication ligne par ligne :

1. `encoded_text = tokenizer(text, return_tensors='pt')` :
   - Cette ligne utilise le tokenizer pour encoder le texte en une représentation compréhensible par le modèle RoBERTa.
   - Le texte est converti en tokens et encodé sous forme de tenseurs PyTorch (`'pt'`).
   - Les tokens encodés sont stockés dans la variable `encoded_text`.

2. `output = model(**encoded_text)` :
   - Cette ligne passe les tokens encodés au modèle RoBERTa pour obtenir les prédictions de sentiment.
   - Le modèle est appelé avec les tokens encodés en utilisant `**encoded_text` pour transmettre les arguments nommés.
   - Les prédictions sont stockées dans la variable `output`.

3. `scores = output.logits.detach().numpy()` :
   - Cette ligne extrait les scores de sortie prédits par le modèle à partir de l'objet `output`.
   - Les scores sont généralement des logits, c'est-à-dire des valeurs non normalisées, et sont détachés du graphe de calcul et convertis en un tableau NumPy pour un traitement ultérieur.
   - Les scores sont stockés dans la variable `scores`.

4. `scores = softmax(scores, axis=1)` :
   - Cette ligne applique la fonction softmax aux scores pour normaliser les valeurs et obtenir des probabilités de classe.
   - La fonction softmax est appliquée le long de l'axe des colonnes (axis=1) pour obtenir des probabilités pour chaque classe de sentiment.
   - Les scores normalisés sont stockés dans la variable `scores`.

5. `scores_dict = { 'rta_neg': scores[0, 0], 'rta_neu': scores[0, 1], 'rta_pos': scores[0, 2] }` :
   - Cette ligne crée un dictionnaire contenant les scores de sentiment prédits.
   - Les scores sont renommés en utilisant des clés descriptives ('rta_neg' pour négatif, 'rta_neu' pour neutre et 'rta_pos' pour positif) et sont associés à leurs valeurs correspondantes dans le tableau de scores normalisés.

6. `return scores_dict` :
   - Cette ligne renvoie le dictionnaire contenant les scores de sentiment prédits pour le texte donné par le modèle RoBERTa.

In [None]:
res = {}
# Diviser les données en 10 parties
num_parts = 10
part_size = len(data) // num_parts
for part in range(num_parts):
    start_idx = part * part_size
    end_idx = min((part + 1) * part_size, len(data))
    part_data = data.iloc[start_idx:end_idx]

    for i, row in tqdm(part_data.iterrows(), total=len(part_data)):
        try:
            text = row['Processed_Text']  
            my_id = row['Id']
            # Effectuer une analyse de sentiment avec RoBERTa
            roberta_result = roberta_scores(text)
            # Conserver uniquement les résultats de RoBERTa
            res[my_id] = roberta_result
        except Exception as e:
            print(f'Problème dans ID {my_id} : {e}')

Ce code effectue une analyse de sentiment sur les données textuelles en utilisant le modèle RoBERTa, puis stocke les résultats dans un dictionnaire pour chaque entrée de données. Voici une explication ligne par ligne :

1. `res = {}` : Cette ligne initialise un dictionnaire vide `res` qui sera utilisé pour stocker les résultats de l'analyse de sentiment.

2. `num_parts = 10` : Le nombre de parties dans lesquelles les données seront divisées. Cela peut être ajusté en fonction de la taille des données et des ressources disponibles.

3. `part_size = len(data) // num_parts` : Cette ligne calcule la taille de chaque partie des données en divisant le nombre total d'entrées de données par le nombre de parties.

4. La boucle `for part in range(num_parts):` itère sur chaque partie des données.

5. `start_idx = part * part_size` et `end_idx = min((part + 1) * part_size, len(data))` : Ces lignes calculent les indices de début et de fin pour chaque partie des données en fonction de la taille de la partie actuelle.

6. `part_data = data.iloc[start_idx:end_idx]` : Cette ligne extrait la partie correspondante des données en utilisant les indices calculés.

7. La boucle `for i, row in tqdm(part_data.iterrows(), total=len(part_data)):` itère sur chaque ligne de la partie de données, en affichant une barre de progression avec `tqdm`.

8. `text = row['Processed_Text']` et `my_id = row['Id']` : Ces lignes extraient le texte prétraité et l'identifiant de chaque ligne de données.

9. `roberta_result = roberta_scores(text)` : Cette ligne appelle une fonction `roberta_scores()` (non fournie dans ce code) pour effectuer une analyse de sentiment sur le texte en utilisant le modèle RoBERTa. Les résultats sont stockés dans la variable `roberta_result`.

10. `res[my_id] = roberta_result` : Cette ligne stocke les résultats de l'analyse de sentiment dans le dictionnaire `res`, en utilisant l'identifiant comme clé pour chaque entrée de données.

11. `except Exception as e:` : Cette clause `try-except` capture toute exception qui pourrait survenir lors de l'analyse de sentiment. Si une exception est levée, elle est affichée avec un message d'erreur spécifiant l'ID de l'entrée de données concernée.

En résumé, ce code divise les données en parties, puis effectue une analyse de sentiment sur chaque partie en utilisant le modèle RoBERTa. Les résultats sont stockés dans un dictionnaire, associant chaque identifiant de données aux scores de sentiment prédits.