# Un notebook Jupyter pour tester des modèles pré-entraînés pour l'analyse de sentiments

## Importation des Bibliothèques Nécessaires
Importer les bibliothèques nécessaires, notamment `transformers`, `sklearn`, `numpy`, et `mlflow`.

In [None]:
# Importation des bibliothèques nécessaires
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import numpy as np
import pandas as pd
import mlflow
import mlflow.sklearn

## Chargement des Données
Charger les données textuelles et les labels associés pour l'analyse de sentiments.

In [None]:
# Chargement des données
# Exemple : Charger un fichier CSV contenant des tweets et leurs sentiments associés
data = pd.read_csv("tweet_data_final.csv")
data.info()
data.head()

# Diviser les données en texte et labels
texts = data["text_cleaned_tokens_stem"]
labels = data["target"]

# Diviser les données en ensembles d'entraînement et de validation
X_train, X_val, y_train, y_val = train_test_split(texts, labels, test_size=0.2, random_state=42, stratify=labels)

## Définition de la Fonction `evaluate_model`
Définir une fonction `evaluate_model` qui charge un modèle pré-entraîné, effectue la tokenisation, divise les données en ensembles d'entraînement et de validation, et calcule les métriques de performance.

In [None]:
# Définir une fonction pour évaluer un modèle pré-entraîné
def evaluate_model(model_name, X_train, X_val, y_train, y_val):
    """
    Évalue un modèle pré-entraîné pour l'analyse de sentiments.
    
    Args:
        model_name (str): Nom du modèle pré-entraîné à charger.
        X_train (list): Ensemble d'entraînement des textes.
        X_val (list): Ensemble de validation des textes.
        y_train (list): Labels associés à l'ensemble d'entraînement.
        y_val (list): Labels associés à l'ensemble de validation.
    """
    # Initialiser MLflow
    if mlflow.active_run() is not None:
        mlflow.end_run()
    
    with mlflow.start_run(run_name=model_name):
        # Charger le tokenizer et le modèle
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        model = AutoModelForSequenceClassification.from_pretrained(model_name)
        
        # Créer un pipeline pour la classification
        sentiment_pipeline = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
        
        # Prédictions sur l'ensemble de validation
        predictions = sentiment_pipeline(X_val.tolist())
        predicted_labels = [1 if pred["label"] == "POSITIVE" else 0 for pred in predictions]
        
        # Calculer les métriques
        accuracy = accuracy_score(y_val, predicted_labels)
        report = classification_report(y_val, predicted_labels, target_names=["NEGATIVE", "POSITIVE"])
        
        # Enregistrer les métriques dans MLflow
        mlflow.log_param("model_name", model_name)
        mlflow.log_metric("accuracy", accuracy)
        mlflow.log_text(report, "classification_report.txt")
        
        print(f"Modèle : {model_name}")
        print(f"Accuracy : {accuracy}")
        print(report)

## Évaluation des Modèles Pré-entraînés
Utiliser `mlflow` pour suivre les performances des modèles pré-entraînés suivants : `bert-base-uncased`, `textattack/bert-base-uncased-imdb`, `cardiffnlp/twitter-roberta-base-sentiment`, `finiteautomata/bertweet-base-sentiment-analysis`, `vinai/bertweet-base`, `nlptown/bert-base-multilingual-uncased-sentiment`, et `distilbert-base-uncased`.

In [None]:
# Liste des modèles pré-entraînés à évaluer
pretrained_models = [
    "bert-base-uncased",
    "textattack/bert-base-uncased-imdb",
    "cardiffnlp/twitter-roberta-base-sentiment",
    "finiteautomata/bertweet-base-sentiment-analysis",
    "vinai/bertweet-base",
    "nlptown/bert-base-multilingual-uncased-sentiment",
    "distilbert-base-uncased"
]

# Évaluer chaque modèle
for model_name in pretrained_models:
    evaluate_model(model_name, X_train, X_val, y_train, y_val)

# MLFLOW : 
Test du serving :
Déployer un modèle avec MLFlow Serving :
5001
Tester l'API de prédiction via un client HTTP (par exemple, Postman ou requests en Python).


3. Mise en œuvre d’un pipeline de déploiement continu
Objectif : Automatiser le déploiement du modèle via une API avec des tests unitaires.
Étapes :

    1. Versionner le code avec Git et GitHub :

        - Créer un dépôt GitHub pour le projet.
        - Organiser le code en dossiers :
            - src : Contient le code source du modèle et de l’API.
            ├── src/
            │   ├── model_training.py
            │   ├── api.py
            │   ├── tests/
            │       ├── test_api.py
            │       ├── test_model.py
            ├── [requirements.txt](http://_vscodecontentref_/0)
            ├── Dockerfile
            ├── [README.md](http://_vscodecontentref_/1)

    2. Créer une API pour le modèle :
        - Utiliser FastAPI ou Flask pour exposer le modèle via une API :
            from fastapi import FastAPI
            import mlflow.pyfunc

            app = FastAPI()
            model = mlflow.pyfunc.load_model("models:/model_name/Production")

            @app.post("/predict/")
            def predict(tweet: str):
                prediction = model.predict([tweet])
                return {"prediction": prediction}

    3. Écrire des tests unitaires :
        - Utiliser pytest pour tester l'API et le modèle :
            def test_prediction():
                response = client.post("/predict/", json={"tweet": "This is a test tweet"})
                assert response.status_code == 200
                assert "prediction" in response.json()

    4. Configurer un pipeline CI/CD :
        - Utiliser GitHub Actions pour automatiser les tests et le déploiement :
        Exemple de fichier .github/workflows/deploy.yml :

        name: CI/CD Pipeline

        on:
        push:
            branches:
            - main

        jobs:
        test:
            runs-on: ubuntu-latest
            steps:
            - uses: actions/checkout@v3
            - name: Set up Python
                uses: actions/setup-python@v3
                with:
                python-version: 3.8
            - name: Install dependencies
                run: pip install -r requirements.txt
            - name: Run tests
                run: pytest

        deploy:
            runs-on: ubuntu-latest
            needs: test
            steps:
            - uses: actions/checkout@v3
            - name: Deploy to Azure
                run: az webapp up --name <app_name> --resource-group <resource_group> --runtime "PYTHON:3.8"

    5. Déployer sur une plateforme Cloud gratuite :
        - Utiliser Azure Web App (ASP F1 gratuit) :
        az webapp up --name <app_name> --resource-group <resource_group> --runtime "PYTHON:3.8"

        - Alternatives : Heroku, PythonAnywhere, etc.

    




4.  Suivi de la performance en production avec Azure Application Insights

- Objectif : Mettre en place un suivi des prédictions et des alertes.
- Étapes :
    1. Configurer Application Insights :
        - Créer un service Application Insights sur Azure.
        - Ajouter le SDK Python dans le projet :

            pip install opencensus-ext-azure
        - Configurer le traçage dans l'API :

        from opencensus.ext.azure.log_exporter import AzureLogHandler
        import logging

        logger = logging.getLogger(__name__)
        logger.addHandler(AzureLogHandler(connection_string="InstrumentationKey=<your_instrumentation_key>"))

        @app.post("/predict/")
        def predict(tweet: str):
            prediction = model.predict([tweet])
            if prediction_is_wrong(tweet, prediction):
                logger.warning(f"Misclassified tweet: {tweet}, Prediction: {prediction}")
            return {"prediction": prediction}

    2. Déclencher des alertes :
        - Configurer une alerte dans Application Insights pour détecter un nombre élevé de prédictions incorrectes :
        - Exemple : Déclencher une alerte si plus de 3 erreurs en 5 minutes.

    3. Analyser les statistiques :
        - Utiliser les logs d'Application Insights pour identifier les tweets mal prédits.
        - Mettre en place un processus d'amélioration continue :
            - Collecter les tweets mal prédits.
            - Réentraîner le modèle avec ces données.




Pour récupérer les credentials azure:
installer azure cli https://learn.microsoft.com/en-us/cli/azure/install-azure-cli-windows?tabs=azure-cli
sur vscode ouvrir un terminal et taper az login
az ad sp create-for-rbac --name "github-deployment-sp" --role contributor --scopes /subscriptions/YOUR_SUBSCRIPTION_ID/resourceGroups/YOUR_RESOURCE_GROUP --sdk-auth
Le résultat devrait ressembler à ça
{
  "clientId": "your-client-id",
  "clientSecret": "your-client-secret",
  "subscriptionId": "your-subscription-id",
  "tenantId": "your-tenant-id",
  "activeDirectoryEndpointUrl": "https://login.microsoftonline.com/",
  "resourceManagerEndpointUrl": "https://management.azure.com/",
  "activeDirectoryGraphResourceId": "https://graph.windows.net/",
  "sqlManagementEndpointUrl": "https://management.core.windows.net:8443/",
  "galleryEndpointUrl": "https://gallery.azure.com/",
  "managementEndpointUrl": "https://management.core.windows.net/"
}
AZURE_CREDENTIALS: The JSON output from the Service Principal creation.
AZURE_RESOURCE_GROUP: The name of your Azure resource group.
AZURE_WEBAPP_NAME (if deploying to App Service): The name of your App Service.
AZURE_REGION (if deploying to App Service): The region of your App Service.
AZURE_CONTAINER_REGISTRY (if using ACR): The name of your container registry.
AZURE_REGISTRY_LOGIN_SERVER (if using ACR): The login server URL of your container registry.
AZURE_REGISTRY_USERNAME and AZURE_REGISTRY_PASSWORD (if using ACR): The credentials for your ACR.
Install the Azure CLI for Windows
To install the Azure CLI on Windows, you must use PowerShell, or an MSI installer, which gives you access to the CLI through the Windows Command Prompt (CMD).
Install the Azure CLI for Windows
créer le compte azure
créer un azure container registry puis éxécuter ce qui suit

In [None]:
Azure for Students