<a href="https://colab.research.google.com/github/Hedredo/dagshub_p7/blob/main/exploration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HOW-TO MLFLOW

**How to use MLflow to log params and metrics**

```
with mlflow.start_run():
  # Your training code here...
  mlflow.log_metric('accuracy', 42)
  mlflow.log_param('Param name', 'Value')
```


**Turn on autologging for most popular ML frameworks**<br>
For more info and list of supported frameworks, see: https://mlflow.org/docs/latest/tracking.html#automatic-logging<br>



```
mlflow.autolog()
```



### Option 1 : Utiliser `Make` via **WSL (Windows Subsystem for Linux)**

Le **Windows Subsystem for Linux** te permet d'exécuter un environnement Linux directement sur Windows, ce qui est très pratique pour ce genre de tâche.

1. **Installer WSL** :
   - Ouvre PowerShell en mode administrateur et exécute :
     ```powershell
     wsl --install
     ```
   - Cela installera WSL et une distribution Linux par défaut (comme Ubuntu). Il se peut que tu doives redémarrer ton ordinateur.

2. **Installer `make` sous WSL** :
   - Ouvre le terminal Ubuntu (ou une autre distribution Linux que tu as installée via WSL) et exécute les commandes suivantes :
     ```bash
     sudo apt update
     sudo apt install build-essential
     ```
   - Cela installera `make` ainsi que d’autres outils de développement essentiels.

3. **Naviguer jusqu’à ton répertoire de projet** :
   - Utilise le terminal WSL pour naviguer vers le dossier de ton projet. Si ton projet est situé sur le disque C, il sera monté sous `/mnt/c`. Par exemple :
     ```bash
     cd /mnt/c/Users/TonNomUtilisateur/Chemin/Vers/TonProjet
     ```
   
4. **Exécuter `make dirs`** :
   - Maintenant que tu es dans ton répertoire de projet, exécute simplement :
     ```bash
     make dirs
     ```

# ENVIRONNEMENT CONFIGURATION

In [7]:
%pip install -q dagshub mlflow

In [15]:
import dagshub
import mlflow
import warnings
import pandas as pd
import os
from google.colab import drive

In [11]:
# Remove FutureWarning alerts
warnings.filterwarnings('ignore', category=FutureWarning)

# Initialize dagshub repo
dagshub.init(repo_owner='hedredo', repo_name='dagshub_p7', mlflow=True)

Output()



Open the following link in your browser to authorize the client:
https://dagshub.com/login/oauth/authorize?state=b62224e4-0dcf-43d5-b3b0-ab2480b7c1c0&client_id=32b60ba385aa7cecf24046d8195a71c07dd345d9657977863b52e7748e0f0f28&middleman_request_id=98ec1f47198c5715b7562641afdefaa379d550a11a4e3558611ccb4d08a6a6b2




In [8]:
# Mount google drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [13]:
path = "/content/drive/MyDrive/Formation & Emploi/OpenClassRooms/OC Projets de formation/Projet 7/training.1600000.processed.noemoticon.csv"

In [18]:
# Lecture du csv avec pandas
chunks = pd.read_csv(
    path,
    header=None,
    names=['target', 'ids', 'date', 'flag', 'user', 'text'],
    parse_dates=['date'],
    encoding='utf-8',
    chunksize=1000
    )

- target : cible composée de 0:negative et 4:positive uniforme (environ 50 50)
- id : identifiant unique pour chaque tweet. Un tweet peut être en double avec un même id annoté soit positif (4) soit négatif (0). C'est le seul champs qui peut varier.
- date : la date du tweet (l'heure n'est pas fournie). PDT est l'heure du pacifique. Tous les tweets sont en PDT et la valeur est retiré lors du parsing
- flag : toutes les valeurs sont à no query, useless
- user : nom de l'utilisateur qui a posté le tweet. Peut être présent sur plusieurs tweets.
- text : le texte du tweet

**BLOC-NOTES**
- Lire la description du projet
- Regarder les notes google drive de PA
- Faire un tableau markdown pour synthétiser le contenu
- Importer uniquement les données utiles
- Convertir les données dans le bon format
- Faire une EDA et voir par exemple si le jour, l'heure, le mois ont un impact sur le sentiment
- Faire une wordcloud pour voir les mots les plus fréquents selon la target
- Faire un comptage de mots, ponctuation, hashtag, mention, url et regarder si leur nombre a un impact sur la classe
- Préparer les corpus avec différentes options de prétraitement