## <center style="color:red">**News Classifier**</center>

### <center>**ML Pipeline with Sentence Transformers, ChromaDB & Airflow**</center>

Ce projet vise à construire un pipeline complet de classification de textes permettant de catégoriser automatiquement des articles d’actualité dans 4 classes :

- World
- Sports
- Business
- Sci/Tech

Le pipeline utilise des techniques NLP avancées, des embeddings vectoriels, une base de données vectorielle et une orchestration via Apache Airflow.

<br>

### <span style="color:green">**Préparation des Données :**</span>

#### <span style="color:orange">**1. Installer et Configurer `datasets` :**</span>

##### **1.1. Hugging Face :**

`Hugging Face` est une plateforme et une communauté open-source spécialisée dans l’intelligence artificielle, particulièrement dans le traitement du langage (NLP).

Elle fournit un vaste écosystème regroupant des **modèles pré-entraînés**, des **datasets publics**, des **bibliothèques puissantes** comme *transformers*, *datasets* ou *diffusers*, et des *outils pour entraîner*, **optimiser, déployer et partager des modèles d’IA**.

Grâce à sa simplicité d’utilisation, ses API efficaces et sa communauté très active, `Hugging Face` est devenu un hub central de l’IA moderne, facilitant la création d’applications avancées en NLP, vision ou audio.

En résumé, c’est un GitHub spécialisé pour l’IA, rassemblant modèles, données, outils et ressources pédagogiques dans un même écosystème.

##### **1.2. datasets de Hugging Face :**

La bibliothèque datasets de Hugging Face est un outil Python open-source conçu pour charger, manipuler et partager des jeux de données destinés à l’apprentissage automatique et au NLP. Elle fournit une interface simple et efficace pour accéder à des milliers de datasets publics ou privés hébergés sur Hugging Face, mais permet aussi de créer et gérer ses propres datasets locaux.

**Fonctions principales :**

- Chargement facile de datasets publics.
- Manipulation et transformation.
- Compatibilité avec plusieurs frameworks.
- Optimisation pour la performance.
- Partage et collaboration.

**Installation de base :**

```bash
pip install datasets
```

Cela installe la bibliothèque principale et toutes ses dépendances minimales pour charger et manipuler des datasets.

In [1]:
import datasets

print(datasets.__version__)

  from .autonotebook import tqdm as notebook_tqdm


4.4.1


#### <span style="color:orange">**2. Charger le dataset `SetFit/ag_news` :**</span>

`SetFit/ag_news` est un dataset public disponible sur Hugging Face, composé d’articles d’actualité courts classés en quatre catégories : **World**, **Sports**, **Business** et **Sci/Tech**.

Ce jeu de données est largement utilisé pour entraîner et évaluer des modèles de classification de texte, car il est propre, équilibré et adapté aux tâches NLP.

La version publiée par SetFit est formatée pour être directement compatible avec la bibliothèque datasets, ce qui facilite son chargement, sa manipulation et son intégration dans des pipelines d’apprentissage automatique.

En résumé, `SetFit/ag_news` est une ressource standard et fiable pour développer des systèmes de classification d’articles de news.

In [3]:
from datasets import load_dataset

dataset = load_dataset("SetFit/ag_news")

print(dataset)

DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'label_text'],
        num_rows: 120000
    })
    test: Dataset({
        features: ['text', 'label', 'label_text'],
        num_rows: 7600
    })
})


#### <span style="color:orange">**3. Convertir en DataFrame Pandas :**</span>

In [8]:
import pandas as pd

df_train = pd.DataFrame(dataset["train"])

df_test = pd.DataFrame(dataset["test"])

print("Dataset Convertie avec Succès !")

Dataset Convertie avec Succès !


In [9]:
df_train.head()

Unnamed: 0,text,label,label_text
0,Wall St. Bears Claw Back Into the Black (Reute...,2,Business
1,Carlyle Looks Toward Commercial Aerospace (Reu...,2,Business
2,Oil and Economy Cloud Stocks' Outlook (Reuters...,2,Business
3,Iraq Halts Oil Exports from Main Southern Pipe...,2,Business
4,"Oil prices soar to all-time record, posing new...",2,Business


In [5]:
df_test.head()

Unnamed: 0,text,label,label_text
0,Fears for T N pension after talks Unions repre...,2,Business
1,The Race is On: Second Private Team Sets Launc...,3,Sci/Tech
2,Ky. Company Wins Grant to Study Peptides (AP) ...,3,Sci/Tech
3,Prediction Unit Helps Forecast Wildfires (AP) ...,3,Sci/Tech
4,Calif. Aims to Limit Farm-Related Smog (AP) AP...,3,Sci/Tech


#### <span style="color:orange">**4. Sauvegarder un Echantillon Local :**</span>

In [12]:
df_train.to_csv("../data/raw/train.csv", index=False)

df_test.to_csv("../data/raw/test.csv", index=False)

print("Dataframes Enregistrées avec Succès !")

Dataframes Enregistrées avec Succès !
