# ‚ú® Pr√©paration des features pour mod√®les ML
Ce notebook reproduit √©tape par √©tape le script `prepare_features.py`, avec une explication d√©taill√©e de chaque transformation.

## Objectifs
- Nettoyage, vectorisation, et encodage des variables
- Cr√©ation des matrices d'entr√©e `X` et des cibles `y`
- Sauvegarde des features pour l'entra√Ænement de mod√®les

## üì¶ Import des biblioth√®ques n√©cessaires
On importe ici les librairies indispensables pour manipuler les donn√©es (Pandas, NumPy), vectoriser du texte (TfidfVectorizer), encoder les variables cat√©gorielles (OneHotEncoder), et sauvegarder les objets pour les r√©utiliser dans l'entra√Ænement.

**Choix des biblioth√®ques et raisons ?**

- **`pandas`** : pour la manipulation tabulaire efficace des donn√©es structur√©es (chargement CSV, nettoyage, s√©lection).
- **`numpy`** : pour la manipulation de vecteurs et matrices num√©riques, conversion de types, calculs rapides.
- **`os`** : permet de construire des chemins de fichiers dynamiques et compatibles tous syst√®mes (`os.path.join()`).
- **`sklearn.feature_extraction.text.TfidfVectorizer`** : convertit le texte brut en vecteurs num√©riques pond√©r√©s, tr√®s adapt√© pour des mod√®les ML supervis√©s sur des donn√©es textuelles.
- **`sklearn.preprocessing.OneHotEncoder`** : encode les variables cat√©gorielles (comme le niveau vendeur) en vecteurs binaires, indispensable pour les algorithmes ML traditionnels.
- **`scipy.sparse`** : stocke efficacement en m√©moire les matrices creuses g√©n√©r√©es par le TF-IDF ou le OneHot (√©conomie m√©moire et rapidit√©).
- **`joblib`** : biblioth√®que optimis√©e pour s√©rialiser (sauvegarder/recharger) les objets Python lourds, comme les mod√®les entra√Æn√©s ou les preprocessors.

In [1]:
import pandas as pd
import numpy as np
import joblib
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import OneHotEncoder
from scipy import sparse
import os

## üìÇ Chargement du dataset Fiverr nettoy√©
Nous utilisons le fichier CSV issu de l'ingestion pr√©c√©dente. 
**Encodage 'latin-1'** choisi pour √©viter les erreurs li√©es aux caract√®res sp√©ciaux.  
Cette √©tape consiste √† **importer les donn√©es nettoy√©es** depuis un fichier `.csv`, afin de pouvoir les manipuler avec `pandas`. Elle intervient **en tout d√©but de pipeline**, juste apr√®s l'ingestion et le nettoyage initial, car toutes les √©tapes suivantes (vectorisation, encodage, pr√©diction) n√©cessitent un DataFrame propre et charg√© en m√©moire.

### Pourquoi cette √©tape maintenant ?
- Elle constitue le point d‚Äôentr√©e du pipeline de **pr√©traitement et d‚Äôinf√©rence**.
- C‚Äôest √† partir de ce dataset que nous allons appliquer les traitements (vectorisation, encodage), entra√Æner ou utiliser les mod√®les, et produire les pr√©dictions.
- Il est important que cette √©tape soit r√©alis√©e **avant tout calcul ou transformation**, pour garantir que les donn√©es soient bien disponibles dans leur √©tat attendu.

### R√©sultat attendu
- Le DataFrame `df` est charg√© avec l‚Äôensemble des lignes et colonnes du fichier CSV.
- C‚Äôest **la base de travail unique** utilis√©e pour le pr√©traitement, la vectorisation et les pr√©dictions futures.
- On peut ensuite visualiser les premi√®res lignes pour **v√©rifier visuellement la structure et le contenu**, d√©tecter d‚Äô√©ventuelles erreurs, ou simplement comprendre les donn√©es disponibles.

In [5]:
# Chargement du fichier CSV dans un DataFrame pandas

df = pd.read_csv(
    'data/fiverr_gigs/fiverr-data-gigs-cleaned.csv', # Chemin relatif vers le fichier de donn√©es
    encoding='latin-1', # Utilis√© pour d√©coder les caract√®res sp√©ciaux (utile si UTF-8 g√©n√®re des erreurs, fr√©quent avec des accents)
    low_memory=False # Force pandas √† lire tout le fichier avant de deviner les types de colonnes (√©vite les avertissements ou erreurs)
)

# Affiche les 10 premi√®res lignes du DataFrame pour en examiner un aper√ßu
df.head(10)

Unnamed: 0,Title,Seller Level,Average Rating,Number of Reviewers,Price (USD)
0,"I will do excel formulas, vba macros, charts, ...",Level 2 Seller,5.0,56,41.433333
1,"I will do data mining, web scraping, data extr...",Top Rated Seller,5.0,1k+,15.538095
2,"I will do web scraping , data scraping, scrapi...",Level 2 Seller,5.0,63,10.361905
3,"I will do python web scraping , data entry , a...",Level 2 Seller,5.0,266,5.180952
4,I will data scraping web site scraping and dat...,Level 2 Seller,4.9,275,20.719048
5,"I will do perfect web scraping, data mining fo...",Level 2 Seller,5.0,181,10.361905
6,I will write web scraper using python for you,Top Rated Seller,5.0,211,51.790476
7,"I will do web scraping, crawling and data mini...",Top Rated Seller,5.0,398,82.861905
8,"I will do website scraping, python scripts aut...",Level 2 Seller,5.0,61,20.719048
9,I will automate your documents with python scr...,Clients,5.0,16,103.580952


## üß† Vectorisation du texte (TF-IDF)
On transforme la colonne `Title` (texte libre) en vecteurs num√©riques.

**Pourquoi TF-IDF ?**
- Repr√©sente l'importance des mots dans le corpus
- Plus performant qu‚Äôun simple comptage (CountVectorizer)
- Adapt√© √† des mod√®les lin√©aires et arbres de d√©cision

In [None]:
tfidf = TfidfVectorizer(max_features=2000, stop_words='english')
tfidf.fit(df['Title'].fillna(''))
X_title = tfidf.transform(df['Title'].fillna(''))

## üî¢ Encodage du niveau du vendeur
On encode la colonne `Seller Level` (cat√©gorielle) avec un OneHotEncoder.

**Pourquoi OneHotEncoder ?**
- Convertit chaque niveau en une colonne binaire distincte
- Compatible avec la plupart des mod√®les supervis√©s

On g√®re √©galement les valeurs inconnues (`handle_unknown='ignore'`).

In [None]:
ohe = OneHotEncoder(sparse=True, handle_unknown='ignore')
X_level = ohe.fit_transform(df['Seller Level'].fillna('Unknown').values.reshape(-1, 1))

## üî¢ Nombre d‚Äôavis (Feature num√©rique)
On utilise la colonne `Number of Reviews` telle quelle, convertie en tableau sparse pour l‚Äôempilement final.

In [None]:
X_reviews = sparse.csr_matrix(df['Number of Reviews'].fillna(0).values.reshape(-1, 1))

## üß© Construction de la matrice finale X
On combine les trois types de features :
- TF-IDF du titre
- One-hot du niveau
- Nombre d‚Äôavis

In [None]:
X = sparse.hstack([X_title, X_level, X_reviews], format='csr')
print(f"Matrice finale X : {X.shape}")

## üéØ Extraction des variables cibles (multi-sortie)
Nous voulons pr√©dire :
- `Price` (r√©gression)
- `Rating` (r√©gression)
- `Seller Level` (classification)

Les deux premi√®res sont regroup√©es dans une matrice Y pour un mod√®le `MultiOutputRegressor`.

In [None]:
y_reg = df[['Price', 'Rating']].fillna(0)
y_class = df['Seller Level'].fillna('Unknown')

## üíæ Sauvegarde des objets (mod√®les et features)
**Pourquoi sauvegarder ici ?**
- Pour s√©parer les √©tapes (pr√©traitement, entra√Ænement, d√©ploiement)
- Pour r√©utiliser les objets dans `train_multioutput.py` ou `app_gradio.py`

In [None]:
joblib.dump(tfidf, 'models/tfidf_vectorizer.pkl')
joblib.dump(ohe, 'models/ohe_encoder.pkl')
sparse.save_npz('data/X_features.npz', X)
y_reg.to_csv('data/y_reg.csv', index=False)
y_class.to_csv('data/y_class.csv', index=False)