# Feature engineering

En général pour qu'un modèle soit bien entraîné et fonctionne bien, on ne peut pas lui fournir les données telles quelles. Il faut les formatter et les préparer pour qu'elles soient adaptée au model. C'est le feature engineering. 

Il existe plusieurs types de feature engineering : 

1. Normalisation des valeurs numériques
2. Encodage des colonnes catégorielles (ordinal, one-hot encoding, hash-encoding, etc. )
3. Transformation de feature et création de feature d'interactions

## Normalisation de feature numériques

Etape essentielle car beaucoup de modèles ne vont pas marcher sans cela. En effet certaines variables ne seront pas bien représentées.


In [None]:
import pandas as pd

df = pd.DataFrame({
    "size": [10000, 20000, 100000], 
    'eau': [0, 1, 0], 
    'sellinsixmonth': [0, 1, 0]
    })

df



Unnamed: 0,size,eau,sellinsixmonth
0,10000,0,0
1,20000,1,1
2,100000,0,0


Pour Normaliser il deux grandes méthodes principales: 
- le min-max scaling: $ X' = \frac{X - min}{max-min} $
- le standard scaling $ X' = \frac{X - \mu}{\sigma} $

On peut bien sur faire ça en pandas directement mais scikit-learn propose des méthodes toutes perêts

In [None]:
# il faut normaliser les features numériques pour qu'elles aient toutes la même échelle

from sklearn.preprocessing import MinMaxScaler 

scaler = MinMaxScaler()

df['size'] = scaler.fit_transform(df[['size']])
df

Unnamed: 0,size,eau,sellinsixmonth
0,0.0,0,0
1,0.111111,1,1
2,1.0,0,0


In [None]:
df = pd.DataFrame({
    "size": [100, 120, 50], 
    'orientation': ['Sud', 'Est', 'Nord'], 
    'sellinsixmonth': [0, 1, 0]
})
df

Unnamed: 0,size,orientation,sellinsixmonth
0,100,Sud,0
1,120,Est,1
2,50,Nord,0


Si on veut utiliser la colonne orientation, il faut la transformer et on 2 options

- affecter un nombre à chaque Catégorie. Par exemple Sud : 0, Est : 1,  Ouest : 2. 
- faire ce qu on appelle du one hot encoding

Le problème de la première option est que cela peut créer une relation d'ordre implicite pas toujours vraie.


In [None]:
df2 = pd.get_dummies(df, columns=['orientation'])
df2

Unnamed: 0,size,sellinsixmonth,orientation_Est,orientation_Nord,orientation_Sud
0,100,0,0,0,1
1,120,1,1,0,0
2,50,0,0,1,0


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=25ad01f7-ec4b-4ac8-bce6-a3745ef02c96' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>