# Partie 2: Manipuler les variables catégoriques dans un jeu de données

In [5]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [6]:
donnees = {
    "Produit": ["chemise", "chaussure", "parfum", "chemise"],
    "Marque": ["guess", "adidas", "dior", "h&m"],
    "Genre": ["homme", "femme", "femme", "homme"],
    "Prix": [50.99, 44, 120, 45]
}

data = pd.DataFrame(donnees)
data

Unnamed: 0,Produit,Marque,Genre,Prix
0,chemise,guess,homme,50.99
1,chaussure,adidas,femme,44.0
2,parfum,dior,femme,120.0
3,chemise,h&m,homme,45.0


In [7]:
data_copy = data.copy()
data_copy2 = data.copy()

### Encodage avec LabelEncoder

On peut créer de nouvelle colonne pour le DataFrame.

In [8]:
from sklearn.preprocessing import LabelEncoder
label_produit = LabelEncoder()
data["ProduitX"] = label_produit.fit_transform(data.iloc[:,0])
data

Unnamed: 0,Produit,Marque,Genre,Prix,ProduitX
0,chemise,guess,homme,50.99,1
1,chaussure,adidas,femme,44.0,0
2,parfum,dior,femme,120.0,2
3,chemise,h&m,homme,45.0,1


In [9]:
label = LabelEncoder()
data["MarqueX"] = label.fit_transform(data.iloc[:,1])
data

Unnamed: 0,Produit,Marque,Genre,Prix,ProduitX,MarqueX
0,chemise,guess,homme,50.99,1,2
1,chaussure,adidas,femme,44.0,0,0
2,parfum,dior,femme,120.0,2,1
3,chemise,h&m,homme,45.0,1,3


In [10]:
label = LabelEncoder()
data["GenreX"] = label.fit_transform(data.iloc[:,2])
data

Unnamed: 0,Produit,Marque,Genre,Prix,ProduitX,MarqueX,GenreX
0,chemise,guess,homme,50.99,1,2,1
1,chaussure,adidas,femme,44.0,0,0,0
2,parfum,dior,femme,120.0,2,1,0
3,chemise,h&m,homme,45.0,1,3,1


Comme on peut l'appliquer directement sur tout les variabls.

In [11]:
data_2 = data_copy.iloc[:,:-1].apply(label.fit_transform)
data_2.head()

Unnamed: 0,Produit,Marque,Genre
0,1,2,1
1,0,0,0
2,2,1,0
3,1,3,1


### Encodage avec OneHotEncoder

In [17]:
from sklearn.preprocessing import OneHotEncoder
import warnings
warnings.simplefilter("ignore")

# TODO: créer l'objet enc
# 1. INSTANTIATE
enc = OneHotEncoder()
# 2. Fit_Transform
# utilisées des donneés ( data from last script with LabelEncoder) 
onehotlabels = enc.fit_transform(data_2).toarray()
onehotlabels.shape
# (4, 9) même nombre de lignes mais avec nombre de colonnes différent

(4, 9)

In [18]:
onehotlabels

array([[0., 1., 0., 0., 0., 1., 0., 0., 1.],
       [1., 0., 0., 1., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 1., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0., 0., 1., 0., 1.]])

**OneHotEncoder** transforme les données catégoriques en variables numériques binaires. Il associe à chaque variables une autre colonne supplémentaire?!!

On peut revenir en arrière avec la méthode ```inverse_transform```

In [19]:
inverted = enc.inverse_transform(onehotlabels)
inverted

array([[1., 2., 1.],
       [0., 0., 0.],
       [2., 1., 0.],
       [1., 3., 1.]])

In [15]:
pd.DataFrame(inverted)

Unnamed: 0,0,1,2
0,1.0,2.0,1.0
1,0.0,0.0,0.0
2,2.0,1.0,0.0
3,1.0,3.0,1.0


### Liens utils

[Lien (1)](https://towardsdatascience.com/encoding-categorical-features-21a2651a065c)
[Lien (2)](https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/)