# Objectifs

- OneHotEncoder
- HiddenApi
- Selenium

# OneHotEncoder

In [1]:
import pandas as pd

In [3]:
entree = pd.Series(list("abcdeabcbadbfbabsbdbsab"))
entree

0     a
1     b
2     c
3     d
4     e
5     a
6     b
7     c
8     b
9     a
10    d
11    b
12    f
13    b
14    a
15    b
16    s
17    b
18    d
19    b
20    s
21    a
22    b
dtype: object

In [4]:
entree.dtype

dtype('O')

**Exercice**
On a un nombre fini de catégorie, pour numériser la colonne on les numérote.

In [15]:
valeurs_uniques = set(entree)
valeurs_uniques

{'a', 'b', 'c', 'd', 'e', 'f', 's'}

In [16]:
conversion = {
    valeur: i for i, valeur in enumerate(valeurs_uniques)
}
conversion

{'a': 0, 'e': 1, 's': 2, 'f': 3, 'd': 4, 'b': 5, 'c': 6}

In [9]:
entree_bis = [conversion[valeur] for valeur in entree]
entree_bis

[0, 5, 6, 4, 1, 0, 5, 6, 5, 0, 4, 5, 3, 5, 0, 5, 2, 5, 4, 5, 2, 0, 5]

In [14]:
df = pd.DataFrame({"origine": entree, "convertie": pd.Series(entree_bis)})
df

Unnamed: 0,origine,convertie
0,a,0
1,b,5
2,c,6
3,d,4
4,e,1
5,a,0
6,b,5
7,c,6
8,b,5
9,a,0


**REMARQUE** Ce `LabelEncoder` rajoute artificiellement une notion d'ordre et de distance dans le dataset, ce qui peut biaiser l'apprentissage.
Par exemple, une fonction linéaire va respecter l'ordre et la distance.

**EXERCICE** Faire apparaître une nouvelle colonne par valeur et mettre un 1 dans la colonne correspondante à chaque ligne.

In [17]:
df = pd.DataFrame(
    {
        clef: [1 if valeur == clef else 0 for valeur in entree]
        for clef in valeurs_uniques
    }
)


In [18]:
df

Unnamed: 0,a,e,s,f,d,b,c
0,1,0,0,0,0,0,0
1,0,0,0,0,0,1,0
2,0,0,0,0,0,0,1
3,0,0,0,0,1,0,0
4,0,1,0,0,0,0,0
5,1,0,0,0,0,0,0
6,0,0,0,0,0,1,0
7,0,0,0,0,0,0,1
8,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0


In [20]:
# En fait pandas permet de faire ça
pd.get_dummies(entree)

Unnamed: 0,a,b,c,d,e,f,s
0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0
2,0,0,1,0,0,0,0
3,0,0,0,1,0,0,0
4,0,0,0,0,1,0,0
5,1,0,0,0,0,0,0
6,0,1,0,0,0,0,0
7,0,0,1,0,0,0,0
8,0,1,0,0,0,0,0
9,1,0,0,0,0,0,0


In [21]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [27]:
import numpy as np

In [22]:
le = LabelEncoder()
le.fit_transform(entree)

array([0, 1, 2, 3, 4, 0, 1, 2, 1, 0, 3, 1, 5, 1, 0, 1, 6, 1, 3, 1, 6, 0,
       1])

In [29]:
ohe = OneHotEncoder()
sparse = ohe.fit_transform(entree.values.reshape((-1, 1)))

In [30]:
sparse.todense()

matrix([[1., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1.],
        [1., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0.]])

 **ATTENTION** dans le cas où les entrée sont des phrases entières on utilisera plutôt la technique de *bag of words*.On utiliserait le module `sklearn.feature_extraction.text` pour numériser ce genre d'entrée.
 
 Pour gérer du texte de manière plus sophistiqué on pourra utiliser les librairies `nltk` et `spacy`.