# Traitement amélioré des catégories

Ce notebook présenté des encoding différents de ceux implémentées dans [scikit-learn](http://scikit-learn.org/stable/).

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

In [2]:
%matplotlib inline

On construit un jeu très simple avec deux catégories, une entière, une au format texte.

In [3]:
import pandas
import numpy
df = pandas.DataFrame(dict(cat_int=[10, 20, 10, 39, 10, 10, numpy.nan],
                          cat_text=['catA', 'catB', 'catA', 'catDD', 'catB', numpy.nan, 'catB']))
df

Unnamed: 0,cat_int,cat_text
0,10.0,catA
1,20.0,catB
2,10.0,catA
3,39.0,catDD
4,10.0,catB
5,10.0,
6,,catB


## Une API un peu différente

Le module [Category Encoders](http://contrib.scikit-learn.org/categorical-encoding/index.html) implémente d'autres options avec une [API](http://contrib.scikit-learn.org/categorical-encoding/onehot.html) un peu différente puisqu'il est possible de spécifier la colonne sur laquelle s'applique l'encoding.

In [4]:
from category_encoders import OneHotEncoder
OneHotEncoder(cols=['cat_text']).fit_transform(df)

Unnamed: 0,cat_text_0,cat_text_1,cat_text_2,cat_text_3,cat_text_-1,cat_int
0,1,0,0,0,0,10.0
1,0,1,0,0,0,20.0
2,1,0,0,0,0,10.0
3,0,0,1,0,0,39.0
4,0,1,0,0,0,10.0
5,0,0,0,0,1,10.0
6,0,1,0,0,0,


## Autres options

In [5]:
import category_encoders
encoders = []
for k, enc in category_encoders.__dict__.items():
    if 'Encoder' in k:
        encoders.append(enc)
encoders

[category_encoders.backward_difference.BackwardDifferenceEncoder,
 category_encoders.binary.BinaryEncoder,
 category_encoders.hashing.HashingEncoder,
 category_encoders.helmert.HelmertEncoder,
 category_encoders.one_hot.OneHotEncoder,
 category_encoders.ordinal.OrdinalEncoder,
 category_encoders.sum_coding.SumEncoder,
 category_encoders.polynomial.PolynomialEncoder,
 category_encoders.basen.BaseNEncoder,
 category_encoders.leave_one_out.LeaveOneOutEncoder,
 category_encoders.target_encoder.TargetEncoder]

In [6]:
dfi = df[['cat_text']].copy()
dfi["copy"] = dfi['cat_text']
for encoder in encoders:
    if 'Leave' in encoder.__name__ or 'Target' in encoder.__name__:
        continue
    enc = encoder(cols=['cat_text'])
    out = enc.fit_transform(dfi)
    print('-----', encoder.__name__)
    print(out)
    print('-----')    

----- BackwardDifferenceEncoder
   col_cat_text_0  col_cat_text_1  col_cat_text_2  col_cat_text_3 col_copy
0             1.0            0.25            -0.5           -0.25     catA
1             1.0            0.25             0.5           -0.25     catB
2             1.0            0.25            -0.5           -0.25     catA
3             1.0            0.25             0.5            0.75    catDD
4             1.0            0.25             0.5           -0.25     catB
5             1.0           -0.75            -0.5           -0.25      NaN
6             1.0            0.25             0.5           -0.25     catB
-----
----- BinaryEncoder
   cat_text_0  cat_text_1   copy
0         0.0         0.0   catA
1         0.0         1.0   catB
2         0.0         0.0   catA
3         1.0         0.0  catDD
4         0.0         1.0   catB
5         NaN         NaN    NaN
6         0.0         1.0   catB
-----
----- HashingEncoder
   col_0  col_1  col_2  col_3  col_4  col_5  col_6 

## Utilisation de la cible

Certains encoding optimise l'encoding en fonction de la cible à prédire lors d'un apprentissage supervisé. Les deux encoders suivant prédisent la cible en fonction de la catégorie ou essayent d'optimiser l'encoding de la catégorie en fonction de la cible à prédire. En particulier, l'encoder [LeaveOneOut](http://contrib.scikit-learn.org/categorical-encoding/leaveoneout.html) associe à chaque modéalité la moyenne des valeurs observées sur une autre colonne pour chaque ligne associée à cette modalité.

In [7]:
dfy = df.sort_values('cat_text').reset_index(drop=True).copy()
dfy['cat_text_copy'] = dfy['cat_text']
dfy['y'] = dfy.index * dfy.index + 10
dfy['y_copy'] = dfy.y
dfy

Unnamed: 0,cat_int,cat_text,cat_text_copy,y,y_copy
0,10.0,catA,catA,10,10
1,10.0,catA,catA,11,11
2,20.0,catB,catB,14,14
3,10.0,catB,catB,19,19
4,,catB,catB,26,26
5,39.0,catDD,catDD,35,35
6,10.0,,,46,46


In [8]:
for encoder in encoders:
    enc = encoder(cols=['cat_text'])
    try:
        out = enc.fit_transform(dfy.drop('y', axis=1))
    except Exception as e:
        out = pandas.DataFrame()
    outy = enc.fit_transform(dfy.drop('y', axis=1), dfy.y)
    if not out.equals(outy):
        print('-----', encoder.__name__)
        print(outy)
        print('-----')  

----- LeaveOneOutEncoder
   cat_int cat_text_copy  y_copy   cat_text
0     10.0          catA      10  10.500000
1     10.0          catA      11  10.500000
2     20.0          catB      14  19.666667
3     10.0          catB      19  19.666667
4      NaN          catB      26  19.666667
5     39.0         catDD      35  35.000000
6     10.0           NaN      46  23.000000
-----
----- TargetEncoder
   cat_int cat_text_copy  y_copy   cat_text
0     10.0          catA      10  13.861768
1     10.0          catA      11  13.861768
2     20.0          catB      14  20.064010
3     10.0          catB      19  20.064010
4      NaN          catB      26  20.064010
5     39.0         catDD      35  23.000000
6     10.0           NaN      46  23.000000
-----


## A propos du LeaveOneOut

Cet encoder ne produit qu'une seule colonne. Dans le cas d'une régression linéaire, la valeur est la moyenne de la cible $y$ sur l'ensemble des lignes associées à cette catégorie. On reprend un exemple déjà utilisé.

In [9]:
perm = numpy.random.permutation(list(range(10)))
n = 1000
X1 = numpy.random.randint(0, 10, (n,1))
X2 = numpy.array([perm[i] for i in X1])
eps = numpy.random.random((n, 1))
Y = X1 * (-10) - 7 + eps
data = pandas.DataFrame(dict(X1=X1.ravel(), X2=X2.ravel(), Y=Y.ravel()))
data.head()

Unnamed: 0,X1,X2,Y
0,6,7,-66.750689
1,5,0,-56.089489
2,1,2,-16.906274
3,9,4,-96.623998
4,9,4,-96.364284


In [10]:
from sklearn.model_selection import train_test_split
data_train, data_test = train_test_split(data)

In [11]:
from category_encoders import LeaveOneOutEncoder
le = LeaveOneOutEncoder(cols=['X2'])
le.fit(data_train, data_train.Y)
data_train2 = le.transform(data_train)
data_train2.head()

Unnamed: 0,X1,Y,X2
175,2,-26.908337,-26.533251
15,8,-86.571486,-86.503042
518,8,-86.737722,-86.503042
67,3,-36.845213,-36.498476
664,0,-6.959364,-6.524565


In [12]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(data_train2[["X2"]], data_train2[['Y']])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [13]:
from sklearn.metrics import r2_score
data_test2 = le.transform(data_test)
r2_score(data_test2['Y'], model.predict(data_test2[['X2']]))

0.9998904806250212

Le coefficient $R^2$ est proche de 1, la régression est quasi parfaite. L'encodeur ``LeaveONeOutEncode`` utilise la cible pour maximiser le coefficient $R^2$ si le modèle utilisé pour prédire est une régression linéaire. Vous trouverez une idée de la démonstration dans cet énoncé : [ENSAE TD noté 2016](http://www.xavierdupre.fr/site2013/enseignements/tdnoteseul/td_note_2017.pdf).