# Encoding di variabili

Abbiamo visto nelle lezioni precedenti due metodi di encoding: label encoding e one-hot-encoding.

Il primo metodo può essere applicato con la funzione `pandas.factorize(Series)`.

La funzione prende in ingresso una Series (quindi possiamo passare una colonna del dataframe) e ritorna in uscita una tupla (valori codificati, valori distinti in ingresso).

In [7]:
import pandas as pd

dati_stipendi = [
    ("India", 44, 72000),
    ("US", 34, 65000),
    ("Italy", 45, 34000),
    ("US", 35, 45000),
    ("India", 23, 25000)
]
df = pd.DataFrame(dati_stipendi, columns=["Nazione", "Età", "Stipendio"])
df

Unnamed: 0,Nazione,Età,Stipendio
0,India,44,72000
1,US,34,65000
2,Italy,45,34000
3,US,35,45000
4,India,23,25000


## Label encoding

In [10]:
pd.factorize(df['Nazione'])

(array([0, 1, 2, 1, 0]), Index(['India', 'US', 'Italy'], dtype='object'))

In [5]:
df['nazione_cod'] = pd.factorize(df['Nazione'])[0]
df

Unnamed: 0,Nazione,Età,Stipendio,nazione_cod
0,India,44,72000,0
1,US,34,65000,1
2,Italy,45,34000,2
3,US,35,45000,1
4,India,23,25000,0


## One Hot Encoding
One-hot-encoding può essere applicato con la funzione `pd.get_dummies(dataframe, columns=[], drop_first=False, dtype=bool)` dove:
*	dataframe è il dataframe su cui applicare la trasformazione;
*	columns è il nome delle colonne da trasformare;
*	drop_first se impostato a True (default False) elimina la prima colonna codificata, per risolvere il problema del dummy value trap;


In [12]:
pd.get_dummies(df, columns=['Nazione'])

Unnamed: 0,Età,Stipendio,Nazione_India,Nazione_Italy,Nazione_US
0,44,72000,True,False,False
1,34,65000,False,False,True
2,45,34000,False,True,False
3,35,45000,False,False,True
4,23,25000,True,False,False


In [14]:
import numpy as np
pd.get_dummies(df, columns=['Nazione'], dtype=np.int8)

Unnamed: 0,Età,Stipendio,Nazione_India,Nazione_Italy,Nazione_US
0,44,72000,1,0,0
1,34,65000,0,0,1
2,45,34000,0,1,0
3,35,45000,0,0,1
4,23,25000,1,0,0


In [16]:
# Elimina la prima colonna convertita per risolvere il problema del dummy value trap
pd.get_dummies(df, columns=['Nazione'], dtype=np.int8, drop_first=True)

Unnamed: 0,Età,Stipendio,Nazione_Italy,Nazione_US
0,44,72000,0,0
1,34,65000,0,1
2,45,34000,1,0
3,35,45000,0,1
4,23,25000,0,0
