## En este notebook aprenderás las estrategias de encoding mencionadas en la teoría:
<div style="background-color: rgb(0, 143, 88);margin: 20px; padding: 20px; border-left: 9px solid #ffb200;">
<ul style="color: rgb(255, 255, 255);font-weight:bold;font-size:15px;">
    <li style="padding:10px;">One Hot Encoding </li>
    <li style="padding:10px;">Label Encoding</li>
    <li style="padding:10px;">Ordinal Encoding</li>
    <li style="padding:10px;">Mean Encoding</li>
    <li style="padding:10px;">Binning</li>
    <li style="padding:10px;">Bag-of-words</li>
</ul>
</div>

In [1]:
#En caso de no tener instalado pandas descomentar y ejecutar el comando pip
#pip install pandas 
import pandas as pd

## Lectura del dataset


Este dataset se ha construido con el propósito de entender y utilizar las distintas estrategias para codificar las variables. La columna **'Sensación térmica'** se utilizará para la codificación con ***One Hot Encoding, Label Encoding, Ordinal Encoding y Mean Encoding***. La columna **'Edad'** para el agrupamiento mediante ***Binning*** y para terminar, la columna **'Frase'** para el uso de la estrategia ***Bag-of-words***.

## columna frase mayúsculas y minúsculas

In [2]:
ruta = 'Dataset.csv'
df = pd.read_csv(ruta)
df

Unnamed: 0,Sensación térmica,Edad,Frase,Target
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1
1,Muy frío,15,el helado estaba caliente,0
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1
3,Muy caliente,78,el helado estaba muy caliente,1
4,Frío,65,hace mucho frío en la calle,0
5,Frío,42,Hace mucho calor en la calle,0
6,Muy frío,98,el caldo estaba frío,1
7,Muy caliente,24,el caldo estaba MUY CALIENTE,1
8,Caliente,26,el caldo estaba caliente,1
9,Muy frío,38,el caldo estaba muy frió,0


# One Hot Encoding

Para empezar, utilizaremos la función get_dummies de la librería pandas con la columna que queramos codificar, en este caso 'Sensación térmica'.

In [3]:
df_dummies = pd.get_dummies(df['Sensación térmica'], prefix='Sensación térmica')
df_dummies = pd.concat([df,df_dummies], axis=1) #Concatenar con el dataset original
df_dummies.head()

Unnamed: 0,Sensación térmica,Edad,Frase,Target,Sensación térmica_Caliente,Sensación térmica_Frío,Sensación térmica_Muy caliente,Sensación térmica_Muy frío
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,1,0,0,0
1,Muy frío,15,el helado estaba caliente,0,0,0,0,1
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,1,0,0,0
3,Muy caliente,78,el helado estaba muy caliente,1,0,0,1,0
4,Frío,65,hace mucho frío en la calle,0,0,1,0,0


Como se puede apreciar, lo que nos devuelve la función es la columna **'Sensación térmica'** codificada para cada clase.

Para está misma estrategia tenemos otro tipo de implementación, está en tus manos utilizar la que más te guste.
Para la segunda implementación utilizaremos la clase ***`OneHotEncoder`*** de la librería **Scikit-Learn** para poder ver la diferencia con ***`get_dummies`***.

In [4]:
#En caso de no tener instalado sklearn descomentar y ejecutar el comando pip
#pip install -U scikit-learn
from sklearn.preprocessing import OneHotEncoder

In [5]:
encoder = OneHotEncoder()
x = encoder.fit_transform(df['Sensación térmica'].values.reshape(-1,1)).toarray()
print('Codificación de cada clase:\n', x)
# OneHotEncoder no crea las nuevas columnas, por lo que hay que añadir más código
 
df_OneHot = pd.DataFrame(x, columns = ['Sensación térmica_'+str(encoder.categories_[0][i]) 
                                       for i in range(len(encoder.categories_[0]))])

df_codificado = pd.concat([df,df_OneHot], axis = 1) #Concatenar las nuevas columnas con el dataset original
df_codificado.head()

Codificación de cada clase:
 [[1. 0. 0. 0.]
 [0. 0. 0. 1.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 0. 0. 1.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 1. 0.]]


Unnamed: 0,Sensación térmica,Edad,Frase,Target,Sensación térmica_Caliente,Sensación térmica_Frío,Sensación térmica_Muy caliente,Sensación térmica_Muy frío
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,1.0,0.0,0.0,0.0
1,Muy frío,15,el helado estaba caliente,0,0.0,0.0,0.0,1.0
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,1.0,0.0,0.0,0.0
3,Muy caliente,78,el helado estaba muy caliente,1,0.0,0.0,1.0,0.0
4,Frío,65,hace mucho frío en la calle,0,0.0,1.0,0.0,0.0


# Label Encoding

En este punto, utilizaremos la clase ***`LabelEncoder`*** de la librería **Scikit-Learn** .

In [6]:
from sklearn.preprocessing import LabelEncoder

In [7]:
df_label = df.copy() #copia dataset

encoder = LabelEncoder()
temp_codificado = encoder.fit_transform(df_label['Sensación térmica'])
print('Temperatura codificada: ', temp_codificado)

# Ahora hay que sustituir la columna 'Sensación térmica' por la codificada o concatenarla como antes

#En este caso la sustituiremos para ver la diferencia respecto a agregar una columna

df_label['Sensación térmica'] = temp_codificado
df_label.head()

Temperatura codificada:  [0 3 0 2 1 1 3 2 0 3 0 2 1 3 2]


Unnamed: 0,Sensación térmica,Edad,Frase,Target
0,0,12,El helado estaba frío y el agua estaba caliente,1
1,3,15,el helado estaba caliente,0
2,0,13,EL HELADO ESTABA MUY FRÍO,1
3,2,78,el helado estaba muy caliente,1
4,1,65,hace mucho frío en la calle,0


# Ordinal Encoding

Para esta estrategia lo más sencillo es hacerlo mediante un diccionario de la siguiente manera:

In [8]:
df_ordinal = df.copy() #copia dataset

temp_dict = {'Muy frío':1, 'Frío':2, 'Caliente':3, 'Muy caliente':4} #Diccionario ordenado

#De nuevo se crea una nueva columna o sustituimos la original, en este caso creamas una nueva

df_ordinal['Sensación térmica_ord'] = df_ordinal['Sensación térmica'].map(temp_dict) #Cambiando los valores categóricos

df_ordinal.head()

Unnamed: 0,Sensación térmica,Edad,Frase,Target,Sensación térmica_ord
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,3
1,Muy frío,15,el helado estaba caliente,0,1
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,3
3,Muy caliente,78,el helado estaba muy caliente,1,4
4,Frío,65,hace mucho frío en la calle,0,2


En este caso también tenemos la posibilidad de hacerlo con la clase ***`OrdinalEncoder`*** de la librería **Scikit-Learn**. 

Por mi experiencia, te recomiendo que utilices la estrategia del diccionario, ya que es más sencilla e intuitiva. Ahora es tu turno de aprender las dos implementaciones y quedarte con la que más te guste.

In [9]:
from sklearn.preprocessing import OrdinalEncoder

In [10]:
encoder=OrdinalEncoder()

x = encoder.fit_transform(df['Sensación térmica'].values.reshape(-1,1))
df_encoder = pd.DataFrame(x, columns=['Sensación térmica_ord']) #en este caso solo hay que agregar una columna nueva

df_ordinalEncoder = pd.concat([df,df_encoder], axis=1) #concatenar dataset original con la nueva columna
df_ordinalEncoder.head()

Unnamed: 0,Sensación térmica,Edad,Frase,Target,Sensación térmica_ord
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,0.0
1,Muy frío,15,el helado estaba caliente,0,3.0
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,0.0
3,Muy caliente,78,el helado estaba muy caliente,1,2.0
4,Frío,65,hace mucho frío en la calle,0,1.0


# Mean Encoding


1.	Seleccionar la variable categórica que se desea transformar.
2.	Agrupar por la variable categórica y obtener la suma agregada sobre la variable **"Target"**, es decir, número total de 1's para cada categoría en **"Sensación térmica"**.
3.	Agrupa por la variable categórica y obtén el recuento agregado sobre la variable **"Target"**, es decir, conteo de cuantas veces aparece la clase en la columna.
4.	Dividir los resultados del paso 2 / paso 3

El código de está estrategia es muy sencilla, los pasos mencionados se implementan en una sola línea.

In [11]:
df_mean = df.copy() #copiar dataset original

mean_encode = df_mean.groupby('Sensación térmica')['Target'].mean() #Agrupar y sacar la media para cada clase respecto a la 'Target'
print('Media para cada clase:\n', mean_encode)

df_mean['Sensación térmica_mean'] = df_mean['Sensación térmica'].map(mean_encode) #mapear para sustituir los valores
df_mean.head()

Media para cada clase:
 Sensación térmica
Caliente        1.0
Frío            0.0
Muy caliente    1.0
Muy frío        0.5
Name: Target, dtype: float64


Unnamed: 0,Sensación térmica,Edad,Frase,Target,Sensación térmica_mean
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,1.0
1,Muy frío,15,el helado estaba caliente,0,0.5
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,1.0
3,Muy caliente,78,el helado estaba muy caliente,1,1.0
4,Frío,65,hace mucho frío en la calle,0,0.0


# Binning

Para el agrupamiento de las edades utilizaremos la funcion ***`qcut`***. ***`qcut`*** trata de dividir los datos en grupos de igual tamaño. La función define los grupos utilizando percentiles basados en la distribución de los datos. 

Los percentiles son medidas de posición que dividen un conjunto de datos estadísticos, de forma que un porcentaje del total de los datos quede por debajo de dicho valor. Así, por ejemplo, si la edad de una persona cae dentro del percentil 90 quiere decir que su edad está por encima del 90% de las edades del resto de las personas.

Dicho esto, veamos qué genera la función ***`qcut`***.

In [12]:
df_binningQ = df.copy() #copiar dataset original

bin_labels = list(range(0,10)) #Crear las etiquetas/nombres de los grupos [0,1, 2, 3, 4, 5, 6, 7, 8, 9]

df_binningQ['edad_binningQ']=pd.qcut(df_binningQ['Edad'], q=10, labels = bin_labels) # q = 10 significa que queremos 10 cuantiles
df_binningQ.head()

Unnamed: 0,Sensación térmica,Edad,Frase,Target,edad_binningQ
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,0
1,Muy frío,15,el helado estaba caliente,0,1
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,0
3,Muy caliente,78,el helado estaba muy caliente,1,9
4,Frío,65,hace mucho frío en la calle,0,8


Otra de las opciones para agrupar la edad es con la funcion ***`cut`***. La principal diferencia es que ***`qcut`*** calculará el tamaño de cada casilla para asegurarse de que la distribución de los datos en las casillas es igual. En otras palabras, todos los grupos tendrán (aproximadamente) el mismo número de observaciones, pero el rango de los grupos variará.

Por otro lado, ***`cut`*** se utiliza para definir específicamente los bordes de los rangos. No hay ninguna garantía sobre la distribución de los elementos en cada grupo. De hecho, se pueden definir los grupos de tal manera que no se incluyan elementos en un grupo o que casi todos los elementos estén en una único grupo.

In [13]:
df_binning = df.copy() #copiar dataset original

bin_labels = list(range(0,10)) #Las etiquetas de los grupos [0,1,2,3,4,5,6,7,8,9]
interval_range = list(range(0,110,10)) #se define el rango de cada grupo 

df_binning['Edad_binning'] = pd.cut(df_binning['Edad'], bins=interval_range, labels=bin_labels)
df_binning.head()

Unnamed: 0,Sensación térmica,Edad,Frase,Target,Edad_binning
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,1
1,Muy frío,15,el helado estaba caliente,0,1
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,1
3,Muy caliente,78,el helado estaba muy caliente,1,7
4,Frío,65,hace mucho frío en la calle,0,6


# Bag-of-words

Para esta estrategia utilizaremos la clase ***`CountVectorizer`*** de la librería **Scikit-Learn**. CountVectorizer nos creará el vocabulario y nos contará cuantas veces aparece una palabra en la frase.

Está es una manera sencilla y rápida de codificar mediante **Bag-of-words**.

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

In [15]:
df_bow = df.copy()

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df.Frase.values)

x=X.toarray() #Pasamos a array el conteo de cada palabra en cada frase

df_bow['frase_codificada_bow'] = x.tolist() # El array de cada frase pasarlo a lista y agregarla a la columna nueva
print('Frases codificadas:\n',df_bow['frase_codificada_bow'].values)
df_bow.head()

Frases codificadas:
 [list([1, 0, 1, 0, 0, 2, 0, 2, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0])
 list([0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0])
 list([0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0])
 list([0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0])
 list([0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0])
 list([0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0])
 list([0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0])
 list([0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0])
 list([0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
 list([0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0])
 list([0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0])
 list([0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0])
 list([0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0])
 list([0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0])
 list([0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1])]


Unnamed: 0,Sensación térmica,Edad,Frase,Target,frase_codificada_bow
0,Caliente,12,El helado estaba frío y el agua estaba caliente,1,"[1, 0, 1, 0, 0, 2, 0, 2, 0, 1, 0, 1, 0, 0, 0, ..."
1,Muy frío,15,el helado estaba caliente,0,"[0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, ..."
2,Caliente,13,EL HELADO ESTABA MUY FRÍO,1,"[0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, ..."
3,Muy caliente,78,el helado estaba muy caliente,1,"[0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, ..."
4,Frío,65,hace mucho frío en la calle,0,"[0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, ..."


```python
class sklearn.feature_extraction.text.CountVectorizer(*, input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)
```

Esta clase esta extraida de la documentación de **Scikit-Learn**. Como se puede observar ***lowercase*** es igual a ***True***, por lo que no hace falta cambiar toda la columna del dataset a minúsculas.

## Conclusión

Como has visto, tenemos muchas maneras diferentes de implementar cada estrategia para hacer uso del encoding y convertir todas nuestras columnas en variables numéricas. Dependerá del tipo de columna y de la naturaleza del problema que tengas que resolver en cada momento aplicar una u otra.

Suerte en tu formación!😊😊