<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Codificaci√≥n de variables categ√≥ricas</font>**

<p align="justify">
üëÄ En scikit-learn, las variables categ√≥ricas son aquellas que representan categor√≠as o clases discretas en lugar de valores num√©ricos continuos. Estas variables son comunes en muchos conjuntos de datos y pueden tomar un conjunto finito de valores √∫nicos, como "rojo", "verde", "azul" en el caso de una variable categ√≥rica que representa el color.
<br><br>
Las variables categ√≥ricas pueden ser de dos tipos principales:
<br><br>
<ol align="justify">
<li>
<b>Variables categ√≥ricas nominales:</b> Estas variables representan categor√≠as que no tienen un orden inherente. Por ejemplo, una variable categ√≥rica nominal podr√≠a ser "gato", "perro" o "p√°jaro".
</li>
<li>
<b>Variables categ√≥ricas ordinales:</b> Estas variables representan categor√≠as que tienen un orden inherente. Por ejemplo, una variable categ√≥rica ordinal podr√≠a ser "bajo", "medio" o "alto".
</li>
</ol>
<br>
<p align="justify">
Las variables categ√≥ricas son fundamentales en muchos problemas de aprendizaje autom√°tico y an√°lisis de datos. Sin embargo, la mayor√≠a de los algoritmos de aprendizaje autom√°tico en scikit-learn est√°n dise√±ados para trabajar con variables num√©ricas, por lo que es necesario realizar un preprocesamiento adecuado de las variables categ√≥ricas antes de utilizarlas en modelos de aprendizaje autom√°tico.
<br><br>
‚úÖ Algunas de las t√©cnicas comunes de preprocesamiento de variables categ√≥ricas en scikit-learn incluyen:
<br><br>
<ol align="justify">
<li>
<b>Codificaci√≥n one-hot:</b> Convierte cada categor√≠a √∫nica en una nueva columna binaria y asigna un 1 a la columna correspondiente a la categor√≠a presente en cada fila de datos.
</li>
<li>
<b>Codificaci√≥n ordinal:</b> Asigna a cada categor√≠a √∫nica un n√∫mero entero √∫nico basado en su orden.
</li>
<li>
<b>Codificaci√≥n de frecuencia:</b> Asigna a cada categor√≠a √∫nica un valor basado en la frecuencia de ocurrencia de esa categor√≠a en el conjunto de datos.
</li>
</ol>


‚ù§ https://scikit-learn.org/stable/

<p align="justify">
üëÄ En este Colab, presentaremos formas t√≠picas de tratar las variables categ√≥ricas codific√°ndolas, como por ejemplo, la codificaci√≥n ordinal y codificaci√≥n one-hot.
</p>



In [None]:
import numpy as np
import pandas as pd

In [None]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

In [None]:
adult_census.drop(columns=["education-num"], inplace=True)
adult_census.head()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


<p align="justify">
üëÄ Separamos la variable objetivo de las variables explicativas, tal cual lo venimos haciendo en todos los Colabs anteriores...
</p>


In [None]:
y = adult_census["class"]
X = adult_census.drop(columns=["class"])

In [None]:
y.shape

(48842,)

In [None]:
X.shape

(48842, 12)

 # **<font color="DeepPink">Identificando las variables categ√≥ricas</font>**

<p align="justify">
üëÄ Una variable num√©rica es una cantidad representada por un n√∫mero real o un n√∫mero entero. Estas variables pueden manejarse naturalmente mediante algoritmos de aprendizaje autom√°tico que generalmente se componen de una secuencia de instrucciones aritm√©ticas, como sumas y multiplicaciones, por el contrario...
<br><br>
Las variables categ√≥ricas tienen valores discretos, normalmente representados por cadenas de caracteres tomadas de una lista finita de opciones posibles.
<br><br>
Por ejemplo, la variable pa√≠s-nativo de nuestro conjunto de datos es una variable categ√≥rica porque codifica los datos utilizando una lista finita de pa√≠ses posibles, junto con el s√≠mbolo $?$ cuando falta la informaci√≥n del pa√≠s posible.
</p>


<p align="justify">
üëÄ Primero, vamos a ordenar el indice de nuestro <code>DataFrame</code>...</p>

In [None]:
adult_census.sort_index()

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


<p align="justify">
üëÄ Ahora vamos a contar los distintos paises nativos...</p>

In [None]:
adult_census["native-country"].value_counts().sort_index().head(10)

native-country
 ?                     857
 Cambodia               28
 Canada                182
 China                 122
 Columbia               85
 Cuba                  138
 Dominican-Republic    103
 Ecuador                45
 El-Salvador           155
 England               127
Name: count, dtype: int64

<p align="justify">
üëÄ ¬øC√≥mo podemos reconocer f√°cilmente las columnas categ√≥ricas entre el conjunto de datos?... parte de la respuesta radica en el tipo de datos que tienen las columnas...
</p>


In [None]:
adult_census.dtypes

age                int64
workclass         object
education         object
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
class             object
dtype: object

<p align="justify">
üëÄ Tambien lo podemos ver con el m√©todo <code>info()</code>...</p>

In [None]:
adult_census.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   marital-status  48842 non-null  object
 4   occupation      48842 non-null  object
 5   relationship    48842 non-null  object
 6   race            48842 non-null  object
 7   sex             48842 non-null  object
 8   capital-gain    48842 non-null  int64 
 9   capital-loss    48842 non-null  int64 
 10  hours-per-week  48842 non-null  int64 
 11  native-country  48842 non-null  object
 12  class           48842 non-null  object
dtypes: int64(4), object(9)
memory usage: 4.8+ MB


 # **<font color="DeepPink">Seleccionar caracter√≠sticas seg√∫n el tipo de dato</font>**

<p align="justify">
üëÄ En el Colab anterior, definimos manualmente las columnas num√©ricas creando una lista con los nombres de las columnas que eran num√©ricas. Podr√≠amos, para las variables categ√≥ricas realizar la misma acci√≥n con un enfoque similar, pero no haremos eso, ahora usaremos una funci√≥n auxiliar de <code>scikit-learn</code> denominada <code>make_column_selector</code> que nos permite seleccionar columnas seg√∫n el tipo de datos que posea en forma automatizada, sin tener que hacerlo manual.
<br><br>
üëÄ Veamos como usamos esa funci√≥n auxiliar:
</p>


https://scikit-learn.org/stable/modules/generated/sklearn.compose.make_column_selector.html

In [None]:
from sklearn.compose import make_column_selector as selector

In [None]:
categorical_columns_selector = selector(dtype_include=object)
categorical_columns = categorical_columns_selector(X)
categorical_columns

['workclass',
 'education',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native-country']

In [None]:
type(categorical_columns)

list

<p align="justify">
üëÄ Aqu√≠, creamos el selector pasando el tipo de datos, luego lo aplicamos al conjunto de datos. El resultado ser√° una lista de nombres de las columnas que tienen el tipo de datos indicado, en este caso son las de cadenas de caracteres.
<br><br>
üëÄ Ahora podemos filtrar las columnas no deseadas del <code>DataFrame</code>:
</p>


In [None]:
data_categorical = adult_census[categorical_columns]
data_categorical.head()

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,sex,native-country
0,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,United-States
1,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,United-States
2,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,United-States
3,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,United-States
4,?,Some-college,Never-married,?,Own-child,White,Female,United-States


In [None]:
print("")
print(f"El conjunto de datos est√° compuesto por {data_categorical.shape[1]} variables categ√≥ricas")


El conjunto de datos est√° compuesto por 8 variables categ√≥ricas


<p align="justify">
üëÄ Ahora, a continuaci√≥n presentaremos diferentes estrategias para codificar datos categ√≥ricos, en datos num√©ricos que pueden ser utilizados por los algoritmos de aprendizaje autom√°tico...
</p>


 # **<font color="DeepPink">Estrategias para codificar categor√≠as</font>**

 ## **<font color="DeepPink">Codificaci√≥n de categor√≠as ordinales</font>**

<p align="justify">
üëÄ La estrategia m√°s intuitiva que se nos ocurre es codificar cada categor√≠a que encontramos en una columna, con un n√∫mero diferente. El m√©todo <code>OrdinalEncoder</code> transformar√° los datos de una columna de esa manera.
<br><br>
Comenzaremos codificando una sola columna para comprender c√≥mo funciona este tipo de codificaci√≥n...
</p>


https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
education_column = data_categorical[["education"]]

In [None]:
encoder = OrdinalEncoder()
education_encoded = encoder.fit_transform(education_column)
education_encoded

array([[ 1.],
       [11.],
       [ 7.],
       ...,
       [11.],
       [11.],
       [11.]])

<p align="justify">
üëÄ Vemos que cada categor√≠a en <code>education_encoded</code> ha sido reemplazada por un valor num√©rico. Podr√≠amos verificar el mapeo entre las categor√≠as de esa columna y los valores num√©ricos que obtuvimos:
</p>


In [None]:
encoder.categories_

[array([' 10th', ' 11th', ' 12th', ' 1st-4th', ' 5th-6th', ' 7th-8th',
        ' 9th', ' Assoc-acdm', ' Assoc-voc', ' Bachelors', ' Doctorate',
        ' HS-grad', ' Masters', ' Preschool', ' Prof-school',
        ' Some-college'], dtype=object)]

<p align="justify">
üëÄ Ahora, podemos verificar la codificaci√≥n aplicada en todas las caracter√≠sticas categ√≥ricas.
</p>

In [None]:
data_encoded = encoder.fit_transform(data_categorical)
data_encoded[:10]

array([[ 4.,  1.,  4.,  7.,  3.,  2.,  1., 39.],
       [ 4., 11.,  2.,  5.,  0.,  4.,  1., 39.],
       [ 2.,  7.,  2., 11.,  0.,  4.,  1., 39.],
       [ 4., 15.,  2.,  7.,  0.,  2.,  1., 39.],
       [ 0., 15.,  4.,  0.,  3.,  4.,  0., 39.],
       [ 4.,  0.,  4.,  8.,  1.,  4.,  1., 39.],
       [ 0., 11.,  4.,  0.,  4.,  2.,  1., 39.],
       [ 6., 14.,  2., 10.,  0.,  4.,  1., 39.],
       [ 4., 15.,  4.,  8.,  4.,  4.,  0., 39.],
       [ 4.,  5.,  2.,  3.,  0.,  4.,  1., 39.]])

In [None]:
encoder.categories_

[array([' ?', ' Federal-gov', ' Local-gov', ' Never-worked', ' Private',
        ' Self-emp-inc', ' Self-emp-not-inc', ' State-gov', ' Without-pay'],
       dtype=object),
 array([' 10th', ' 11th', ' 12th', ' 1st-4th', ' 5th-6th', ' 7th-8th',
        ' 9th', ' Assoc-acdm', ' Assoc-voc', ' Bachelors', ' Doctorate',
        ' HS-grad', ' Masters', ' Preschool', ' Prof-school',
        ' Some-college'], dtype=object),
 array([' Divorced', ' Married-AF-spouse', ' Married-civ-spouse',
        ' Married-spouse-absent', ' Never-married', ' Separated',
        ' Widowed'], dtype=object),
 array([' ?', ' Adm-clerical', ' Armed-Forces', ' Craft-repair',
        ' Exec-managerial', ' Farming-fishing', ' Handlers-cleaners',
        ' Machine-op-inspct', ' Other-service', ' Priv-house-serv',
        ' Prof-specialty', ' Protective-serv', ' Sales', ' Tech-support',
        ' Transport-moving'], dtype=object),
 array([' Husband', ' Not-in-family', ' Other-relative', ' Own-child',
        ' Unmarried'

In [None]:
print("")
print(f"The dataset encoded contains {data_encoded.shape[1]} features")


The dataset encoded contains 8 features


<p align="justify">
üëÄ Vemos que las categor√≠as se han codificado para cada columna de forma independiente. Tambi√©n notamos que la cantidad de valores antes y despu√©s de la codificaci√≥n es la misma, por cada columna.
<br><br>
Sin embargo, hay que tener cuidado al aplicar esta estrategia de codificaci√≥n, ya que el uso de esta representaci√≥n de enteros hace que los modelos predictivos que utilicemos con posterioridad supongan que los valores est√°n ordenados, por ejemplo: $0 < 1 < 2 < 3$.
<br><br>
De forma predeterminada, <code>OrdinalEncoder</code> usa una estrategia lexicogr√°fica para asignar etiquetas de categor√≠a de cadenas de caracteres, a n√∫meros enteros. Esta estrategia es arbitraria y, a menudo, sin sentido.
<br><br>
Por ejemplo, supongamos que el conjunto de datos tiene una variable categ√≥rica llamada <code>tama√±o</code> con categor√≠as como "S", "M", "L", "XL". Nos gustar√≠a que la representaci√≥n de enteros respetara el significado de los tama√±os mape√°ndolos a n√∫meros enteros crecientes como 0, 1, 2, 3. Sin embargo, la estrategia lexicogr√°fica utilizada por defecto mapear√≠a las etiquetas con el siguiente orden "S", "M", "L", "XL" a  2, 1, 0, 3, es decir, siguiendo el orden alfab√©tico.
<br><br>
üëÄ Si una variable categ√≥rica no contiene ninguna informaci√≥n de orden significativa, esta codificaci√≥n podr√≠a ser enga√±osa para los modelos estad√≠sticos posteriores. Entonces se podr√≠a considerar usar una codificaci√≥n <code>one-hot</code> en su lugar.
</p>

 ## **<font color="DeepPink">Codificaci√≥n de categor√≠as nominales (sin asumir orden)</font>**

<p align="justify">
üëÄ <code>OneHotEncoder</code> es un codificador alternativo que evita que los modelos posteriores hagan suposiciones falsas sobre el orden de las categor√≠as. Para una caracter√≠stica determinada, crear√° tantas columnas nuevas como clases o valores contenga esa columna. Para una muestra dada, el valor de la columna correspondiente a la categor√≠a se establecer√° en $1$ mientras que todas las columnas de las dem√°s categor√≠as se establecer√°n en $0$.
<br><br>
üëÄ Comenzaremos codificando una sola caracter√≠stica, por ejemplo <code>educaci√≥n</code>, para ver c√≥mo funciona esta codificaci√≥n...
</p>

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
encoder = OneHotEncoder(sparse_output = False)
education_encoded = encoder.fit_transform(education_column)
education_encoded

array([[0., 1., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

<p align="justify">
üëÄ <code>sparse_output = False</code> se utiliza en <code>OneHotEncoder</code> con fines did√°cticos, es decir para una visualizaci√≥n m√°s f√°cil de los datos. Entonces, vemos que codificar una sola caracter√≠stica dar√° una matriz <code>NumPy</code> llena de ceros y unos. Podemos obtener una mejor comprensi√≥n utilizando los nombres de caracter√≠sticas asociados resultantes de esa transformaci√≥n.
</p>

In [None]:
feature_names = encoder.get_feature_names_out()
education_encoded = pd.DataFrame(education_encoded, columns=feature_names)
education_encoded

Unnamed: 0,education_ 10th,education_ 11th,education_ 12th,education_ 1st-4th,education_ 5th-6th,education_ 7th-8th,education_ 9th,education_ Assoc-acdm,education_ Assoc-voc,education_ Bachelors,education_ Doctorate,education_ HS-grad,education_ Masters,education_ Preschool,education_ Prof-school,education_ Some-college
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
48838,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
48839,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
48840,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


<p align="justify">
üëÄ Como podemos ver, cada valor √∫nico de una columna determinada se convirti√≥ en una columna del <code>DataFrame</code> y para cada muestra, se asigna un valor $1$ que especifica a qu√© categor√≠a pertenece.
<br><br>
Aplicamos esta codificaci√≥n a todo el conjunto de datos...
</p>

In [None]:
print("")
print(f"The dataset is composed of {data_categorical.shape[1]} features")


The dataset is composed of 8 features


In [None]:
data_categorical.head()

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,sex,native-country
0,Private,11th,Never-married,Machine-op-inspct,Own-child,Black,Male,United-States
1,Private,HS-grad,Married-civ-spouse,Farming-fishing,Husband,White,Male,United-States
2,Local-gov,Assoc-acdm,Married-civ-spouse,Protective-serv,Husband,White,Male,United-States
3,Private,Some-college,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,United-States
4,?,Some-college,Never-married,?,Own-child,White,Female,United-States


In [None]:
data_encoded = encoder.fit_transform(data_categorical)
data_encoded[:10]

array([[0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 1., ..., 1., 0., 0.],
       ...,
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 1., 0., 0.]])

In [None]:
print()
print(f"The encoded dataset contains {data_encoded.shape[1]} features")


The encoded dataset contains 102 features


In [None]:
encoder

In [None]:
columns_encoded = encoder.get_feature_names_out()
pd.DataFrame(data_encoded, columns=columns_encoded).head()

Unnamed: 0,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,workclass_ Without-pay,education_ 10th,...,native-country_ Portugal,native-country_ Puerto-Rico,native-country_ Scotland,native-country_ South,native-country_ Taiwan,native-country_ Thailand,native-country_ Trinadad&Tobago,native-country_ United-States,native-country_ Vietnam,native-country_ Yugoslavia
0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


<p align="justify">
üëÄ El n√∫mero de caracter√≠sticas despu√©s de la codificaci√≥n es $10$ veces mayor que los datos originales porque algunas variables, como la ocupaci√≥n y el pa√≠s de origen, tienen muchos valores √∫nicos.
</p>

 # **<font color="DeepPink">Estrategias de codificaci√≥n</font>**

<p align="justify">
üëÄ La elecci√≥n de una estrategia de codificaci√≥n depender√° de los modelos subyacentes y del tipo de categor√≠as, es decir, ordinal frente a nominal.
<br><br>
En general <code>OneHotEncoder</code> es la estrategia de codificaci√≥n utilizada cuando los modelos posteriores son modelos lineales, mientras que <code>OrdinalEncoder</code> suele ser una buena estrategia con modelos basados en √°rboles.
<br><br>
El uso de <code>OrdinalEncoder</code> generar√° categor√≠as ordinales. Esto significa que hay un orden en las categor√≠as resultantes, por ejemplo: $0 < 1 < 2$. El impacto de ignorar esta suposici√≥n de orden realmente depender√° de los modelos posteriores a utilizar.
<br><br>
Los modelos lineales se ver√°n afectados por categor√≠as desordenadas, mientras que los modelos basados en √°rboles, no. Podemos usar <code> OrdinalEncoder</code> con modelos lineales, pero hay que asegurarse de que:
</p>

* Las categor√≠as originales, antes de la codificaci√≥n, tienen un orden.
* Las categor√≠as codificadas siguen el mismo orden que las categor√≠as originales.

<p align="justify">
üëÄ Las variables categ√≥ricas de codificaci√≥n <code>one-hot</code> con alta cardinalidad pueden causar ineficiencia computacional en modelos basados en √°rboles. Debido a esto, no se recomienda usar <code>OneHotEncoder</code> en tales casos, incluso si las categor√≠as originales no tienen un orden determinado. </p>

 # **<font color="DeepPink">Evaluar nuestro Pipeline predictivo</font>**

<p align="justify">
üëÄ Ahora podemos integrar este codificador dentro de un Pipeline de aprendizaje autom√°tico como hicimos con los datos num√©ricos: entrenemos un clasificador lineal en los datos codificados y verifiquemos el rendimiento de este Pipeline de aprendizaje autom√°tico mediante la validaci√≥n cruzada.
<br><br>
Antes de crear el Pipeline, tenemos que detenernos en el pa√≠s de origen. Recordemos algunas estad√≠sticas con respecto a esta columna....
</p>

In [None]:
adult_census["native-country"].value_counts()

native-country
 United-States                 43832
 Mexico                          951
 ?                               857
 Philippines                     295
 Germany                         206
 Puerto-Rico                     184
 Canada                          182
 El-Salvador                     155
 India                           151
 Cuba                            138
 England                         127
 China                           122
 South                           115
 Jamaica                         106
 Italy                           105
 Dominican-Republic              103
 Japan                            92
 Guatemala                        88
 Poland                           87
 Vietnam                          86
 Columbia                         85
 Haiti                            75
 Portugal                         67
 Taiwan                           65
 Iran                             59
 Greece                           49
 Nicaragua             

<p align="justify">
üëÄ Vemos que la categor√≠a Holanda Pa√≠ses Bajos ocurre raramente, una sola vez para ser mas precisos. Esto ser√° un problema durante la validaci√≥n cruzada, ya que si la muestra termina en el conjunto de datos de prueba durante la divisi√≥n, el clasificador no habr√° visto la categor√≠a durante el entrenamiento y no podr√° codificarla.
<br><br>
En <code>scikit-learn</code> hay dos soluciones para evitar este problema...
</p>

<ul align="justify">
<li>
Enumerar todas las categor√≠as posibles y proporcionar argumentos de palabras clave.
</li>
<li>
Usar el par√°metro <code>handle_unknown</code> si encuentra una categor√≠a desconocida durante la transformaci√≥n, las columnas codificadas <code>one-hot</code> resultantes para esta caracter√≠stica ser√°n todos ceros.
</li>
</ul>

<p align="justify">
üëÄ Aqu√≠, usaremos la √∫ltima soluci√≥n por simplicidad.
<br><br>
Hay que tener en cuenta que <code>OrdinalEncoder</code> tambi√©n expone un par√°metro <code>handle_unknown</code>. Se puede establecer en <code>use_encoded_value</code>.
<br><br>
Si se elige esa opci√≥n, puede definir un valor fijo en el que se establecer√°n todas las inc√≥gnitas durante la transformaci√≥n. Por ejemplo, <code>OrdinalEncoder</code>, <code>handle_unknown = 'use_encoded_value'</code>, <code>unknown_value = 42</code> establecer√° todos los valores encontrados durante la transformaci√≥n en $42$ que no forman parte de los datos encontrados durante el ajuste. Vamos a utilizar estos par√°metros en el pr√≥ximo ejercicio.
</p>

 # **<font color="DeepPink">Creamos el Pipeline de Machine Learning</font>**

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression

In [None]:
model = make_pipeline(OneHotEncoder(handle_unknown="ignore"),
                      LogisticRegression(max_iter=500))

In [None]:
model

<p align="justify">
üëÄ Aqu√≠, necesitamos aumentar el n√∫mero m√°ximo de iteraciones para obtener una <code>LogisticRegression</code> completamente convergente y silenciar una <code>ConvergenceWarning</code>. Al contrario de las caracter√≠sticas num√©ricas, las caracter√≠sticas categ√≥ricas codificadas est√°n todas en la misma escala, ya que los valores son $0$ o $1$, por lo que no se beneficiar√≠an del escalado.
<br><br>En este caso, <code>aumentar max_iter</code> es lo correcto:
</p>

In [None]:
from sklearn.model_selection import cross_validate
cv_results = cross_validate(model, data_categorical, y)
cv_results

{'fit_time': array([0.97318745, 0.84491777, 0.86230969, 0.83308649, 0.79682612]),
 'score_time': array([0.03724813, 0.04085922, 0.03488708, 0.03585958, 0.03969598]),
 'test_score': array([0.83222438, 0.83560242, 0.82872645, 0.83312858, 0.83466421])}

In [None]:
scores = cv_results["test_score"]
print("")
print(f"The accuracy is: {scores.mean():.3f} ¬± {scores.std():.3f}")


The accuracy is: 0.833 ¬± 0.002


<p align="justify">
üëÄ Como se puede ver, esta representaci√≥n de variables categ√≥ricas es un poco m√°s predictiva que las variables num√©ricas que usamos anteriormente.
<br><br> En este Colab tenemos:
</p>

- Dos estrategias comunes para codificar caracter√≠sticas categ√≥ricas.
- Codificaci√≥n <code>ordinal</code> y codificaci√≥n <code>one-hot</code>.
- Un Pipeline para usar un codificador <code>one-hot</code> antes de una regresi√≥n log√≠stica.


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:<br>
<br>‚úÖ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.
<br>‚úÖ Examinamos las variables categ√≥ricas.
<br>‚úÖ Utilizamos estrategias para codificar categorias.
<br>‚úÖ Creamos el Pipeline de Machine Learning.
</p>

<p align="justify">



<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
