<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Variables-categóricas" data-toc-modified-id="Variables-categóricas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Variables categóricas</a></span></li><li><span><a href="#¿Por-qué-debemos-codificar-las-variables-categóricas?" data-toc-modified-id="¿Por-qué-debemos-codificar-las-variables-categóricas?-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>¿Por qué debemos codificar las variables categóricas?</a></span></li><li><span><a href="#Tipos-de--codificación" data-toc-modified-id="Tipos-de--codificación-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Tipos de  codificación</a></span><ul class="toc-item"><li><span><a href="#One-Hot-Encoding" data-toc-modified-id="One-Hot-Encoding-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>One-Hot Encoding</a></span><ul class="toc-item"><li><span><a href="#get_dummies" data-toc-modified-id="get_dummies-3.1.1"><span class="toc-item-num">3.1.1&nbsp;&nbsp;</span>get_dummies</a></span></li></ul></li><li><span><a href="#Label-Encoding" data-toc-modified-id="Label-Encoding-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Label Encoding</a></span><ul class="toc-item"><li><span><a href="#Usando-map" data-toc-modified-id="Usando-map-3.2.1"><span class="toc-item-num">3.2.1&nbsp;&nbsp;</span>Usando <code>map</code></a></span></li></ul></li><li><span><a href="#Ordinal-Encoding" data-toc-modified-id="Ordinal-Encoding-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Ordinal Encoding</a></span></li></ul></li></ul></div>

En este jupyter vamos a aprender que es el *feature encoding*, es decir, el proceso de convertir los datos categóricos de un conjunto de datos en datos numéricos. Es esencial que realicemos la codificación de estas variables porque la mayoría de los modelos de aprendizaje automático solo pueden interpretar datos numéricos y no datos en forma de texto.

# Variables categóricas

Las variables cualitativas son aquellas que hacen referencia a características o cualidades que no pueden ser medidas con números. Por ejemplo, el sexo de una persona es una variable cualitativa, ya que es masculino o femenino. 

Algunas de las caracteríticas de este tipo de variables son: 

- No se pueden medir numéricamente


- No otorga datos específicos y a a veces tampoco un orden


- Especifica una condición, cualidad o característica



Podemos encontrar tres tipos de variables cualitativas:

- `Ordinaria`: la variable cualitativa ordinaria, también conocida como variable cuasicuantitativa, es representada por una modalidad que no requiere números pero sí consta de un orden o un puesto.

    Por ejemplo, el nivel socioeconómico: alto, medio, bajo.


- `Nominal`: variable que no es representada por números ni tiene algún tipo de orden, y por lo tanto es matemáticamente menos precisa.

    Por ejemplo, son variables nominales los colores: negro, azul, rojo, amarillo, naranja, etc.


- `Binaria`: la variable cualitativa binaria trabaja con valores específicos del tipo binario.

    Por ejemplo, el sexo de una persona será masculino o femenino.

# ¿Por qué debemos codificar las variables categóricas?

Codificamos los datos categóricos a valores numéricos porque gran parte de los algoritmos de modelados (*machine learning* no pueden ejecutarse y procesar datos si éstos no son numéricos. Por lo tanto, los analistas de datos necesitan tener herramientas a su disposición para transformar colores como el rojo, el amarillo y el azul en números como el 1, el 2 y el 3 para que tengan lugar todas las matemáticas de nuestros modelos. 

In [1]:
# antes de empezar importemos las librerías que necesitaremos

import pandas as pd
from sklearn.preprocessing import LabelEncoder # para realizar el Label Encoding 
from sklearn.preprocessing import OneHotEncoder  # para realizar el One-Hot Encoding

import warnings
warnings.filterwarnings('ignore')
pd.options.display.max_columns = None


In [2]:
df = pd.read_csv("data/insurance_sin_outliers_nulos.csv", index_col = 0)
df.head(2)

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523


# Tipos de  codificación

Ahora que sabemos cómo son los datos categóricos , hemos visto algunos ejemplos y lo importante que puede ser codificarlos, examinaremos los métodos comunes para convertir nuestros datos categóricos en datos numéricos. Estos métodos son: 

- **One-Hot Encoding**: lo usaremos cuando nuestras variables no tengan orden


- **get_dummies**: lo usaremos cuando nuestras variables no tengan orden


- **Label-Encoding**: lo usaremos cuando nuestras variables tengan orden


- **map**: lo usaremos cuando nuestras variables tengan orden


- **Ordinal-Encoding**: lo usaremos cuando nuestras variables tengan orden

## One-Hot Encoding

Si nuestra variable es el color primario (y cada fila tiene sólo un color primario), la codificación de un solo color representaría si el color presente en cada fila es rojo, azul o amarillo. 

Esto se consigue añadiendo una nueva columna para cada color posible. Con estas tres columnas que representan el color en cada fila de los datos, recorremos cada fila y asignamos el valor 1 a la columna que representa el color presente en nuestra fila actual y rellenamos las otras columnas de color de esa fila con un 0 para representar su ausencia. Veamos cómo podemos hacer esto en python y las ventajas e inconvenientes de este método.

[Aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) tenéis la documentación oficial sobre el método. 

Tendremos que importar 👇🏽

```python
from sklearn.preprocessing import OneHotEncoder  
```

Al final tendremos tantas columnas nuevas en nuestro *dataframe*  como categorías tengamos en nuestra columna. Por lo tanto, no es especialmente recomendable para variables con muchas categorías ya que nos generará *dataframes* con muchas columnas que lo hará muy pesado de cara a posibles computaciones en el futuro. 


📌 **NOTA** Este método nos va a devolver un array que tendremos que convertir a dataframe para incluir los cambios en nuestro *dataframe*

🚨 **Le podemos pasar varias columnas**

In [3]:
# nos hacemos una copia del dataframe

df1 =  df.copy()

In [4]:
# iniciamos el método de OneHot Encoder
oh = OneHotEncoder()

In [5]:
# hacemos la codificación de los datos para la variable dada 
transformados = oh.fit_transform(df1[["region"]])
type(transformados)

scipy.sparse._csr.csr_matrix

In [6]:
# convertimos nuestro array con la codificación hecha en un dataframe
oh_df = pd.DataFrame(transformados.toarray(), dtype = int)
oh_df.head()

Unnamed: 0,0,1,2,3
0,0,0,0,1
1,0,0,1,0
2,0,0,1,0
3,0,1,0,0
4,0,1,0,0


In [7]:
# el método get_feature_names nos va a dar el nombre de las columnas nuevas que se nos generarán
oh_df.columns = oh.get_feature_names()
oh_df.head()

Unnamed: 0,x0_northeast,x0_northwest,x0_southeast,x0_southwest
0,0,0,0,1
1,0,0,1,0
2,0,0,1,0
3,0,1,0,0
4,0,1,0,0


In [8]:
df1[oh_df.columns] = oh_df
df1.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,x0_northeast,x0_northwest,x0_southeast,x0_southwest
0,female,yes,southwest,19.0,27.9,0.0,16884.924,0,0,0,1
1,male,no,southeast,18.0,33.77,1.0,1725.5523,0,0,1,0
2,male,no,southeast,28.0,33.0,3.0,4449.462,0,0,1,0
3,male,no,northwest,33.0,22.705,0.0,21984.47061,0,1,0,0
4,male,no,northwest,39.171927,28.88,0.0,3866.8552,0,1,0,0


In [9]:
# vamos a definir una función que nos aplique este método

def one_hot_encoder_one(df,columna):
    
    # iniciamos el método de OneHot Encoder
    oh = OneHotEncoder()
    
    # hacemos la codificación de los datos para la variable dada 
    transformados = oh.fit_transform(df[columna])
    
    # convertimos nuestro array con la codificación hecha en un dataframe
    oh_df = pd.DataFrame(transformados.toarray())
    
    # el método get_feature_names nos va a dar el nombre de las columnas nuevas que se nos generarán
    oh_df.columns = oh.get_feature_names()
    
    # concatenamos el dataframe original con el dataframe que acabamos de crear
    df[oh_df.columns] = oh_df
    
    # eliminamos la columna original 
    df.drop(columna, axis = 1,  inplace = True)
    return df

In [10]:
# volvemos a hacermos una copia para probar nuestra función con dos columnas

df3 = df.copy()
df3.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [11]:
df3 = one_hot_encoder_one(df3, ["sex", "region"])

In [12]:
# chequeamos para ver que ha pasado

df3.head()

Unnamed: 0,smoker,age,bmi,children,charges,x0_female,x0_male,x1_northeast,x1_northwest,x1_southeast,x1_southwest
0,yes,19.0,27.9,0.0,16884.924,1.0,0.0,0.0,0.0,0.0,1.0
1,no,18.0,33.77,1.0,1725.5523,0.0,1.0,0.0,0.0,1.0,0.0
2,no,28.0,33.0,3.0,4449.462,0.0,1.0,0.0,0.0,1.0,0.0
3,no,33.0,22.705,0.0,21984.47061,0.0,1.0,0.0,1.0,0.0,0.0
4,no,39.171927,28.88,0.0,3866.8552,0.0,1.0,0.0,1.0,0.0,0.0


Si nos fijamos en el output: 

- Las columnas `sex` y `region` se han eliminado


- En el caso de `region, se nos han creado 4 columnas nuevas, una para cada categoria que teníamos en nuestra columna. Se han creado columnas con valores de 0 y 1. ¿Qué significa esto? 
    
    - 1 -> el valor de esa fila en la columna original era el de la columna nueva
    
    - 0 -> el valor de esa fila en la columna original no era el de la columna nueva

###  get_dummies

También podemos hacer una codificación del tipo One-Hot Encoding usando el método de pandas `get_dummies`. 

Es una de las formas más fáciles de implementar un método de codificación en caliente y tiene parámetros muy útiles. 

[Aquí](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html) la documentación oficial.

Su sintaxis: 

```python
pd.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, dtype=None)
```

- `data`: columna categórica objetivo de nuestro conjunto de datos


- `prefix_sep`: parámetro separador de prefijos para limpiar el nombre de la columna


- `prefix`: valores de prefijo para nuestras nuevas columnas


- `dtype`: tipo de número. Por defecto float. Tipo deseado de salida.

📌  **Lo tendremos que hacer columna a columna**

In [13]:
# nos creamos otra copia para ver como funciona el get_dummies
df4 = df.copy()
df4.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [14]:
# lo haremos para la columna "region"

dummies = pd.get_dummies(df4["region"], prefix_sep = "_", prefix = "region", dtype = int)
dummies.head(2)

Unnamed: 0,region_northeast,region_northwest,region_southeast,region_southwest
0,0,0,0,1
1,0,0,1,0


In [15]:
# incluimos las columnas creadas por el método get_dummies y eliminamos la de region original

df4[dummies.columns] = dummies
df4.drop(["region"], axis = 1, inplace = True)

In [16]:
df4.head()

Unnamed: 0,sex,smoker,age,bmi,children,charges,region_northeast,region_northwest,region_southeast,region_southwest
0,female,yes,19.0,27.9,0.0,16884.924,0,0,0,1
1,male,no,18.0,33.77,1.0,1725.5523,0,0,1,0
2,male,no,28.0,33.0,3.0,4449.462,0,0,1,0
3,male,no,33.0,22.705,0.0,21984.47061,0,1,0,0
4,male,no,39.171927,28.88,0.0,3866.8552,0,1,0,0


Si nos fijamos se nos crean tantas columnas nuevas como categorias. Cada columna tendrá el prefijo que indicamos "platforms" separado por "_". 

**Ventajas e Incovenientes de usar esta aproximación** 


- Ventajas

    - Una de las ventajas obvias es que te das cuenta de si algún valor único en particular dentro de un conjunto de valores tiene un impacto excesivo o fuerte en una dirección positiva o negativa. 
    
    - Se mantiene la información sobre los valores de cada variable. Con la codificación por etiquetas, como veremos a continuación, obtenemos una buena medida del impacto de una característica particular en los modelos, pero no los impactos específicos de los valores únicos de esa característica.
    
- Inconvenientes

    - Aunque es bueno conocer el impacto, positivo o negativo, de cada ocurrencia única en los datos categóricos, a veces puede hacer que los resultados sean menos precisos. Sin embargo, lo más importante es que si algunos valores únicos son mucho más comunes que otros, podemos asumir erróneamente que estos valores son muy importantes cuando en realidad no lo son. 
    
    Por esta razón, se suele usar esta codificación para las variales que no tienen una cantidad abrumadora de valores únicos y/o la distribución de los valores únicos está relativamente equilibrada.
    
    - Dado que eliminamos nuestra variable una vez codificada, el efecto de la característica en sí puede perderse en cierta medida, ya que cambiamos nuestra atención a los valores de la característica y no a la característica en sí.

## Label Encoding  

El Label Encoding es probablemente el tipo más básico de método de codificación de variables categóricas después del OneHot Encoding. Este tipo de codificación no añade ninguna columna adicional a los datos, sino que asigna un número a cada valor único de una variable.

Volvamos a utilizar el ejemplo de los colores. En lugar de añadir una columna para el rojo, otra para el azul y una más para el amarillo, simplemente se asignara un número a cada valor. El rojo es 1, el azul es 2 y el amarillo es 3. Ahorramos mucho espacio y no añadimos más columnas a nuestros datos, lo que da un aspecto mucho más limpio a los datos. Los números asignados para el rojo, el azul y el amarillo son arbitrarios y sus etiquetas no tienen ningún significado real, pero son fáciles de manejar. 

[Aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) tenemos más información sobre este método. 


Su sintaxis:
```python
LabelEncoder()
```

Tendremos que importar 👇🏽

```python
from sklearn.preprocessing import LabelEncoder  
```

🚨 Le tenemos que pasar una única columna, si le pasamos más de una columna nos devolverá un error. 


In [17]:
from sklearn.preprocessing import LabelEncoder 

In [18]:
# volvemos a hacernos una copia

df5 = df.copy()
df5.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [19]:
# iniciamos el método
le = LabelEncoder()


In [20]:
sex_transformada = le.fit_transform(df5["sex"])
sex_transformada

array([0, 1, 1, ..., 0, 0, 0])

In [21]:
# la incorporamos en nuestro dataframe

df5["sex_enco"] = sex_transformada
df5.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,sex_enco
0,female,yes,southwest,19.0,27.9,0.0,16884.924,0
1,male,no,southeast,18.0,33.77,1.0,1725.5523,1
2,male,no,southeast,28.0,33.0,3.0,4449.462,1
3,male,no,northwest,33.0,22.705,0.0,21984.47061,1
4,male,no,northwest,39.171927,28.88,0.0,3866.8552,1


Pero hacer esto para cada variable puede ser un poco tedioso. Podemos hacer un *for* para aplicarlo a todo nuestro *dataframe*

In [22]:
# lo aplicamos a todo nuestro dataframe 
for col in df5[["smoker", "region"]].columns:
    nombre_nuevo = col + "_encod"
    df5[nombre_nuevo]=le.fit_transform(df5[col])

In [23]:
# chequeamos el dataframe de nuevo

df5.head(2)

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,sex_enco,smoker_encod,region_encod
0,female,yes,southwest,19.0,27.9,0.0,16884.924,0,1,3
1,male,no,southeast,18.0,33.77,1.0,1725.5523,1,0,2


Si nos fijamos ahora no se nos han creado columnas nuevas y se nos han transformado nuestras categorias que antes estaban en formato *string* en números. 

In [24]:
# creemos la función correspondiente

def label_encoder(df, columnas):
    for col in df5[columnas].columns:
        nombre_nuevo = col + "_encod"
        df[nombre_nuevo]=le.fit_transform(df[col])
    return df
    

In [25]:
df55 = df.copy()
df55.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [26]:
# aplicamos la función

df55 = label_encoder(df55, ["smoker", "region"])

In [27]:
df55.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,smoker_encod,region_encod
0,female,yes,southwest,19.0,27.9,0.0,16884.924,1,3
1,male,no,southeast,18.0,33.77,1.0,1725.5523,0,2
2,male,no,southeast,28.0,33.0,3.0,4449.462,0,2
3,male,no,northwest,33.0,22.705,0.0,21984.47061,0,1
4,male,no,northwest,39.171927,28.88,0.0,3866.8552,0,1


### Usando `map`  

Si recordamos el método `map` de pandas. La codificación la podremos aplicar usando esa herramienta. El incoveniente de esta aproximación es que es que si tenemos una variable con muchas categorias puede ser un poco tedioso prepararlo. 

🚨 **Lo tendremos que aplicar solo para solo una columna**

In [28]:
# nos creamos otra copia para este ejemplo

df6 = df.copy()
df6.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [29]:
#Lo primero, chequeamos cuales son los valores únicos. En este caso "Yes" y "No"
df6.smoker.unique()

array(['yes', 'no'], dtype=object)

In [30]:
# lo primero que tenemos que hacer es crearnos un diccionario con el que mapearemos nuestra columna

mapa = {"yes": 1, # convertiremos los Yes en 1
        "no": 0} # convertiremos los No en 0

In [31]:
# aplicamos el map a nuestra columna

df6["smoker_map"] = df6["smoker"].map(mapa)

In [32]:
# chequeamos que se hayan hecho los cambios

df6.head(2)

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,smoker_map
0,female,yes,southwest,19.0,27.9,0.0,16884.924,1
1,male,no,southeast,18.0,33.77,1.0,1725.5523,0


In [33]:
# ahora ya no tendremos los valores "Yes" y "No" si no 1 y 0. 
df6.smoker_map.unique()

array([1, 0], dtype=int64)

In [34]:
def ordinal_map(df, columna, orden_valores):
    
    # nos creamos un diccionario vacío para hacer el map después. 
    ordinal_dict = {}
    
    # iteramos por nuestra lista de valores usando el enumerate que recordamos nos devolvía también el índice o posición de cada elemento
    for i, valor in enumerate(orden_valores):
        ordinal_dict[valor]=i # le sumamos uno a la posición para no tener valores de 0. 

    # aplicamos el map
    nuevo_nombre = columna + "_map"
    df[nuevo_nombre] = df[columna].map(ordinal_dict)
    return df

In [35]:
df6 = ordinal_map(df6, "sex", [ "female", "male"])

In [36]:
df6.head(2)

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,smoker_map,sex_map
0,female,yes,southwest,19.0,27.9,0.0,16884.924,1,0
1,male,no,southeast,18.0,33.77,1.0,1725.5523,0,1


**Ventajas e Incovenientes de usar esta aproximación** 

- Ventajas

    - Es rápida, fácil y no crea un marco de datos desordenado, al contrario que el OneHot Encoding que  añade un montón de columnas.
    
- Inconvenientes:

    - Nuestras etiquetas son bastante arbitrarias. ¿Quién puede decir que el paso entre el rango 4 y el 5 es el mismo que el paso entre el 2 y el 3? Tal vez la diferencia entre lo que llamamos 4 y 5 es marginal, mientras que la diferencia entre lo que llamamos 2 y 3 es enorme. Como ya se ha mencionado, otro inconveniente es que, si bien podemos encontrar lo fuerte o débil que es el impacto de una característica concreta, perdemos toda la información sobre los valores únicos dentro de esa característica (esto se soluciona moderadamente con la codificación ordinal, pero el efecto es marginal). 
    
    - Por último, este método puede no funcionar bien con los *outliers* , ya que existe la posibilidad de que ciertas etiquetas no aparezcan en frecuencias similares a las demás.

## Ordinal Encoding

El OrdinalEncoding es una forma ligeramente avanzada de codificación; asignamos etiquetas basadas en un orden o jerarquía. En el caso de los colores, no soy un artista, así que no veo ninguna razón para no asignar números al color de forma aleatoria. Sin embargo, si estamos tratando con cortes de diamantes, podemos querer establecer un sistema en el que a los peores cortes se les asigne un número menor. 

[Aquí](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) más información sobre esta aproximación. 


Su sintaxis:
```python
OrdinalEncoder(categories='auto', dtype=<class 'numpy.float64'>, handle_unknown='error', unknown_value=None)
```

Tendremos que importar 👇🏽

```python
from sklearn.preprocessing import OrdinalEncoder  
```

🚨 **Solo te podremos pasar una columna**

In [37]:
from sklearn.preprocessing import OrdinalEncoder

In [38]:
# nos hacemos otra copia para este ejemplo

df7 = df.copy()
df7.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [39]:
# en este caso trabajaremos con la columna "clasificacion" que tiene los siguientes valores únicos

df7.smoker.unique()

array(['yes', 'no'], dtype=object)

In [40]:
# establecemos el orden que queremos. 

orden = [ "yes", "no"]

In [41]:
# iniciamos el método y aplicamos la transformación a los datos. 
ordinal = OrdinalEncoder(categories = [orden], dtype = int)

transformados_oe = ordinal.fit_transform(df7[["smoker"]])

In [42]:
# lo convertimos a dataframe
oe_df = pd.DataFrame(transformados_oe)
oe_df.head()

Unnamed: 0,0
0,0
1,1
2,1
3,1
4,1


In [43]:
# cambiamos el nombre de la columna
oe_df.columns = ordinal.feature_names_in_
oe_df.head()

Unnamed: 0,smoker
0,0
1,1
2,1
3,1
4,1


In [44]:
# sobre escribimos la columna con los valores de la tranformación
df7["smoker_encod"] = oe_df
df7.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges,smoker_encod
0,female,yes,southwest,19.0,27.9,0.0,16884.924,0
1,male,no,southeast,18.0,33.77,1.0,1725.5523,1
2,male,no,southeast,28.0,33.0,3.0,4449.462,1
3,male,no,northwest,33.0,22.705,0.0,21984.47061,1
4,male,no,northwest,39.171927,28.88,0.0,3866.8552,1


In [45]:
# creamos la última función

def ordinal_encoder(df, columna, orden_valores):
    
    # iniciamos el método y aplicamos la transformación a los datos. 
    ordinal = OrdinalEncoder(categories = [orden], dtype = int)

    transformados_oe = ordinal.fit_transform(df[[columna]])
    
    # lo convertimos a dataframe
    oe_df = pd.DataFrame(transformados_oe)
    # cambiamos el nombre de la columna
    oe_df.columns = ordinal.feature_names_in_
    
    # sobre escribimos la columna con los valores de la tranformación
    df[columna] = oe_df
     
    return df

In [48]:
# hacemos una nueva copia para probar la función

df8 = df.copy()
df8.head()

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,yes,southwest,19.0,27.9,0.0,16884.924
1,male,no,southeast,18.0,33.77,1.0,1725.5523
2,male,no,southeast,28.0,33.0,3.0,4449.462
3,male,no,northwest,33.0,22.705,0.0,21984.47061
4,male,no,northwest,39.171927,28.88,0.0,3866.8552


In [50]:
df8 = ordinal_encoder(df8, "smoker", orden)

In [52]:
df8.head(2)

Unnamed: 0,sex,smoker,region,age,bmi,children,charges
0,female,0,southwest,19.0,27.9,0.0,16884.924
1,male,1,southeast,18.0,33.77,1.0,1725.5523


**Ventajas e Incovenientes de usar esta aproximación** 


- Ventajas: 
    - La codificación ordinal (Ordinal Encoding), que podríamos decir que es una extensión del LabelEncoding, impone un significado adicional a las etiquetas asignadas mediante la codificación de etiquetas.
   
   
- Inconvenientes (van a ser las mismas que el LabelEncoding):

    - Nuestras etiquetas son bastante arbitrarias. ¿Quién puede decir que el paso entre el rango 4 y el 5 es el mismo que el paso entre el 2 y el 3? Tal vez la diferencia entre lo que llamamos 4 y 5 es marginal, mientras que la diferencia entre lo que llamamos 2 y 3 es enorme. Como ya se ha mencionado, otro inconveniente es que, si bien podemos encontrar lo fuerte o débil que es el impacto de una característica concreta, perdemos toda la información sobre los valores únicos dentro de esa característica (esto se soluciona moderadamente con la codificación ordinal, pero el efecto es marginal). 
    
    - Por último, este método puede no funcionar bien con los *outliers* , ya que existe la posibilidad de que ciertas etiquetas no aparezcan en frecuencias similares a las demás.