![hackio](https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_celeste@4x.png?raw=true)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Codificación-de-variables-categóricas" data-toc-modified-id="Codificación-de-variables-categóricas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Codificación de variables categóricas</a></span><ul class="toc-item"><li><span><a href="#Importancia-del-encoding-en-Machine-Learning" data-toc-modified-id="Importancia-del-encoding-en-Machine-Learning-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Importancia del <em>encoding</em> en Machine Learning</a></span></li></ul></li><li><span><a href="#Encoding" data-toc-modified-id="Encoding-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Encoding</a></span><ul class="toc-item"><li><span><a href="#Encoding-para-variables-sin-orden" data-toc-modified-id="Encoding-para-variables-sin-orden-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Encoding para variables sin orden</a></span><ul class="toc-item"><li><span><a href="#One-Hot-Encoding" data-toc-modified-id="One-Hot-Encoding-2.1.1"><span class="toc-item-num">2.1.1&nbsp;&nbsp;</span>One Hot Encoding</a></span></li><li><span><a href="#get_dummies" data-toc-modified-id="get_dummies-2.1.2"><span class="toc-item-num">2.1.2&nbsp;&nbsp;</span>get_dummies</a></span></li></ul></li><li><span><a href="#Encoding-para-variables-con-orden" data-toc-modified-id="Encoding-para-variables-con-orden-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Encoding para variables con orden</a></span><ul class="toc-item"><li><span><a href="#Ordinal-Encoding" data-toc-modified-id="Ordinal-Encoding-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>Ordinal Encoding</a></span></li><li><span><a href="#Label-Encoding" data-toc-modified-id="Label-Encoding-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>Label Encoding</a></span></li><li><span><a href="#Target-Encoding" data-toc-modified-id="Target-Encoding-2.2.3"><span class="toc-item-num">2.2.3&nbsp;&nbsp;</span>Target Encoding</a></span></li><li><span><a href="#Frequency-Encoding" data-toc-modified-id="Frequency-Encoding-2.2.4"><span class="toc-item-num">2.2.4&nbsp;&nbsp;</span>Frequency Encoding</a></span></li></ul></li></ul></li></ul></div>

# Codificación de variables categóricas


El *encoding* es una parte fundamental del preprocesamiento de datos en *machine learning*. Antes de entrenar un modelo, es necesario preparar y transformar los datos en una forma adecuada para su uso.

El **encoding** o codificación en *machine learning* se refiere al proceso de convertir datos categóricos (variables que representan categorías) en una forma numérica que pueda ser utilizada por algoritmos de *machine learning*. Los datos categóricos son aquellos que representan características que no son numéricas, como colores, tipos de productos, géneros, etc.

## Importancia del *encoding* en Machine Learning

1. **Requisito de algoritmos**: La mayoría de los algoritmos de *machine learning* requieren que los datos de entrada sean numéricos. Esto significa que necesitaremos convertir cualquier tipo de datos no numéricos en una forma que los algoritmos puedan entender y procesar.

2. **Conservación de información**: Es importante que el proceso de *encoding* conserve la información contenida en las categorías originales. Esto significa que dos categorías distintas deben ser representadas por valores numéricos distintos.

3. **Interpretación de los Resultados**: La codificación adecuada también facilita la interpretación de los resultados del modelo. Cuando los datos están en forma numérica, es más fácil comprender cómo las diferentes características afectan a la salida del modelo.


Algunos de los métodos más comunes que tenemos para realizar la codificación de las variables categóricas son: 


| Método de Encoding   | Descripción                                                                                   | Cuándo usarlo                                                                      |
|----------------------|-----------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------|
| One-Hot Encoding     | Cada categoría se convierte en una columna binaria.                                           | - Variables categóricas con pocas categorías.<br>- Cuando no hay una relación ordinal entre las categorías.                                      |
| Label Encoding       | Cada categoría se asigna a un número entero único.                                            | - Variables categóricas con un orden natural.<br>- Algoritmos que pueden interpretar relaciones ordinales entre categorías.         |
| Target Encoding      | Cada categoría se codifica según alguna estadística (p. ej., la media) de la variable objetivo. | - Cuando se quiere mantener el número de características bajo control.<br>- Variables categóricas con muchas categorías.                                     |
| get_dummies          | Método de pandas para generar columnas dummy de variables categóricas.                        | - Cuando se trabaja con pandas y se necesita realizar One-Hot Encoding.             |
| Ordinal Encoding     | Cada categoría se codifica como un número entero, respetando un orden específico.            | - Cuando las categorías tienen un orden inherente.<br>- Variables categóricas con un orden definido.                                     |
| Frequency Encoding   | Las categorías se codifican según su frecuencia de aparición.                                 | - Cuando la frecuencia de una categoría puede estar relacionada con la variable objetivo. |

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importación de las clases creadas en nuestro archivo de soporte
# -----------------------------------------------------------------------
from src import soporte_encoding as se


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


# Ignorar los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

In [2]:
# cargamos los datos con los que estamos trabajando
df = pd.read_csv("datos/online_shoppers_intention_clase_nonulls_estan_sinout.csv", index_col = 0)
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Month,OperatingSystems,Browser,Region,TrafficType,VisitorType,Administrative_knn,ProductRelated_knn,BounceRates_knn
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,MacOS,Mozilla Firefox,Region1,DT,Returning_Visitor,-0.263158,-0.566667,11.461524
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,Feb,Windows,Google Chrome,Region1,OT,Returning_Visitor,-0.263158,-0.533333,-0.22155
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,iOS,Mozilla Firefox,Region9,RT,Returning_Visitor,-0.263158,-0.566667,-0.22155
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,Feb,Linux,Google Chrome,Unknown,SMT,Returning_Visitor,-0.052632,-0.533333,2.699218
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,Feb,Linux,Tor,Region1,SMT,Returning_Visitor,-0.263158,-0.266667,0.946757


<div style="background-color: #FFBB33; padding: 10px; border-left: 6px solid #000080; color: black; border-radius: 10px;">
<strong>¿Cómo podemos interpretar estos resultados?</strong>

Dado que estás buscando determinar si las variables categóricas tienen un orden implícito y estamos analizando los resultados de un test de Tukey. En este test podemos ver las diferencias significativas entre las categorías, e interpretar los resultados de la siguiente forma cada una de las columnas que tenemos en nuestro modelo: (es importante tener en cuenta que la interpretación de los resultados esta hecha en base a los resultados del test de Tukey y a las gráficas sacadas previamente)


<strong style="color: blue;">Para la columna <u>Month</u></strong>

Estos resultados muestran diferencias significativas en el PageValues según los meses del año. Algunas conclusiones que podemos ver son:

- **Dec-Feb:** Diciembre es significativamente diferente de febrero. Con una diferencia media de -5.9429.

- **Dec-Mar:** Hay una diferencia significativa entre diciembre y marzo. Con una diferencia media de -2.8736.

- **Feb-May:** Existe una diferencia significativa entre febrero y mayo. Con una diferencia media de 4.5412.

- **Feb-Nov:** Febrero difiere significativamente de noviembre. Con una diferencia media de 6.2390.

- **Feb-Oct:** Febrero es significativamente diferente de octubre. Con una diferencia media de de 7.7552.

- **Feb-Sep:** Hay una diferencia significativa entre febrero y septiembre. Con una diferencia media de 6.6665.

- **Jul-Nov:** Existe una diferencia significativa entre julio y noviembre. Con una diferencia media de 3.0250.

- **Jul-Oct:** Julio difiere significativamente de octubre. Con una diferencia media de 4.5412.

- **Mar-Nov:** Hay una diferencia significativa entre marzo y noviembre. Con una diferencia media de 3.1697.

- **Mar-Oct:** Marzo es significativamente diferente de octubre. Con una diferencia media de 4.6859.

- **Mar-Sep:** Existe una diferencia significativa entre marzo y septiembre. Con una diferencia media de 3.5971.

- **May-Nov:** Mayo difiere significativamente de noviembre. Con una diferencia media de 1.6978. 

- **May-Oct:** Hay una diferencia significativa entre mayo y octubre. Con una diferencia media de 3.2140. 

- **Nov-Unknown:** Hay una diferencia significativa entre noviembre y la categoría desconocida. Con una diferencia media de -3.7379.

- **Oct-Unknown:** Octubre es significativamente diferente de la categoría desconocida. Con una diferencia media de -5.2541.


<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
Basándonos en los resultados del test de Tukey, los grupos finales para el encoding serían las comparaciones significativas entre los meses, resultando finalmente los siguientes grupos, el primero solo incluiría Febrero, otro grupo para Mayo, Julio, Marzo y Unknown, y por último Noviembre, Septiembre, Diciembre, Octubre y Agosto. <u>En este caso optaremos por un encoding de tipo Target Encoding ya que es una variable con orden. Dentro de los métodos con orden tenemos el Label Encoding (el cual no usaremos porque asigna los valores de forma aleatoria), el Frequency Encoding (que no lo usaremos porque el orden que hemos visto no coincide con los valores del value_counts). En este punto, nos quedan dos métodos, el Ordinal Encoding y el Target. Descartaremos el ordinal ya que tendríamos que generar nosotros los valores numéricos, pero en este casi el orden puede resultar complejo de asignar ya que tenemos muchas categorías, es por esto que usaremos el Target Encoding asignando así los valores numéricos a las categorías en base a su valor promedio de la variable respuesta.</u>. 
</div>

---

<strong style="color: blue;">Para la columna <u>OperatingSystems</u></strong>

Estos resultados muestran las diferencias significativas entre diferentes sistemas operativos, así como entre pares específicos de sistemas operativos. Los datos sugieren que:

1. **Android - Linux:** Android tiene una diferencia significativa con Linux, con una diferencia media de -13.5429 en la variable "Page Values".

2. **Android - MacOS:** Android también muestra una diferencia significativa con MacOS, con una diferencia media de -11.7812.

3. **Android - Windows:** Similarmente, hay una diferencia significativa con Windows, con una diferencia media de -10.1850.

4. **Android - iOS:** La diferencia entre Android e iOS es considerable, con una diferencia media de -8.8259.

5. **Linux - MacOS:** Linux tiene una diferencia significativa con MacOS, pero con una diferencia media menor de 1.7617.

6. **Linux - Windows:** La diferencia entre Linux y Windows es más pronunciada, con una diferencia media de 3.3579.

7. **Linux - iOS:** Similarmente, la diferencia entre Linux e iOS es considerable, con una diferencia media de 4.7170.

8. **MacOS - Windows:** La diferencia entre MacOS y Windows es significativa, con una diferencia media de 1.5962.

9. **MacOS - iOS:** Finalmente, hay una diferencia significativa entre MacOS e iOS, con una diferencia media de 2.9553.

<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
Los resultados muestran diferencias entre sistemas operativos. En particular, Android difiere significativamente de Linux, MacOS, Windows e iOS. Por otro lado, Linux muestra diferencias significativas con MacOS, Windows e iOS. Es decir, tendremos un grupo que será Android, otro que será Linux, otro que será MacOS, Windows e iOS y por último otro que será ChromeOS.<u>En este caso usaremos un  Ordinal Encoding ya que se trata de una variable categórica con orden. Dado que el orden es muy claro cuando observamos el barplot, en este caso usaremos este tipo de encoding asignando el orden nosotros mismos.</u>.
</div>

---

<strong style="color: blue;">Para la columna <u>Browser</u></strong>

Analizando los resultados de la tabla del test de Tukey, podemos sugerir que en general todos los navegadores son diferentes con "Avant Browser", viendo estas diferencias en detalle: 

1. **Brave:** El navegador "Avant Browser" tiene una diferencia significativa con Brave, con una diferencia media de -19.2038 para el valor de Page Values.

2. **Google Chrome:** Similarmente, hay una diferencia significativa con Google Chrome con "Avant Browser", con una diferencia media de -20.5514.

3. **Lynx:** La diferencia con Lynx es aún más pronunciada, con una diferencia media de -24.1471.

4. **Maxthon:** Maxthon también muestra una diferencia significativa, con una diferencia media de -22.8185.

5. **Microsoft Edge:** Hay una diferencia significativa con Microsoft Edge, con una diferencia media de -18.2877.

6. **Mozilla Firefox:** Similarmente, hay una diferencia significativa con Mozilla Firefox, con una diferencia media de -20.7619.

7. **Opera:** La diferencia con Opera es considerable, con una diferencia media de -20.9632.

8. **Safari:** Se observa una diferencia significativa con Safari, con una diferencia media de -19.5445.

9. **Tor:** La diferencia con Tor es considerable, con una diferencia media de -23.6861.

10. **Vivaldi:** Por último, hay una diferencia significativa con Vivaldi, con una diferencia media de -21.0358.

<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
En resumen, estos resultados indican que el rendimiento del navegador "Avant Browser" difiere significativamente del resto de navegadores en relación a la variable "Page Values". Estas diferencias pueden ser importantes al asignar valores durante el proceso de encoding, lo que podría influir en el análisis posterior, concluyendo que necesitamos un método de encoding ordinal. <u>Al igual que en la columna de Month, usaremos un Target Encoding, basándonos en los mismos motivos que vimos previamente.</u>
</div>

---

<strong style="color: blue;">Para la columna <u>Region</u></strong>

Analizando los resultados de la tabla del test de Tukey, podemos sugerir que: 

1. **Region1-Region9:** Hay una diferencia significativa entre la región 1 y la región 9. Con una diferencia media de 3.6279.

2. **Region2-Region9:** Similar al caso anterior, hay una diferencia significativa entre la región 2 y la región 9. Con una diferencia media de 3.9095.

3. **Region3-Region5:** Aquí también hay una diferencia significativa entre las regiones 3 y 5. Con una diferencia media de 4.0340.

4. **Region3-Region9:** La región 3 es significativamente diferente de la región 9. Con una diferencia media de 4.3404.

5. **Region4-Region9:** Hay una diferencia significativa entre la región 4 y la región 9. Con una diferencia media de 3.8196.

6. **Region5-Region6:** La región 5 es significativamente diferente de la región 6. Con una diferencia media de -4.3743.

7. **Region5-Region8:** Similar al caso anterior, la región 5 es significativamente diferente de la región 8. Con una diferencia media de -6.1989. 

8. **Region6-Region9:** Hay una diferencia significativa entre la región 6 y la región 9. Con una diferencia media de 4.6807.

9. **Region8-Region9:** La región 8 es significativamente diferente de la región 9. Con una diferencia media de 6.5053.

10. **Region9-Unknown:** La región 9 es significativamente diferente de la categoría desconocida. Con una diferencia media de -3-5076.


<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
    Los resultados muestran diferencias significativas entre regiones. Región 1, 2 y 4 son distintas a la 9, al igual que las regiones 3 y 5 y 6. Además, la región 8 difiere de la 9. Estas diferencias sugieren un orden implícito entre las regiones, justificando un método de encoding ordinal para capturar esta relación.<u>DE nuevo usaremos un Target Encoding, por los mismos motivos que vimos anteriormente.</u>.
</div>

---

<strong style="color: blue;">Para la columna <u>VisitorType</u></strong>

Los resultados indican que hay un orden implícito entre las categorías basándonos en los resultados de los test estadísticos. En los resultados del test de Tukey podemos observar: 

1. "New_Visitor" es significativamente diferente de "Other".

2. "New_Visitor" es significativamente diferente de "Returning_Visitor".

3. "Other" es significativamente diferente de "Returning_Visitor".

<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
Los resultados sugieren que hay tres categorías, una para una de los niveles de nuestra variable categórica,  "New_Visitor" < "Other" < "Returning_Visitor".<u>En este caso usaremos un Ordinal Encoding ya que se trata de una variable con pocas categórias y con un orden muy claro y sencillo de asignar.</u>.
</div>

---

<strong style="color: blue;">Para la columna <u>TrafficType</u></strong>

Los resultados indican que hay un orden implícito entre las categorías basándonos en los resultados de los test estadísticos. En los resultados del test de Tukey podemos observar: 

1. "New_Visitor" es significativamente diferente de "Other".

2. "New_Visitor" es significativamente diferente de "Returning_Visitor".

3. "Other" es significativamente diferente de "Returning_Visitor".

<div style="background-color: #CCCCCC; padding: 10px; border-radius: 10px; margin-top: 20px;">
    <strong style="color: blue;">En resumen:</strong>
    <br>
En este caso, la asignación del orden de las categorías es más complejo, por dos motivos, el primero es que son muchas categorías y en segundo lugar porque algunas categorías tienen unas diferencias muy pequeñas. <u>En este caso, usaremos el Target Encoding, este es el mejor método ya que tenemos muchas categorías y como hemos dicho con pocas diferencias entre algunas de ellas.</u>.
</div>

</div>




# Encoding

Antes de empezar, recordemos que, hay variables categóricas que pueden tener orden y otras que no, y en función de esto eligiremos un método u otro para realizar el *encoding*. 

- Si las variables categóricas **NO tienen** orden usaremos: 

    - One-Hot Encoding

    - get_dummies

- Si las variables categóricas **tienen** orden usaremos: 

    - Label-Encoding

    - Ordinal-Encoding

    - Target Encoding

    - Frequency Encoding

Veamos cada uno de ellos en detalle: 

- **One-Hot Encoding (OHE)**: Para variables sin orden. Crea una columna para cada categoría, donde un valor de 1 indica la presencia de la categoría y 0 su ausencia.

- **Label Encoding**: Para variables con orden. Asigna un número entero a cada categoría de manera ordinal y aleatoria.

- **Ordinal Encoding**: Para variables con orden. Asigna números a las categorías en función de un orden predefinido.

- **Target Encoding**: Para variables con orden.  Reemplaza cada categoría con la media del objetivo para esa categoría.

- **Frequency Encoding**: Para variables con orden. Codifica las categorías según su frecuencia en los datos. Reemplaza cada categoría con la frecuencia de esa categoría en los datos.


Veamos ahora la sintaxis de cada uno de estos métodos, empezando por los métodos que podemos usar para variables que no tienen orden. 

## Encoding para variables sin orden

En este ejemplo no tenemos ninguna variable categórica sin orden, sin embargo, vamos a crear el código en el archivo de soporte y ejecutaremos un ejemplo para tener un ejemplo de referencia. 

### One-Hot Encoding

El One-Hot Encoding es un método utilizado para convertir variables categóricas en vectores binarios, donde cada categoría se representa como un vector con un solo valor "1"  y el resto de valores "0". Es útil cuando las categorías no tienen un orden intrínseco y queremos evitar la asignación de valores numéricos que puedan implicar un orden.

Podemos implementar el One-Hot Encoding utilizando la clase `OneHotEncoder` de la biblioteca scikit-learn. Primero crearemos una instancia del codificador, luego ajustamos el codificador a tus datos utilizando el método `fit`, y finalmente transformamos los datos utilizando el método `transform`.

Su sintaxis básica es:

```python
# Crear una instancia del codificador
encoder = OneHotEncoder(categories='auto', 
                        drop=None, 
                        sparse_output=True, 
                        dtype='numpy.float64', 
                        handle_unknown='error')

# Ajustar el codificador a los datos y transformarlos
encoder_trans = encoder.fit_transform(dataframe[lista_columnas])

# lo siguiente que hacemos es convertir el objeto devuelto por el fit_transform a array para poder verlo
encoder_array = encoder_trans.toarray()

# usaremos el método '.get_feature_names_out()' para extraer el nombre de las columnas
nombre_columnas = encoder.get_feature_names_out()

# creamos un DataFrame con los resultados obtenidos de la transformación
encoder_df = pd.DataFrame(encoder_array, columns = nombre_columnas)

# concatenamos estos resultados con el DataFrame original
df = pd.concat([df, encoder_df], axis = 1)
```

El `OneHotEncoder()`crea una instancia del codificador. Por defecto, esta instancia se crea con parámetros predeterminados, pero también puede recibir otros parámetros, algunos de los más importantes son: 

- `categories`: Especifica las categorías únicas para cada característica categórica. Puede ser útil si se conocen de antemano todas las categorías posibles y se desea asegurar que todas estén presentes en la salida codificada.

- `drop`: Especifica si se debe eliminar una de las columnas generadas para cada característica categórica para evitar la colinealidad perfecta. Puede recibir los siguientes valores: 

    - **`None`**: Este es el valor predeterminado. Significa que no se eliminará ninguna columna generada. Todas las categorías únicas de cada característica categórica se convertirán en columnas separadas en la salida codificada.

    - **`first`**: Indica que se eliminará la primera columna generada para cada característica categórica. Esto significa que para cada característica con `n` categorías únicas, solo se crearán `n - 1` nuevas columnas en la salida codificada.

    - **`if_binary`**: Este valor es similar a `first`, pero solo se elimina una columna si la característica categórica tiene dos categorías únicas. Si la característica tiene más de dos categorías únicas, no se elimina ninguna columna y se crea una columna adicional para cada categoría.



- `sparse_output`: Indica si la salida codificada debe ser una matriz dispersa (sparse) o densa. Por defecto, es `True`, lo que significa que la salida será una matriz dispersa si hay una gran cantidad de categorías únicas. Se puede establecer en `False` para forzar la salida densa.

- `dtype`: Especifica el tipo de datos de las características de salida. Por defecto, es `np.float64`.

- `handle_unknown`: Indica cómo manejar las categorías desconocidas durante la transformación. Puede recibir los siguientes valores: 


    - **'error'**: Generará un error si se encuentra una categoría desconocida durante la transformación. Es decir, si aparece una categoría que el modelo no ha visto durante el entrenamiento, detendrá el proceso y mostrará un mensaje de error.

    - **'ignore'**: Cuando se encuentra una categoría desconocida durante la transformación, todas las columnas codificadas correspondientes a esa categoría serán ceros. Durante la transformación inversa, una categoría desconocida se indicará como 'None'.

    - **'infrequent_if_exist'**: Cuando se encuentra una categoría desconocida durante la transformación, las columnas codificadas correspondientes a esa categoría se asignarán a la categoría infrecuente si existe. La categoría infrecuente se asignará a la última posición en la codificación. Durante la transformación inversa, una categoría desconocida se asignará a la categoría denominada 'infrequent' si existe. Si la categoría 'infrequent' no existe, entonces tanto la transformación como la transformación inversa manejarán una categoría desconocida como con `handle_unknown='ignore'`. Las categorías infrecuentes existen según `min_frequency` y `max_categories`.


**Ventajas**

- No introduce un orden implícito entre las categorías, lo que lo hace adecuado para variables categóricas sin orden. 

- Crea una representación escasa de los datos, lo que puede ser eficiente en términos de memoria y computación.

**Desventajas**

- Puede aumentar significativamente la dimensionalidad de los datos, especialmente cuando hay muchas categorías únicas. Esto puede conducir a la maldición de la dimensionalidad y afectar el rendimiento del modelo, especialmente en conjuntos de datos grandes.



In [3]:
# definimos un diccionario con los distintos tipos de encoding y las columnas que irán asociadas a cada uno de ellos. 

diccionario_encoding = {"onehot": [], # no metemos ninguna columna porque todas nuestras columnas tienen orden
                        "dummies": [], # no metemos ninguna columna porque todas tienen orden
                        'ordinal' : {
                                    'VisitorType': ['New_Visitor', 'Other', 'Returning_Visitor'],
                                    'OperatingSystems': ['Android','iOS', 'Windows', 'MacOS' , 'Linux', 'ChromeOS' ]
                                    },
                        "label": [] , # no metemos ninguna columna porque no queremos en ningún caso que se asignen las categorías de forma aleatoria
                        "frequency": [], # no metemos ninguna columna porque no coincide el orden del value counts con las categorias y la variable respuesta
                        "target": ["Browser", "Region", "Month", "TrafficType"]
                        }

In [4]:
# En caso de que queramos aplicar el método solo a una columna
encoding = se.Encoding(df, diccionario_encoding, "PageValues")
df = encoding.one_hot_encoding()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Month,OperatingSystems,Browser,Region,TrafficType,VisitorType,Administrative_knn,ProductRelated_knn,BounceRates_knn
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,MacOS,Mozilla Firefox,Region1,DT,Returning_Visitor,-0.263158,-0.566667,11.461524
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,Feb,Windows,Google Chrome,Region1,OT,Returning_Visitor,-0.263158,-0.533333,-0.22155
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,iOS,Mozilla Firefox,Region9,RT,Returning_Visitor,-0.263158,-0.566667,-0.22155
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,Feb,Linux,Google Chrome,Unknown,SMT,Returning_Visitor,-0.052632,-0.533333,2.699218
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,Feb,Linux,Tor,Region1,SMT,Returning_Visitor,-0.263158,-0.266667,0.946757


### get_dummies

El método `get_dummies()` se utiliza para realizar la codificación de variables categóricas mediante el método de "dummy encoding" o "one-hot encoding". Básicamente, convierte variables categóricas en variables ficticias (dummy variables) que son binarias, donde cada categoría se representa como una columna con valores binarios (0 o 1). Es decir, hace exactamente lo mismo que el método OneHotEncoding. 

Su sintaxis básica es: 

```python
pd.get_dummies(data, 
               columns=None, 
               drop_first=False, 
               prefix = None, 
               prefix_sep = None, 
               dummy_na = False)
```
Donde: 

- `data`: El DataFrame o Serie que contiene las variables categóricas que se van a codificar.

- `columns`: Lista de columnas categóricas que se van a codificar. Si no se proporciona, se codificarán todas las columnas categóricas del DataFrame.

- `drop_first`: Booleano que indica si se deben eliminar las primeras categorías codificadas para cada variable categórica. Por defecto, es `False`.

- **`prefix`**: Prefijo a agregar a los nombres de las nuevas columnas generadas para indicar la variable original.

- **`prefix_sep`**: Separador a utilizar entre el prefijo y el nombre de la categoría original al crear nuevos nombres de columnas.

- **`dummy_na`**: Agrega una columna adicional para representar los valores faltantes (NaN) en las variables categóricas. Por defecto es False. 


**Ventajas:**

- Es fácil de usar y entender.

- No requiere de mucho código adicional.

- Funciona bien con conjuntos de datos pequeños y medianos.


**Desventajas:**

- Puede generar muchas columnas adicionales, lo que aumenta la dimensionalidad del conjunto de datos.

- No es eficiente para conjuntos de datos grandes con muchas categorías únicas.

- Puede llevar a problemas de multicolinealidad en modelos de regresión si se incluyen todas las columnas generadas.

In [5]:
df = encoding.get_dummies()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Month,OperatingSystems,Browser,Region,TrafficType,VisitorType,Administrative_knn,ProductRelated_knn,BounceRates_knn
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,MacOS,Mozilla Firefox,Region1,DT,Returning_Visitor,-0.263158,-0.566667,11.461524
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,Feb,Windows,Google Chrome,Region1,OT,Returning_Visitor,-0.263158,-0.533333,-0.22155
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,iOS,Mozilla Firefox,Region9,RT,Returning_Visitor,-0.263158,-0.566667,-0.22155
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,Feb,Linux,Google Chrome,Unknown,SMT,Returning_Visitor,-0.052632,-0.533333,2.699218
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,Feb,Linux,Tor,Region1,SMT,Returning_Visitor,-0.263158,-0.266667,0.946757


## Encoding para variables con orden

### Ordinal Encoding

El ordinal encoding es una técnica de codificación que se utiliza para convertir variables categóricas en variables numéricas, asignando un número entero a cada categoría única. La utilizaremos cuando las categorías tienen un orden intrínseco, es decir, cuando hay una relación ordinal entre ellas.

su sintaxis básica es: 
```python
encoder = OrdinalEncoder(categories='auto', 
                         dtype=<class 'numpy.float64'>, 
                         handle_unknown='error', 
                         unknown_value=None)

# Ajustar el codificador a los datos y transformarlos
encoder_trans = encoder.fit_transform(dataframe[lista_columnas])

# usaremos el método '.get_feature_names_out()' para extraer el nombre de las columnas
nombre_columnas = encoder.get_feature_names_out()

# creamos un DataFrame con los resultados obtenidos de la transformación
encoder_df = pd.DataFrame(encoder_trans, columns = nombre_columnas)

# concatenamos estos resultados con el DataFrame original
df = pd.concat([df, encoder_df], axis = 1)
```

- `categories`: Especifica las categorías esperadas para cada variable categórica. Puede tomar dos valores:

    - `'auto'`: Determina automáticamente las categorías a partir de los datos. Esto significa que el codificador observará las categorías únicas presentes en los datos y las utilizará como referencia para la codificación.

    - `Lista de arrays`: Contiene las categorías esperadas en cada columna categórica. Las categorías no deben mezclar cadenas y valores numéricos, y deben estar ordenadas si son numéricas. Esto proporciona un control más preciso sobre las categorías utilizadas en la codificación.

- `drop`: Especifica la metodología para eliminar una de las categorías en cada variable categórica. Puede tomar varios valores:

    - `None`: Conserva todas las categorías en cada variable. Esta es la opción por defecto y significa que todas las categorías se mantienen.

    - `first`: Elimina la primera categoría de cada variable. Si una variable tiene solo una categoría, se eliminará completamente.

    - `if_binary`: Elimina la primera categoría de cada variable que tenga exactamente dos categorías. Las variables con una o más de dos categorías se dejan intactas.

    - Lista de arrays: Permite especificar manualmente qué categoría de cada variable se debe eliminar. Cada elemento de la lista corresponde a una columna en el conjunto de datos y contiene la categoría que se eliminará.
    
- `dtype`: tipo de dato de salida, por defecto float.

- `handle_unknown`: Por defecto 'error'.
    
    - 'error': genera un error si se encuentra una categoría desconocida durante la transformación.
    
    - 'ignore': ignora las categorías desconocidas y las codifica como ceros.
    
- `unknown_value`: valor de categoría desconocida, por defecto None. 
    
    - integer o np.nan: establece el valor codificado de las variables desconocidas. Debe ser diferente de los valores de cualquier categoría en el ajuste. Si es np.nan, dtype debe ser float.

**Ventajas:**

- Mantiene la relación ordinal entre las categorías, lo que puede ser importante en algunos modelos.

- Es fácil de entender y aplicar.

- No aumenta la dimensionalidad del conjunto de datos.

**Desventajas:**

- No es adecuado cuando no hay una relación ordinal clara entre las categorías, ya que puede introducir sesgos en el modelo.

- Puede asignar un peso ordinal incorrecto a las categorías si la codificación se realiza de manera inadecuada.

- No maneja automáticamente los valores faltantes o las nuevas categorías en los datos de prueba.

In [6]:
# si queremos hacer el ordinal solo sobre una columna, tendremos que seguir la siguiente sintaxis
df = encoding.ordinal_encoding()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Month,Browser,Region,TrafficType,Administrative_knn,ProductRelated_knn,BounceRates_knn,VisitorType,OperatingSystems
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,Mozilla Firefox,Region1,DT,-0.263158,-0.566667,11.461524,2.0,3.0
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,Feb,Google Chrome,Region1,OT,-0.263158,-0.533333,-0.22155,2.0,2.0
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,Mozilla Firefox,Region9,RT,-0.263158,-0.566667,-0.22155,2.0,1.0
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,Feb,Google Chrome,Unknown,SMT,-0.052632,-0.533333,2.699218,2.0,4.0
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,Feb,Tor,Region1,SMT,-0.263158,-0.266667,0.946757,2.0,4.0


### Label Encoding 

Transforma las etiquetas de las características categóricas en valores numéricos únicos, asignando un número entero a cada categoría de forma aleatoria. Por ejemplo, si tenemos una columna con las categorías ["manzana", "plátano", "naranja"], el LabelEncoder las codificará como [0, 1, 2], respectivamente.

Su sintaxis básica es: 

```python
# Crear una instancia del codificador
encoder = LabelEncoder()


# Ajustar el codificador a los datos y transformarlos
encoder_trans = encoder.fit_transform(dataframe[lista_columnas])

# creamos un DataFrame con los resultados obtenidos de la transformación
encoder_df = pd.DataFrame(encoder_trans, columns = lista_columnas_encoding)

# concatenamos estos resultados con el DataFrame original
df = pd.concat([df, encoder_df], axis = 1)

# Es importante destacar que este método para codificar los valores categóricos no recibe ningún parámetro a la hora de instanciarlo y que no existe el método 'get_feature_names_out()'  p
# por lo que a la hora de crear el DataFrame tendremos que pasarle nosotros la lista de columnas
```

**Ventajas:**
- Fácil de usar y entender.

- Útil cuando las variables tienen orden, pero no le quieres dar uno específico.

- Funciona bien con algoritmos de aprendizaje automático que requieren entradas numéricas.

**Desventajas:**
- No considera el orden de las categorías.

- No es adecuado cuando el orden de las categorías es importante.

- Puede dar la impresión de que las categorías son cuantitativas cuando en realidad son cualitativas, lo que podría llevar a interpretaciones erróneas.

**Las principales diferencias entre el Ordinal y Label Encoding son:**
<div style="background-color: #F74646; padding: 10px; border-left: 6px solid #000080; color: black; border-radius: 10px;">
    <strong>Las principales diferencias entre el Ordinal y Label Encoding son:</strong>
    <br>
    <table>
        <tr>
            <th>Característica</th>
            <th>LabelEncoder</th>
            <th>OrdinalEncoder</th>
        </tr>
        <tr>
            <td>Función principal</td>
            <td>Codifica etiquetas categóricas en valores numéricos únicos</td>
            <td>Codifica características categóricas en valores numéricos con orden especificado</td>
        </tr>
        <tr>
            <td>Orden de codificación</td>
            <td>No considera el orden de las categorías</td>
            <td>Considera el orden de las categorías</td>
        </tr>
        <tr>
            <td>Especificación del orden de las categorías</td>
            <td>No permite especificar un orden específico para las categorías</td>
            <td>Permite especificar un orden específico para las categorías</td>
        </tr>
        <tr>
            <td>Transformación de características</td>
            <td>Transforma las etiquetas en valores numéricos basándose en el orden de aparición</td>
            <td>Transforma las características en valores numéricos siguiendo el orden especificado</td>
        </tr>
        <tr>
            <td>Método de transformación de datos</td>
            <td>Simple fit y transform</td>
            <td>Simple fit y transform</td>
        </tr>
        <tr>
            <td>Flexibilidad</td>
            <td>Menos flexible, no permite especificar el orden de las categorías</td>
            <td>Más flexible, permite especificar el orden de las categorías</td>
        </tr>
        <tr>
            <td>Uso común</td>
            <td>Adecuado cuando no se requiere considerar el orden de las categorías</td>
            <td>Adecuado cuando se necesita codificar características categóricas considerando su orden</td>
        </tr>
    </table>
</div>



In [7]:
df = encoding.label_encoding()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Month,Browser,Region,TrafficType,Administrative_knn,ProductRelated_knn,BounceRates_knn,VisitorType,OperatingSystems
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,Mozilla Firefox,Region1,DT,-0.263158,-0.566667,11.461524,2.0,3.0
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,Feb,Google Chrome,Region1,OT,-0.263158,-0.533333,-0.22155,2.0,2.0
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,Feb,Mozilla Firefox,Region9,RT,-0.263158,-0.566667,-0.22155,2.0,1.0
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,Feb,Google Chrome,Unknown,SMT,-0.052632,-0.533333,2.699218,2.0,4.0
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,Feb,Tor,Region1,SMT,-0.263158,-0.266667,0.946757,2.0,4.0


### Target Encoding

Es una técnica de codificación que asigna a cada categoría de una variable categórica el valor medio de la variable respuesta a esa categoría en el conjunto de datos. Esto puede mejorar el rendimiento de los modelos de *machine learning* al capturar relaciones más sutiles entre las categorías y la variable objetivo.

Su sintaxis básica es: 
```python
encoder = TargetEncoder(categories='auto', 
              target_type='auto',
              smooth='auto', 
              cv=5, 
              shuffle=True, 
              random_state=None)

# Ajustar el codificador a los datos y transformarlos. Fijaos como en este caso le añadimos un parámetro extra, que será la variable respuesta de nuestro modelo
encoder_trans =  encoder.fit_transform(dataframe[["var_cate"]], dataframe[["variable_respuesta"]])

# usaremos el método '.get_feature_names_out()' para extraer el nombre de las columnas
nombre_columnas = encoder.get_feature_names_out()

# creamos un DataFrame con los resultados obtenidos de la transformación
encoder_df = pd.DataFrame(encoder_trans, columns = nombre_columnas)

# concatenamos estos resultados con el DataFrame original
df = pd.concat([df, encoder_df], axis = 1)

```

Donde:

- `categories` (opcional): Lista de columnas que vamos a querer codificar. Puede recibir los siguientes parámetros: 

    - `auto`: Determina las categorías automáticamente a partir de los datos de entrenamiento.

    - `lista`: La lista de columnas con los nombres de las columnas que queremos codificar. 


- `target_type` (opcional): Determina el tipo de la variable respuesta. Puede tomar los siguientes valores: 

    - "auto": El tipo de objetivo se infiere con type_of_target.

    - "continuous": Objetivo continuo.

    - "binary": Objetivo binario.

    - "multiclass": Objetivo multiclase.

    Nota: El tipo de objetivo inferido con "auto" puede no ser el tipo de objetivo deseado utilizado para el modelado. Por ejemplo, si el objetivo consiste en enteros entre 0 y 100, entonces type_of_target inferirá el objetivo como "multiclass". En este caso, establecer target_type="continuous" especificará el objetivo como un problema de regresión. El atributo target_type_ proporciona el tipo de objetivo utilizado por el codificador.

- `smooth` (opcional): Controla la estabilidad de las estimaciones de la media para cada categoría. Un valor más alto suaviza estas estimaciones al mezclarlas con la media global de la variable respuesta, reduciendo así el riesgo de sobreajuste, especialmente con datos escasos. Para entenderlo mejor, supongamos que estamos trabajando con un conjunto de datos de clientes donde tenemos una variable categórica que es "País de Residencia" y el objetivo es predecir si el cliente realizará un compra. Ahora, imaginemos que hay una categoría "Argentina" con solo un par de observaciones y todas resultaron en compras. Si no se suaviza, la estimación de la media de la variable respuesta para "Argentina" sería de 100%, lo cual podría ser poco fiable. Con un valor de `smooth` adecuado, esta estamación se mezclaria con la media globarl, lo que proporcionaría una estimación más estable y generalizable.

    > Para saber que valor de `smooth` debemos usar no existe ninguna norma o receta. Se trata de un proceso empírico donde tendremos que experimentar con distintos valores y evaluar el rendimiento del modelo en base a estos valores. 


- `cv` (opcional, int): Determina el número de veces que queremos hacer el fit_transform. Para objetivos de clasificación, se utiliza StratifiedKFold y para objetivos continuos, se utiliza KFold.

- `shuffle` (opcional, bool):  Si se debe o no mezclar los datos en fit_transform antes de dividir los datos. 

- `random_state` (opcional, int) :  Cuando shuffle es True, random_state afecta el orden de los índices, que controla la aleatoriedad de la mezcla. De lo contrario, este parámetro no tiene efecto. Deberemos pasar un int para obtener una salida reproducible en varias llamadas de función.


**Ventajas:**

- Captura relaciones lineales entre las variables categóricas y la variable respuesta.

- Reduce la dimensionalidad de los datos al convertir variables categóricas en variables numéricas.

- Puede mejorar el rendimiento predictivo de los modelos de aprendizaje automático.

**Desventajas:**
- Propenso al sobreajuste si hay categorías con pocas observaciones.

- Sensible a valores atípicos y desequilibrios en los datos.

- No captura relaciones no lineales entre las variables categóricas y la variable respuesta.


**Entendamos como funciona mejor esta forma de realizar la codificación de las variables categóricas** 

Esta forma funciona convirtiendo cada categoría de una variable categórica en un valor esperado correspondiente. El enfoque para calcular el valor esperado dependerá del tipo de modelo que estemos intentando hacer: 

- **En el caso de problemas de regresión lineal**: Se calcula la media ponderada de la variable respuesta para cada categoría de la variable categórica. Es decir, para cada categoría se calcula la media de los valores de la variable objetivo correspondiente. Este valor promedio se utiliza como el valor codificado para esa categoría en el modelo de regresión lineal.

- **En el caso de problemas de regresión logística**: Este cálculo se realiza utilizando la probabilidad condicional de que la variable objetivo sea 1 dada una categoría específica. Es decir, para cada categoría de la variable categórica, el target encoding calcula la proporción de observaciones donde la variable objetivo es 1. Este valor de proporción se utiliza como el valor codificado para esa categoría en el modelo de regresión logística.Supongamos que estamos intentando predecir si un cliente va a comprar un producto o no y que una de las variables predictoras que tenemos es su nivel de satisfacción con el personal que le atendió. Lo primero que tendríamos que hacer el calcular 

    ```python
    # el código que necesitaremos será: 
    df.groupby(["Satisfaccion"]["Compra"].value_counts(normalize = True).unstack())
    ```

    ![imagen](Imagenes/TargetEncoding.png)

    La imagen de arriba muestra la probabilidad de cada resultado de "Compra" por el "nivel de satisfacción de los clientes". Lo que ocurre a continuación es reemplazar los valores de la probabilidad de que haya compra por el valor de la categoría, es decir, en este caso se reemplazará "Muy satisfecho" por 0,889331. 

In [8]:
df = encoding.target_encoding()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Administrative_knn,ProductRelated_knn,BounceRates_knn,VisitorType,OperatingSystems,Browser,Region,Month,TrafficType
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,-0.263158,-0.566667,11.461524,2.0,3.0,5.077266,4.820688,1.074171,3.044277
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,-0.263158,-0.533333,-0.22155,2.0,2.0,5.019744,5.067919,0.965979,7.013654
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,-0.263158,-0.566667,-0.22155,2.0,1.0,4.761668,8.752755,0.913082,3.080806
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,-0.052632,-0.533333,2.699218,2.0,4.0,5.019744,5.178251,0.965979,6.546186
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,-0.263158,-0.266667,0.946757,2.0,4.0,2.279404,5.067919,0.965979,6.546186


### Frequency Encoding

Es una técnica que asigna a cada categoría la frecuencia que aparece en el conjunto de datos. Es útil cuando la frecuencia de una categoría está relacionada con la variable respuesta, es decir, cuando existe un orden y que este orden está relacionado con frecuencia de ocurrencia de cada una de las categorías.

Su sintaxis básica es: 

```python

# Calcular la frecuencia de cada categoría
frecuencia = df['categoria'].value_counts(normalize=True)

# Mapear la frecuencia a cada categoría en el DataFrame
df['categoria_codificada'] = df['categoria'].map(frecuencia)
```

**Ventajas:**

- Es fácil de entender y de implementar.

- Produce menos columnas, lo que puede ayudar a reducir la dimensionalidad del conjunto de datos.

- Si la frecuencia de una categoría está relacionada con la variable respuesta, el frequency encoding puede capturar esa relación y mejorar el rendimiento del modelo.

**Desventajas:**

- Las categorías más comunes tendrán valores más altos, lo que puede sesgar el modelo si la relación entre la frecuencia y la variable respuesta es espuria.

- Las categorías que aparecen una sola vez pueden no proporcionar información útil y podrían no ser bien representadas por el frequency encoding.

In [9]:
# para poder ejecutar esta forma de encoding deberíamos ejecutar el siguiente código
df = encoding.frequency_encoding()
df.head()

Unnamed: 0,AdministrativeDuration,Informational,InformationalDuration,ProductRelatedDuration,ExitRates,PageValues,Administrative_knn,ProductRelated_knn,BounceRates_knn,VisitorType,OperatingSystems,Browser,Region,Month,TrafficType
0,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,-0.263158,-0.566667,11.461524,2.0,3.0,5.077266,4.820688,1.074171,3.044277
1,-0.028789,0.0,0.0,-0.417913,2.095621,0.0,-0.263158,-0.533333,-0.22155,2.0,2.0,5.019744,5.067919,0.965979,7.013654
2,-0.028789,0.0,0.0,-0.467912,4.895621,0.0,-0.263158,-0.566667,-0.22155,2.0,1.0,4.761668,8.752755,0.913082,3.080806
3,-0.028789,0.0,0.0,-0.465829,3.215621,0.0,-0.052632,-0.533333,2.699218,2.0,4.0,5.019744,5.178251,0.965979,6.546186
4,-0.028789,0.0,0.0,0.022315,0.695621,0.0,-0.263158,-0.266667,0.946757,2.0,4.0,2.279404,5.067919,0.965979,6.546186


In [11]:
df.to_csv("datos/online_shoppers_intention_clase_nonulls_estan_sinout_encoding.csv")
