<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> 1.- Creación de Variables Binarias </font> </center>

En ciencia de datos y machine learning, muchas veces los modelos requieren que todas las variables sean numéricas. Sin embargo, en la práctica, es común encontrar variables categóricas (por ejemplo, color, país, tipo de producto). Por ello, es necesario transformar estas variables en representaciones numéricas mediante técnicas de codificación adecuadas.

Las variables binarias son aquellas que solo pueden tomar dos valores posibles, como 0/1, Sí/No, Verdadero/Falso, etc. En ciencia de datos y machine learning, es fundamental codificar correctamente estas variables para que los algoritmos puedan interpretarlas y aprovechar su información.


In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
#Dataset de ejemplo
np.random.seed(1)
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
    rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

# Codificación One-Hot

Aunque el one-hot encoding se utiliza principalmente para variables categóricas con más de dos categorías, también puede aplicarse a variables binarias. Consiste en crear una columna para cada valor posible, asignando 1 si la observación pertenece a esa categoría y 0 en caso contrario.

El uso de la codificación one-hot es especialmente útil cuando no hay un orden inherente en las categorías y todas las categorías son igualmente importantes. Esto es común en variables categóricas como el género, el estado civil, la región geográfica, entre otros.


In [None]:
# Codifica todas las variables categóricas

In [None]:
# No agrega el prefijo

In [None]:
# Codifica solo 'Ciudad' (Agrega el prefijo)

In [None]:
# Especificamos el prefijo


### One-hot encoding con Scikit-learn

La librería `scikit-learn` también permite realizar one-hot encoding de manera eficiente usando la clase `OneHotEncoder`. Es especialmente útil cuando se trabaja con pipelines o datos para modelos de machine learning.


In [None]:
#from sklearn.preprocessing import OneHotEncoder 
from sklearn.preprocessing import OneHotEncoder

df_ejemplo = pd.DataFrame({'Color': ['Rojo', 'Azul', 'Verde', 'Azul', 'Rojo']})
encoder = OneHotEncoder(sparse_output=False)
onehot = encoder.fit_transform(df_ejemplo[['Color']])
df_onehot_sklearn = pd.DataFrame(onehot, columns=encoder.get_feature_names_out(['Color']))
df_onehot_sklearn

In [None]:
#Ejemplo: credit aproval
data = pd.read_csv("credit_approval_uci.csv")
data.head()

In [None]:
#codificación conscikit-learn
encoder = OneHotEncoder(sparse_output=False)

In [None]:
#Transformamos a un dataframe

# agregamos el nombre de las variables categoricas encodeadas


In [None]:
#Concatenamos con los datos numéricos

# Drop variables categoricas


### Ventajas de la Codificación One-Hot

**Preservación de la Información:** Mantiene la distintividad de las etiquetas sin implicar ninguna ordinalidad.

**Compatibilidad:** Proporciona una representación numérica de los datos categóricos, lo que la hace adecuada para muchos algoritmos de aprendizaje automático.

### Casos de Uso

**Datos Categóricos Nominales:** 

**Modelos de Aprendizaje Automático:** Es particularmente beneficiosa para algoritmos que no pueden manejar datos categóricos directamente, como la regresión lineal, regresión logística y redes neuronales.

**Manejo de Valores Faltantes:** La codificación one-hot maneja eficientemente los valores faltantes. Si una categoría está ausente, resulta en todos ceros en las columnas codificadas, lo cual puede ser útil para ciertos modelos de ML.

### Desafíos de la Codificación One-Hot

**Aumento de la Dimensionalidad:** Puede llevar a un alto número de nuevas columnas (dimensiones) en tu conjunto de datos, aumentando la complejidad computacional y los requerimientos de almacenamiento.

**Multicolinealidad:** Las nuevas columnas binarias creadas pueden estar correlacionadas, lo que puede ser problemático para algunos modelos que asumen independencia entre las características.

**Esparsidad de Datos:** La codificación one-hot puede resultar en matrices dispersas donde la mayoría de las entradas son ceros, lo que puede ser ineficiente en memoria y afectar el rendimiento del modelo.


# Codificación Ficticia

La codificación ficticia es similar al one-hot, pero elimina una de las columnas para evitar multicolinealidad (trampa de las variables ficticias). Para variables binarias, basta con una columna que indique la presencia (1) o ausencia (0) de una de las categorías.

In [None]:
df

In [None]:
#Buscar donde 'Ciudad' es CDMX


**Codificación Ficticia con Scikit-learn**

In [None]:
#instanciar el objeto de la clase OneHotEncoder


In [None]:
#Transformar las variables categoricas


In [None]:
#Transformamos a un dataframe


# Codificación de Efectos

- La categoría de referencia ahora está representada por el vector cuyos elementos son todos –1.
- Da lugar a modelos únicos e interpretables.
- El vector de todos los –1 es un vector denso, que resulta costoso tanto para el almacenamiento como para el cálculo.

In [None]:
#generar la codificación de efectos


# Regresión lineal

En modelos de regresión lineal, las variables binarias suelen codificarse como 0 y 1. Esto permite interpretar el coeficiente como el efecto promedio de pertenecer a la categoría 1 respecto a la categoría 0.

### Reg lineal con OneHot

In [None]:
#Basado en la codificación One-Hot


In [None]:
#Obtenemos una regresión lineal apartir de la transformación OH


$$ \hat{y} = a1*x_1 + a2*x_2 + ... + a5*x_5 + a0$$

**Para la codificación One-Hot, en una regresión lineal, la intersección es el promedio de los valores promedios de las rentas de cada categoría. Los coeficientes son el resultante de la resta entre el promedio de las categorías y el promedio general.**

### Reg lineal con Codificación Ficticia

**En la codificación Ficticia, la intersección de la regresión lineal corresponde al promedio de la categoría de referencia. Los coeficientes son la diferencia entre el promedio de cada categoría y la intersección.**

### Reg lineal con Codificación de Efectos

**Para la codificación de Efectos, en una regresión lineal, la intersección es el promedio general y los coeficientes, la diferencia entre los promedios de cada variable y el promedio general (a esto se le conoce como efecto principal).**

### Ventajas de la Codificación Effect

**Evita la Multicolinealidad**: Al usar -1 en lugar de la categoría base, la codificación por efecto ayuda a manejar la multicolinealidad mejor que la codificación one-hot.

**Coeficientes Interpretables:** En modelos lineales, los coeficientes de las variables codificadas por efecto se interpretan como desviaciones respecto a la media general, lo que a veces puede hacer que el modelo sea más fácil de interpretar.

### Casos de Uso

**Modelos Lineales:** Al usar regresión lineal u otros modelos lineales, la codificación por efecto ayuda a manejar eficazmente los problemas de multicolinealidad y hace que los coeficientes sean más interpretables.

**ANOVA (Análisis de Varianza):** La codificación por efecto se utiliza a menudo en modelos ANOVA para comparar medias de grupos.

en conclusión la codificación por efecto es particularmente beneficiosa para modelos lineales debido a su capacidad para manejar la multicolinealidad y hacer que los coeficientes sean interpretables.