<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> 1.- Creación de Variables Binarias </font> </center>

En ciencia de datos y machine learning, muchas veces los modelos requieren que todas las variables sean numéricas. Sin embargo, en la práctica, es común encontrar variables categóricas (por ejemplo, color, país, tipo de producto). Por ello, es necesario transformar estas variables en representaciones numéricas mediante técnicas de codificación adecuadas.

Las variables binarias son aquellas que solo pueden tomar dos valores posibles, como 0/1, Sí/No, Verdadero/Falso, etc. En ciencia de datos y machine learning, es fundamental codificar correctamente estas variables para que los algoritmos puedan interpretarlas y aprovechar su información.


In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [2]:
#Dataset de ejemplo
np.random.seed(1)
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
    rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

Unnamed: 0,Rentas,Ciudad
0,9285,Zapopan
1,5025,Monterrey
2,4531,Guadalajara
3,7415,Zapopan
4,4837,Guadalajara


# Codificación One-Hot

Aunque el one-hot encoding se utiliza principalmente para variables categóricas con más de dos categorías, también puede aplicarse a variables binarias. Consiste en crear una columna para cada valor posible, asignando 1 si la observación pertenece a esa categoría y 0 en caso contrario.

El uso de la codificación one-hot es especialmente útil cuando no hay un orden inherente en las categorías y todas las categorías son igualmente importantes. Esto es común en variables categóricas como el género, el estado civil, la región geográfica, entre otros.


In [3]:
# Codifica todas las variables categóricas
pd.get_dummies(df)

Unnamed: 0,Rentas,Ciudad_Ciudad de México,Ciudad_Guadalajara,Ciudad_Monterrey,Ciudad_Morelia,Ciudad_Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [7]:
# No agrega el prefijo
pd.get_dummies(df, prefix='', prefix_sep='')

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [8]:
# Codifica solo 'Ciudad' (Agrega el prefijo)
pd.get_dummies(df['Ciudad'])

Unnamed: 0,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,False,False,False,False,True
1,False,False,True,False,False
2,False,True,False,False,False
3,False,False,False,False,True
4,False,True,False,False,False
5,False,True,False,False,False
6,False,True,False,False,False
7,False,False,False,False,True
8,False,False,False,False,True
9,True,False,False,False,False


In [None]:
# Especificamos el prefijo


### One-hot encoding con Scikit-learn

La librería `scikit-learn` también permite realizar one-hot encoding de manera eficiente usando la clase `OneHotEncoder`. Es especialmente útil cuando se trabaja con pipelines o datos para modelos de machine learning.


In [9]:
#from sklearn.preprocessing import OneHotEncoder 
from sklearn.preprocessing import OneHotEncoder

df_ejemplo = pd.DataFrame({'Color': ['Rojo', 'Azul', 'Verde', 'Azul', 'Rojo']})
encoder = OneHotEncoder(sparse_output=False)
onehot = encoder.fit_transform(df_ejemplo[['Color']])
df_onehot_sklearn = pd.DataFrame(onehot, columns=encoder.get_feature_names_out(['Color']))
df_onehot_sklearn

Unnamed: 0,Color_Azul,Color_Rojo,Color_Verde
0,0.0,1.0,0.0
1,1.0,0.0,0.0
2,0.0,0.0,1.0
3,1.0,0.0,0.0
4,0.0,1.0,0.0


In [10]:
df_ejemplo

Unnamed: 0,Color
0,Rojo
1,Azul
2,Verde
3,Azul
4,Rojo


In [11]:
#Ejemplo: credit aproval
data = pd.read_csv("credit_approval_uci.csv")
data.head()

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15,target
0,b,30.83,0.0,u,g,w,v,1.25,t,t,1,f,g,202.0,0,1
1,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43.0,560,1
2,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280.0,824,1
3,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100.0,3,1
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120.0,0,1


In [12]:
#codificación conscikit-learn
encoder = OneHotEncoder(sparse_output=False)

In [13]:
vars_cat = data.select_dtypes(include='O').columns.to_list()
vars_cat

['A1', 'A4', 'A5', 'A6', 'A7', 'A9', 'A10', 'A12', 'A13']

In [14]:
for col in vars_cat:
    print(f'variable {col} con cadinalidad {data[col].nunique()}')

variable A1 con cadinalidad 3
variable A4 con cadinalidad 4
variable A5 con cadinalidad 4
variable A6 con cadinalidad 15
variable A7 con cadinalidad 10
variable A9 con cadinalidad 2
variable A10 con cadinalidad 2
variable A12 con cadinalidad 2
variable A13 con cadinalidad 3


In [15]:
encoder.fit(data[vars_cat])

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [16]:
encoder.categories_

[array(['Missing', 'a', 'b'], dtype=object),
 array(['Missing', 'l', 'u', 'y'], dtype=object),
 array(['Missing', 'g', 'gg', 'p'], dtype=object),
 array(['Missing', 'aa', 'c', 'cc', 'd', 'e', 'ff', 'i', 'j', 'k', 'm',
        'q', 'r', 'w', 'x'], dtype=object),
 array(['Missing', 'bb', 'dd', 'ff', 'h', 'j', 'n', 'o', 'v', 'z'],
       dtype=object),
 array(['f', 't'], dtype=object),
 array(['f', 't'], dtype=object),
 array(['f', 't'], dtype=object),
 array(['g', 'p', 's'], dtype=object)]

In [18]:
data_enc = encoder.transform(data[vars_cat])
data_enc

array([[0., 0., 1., ..., 1., 0., 0.],
       [0., 1., 0., ..., 1., 0., 0.],
       [0., 1., 0., ..., 1., 0., 0.],
       ...,
       [0., 1., 0., ..., 1., 0., 0.],
       [0., 0., 1., ..., 1., 0., 0.],
       [0., 0., 1., ..., 1., 0., 0.]])

In [20]:
#Transformamos a un dataframe
data_enc = encoder.transform(data[vars_cat])

data_enc_df = pd.DataFrame(data_enc)
# agregamos el nombre de las variables categoricas encodeadas
data_enc_df.columns = encoder.get_feature_names_out()
data_enc_df

Unnamed: 0,A1_Missing,A1_a,A1_b,A4_Missing,A4_l,A4_u,A4_y,A5_Missing,A5_g,A5_gg,...,A7_z,A9_f,A9_t,A10_f,A10_t,A12_f,A12_t,A13_g,A13_p,A13_s
0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0
2,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
4,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0
686,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
687,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
688,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0


In [26]:
#Concatenamos con los datos numéricos
data_tansform = pd.concat([data, data_enc_df], axis=1)
# Drop variables categoricas
data_tansform.drop(labels=vars_cat, axis=1, inplace=True)

In [27]:
data_tansform

Unnamed: 0,A2,A3,A8,A11,A14,A15,target,A1_Missing,A1_a,A1_b,...,A7_z,A9_f,A9_t,A10_f,A10_t,A12_f,A12_t,A13_g,A13_p,A13_s
0,30.83,0.000,1.25,1,202.0,0,1,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0
1,58.67,4.460,3.04,6,43.0,560,1,0.0,1.0,0.0,...,0.0,0.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0
2,24.50,0.500,1.50,0,280.0,824,1,0.0,1.0,0.0,...,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0
3,27.83,1.540,3.75,5,100.0,3,1,0.0,0.0,1.0,...,0.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
4,20.17,5.625,1.71,0,120.0,0,1,0.0,0.0,1.0,...,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,21.08,10.085,1.25,0,260.0,0,0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0
686,22.67,0.750,2.00,2,200.0,394,0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
687,25.25,13.500,2.00,1,200.0,1,0,0.0,1.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0
688,17.92,0.205,0.04,0,280.0,750,0,0.0,0.0,1.0,...,0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0


In [28]:
data_tansform.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 52 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   A2          690 non-null    float64
 1   A3          690 non-null    float64
 2   A8          690 non-null    float64
 3   A11         690 non-null    int64  
 4   A14         690 non-null    float64
 5   A15         690 non-null    int64  
 6   target      690 non-null    int64  
 7   A1_Missing  690 non-null    float64
 8   A1_a        690 non-null    float64
 9   A1_b        690 non-null    float64
 10  A4_Missing  690 non-null    float64
 11  A4_l        690 non-null    float64
 12  A4_u        690 non-null    float64
 13  A4_y        690 non-null    float64
 14  A5_Missing  690 non-null    float64
 15  A5_g        690 non-null    float64
 16  A5_gg       690 non-null    float64
 17  A5_p        690 non-null    float64
 18  A6_Missing  690 non-null    float64
 19  A6_aa       690 non-null    f

### Ventajas de la Codificación One-Hot

**Preservación de la Información:** Mantiene la distintividad de las etiquetas sin implicar ninguna ordinalidad.

**Compatibilidad:** Proporciona una representación numérica de los datos categóricos, lo que la hace adecuada para muchos algoritmos de aprendizaje automático.

### Casos de Uso

**Datos Categóricos Nominales:** 

**Modelos de Aprendizaje Automático:** Es particularmente beneficiosa para algoritmos que no pueden manejar datos categóricos directamente, como la regresión lineal, regresión logística y redes neuronales.

**Manejo de Valores Faltantes:** La codificación one-hot maneja eficientemente los valores faltantes. Si una categoría está ausente, resulta en todos ceros en las columnas codificadas, lo cual puede ser útil para ciertos modelos de ML.

### Desafíos de la Codificación One-Hot

**Aumento de la Dimensionalidad:** Puede llevar a un alto número de nuevas columnas (dimensiones) en tu conjunto de datos, aumentando la complejidad computacional y los requerimientos de almacenamiento.

**Multicolinealidad:** Las nuevas columnas binarias creadas pueden estar correlacionadas, lo que puede ser problemático para algunos modelos que asumen independencia entre las características.

**Esparsidad de Datos:** La codificación one-hot puede resultar en matrices dispersas donde la mayoría de las entradas son ceros, lo que puede ser ineficiente en memoria y afectar el rendimiento del modelo.


# Codificación Ficticia

La codificación ficticia es similar al one-hot, pero elimina una de las columnas para evitar multicolinealidad (trampa de las variables ficticias). Para variables binarias, basta con una columna que indique la presencia (1) o ausencia (0) de una de las categorías.

In [33]:
pd.get_dummies(df, prefix='', prefix_sep='')

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [30]:
F = pd.get_dummies(df, prefix='', prefix_sep='', drop_first=True)
F

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,False,False,False,False


In [31]:
df

Unnamed: 0,Rentas,Ciudad
0,9285,Zapopan
1,5025,Monterrey
2,4531,Guadalajara
3,7415,Zapopan
4,4837,Guadalajara
5,5420,Guadalajara
6,3816,Guadalajara
7,11920,Zapopan
8,9771,Zapopan
9,4431,Ciudad de México


In [34]:
#Buscar donde 'Ciudad' es CDMX
np.where(df['Ciudad'] == 'Ciudad de México')

(array([ 9, 11, 15, 17], dtype=int64),)

In [36]:
df.iloc[[9,11,15,17],:] 

Unnamed: 0,Rentas,Ciudad
9,4431,Ciudad de México
11,16921,Ciudad de México
15,5478,Ciudad de México
17,16803,Ciudad de México


In [38]:
F.iloc[[9,11,15,17],:] 

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
9,4431,False,False,False,False
11,16921,False,False,False,False
15,5478,False,False,False,False
17,16803,False,False,False,False


**Codificación Ficticia con Scikit-learn**

In [39]:
data.head()

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15,target
0,b,30.83,0.0,u,g,w,v,1.25,t,t,1,f,g,202.0,0,1
1,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43.0,560,1
2,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280.0,824,1
3,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100.0,3,1
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120.0,0,1


In [40]:
#instanciar el objeto de la clase OneHotEncoder
#codificación conscikit-learn
encoder = OneHotEncoder(sparse_output=False, drop='first')
vars_cat = data.select_dtypes(include='O').columns.to_list()
vars_cat


['A1', 'A4', 'A5', 'A6', 'A7', 'A9', 'A10', 'A12', 'A13']

In [41]:
#Transformar las variables categoricas
encoder.fit(data[vars_cat])

0,1,2
,categories,'auto'
,drop,'first'
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [42]:
#Transformamos a un dataframe
data_enc = encoder.transform(data[vars_cat])
data_enc_df = pd.DataFrame(data_enc)
# agregamos el nombre de las variables categoricas encodeadas
data_enc_df.columns = encoder.get_feature_names_out()
data_enc_df

Unnamed: 0,A1_a,A1_b,A4_l,A4_u,A4_y,A5_g,A5_gg,A5_p,A6_aa,A6_c,...,A7_j,A7_n,A7_o,A7_v,A7_z,A9_t,A10_t,A12_t,A13_p,A13_s
0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0
1,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0
2,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,1.0,1.0,0.0,0.0
4,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
686,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0
687,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
688,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


# Codificación de Efectos

- La categoría de referencia ahora está representada por el vector cuyos elementos son todos –1.
- Da lugar a modelos únicos e interpretables.
- El vector de todos los –1 es un vector denso, que resulta costoso tanto para el almacenamiento como para el cálculo.

In [51]:
#generar la codificación de efectos
E = pd.get_dummies(df, prefix='', prefix_sep='', drop_first=True)
E


Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,False,False,False,False


In [52]:
(1,)

(1,)

In [53]:
CDMX, = np.where(df['Ciudad']=='Ciudad de México')
CDMX

array([ 9, 11, 15, 17], dtype=int64)

In [54]:
E.iloc[CDMX,1:]=-1
E

  E.iloc[CDMX,1:]=-1
  E.iloc[CDMX,1:]=-1
  E.iloc[CDMX,1:]=-1
  E.iloc[CDMX,1:]=-1


Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,-1,-1,-1,-1


In [56]:
E = E.astype('int')
E

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0
2,4531,1,0,0,0
3,7415,0,0,0,1
4,4837,1,0,0,0
5,5420,1,0,0,0
6,3816,1,0,0,0
7,11920,0,0,0,1
8,9771,0,0,0,1
9,4431,-1,-1,-1,-1


# Regresión lineal

En modelos de regresión lineal, las variables binarias suelen codificarse como 0 y 1. Esto permite interpretar el coeficiente como el efecto promedio de pertenecer a la categoría 1 respecto a la categoría 0.

### Reg lineal con OneHot

In [58]:
#Basado en la codificación One-Hot
OH = pd.get_dummies(df, prefix='', prefix_sep='')

In [59]:
OH

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [60]:
#Obtenemos una regresión lineal apartir de la transformación OH
linOH = LinearRegression()
linOH.fit(OH.drop(columns='Rentas'),OH['Rentas'])

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [61]:
linOH.coef_

array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
        1917.96666667])

In [62]:
linOH.intercept_

6382.366666666668

$$ \hat{y} = a1*x_1 + a2*x_2 + ... + a5*x_5 + a0$$

In [63]:
promedios = df.groupby('Ciudad').mean()
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


In [64]:
promedios.mean()

Rentas    6382.366667
dtype: float64

In [66]:
linOH.intercept_-promedios.mean()

Rentas    9.094947e-13
dtype: float64

In [68]:
promedios - promedios.mean()

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,4525.883333
Guadalajara,-1799.116667
Monterrey,-1357.366667
Morelia,-3287.366667
Zapopan,1917.966667


In [69]:
linOH.coef_

array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
        1917.96666667])

**Para la codificación One-Hot, en una regresión lineal, la intersección es el promedio de los valores promedios de las rentas de cada categoría. Los coeficientes son el resultante de la resta entre el promedio de las categorías y el promedio general.**

### Reg lineal con Codificación Ficticia

In [70]:
F

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,False,False,False,False


In [72]:
linF = LinearRegression()
linF.fit(F.drop(columns='Rentas'),OH['Rentas'])

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [73]:
CR = 'Ciudad de México'

In [75]:
linF.coef_

array([-6325.        , -5883.25      , -7813.25      , -2607.91666667])

In [76]:
linF.intercept_

10908.249999999998

In [77]:
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


In [78]:
promedios - promedios.loc[CR]

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,0.0
Guadalajara,-6325.0
Monterrey,-5883.25
Morelia,-7813.25
Zapopan,-2607.916667


In [79]:
linF.coef_

array([-6325.        , -5883.25      , -7813.25      , -2607.91666667])

**En la codificación Ficticia, la intersección de la regresión lineal corresponde al promedio de la categoría de referencia. Los coeficientes son la diferencia entre el promedio de cada categoría y la intersección.**

### Reg lineal con Codificación de Efectos

In [82]:
linE = LinearRegression()
linE.fit(F.drop(columns='Rentas'),E['Rentas'])

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [86]:
linE.intercept_, linE.coef_

(10908.249999999998,
 array([-6325.        , -5883.25      , -7813.25      , -2607.91666667]))

In [87]:
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


**Para la codificación de Efectos, en una regresión lineal, la intersección es el promedio general y los coeficientes, la diferencia entre los promedios de cada variable y el promedio general (a esto se le conoce como efecto principal).**

### Ventajas de la Codificación Effect

**Evita la Multicolinealidad**: Al usar -1 en lugar de la categoría base, la codificación por efecto ayuda a manejar la multicolinealidad mejor que la codificación one-hot.

**Coeficientes Interpretables:** En modelos lineales, los coeficientes de las variables codificadas por efecto se interpretan como desviaciones respecto a la media general, lo que a veces puede hacer que el modelo sea más fácil de interpretar.

### Casos de Uso

**Modelos Lineales:** Al usar regresión lineal u otros modelos lineales, la codificación por efecto ayuda a manejar eficazmente los problemas de multicolinealidad y hace que los coeficientes sean más interpretables.

**ANOVA (Análisis de Varianza):** La codificación por efecto se utiliza a menudo en modelos ANOVA para comparar medias de grupos.

en conclusión la codificación por efecto es particularmente beneficiosa para modelos lineales debido a su capacidad para manejar la multicolinealidad y hacer que los coeficientes sean interpretables.