In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [46]:
np.random.seed(1)
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
  rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

Unnamed: 0,Rentas,Ciudad
0,9285,Zapopan
1,5025,Monterrey
2,4531,Guadalajara
3,7415,Zapopan
4,4837,Guadalajara


# Codificación One-Hot

In [3]:
pd.get_dummies(df)

Unnamed: 0,Rentas,Ciudad_Ciudad de México,Ciudad_Guadalajara,Ciudad_Monterrey,Ciudad_Morelia,Ciudad_Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [4]:
pd.get_dummies(df,columns=['Ciudad'])

Unnamed: 0,Rentas,Ciudad_Ciudad de México,Ciudad_Guadalajara,Ciudad_Monterrey,Ciudad_Morelia,Ciudad_Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


In [5]:
OH=pd.get_dummies(df,prefix_sep='',prefix='')
OH

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,False,True
1,5025,False,False,True,False,False
2,4531,False,True,False,False,False
3,7415,False,False,False,False,True
4,4837,False,True,False,False,False
5,5420,False,True,False,False,False
6,3816,False,True,False,False,False
7,11920,False,False,False,False,True
8,9771,False,False,False,False,True
9,4431,True,False,False,False,False


# Codificación Ficticia

In [6]:
F=pd.get_dummies(df,prefix_sep='',prefix='',drop_first=True)
F

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,False,False,False,False


In [7]:
# Categoría eliminada
F.columns[1:],df['Ciudad'].unique() # Columnas resultantes, Variables que pertenecen a 'Ciudad'

(Index(['Guadalajara', 'Monterrey', 'Morelia', 'Zapopan'], dtype='object'),
 array(['Zapopan', 'Monterrey', 'Guadalajara', 'Ciudad de México',
        'Morelia'], dtype=object))

In [8]:
# Hacemos una resta de conjuntos
CR,=set(df['Ciudad'].unique())-set(F.columns[1:]) # Categoría de referencia
CR

'Ciudad de México'

In [9]:
# Elegir la Categoría de referencia
CR='Ciudad de México'
# Eliminamos la columna 'CR' de la codificación One-Hot
F=pd.get_dummies(df,prefix_sep='',prefix='').drop(columns=CR)
F

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,False,False,False,True
1,5025,False,True,False,False
2,4531,True,False,False,False
3,7415,False,False,False,True
4,4837,True,False,False,False
5,5420,True,False,False,False
6,3816,True,False,False,False
7,11920,False,False,False,True
8,9771,False,False,False,True
9,4431,False,False,False,False


# Codificación de Efectos

1. Codificamos la variable usando Codificación Ficticia.
2. Convertimos el dataset a entero con signo de 8 bits.
3. Asignamos -1 a las observaciones donde tengamos la categoría de referencia.
     ```python
     df[df['Ciudad']==CR]=-1
     ```

In [51]:
# Derechos reservador by Arroyo ;)
df1 = pd.get_dummies(df, prefix_sep='', prefix='',drop_first=True)
df1

columns =   df1.columns[1:]

df1[columns] = df1[columns].astype('int8')
df1.loc[df['Ciudad'] == CR,columns] = -1   # Buscamos la Categoría de referencia en el DataFrame original
df1




Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0
2,4531,1,0,0,0
3,7415,0,0,0,1
4,4837,1,0,0,0
5,5420,1,0,0,0
6,3816,1,0,0,0
7,11920,0,0,0,1
8,9771,0,0,0,1
9,4431,-1,-1,-1,-1


# Regresión lineal

In [52]:
lin_OH=LinearRegression() # One-Hot
lin_F=LinearRegression()  # Ficticia
lin_E=LinearRegression()  # de Efectos

In [53]:
# Entrenación
lin_OH.fit(OH.drop(columns='Rentas'),OH['Rentas'])
lin_F.fit(F.drop(columns='Rentas'),F['Rentas'])
lin_E.fit(df1.drop(columns='Rentas'),df1['Rentas'])

In [54]:
#@title Interpretación para One-Hot
# Vamo a ver
lin_OH.coef_,lin_OH.intercept_

(array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
         1917.96666667]),
 6382.366666666667)

In [56]:
OH.columns[1:]

Index(['Ciudad de México', 'Guadalajara', 'Monterrey', 'Morelia', 'Zapopan'], dtype='object')

Vemos (fácilmente) que, la intersección es el promedio general (el promedio de los promedios de cada ciudad) y los coeficientes, nos dicen qué tan alejada está la renta con respecto al promedio.

In [57]:
# Promedios de renta de cada ciudad
promedios=df.groupby('Ciudad').mean()
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


In [60]:
# El promedio de 'promedios' es la intersección de la regresión lineal usando One-Hot
promedios.mean() - lin_OH.intercept_

Unnamed: 0,0
Rentas,0.0


In [61]:
# Los coeficientes son la diferencia entre 'promedios' y el promedio general
promedios - promedios.mean()

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,4525.883333
Guadalajara,-1799.116667
Monterrey,-1357.366667
Morelia,-3287.366667
Zapopan,1917.966667


In [62]:
lin_OH.coef_

array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
        1917.96666667])

In [63]:
#@title Interpretación para la codificación Ficticia
lin_F.coef_,lin_F.intercept_

(array([-6325.        , -5883.25      , -7813.25      , -2607.91666667]),
 10908.250000000002)

In [65]:
# La intersección es el promedio de la categoría de referencia
promedios.loc[CR]-lin_F.intercept_

Unnamed: 0,Ciudad de México
Rentas,-1.818989e-12


In [66]:
# El promedio de cada ciudad está referenciado al promedio de 'CR'
promedios-promedios.loc[CR]

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,0.0
Guadalajara,-6325.0
Monterrey,-5883.25
Morelia,-7813.25
Zapopan,-2607.916667


In [67]:
lin_F.coef_

array([-6325.        , -5883.25      , -7813.25      , -2607.91666667])

In [68]:
#@title Interpretación de la codificación de Efectos
lin_E.coef_,lin_E.intercept_

(array([-1799.11666667, -1357.36666667, -3287.36666667,  1917.96666667]),
 6382.366666666668)

En la codificación de Efectos, la intersección es el promedio general y los coeficientes son la diferencia entre los promedios de cada ciudad y el promedio general. A esto se le conoce como efecto principal.

In [70]:
lin_E.intercept_-lin_E.coef_.sum(),promedios.loc[CR]

(10908.25,
 Rentas    10908.25
 Name: Ciudad de México, dtype: float64)