In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [2]:
np.random.seed(1)
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
  rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

Unnamed: 0,Rentas,Ciudad
0,9285,Zapopan
1,5025,Monterrey
2,4531,Guadalajara
3,7415,Zapopan
4,4837,Guadalajara


# Codificación

In [3]:
#@title One-Hot
df['Ciudad'].unique()

array(['Zapopan', 'Monterrey', 'Guadalajara', 'Ciudad de México',
       'Morelia'], dtype=object)

In [4]:
df['Ciudad']=='Zapopan'

0      True
1     False
2     False
3      True
4     False
5     False
6     False
7      True
8      True
9     False
10     True
11    False
12    False
13    False
14    False
15    False
16     True
17    False
18    False
19    False
Name: Ciudad, dtype: bool

In [5]:
OH=pd.get_dummies(df,prefix='',prefix_sep='',columns=['Ciudad'])
OH

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0
2,4531,0,1,0,0,0
3,7415,0,0,0,0,1
4,4837,0,1,0,0,0
5,5420,0,1,0,0,0
6,3816,0,1,0,0,0
7,11920,0,0,0,0,1
8,9771,0,0,0,0,1
9,4431,1,0,0,0,0


In [6]:
#@title Codificación Ficticia
#
# Eliminamos la primer columna de One-Hot
F=pd.get_dummies(df,prefix='',prefix_sep='',drop_first=True)
F

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0
2,4531,1,0,0,0
3,7415,0,0,0,1
4,4837,1,0,0,0
5,5420,1,0,0,0
6,3816,1,0,0,0
7,11920,0,0,0,1
8,9771,0,0,0,1
9,4431,0,0,0,0


In [7]:
# Qué categoría eliminó
CR,=set(df.Ciudad.unique())-set(F.columns)
CR

'Ciudad de México'

In [8]:
# Escogemos una categoria para eliminar (categoría de referencia)
CR7='Monterrey'
F=pd.get_dummies(df,prefix='',prefix_sep='')
F.head()

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0
2,4531,0,1,0,0,0
3,7415,0,0,0,0,1
4,4837,0,1,0,0,0


In [9]:
F.drop(columns=CR7,inplace=True)
F.head()

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,0,0,0
2,4531,0,1,0,0
3,7415,0,0,0,1
4,4837,0,1,0,0


In [10]:
#@title Codificación de efectos
E=F.copy()
E.head()

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,0,0,0
2,4531,0,1,0,0
3,7415,0,0,0,1
4,4837,0,1,0,0


In [11]:
# Identificación de las observaciones con la categoría de referencia
idx_CR=np.where(df['Ciudad']==CR7)[0]
idx_CR

array([1])

In [12]:
E.dtypes

Rentas              int64
Ciudad de México    uint8
Guadalajara         uint8
Morelia             uint8
Zapopan             uint8
dtype: object

In [13]:
E=E.astype('int')
E.dtypes

Rentas              int64
Ciudad de México    int64
Guadalajara         int64
Morelia             int64
Zapopan             int64
dtype: object

In [14]:
E.iloc[idx_CR,1:]=-1
E.head()

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,-1,-1,-1,-1
2,4531,0,1,0,0
3,7415,0,0,0,1
4,4837,0,1,0,0


# Regresión

In [15]:
lin_OH=LinearRegression() # Regresión para la codificación One-Hot
lin_F=LinearRegression()  # Regresión para la codificación Ficticia
lin_E=LinearRegression()  # Regresión para la codificación de Efectos

In [16]:
# Entrenación
lin_OH.fit(OH.drop(columns='Rentas'),OH.Rentas)
lin_F.fit(F.drop(columns='Rentas'),F.Rentas)
lin_E.fit(E.drop(columns='Rentas'),E.Rentas)

### Interpretación de la regresión lineal para la codificación One-Hot

In [None]:
# One-Hot
lin_OH.coef_

In [None]:
lin_OH.intercept_

In [None]:
# Promedios para cada ciudad
promedios=df.groupby('Ciudad').mean()
promedios

In [None]:
# La interseción es el promedio de 'promedios'
promedios.mean()-lin_OH.intercept_

In [None]:
# Los coeficientes son la diferencia entre los promedios y la intersección
coef=promedios-lin_OH.intercept_
coef

In [None]:
lin_OH.coef_

### Interpretación de la regresión lineal para la codificación Ficticia

In [None]:
F.head(2)

In [None]:
# En la regresión lineal de la codificación Ficticia, la intersección es el promedio de rentas de la categoría de referencia
lin_F.intercept_

In [None]:
# Los coeficientes en la regresión lineal con la codificación Ficticia, son la diferencia
# entre el promedio de las rentas de cada ciudad y la intersección (el promedio de la categoría de referencia)
lin_F.coef_

In [None]:
promedios

In [None]:
promedios-promedios.loc[CR7]

### Interpretación de la regresión lineal para la codificación de Efectos

In [31]:
# Igual que en la regresión lineal de la codificación One-Hot, la intersección es
# el promedio de los promedios de la renta en cada ciudad. Este es el efecto principal de la codificación
lin_E.intercept_,lin_OH.intercept_

(6382.366666666666, 6382.366666666667)

In [32]:
# La renta de cada ciudad es la suma entre la intersección y los coeficientes. Excepto para la categoría de referencia
lin_E.coef_,lin_OH.coef_

(array([ 4525.88333333, -1799.11666667, -3287.36666667,  1917.96666667]),
 array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
         1917.96666667]))

In [None]:
E.head()

In [None]:
df.head()

Para obtener el promedio de la categoría de referencia, restamos todos los coeficientes a la intersección (el promedio de los promedios)

In [35]:
lin_E.intercept_-lin_E.coef_.sum(),promedios.loc[CR7]

(5024.9999999999945,
 Rentas    5025.0
 Name: Monterrey, dtype: float64)