In [41]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [42]:
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
  rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

Unnamed: 0,Rentas,Ciudad
0,10288,Zapopan
1,14836,Ciudad de México
2,3763,Morelia
3,3402,Monterrey
4,4673,Mexicali


# Codificación One-Hot

In [43]:
OH=pd.get_dummies(df,prefix='',prefix_sep='',columns=['Ciudad'])
OH

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Mexicali,Monterrey,Morelia,Zapopan
0,10288,0,0,0,0,0,1
1,14836,1,0,0,0,0,0
2,3763,0,0,0,0,1,0
3,3402,0,0,0,1,0,0
4,4673,0,0,1,0,0,0
5,9603,1,0,0,0,0,0
6,17657,1,0,0,0,0,0
7,4692,1,0,0,0,0,0
8,14620,1,0,0,0,0,0
9,4343,0,0,0,1,0,0


# Codificación Ficticia

In [44]:
F=pd.get_dummies(df,prefix='',prefix_sep='',drop_first=True)
F

Unnamed: 0,Rentas,Guadalajara,Mexicali,Monterrey,Morelia,Zapopan
0,10288,0,0,0,0,1
1,14836,0,0,0,0,0
2,3763,0,0,0,1,0
3,3402,0,0,1,0,0
4,4673,0,1,0,0,0
5,9603,0,0,0,0,0
6,17657,0,0,0,0,0
7,4692,0,0,0,0,0
8,14620,0,0,0,0,0
9,4343,0,0,1,0,0


# Codificación de Efectos

In [45]:
E=pd.get_dummies(df,prefix='',prefix_sep='',drop_first=True)

In [46]:
np.where(df['Ciudad']=='Ciudad de México')[0]

array([ 1,  5,  6,  7,  8, 14])

In [47]:
E.dtypes

Rentas         int64
Guadalajara    uint8
Mexicali       uint8
Monterrey      uint8
Morelia        uint8
Zapopan        uint8
dtype: object

In [49]:
E=E.astype('float')
for i in np.where(df['Ciudad']=='Ciudad de México')[0]:
  E.iloc[i,1:]=-1
#E.iloc[27]

# Regresiones lineales

In [50]:
lin=LinearRegression()

In [51]:
# Para OH
lin.fit(OH.drop(columns='Rentas'),OH['Rentas'])

LinearRegression()

In [52]:
lin.coef_

array([ 6275.375     , -1963.29166667, -1882.54166667, -1692.29166667,
       -2491.29166667,  1754.04166667])

In [53]:
lin.intercept_

6254.291666666666

In [54]:
promedios=df.groupby('Ciudad')['Rentas'].mean()
promedios

Ciudad
Ciudad de México    12529.666667
Guadalajara          4291.000000
Mexicali             4371.750000
Monterrey            4562.000000
Morelia              3763.000000
Zapopan              8008.333333
Name: Rentas, dtype: float64

In [55]:
OH.columns

Index(['Rentas', 'Ciudad de México', 'Guadalajara', 'Mexicali', 'Monterrey',
       'Morelia', 'Zapopan'],
      dtype='object')

In [56]:
# Ciudad de México
lin.coef_[0]+lin.intercept_

12529.666666666668

In [57]:
# Guadalajara
lin.coef_[1]+lin.intercept_

4290.999999999987

In [58]:
# Mexicali
lin.coef_[2]+lin.intercept_

4371.750000000002

In [59]:
# Moterrey
lin.coef_[3]+lin.intercept_

4562.000000000002

In [60]:
# Morelia
lin.coef_[4]+lin.intercept_

3762.9999999999986

In [61]:
# Zapopan
lin.coef_[-1]+lin.intercept_

8008.333333333336

In [62]:
# Promedio general
promedios.mean()

6254.291666666667

In [63]:
# Codificación Ficticia
lin.fit(F.drop(columns='Rentas'),F.Rentas)

LinearRegression()

In [64]:
lin.coef_

array([-8238.66666667, -8157.91666667, -7967.66666667, -8766.66666667,
       -4521.33333333])

In [65]:
lin.intercept_

12529.666666666666

In [66]:
df.groupby('Ciudad')['Rentas'].mean()

Ciudad
Ciudad de México    12529.666667
Guadalajara          4291.000000
Mexicali             4371.750000
Monterrey            4562.000000
Morelia              3763.000000
Zapopan              8008.333333
Name: Rentas, dtype: float64

In [67]:
lin.coef_+lin.intercept_

array([4291.        , 4371.75      , 4562.        , 3763.        ,
       8008.33333333])

In [68]:
# Codificación de efectos
lin.fit(E.drop(columns='Rentas'),E.Rentas)

LinearRegression()

Coeficientes de One-Hot:

[ 6275.375     , -1963.29166667, -1882.54166667, -1692.29166667,
       -2491.29166667,  1754.04166667]

In [69]:
lin.coef_

array([-1963.29166667, -1882.54166667, -1692.29166667, -2491.29166667,
        1754.04166667])

In [70]:
lin.intercept_

6254.291666666666

In [71]:
# La intersección de la regresión lineal para la codificación de Efectos se interpreta como el promedio de los promedios de las categorías individuales (Promedio general)
promedios.mean()

6254.291666666667

In [72]:
promedios

Ciudad
Ciudad de México    12529.666667
Guadalajara          4291.000000
Mexicali             4371.750000
Monterrey            4562.000000
Morelia              3763.000000
Zapopan              8008.333333
Name: Rentas, dtype: float64

In [73]:
lin.coef_+lin.intercept_

array([4291.        , 4371.75      , 4562.        , 3763.        ,
       8008.33333333])

Al efecto de que los coeficientes son la diferencia entre el promedio genaral y el promedio de cada categoría se le conoce como **efecto principal**.