<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> 1.- Creación de Variables Binarias </font> </center>

En ciencia de datos y machine learning, muchas veces los modelos requieren que todas las variables sean numéricas. Sin embargo, en la práctica, es común encontrar variables categóricas (por ejemplo, color, país, tipo de producto). Por ello, es necesario transformar estas variables en representaciones numéricas mediante técnicas de codificación adecuadas.


<img src='https://miro.medium.com/max/1400/1*Qw7Qw7Qw7Qw7Qw7Qw7Qw7Q.png' width='400' style='display:block; margin:auto;'>

Las variables categóricas pueden ser nominales (sin orden) u ordinales (con orden). La codificación correcta permite que los algoritmos de machine learning interpreten y aprovechen la información contenida en estas variables.


In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [2]:
np.random.seed(1)
categorías=['Guadalajara','Zapopan','Ciudad de México','Monterrey','Morelia','Mexicali']
ponderación=[1/4,1/5,1/4,7/40,1/20,3/40]
limites=[(3500,6000),(3000,12000),(4000,18000),(3000,6000),(2000,5000),(3500,5000)]
ciudad=np.random.choice(categorías,size=20,p=ponderación)
rentas=[]
for c in ciudad:
    rentas.append(np.random.randint(*limites[categorías.index(c)]))
df=pd.DataFrame()
df['Rentas']=rentas
df['Ciudad']=ciudad
df.head()

Unnamed: 0,Rentas,Ciudad
0,9285,Zapopan
1,5025,Monterrey
2,4531,Guadalajara
3,7415,Zapopan
4,4837,Guadalajara


# One-Hot

In [3]:
pd.get_dummies(df)                             # Codifica todas las variables categóricas

Unnamed: 0,Rentas,Ciudad_Ciudad de México,Ciudad_Guadalajara,Ciudad_Monterrey,Ciudad_Morelia,Ciudad_Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0
2,4531,0,1,0,0,0
3,7415,0,0,0,0,1
4,4837,0,1,0,0,0
5,5420,0,1,0,0,0
6,3816,0,1,0,0,0
7,11920,0,0,0,0,1
8,9771,0,0,0,0,1
9,4431,1,0,0,0,0


In [4]:
pd.get_dummies(df['Ciudad'])                  # No agrega el prefijo

Unnamed: 0,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,0,0,0,0,1
1,0,0,1,0,0
2,0,1,0,0,0
3,0,0,0,0,1
4,0,1,0,0,0
5,0,1,0,0,0
6,0,1,0,0,0
7,0,0,0,0,1
8,0,0,0,0,1
9,1,0,0,0,0


In [5]:
pd.get_dummies(df,columns=['Ciudad'])         # Codifica solo 'Ciudad' (Agrega el prefijo)

Unnamed: 0,Rentas,Ciudad_Ciudad de México,Ciudad_Guadalajara,Ciudad_Monterrey,Ciudad_Morelia,Ciudad_Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0
2,4531,0,1,0,0,0
3,7415,0,0,0,0,1
4,4837,0,1,0,0,0
5,5420,0,1,0,0,0
6,3816,0,1,0,0,0
7,11920,0,0,0,0,1
8,9771,0,0,0,0,1
9,4431,1,0,0,0,0


In [6]:
help(pd.get_dummies)

Help on function get_dummies in module pandas.core.reshape.reshape:

get_dummies(data, prefix=None, prefix_sep='_', dummy_na: 'bool' = False, columns=None, sparse: 'bool' = False, drop_first: 'bool' = False, dtype: 'Dtype | None' = None) -> 'DataFrame'
    Convert categorical variable into dummy/indicator variables.
    
    Parameters
    ----------
    data : array-like, Series, or DataFrame
        Data of which to get dummy indicators.
    prefix : str, list of str, or dict of str, default None
        String to append DataFrame column names.
        Pass a list with length equal to the number of columns
        when calling get_dummies on a DataFrame. Alternatively, `prefix`
        can be a dictionary mapping column names to prefixes.
    prefix_sep : str, default '_'
        If appending prefix, separator/delimiter to use. Or pass a
        list or dictionary as with `prefix`.
    dummy_na : bool, default False
        Add a column to indicate NaNs, if False NaNs are ignored.
  

In [7]:
OH=pd.get_dummies(df,prefix='',prefix_sep='') # Especificamos el prefijo
OH.head(2)

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0


In [8]:
#from sklearn.preprocessing import OneHotEncoder 


# Codificación Ficticia

In [9]:
F=pd.get_dummies(df,prefix='',prefix_sep='',drop_first=True)
F.head(2)

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0


In [10]:
np.where(df['Ciudad']=='Ciudad de México')

(array([ 9, 11, 15, 17], dtype=int64),)

In [11]:
F.iloc[[ 9, 11, 15, 17], :]

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
9,4431,0,0,0,0
11,16921,0,0,0,0
15,5478,0,0,0,0
17,16803,0,0,0,0


In [12]:
CR,=set(OH.columns)-set(F.columns)
CR

'Ciudad de México'

# Codificación de Efectos

In [13]:
E=pd.get_dummies(df,prefix='',prefix_sep='',drop_first=True)
CDMX,=np.where(df['Ciudad']==CR)
CDMX

array([ 9, 11, 15, 17], dtype=int64)

In [14]:
E.iloc[CDMX,1:]=-1
E.head(10)

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0
2,4531,1,0,0,0
3,7415,0,0,0,1
4,4837,1,0,0,0
5,5420,1,0,0,0
6,3816,1,0,0,0
7,11920,0,0,0,1
8,9771,0,0,0,1
9,4431,255,255,255,255


In [15]:
E.dtypes

Rentas         int64
Guadalajara    uint8
Monterrey      uint8
Morelia        uint8
Zapopan        uint8
dtype: object

In [16]:
E=E.astype('int')
E.dtypes

Rentas         int32
Guadalajara    int32
Monterrey      int32
Morelia        int32
Zapopan        int32
dtype: object

In [17]:
E.iloc[CDMX,1:]=-1
E.head(10)

Unnamed: 0,Rentas,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,1
1,5025,0,1,0,0
2,4531,1,0,0,0
3,7415,0,0,0,1
4,4837,1,0,0,0
5,5420,1,0,0,0
6,3816,1,0,0,0
7,11920,0,0,0,1
8,9771,0,0,0,1
9,4431,-1,-1,-1,-1


# Regresión lineal

In [19]:
OH.head()

Unnamed: 0,Rentas,Ciudad de México,Guadalajara,Monterrey,Morelia,Zapopan
0,9285,0,0,0,0,1
1,5025,0,0,1,0,0
2,4531,0,1,0,0,0
3,7415,0,0,0,0,1
4,4837,0,1,0,0,0


In [20]:
#@title One-Hot
linOH=LinearRegression()
linOH.fit(OH.drop(columns='Rentas'),OH.Rentas)

LinearRegression()

In [21]:
linOH.coef_

array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
        1917.96666667])

In [22]:
linOH.intercept_

6382.366666666668

$$ \hat{y} = a1*x_1 + a2*x_2 + ... + a5*x_5 + a0$$

In [23]:
promedios=df.groupby('Ciudad').mean()
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


In [24]:
linOH.intercept_-promedios.mean()

Rentas    9.094947e-13
dtype: float64

In [25]:
promedios-promedios.mean()

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,4525.883333
Guadalajara,-1799.116667
Monterrey,-1357.366667
Morelia,-3287.366667
Zapopan,1917.966667


In [26]:
linOH.coef_

array([ 4525.88333333, -1799.11666667, -1357.36666667, -3287.36666667,
        1917.96666667])

Para la codificación One-Hot, en una regresión lineal, la intersección es el promedio de los valores promedios de las rentas de cada categoría. Los coeficientes son el resultante de la resta entre el promedio de las categorías y el promedio general.

In [27]:
#@title Codificación Ficticia
linF=LinearRegression()
linF.fit(F.drop(columns='Rentas'),F.Rentas)

LinearRegression()

In [29]:
CR

'Ciudad de México'

In [28]:
linF.intercept_-promedios.loc[CR]

Rentas   -1.818989e-12
Name: Ciudad de México, dtype: float64

In [30]:
linF.intercept_

10908.249999999998

In [31]:
promedios.loc[CR]

Rentas    10908.25
Name: Ciudad de México, dtype: float64

In [32]:
promedios-promedios.loc[CR]

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,0.0
Guadalajara,-6325.0
Monterrey,-5883.25
Morelia,-7813.25
Zapopan,-2607.916667


In [33]:
linF.coef_

array([-6325.        , -5883.25      , -7813.25      , -2607.91666667])

En la codificación Ficticia, la intersección de la regresión lineal corresponde al promedio de la categoría de referencia. Los coeficientes son la diferencia entre el promedio de cada categoría y la intersección.

In [34]:
#@title Codificación de Efectos
linE=LinearRegression()
linE.fit(E.drop(columns='Rentas'),E.Rentas)

LinearRegression()

In [35]:
linOH.intercept_,linE.intercept_

(6382.366666666668, 6382.366666666668)

In [36]:
linOH.coef_[1:],linE.coef_

(array([-1799.11666667, -1357.36666667, -3287.36666667,  1917.96666667]),
 array([-1799.11666667, -1357.36666667, -3287.36666667,  1917.96666667]))

In [37]:
linE.intercept_+linE.coef_

array([4583.25      , 5025.        , 3095.        , 8300.33333333])

In [38]:
promedios

Unnamed: 0_level_0,Rentas
Ciudad,Unnamed: 1_level_1
Ciudad de México,10908.25
Guadalajara,4583.25
Monterrey,5025.0
Morelia,3095.0
Zapopan,8300.333333


In [39]:
# Promedio de la Categoría de referencia
linE.intercept_-linE.coef_.sum()

10908.250000000002

Para la codificación de Efectos, en una regresión lineal, la intersección es el promedio general y los coeficientes, la diferencia entre los promedios de cada variable y el promedio general (a esto se le conoce como efecto principal).