# A. Modelos Lineales con Variables Categóricas

* Como se ha revisado anteriormente, una regresión lineal tiene la forma:

<div align="center">
	<font size=5>
        $y_{model} = \alpha+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon$
	<font/>
<div/>

* Lo anterior presupone que todas las variables independientes (predictoras) toman valores númericos.

* Sin embargo, es importante recordar que en la realidad, las variables observadas no siempre son de tipo númerico; especificamente, en el caso de las **variables categóricas**, los valores asociados a dichas variable suelen ser "etiquetas" o "identificadores" que permiten agrupar la observación realizada en algún subconjunto en particular.

## A.1. Variables Categóricas de dos niveles

* Consideremos por ejemplo el caso de la variable categórica $x_r$ que agrupe las categorias de *género*:

<div align="center">
	<font size=4>
        $Género \in \left\{\text{Hombre, Mujer}\right\}$
	<font/>
<div/>

* Si bien en un caso como este no es posible utilizar dicha variable como parte de un modelo de regresión lineal como el arriba mostrado, ciertamente dicha variable puede ser reinterpretada como una variable numérica $x_r$, de manera que cada una de las categorias pueda ser asociada con ún valor númerico. Un ejemplo de esto sería el siguiente:

<font size=4>
    $$x_r=\begin{equation}
    \left\{ 
      \begin{aligned}
        1, \text{ si la observación corresponde a "Hombre"}\\
        0, \text{ si la observación corresponde a "Mujer"}\\
      \end{aligned}
      \right.
    \end{equation}
    $$
<font\>

* Bajo el supuesto anterior, el modelo de la regresión podria escribirse entonces como:

<font size=4>
    $$y_{model}=\begin{equation}
    \left\{ 
      \begin{aligned}
        \alpha+\beta_1x_1+\beta_2x_2+...+\beta_rx_r+...+\beta_kx_k+\epsilon, \text{ si la observación corresponde a "Hombre"}\\
        \alpha+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon, \text{ si la observación corresponde a "Mujer"}\\
      \end{aligned}
      \right.
    \end{equation}
    $$
<font\>

* donde solo el modelo para el caso de "Hombre" incluye el factor $r$-ésimo.

## A.2. Variables categóricas de "m" niveles

* Analizemos ahora el caso de una variable categórica "Ciudad", la cual considera de $m=3$ niveles (grupos):

<div align="center">
	<font size=4>
        $Ciudad \in \left\{\text{C1, C2, C3}\right\}$
	<font/>
<div/>

* Para este caso, suena pertinente plantear un conjunto de $m-1$ variables númericas relacionadas con estas categorias; un ejemplo de esto seria:

<font size=4>
    $$x_{r1}=\begin{equation}
    \left\{ 
      \begin{aligned}
        1, \text{ si la ciudad es "C1"}\\
        0, \text{ si la ciudad NO es "C1"}\\
      \end{aligned}
      \right.
    \end{equation}
    $$
<font\>

<font size=4>
    $$x_{r2}=\begin{equation}
    \left\{ 
      \begin{aligned}
        1, \text{ si la ciudad es "C2"}\\
        0, \text{ si la ciudad NO es "C2"}\\
      \end{aligned}
      \right.
    \end{equation}
    $$
<font\>

* De modo que, el modelo de la regresión podria escribirse entonces como:

<font size=4>
    $$y_{model}=\begin{equation}
    \left\{ 
      \begin{aligned}
        \alpha+\beta_1x_1+\beta_2x_2+...+\beta_{r1}x_{r1}+...+\beta_kx_k+\epsilon, \text{ si la ciudad es "C1"}\\
        \alpha+\beta_1x_1+\beta_2x_2+...+\beta_{r2}x_{r2}+...+\beta_kx_k+\epsilon, \text{ si la ciudad es "C2"}\\
        \alpha+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\epsilon, \text{ si la ciudad es "C3"}\\
      \end{aligned}
      \right.
    \end{equation}
    $$
<font\>

* Notemos que en todo caso, la última categoria no requiere de una variable.

# B. Regresiones lineales con variables categóricas en Python

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [3]:
# Cargaremos el dataset "Ecom Expense.csv"
df = pd.read_csv("C:/Users/neosb/Downloads/python-ml-course-master/datasets/ecom-expense/Ecom Expense.csv")
df

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender,City Tier,Total Spend
0,TXN001,42,10,7313,627.668127,5,Female,Tier 1,4198.385084
1,TXN002,24,8,17747,126.904567,3,Female,Tier 2,4134.976648
2,TXN003,47,11,22845,873.469701,2,Male,Tier 2,5166.614455
3,TXN004,50,11,18552,380.219428,7,Female,Tier 1,7784.447676
4,TXN005,60,2,14439,403.374223,2,Female,Tier 2,3254.160485
...,...,...,...,...,...,...,...,...,...
2357,TXN2358,50,7,5705,460.157207,3,Male,Tier 2,2909.619546
2358,TXN2359,35,11,11202,851.924751,8,Male,Tier 2,7968.633136
2359,TXN2360,27,5,21335,435.145358,8,Female,Tier 3,8816.406448
2360,TXN2361,45,12,19294,658.439838,7,Female,Tier 1,7915.595856


In [7]:
# Generemos un conjunto de variables "dummy" para la variable categórica "Gender"
dummy_gender = pd.get_dummies(df["Gender"], prefix = "Gender")
dummy_gender

Unnamed: 0,Gender_Female,Gender_Male
0,1,0
1,1,0
2,0,1
3,1,0
4,1,0
...,...,...
2357,0,1
2358,0,1
2359,1,0
2360,1,0


In [8]:
# Generemos un conjunto de variables "dummy" para la variable categórica "City Tier"
dummy_citytier = pd.get_dummies(df["City Tier"], prefix="City")
dummy_citytier

Unnamed: 0,City_Tier 1,City_Tier 2,City_Tier 3
0,1,0,0
1,0,1,0
2,0,1,0
3,1,0,0
4,0,1,0
...,...,...,...
2357,0,1,0
2358,0,1,0
2359,0,0,1
2360,1,0,0


In [9]:
# Sustituir las variables categoricas por sus respectivas variables dummy en el dataframe
df_mod = df.drop(columns=["Gender", "City Tier", "Total Spend"])
df_mod = df_mod.join([dummy_gender, dummy_citytier, df["Total Spend"]])
df_mod.head()

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender_Female,Gender_Male,City_Tier 1,City_Tier 2,City_Tier 3,Total Spend
0,TXN001,42,10,7313,627.668127,5,1,0,1,0,0,4198.385084
1,TXN002,24,8,17747,126.904567,3,1,0,0,1,0,4134.976648
2,TXN003,47,11,22845,873.469701,2,0,1,0,1,0,5166.614455
3,TXN004,50,11,18552,380.219428,7,1,0,1,0,0,7784.447676
4,TXN005,60,2,14439,403.374223,2,1,0,0,1,0,3254.160485


In [19]:
# Definir el conjunto de variables independientes y dependientes
feature_cols = df_mod.iloc[:,[1,2,3,4,6,7,8,9,10]].columns.values.tolist()
# feature_cols = ["Monthly Income", "Transaction Time", "Gender_Female", "Gender_Male", "City_Tier 1", "City_Tier 2", "City_Tier 3"]

X = df_mod[feature_cols];
Y = df_mod["Total Spend"];

In [20]:
# Definir el modelo de regresión lineal
lm = LinearRegression()
lm.fit(X,Y)

LinearRegression()

In [21]:
# Imprimir los valores de los coeficientes
print(lm.intercept_)
print(lm.coef_)

3003.6583347049213
[  6.81849902  46.54999316   0.15320733   0.1403355  -94.75317836
  94.75317836 111.3407595  -21.93776518 -89.40299432]


In [22]:
list(zip(feature_cols, lm.coef_))

[('Age ', 6.81849902077212),
 (' Items ', 46.5499931564512),
 ('Monthly Income', 0.15320732667127146),
 ('Transaction Time', 0.1403355049072652),
 ('Gender_Female', -94.75317836175508),
 ('Gender_Male', 94.75317836175508),
 ('City_Tier 1', 111.34075949658676),
 ('City_Tier 2', -21.93776518009287),
 ('City_Tier 3', -89.40299431649396)]

In [23]:
# Imprimir el valor del coeficiente de determinación (R^2)
lm.score(X,Y)

0.20076433581578956

In [24]:
# Implementar el modelo para llevar a cabo la predicción para el conjunto de observaciones "X"
y_pred = lm.predict(X)

In [25]:
# Integrar las predicciones al dataframe
df_mod["Y_predicted"] = y_pred
df_mod.head(10)

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender_Female,Gender_Male,City_Tier 1,City_Tier 2,City_Tier 3,Total Spend,Y_predicted
0,TXN001,42,10,7313,627.668127,5,1,0,1,0,0,4198.385084,4980.61211
1,TXN002,24,8,17747,126.904567,3,1,0,0,1,0,4134.976648,6159.790956
2,TXN003,47,11,22845,873.469701,2,0,1,0,1,0,5166.614455,7531.593316
3,TXN004,50,11,18552,380.219428,7,1,0,1,0,0,7784.447676,6768.881401
4,TXN005,60,2,14439,403.374223,2,1,0,0,1,0,3254.160485,5657.945634
5,TXN006,49,6,6282,48.974268,2,0,1,0,1,0,2375.036467,4659.201414
6,TXN007,21,14,7086,961.203768,8,0,1,1,0,0,7494.474559,5225.158789
7,TXN008,58,9,8881,962.25374,10,0,1,0,0,1,10782.94492,5319.104033
8,TXN009,20,6,5635,858.328132,5,0,1,1,0,0,3854.277411,4609.199409
9,TXN010,48,12,20861,43.036737,4,1,0,0,1,0,5346.140262,6974.952886


# C. Eliminación de Variables Redundantes

In [28]:
# Cargaremos nuevamente el dataset "Ecom Expense.csv"
df = pd.read_csv("C:/Users/neosb/Downloads/python-ml-course-master/datasets/ecom-expense/Ecom Expense.csv")
df.head()

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender,City Tier,Total Spend
0,TXN001,42,10,7313,627.668127,5,Female,Tier 1,4198.385084
1,TXN002,24,8,17747,126.904567,3,Female,Tier 2,4134.976648
2,TXN003,47,11,22845,873.469701,2,Male,Tier 2,5166.614455
3,TXN004,50,11,18552,380.219428,7,Female,Tier 1,7784.447676
4,TXN005,60,2,14439,403.374223,2,Female,Tier 2,3254.160485


In [30]:
# Crearemos nuevamente las variables "dummy" para la variable categórica "Gender", PERO le quitaremos una de sus columnas.
dummy_gender = pd.get_dummies(df["Gender"], prefix="Gender").iloc[:,1:]
dummy_gender.head()

Unnamed: 0,Gender_Male
0,0
1,0
2,1
3,0
4,0


In [31]:
# Generemos nuevamente las variables "dummy" para "City Tier", PERO le quitaremos una de sus columnas 
dummy_citytier = pd.get_dummies(df["City Tier"], prefix="City").iloc[:,1:]
dummy_citytier.head()

Unnamed: 0,City_Tier 2,City_Tier 3
0,0,0
1,1,0
2,1,0
3,0,0
4,1,0


In [33]:
# Sustituir las variables categoricas por sus respectivas variables dummy en el dataframe
df_mod = df.drop(columns=["Gender", "City Tier", "Total Spend"])
df_mod = df_mod.join([dummy_gender, dummy_citytier, df["Total Spend"]])
df_mod.head()

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender_Male,City_Tier 2,City_Tier 3,Total Spend
0,TXN001,42,10,7313,627.668127,5,0,0,0,4198.385084
1,TXN002,24,8,17747,126.904567,3,0,1,0,4134.976648
2,TXN003,47,11,22845,873.469701,2,1,1,0,5166.614455
3,TXN004,50,11,18552,380.219428,7,0,0,0,7784.447676
4,TXN005,60,2,14439,403.374223,2,0,1,0,3254.160485


In [34]:
# Definir el conjunto de variables independientes y dependientes
feature_cols = df_mod.iloc[:,[3,4,6,7,8]].columns.values.tolist()
# feature_cols = ["Monthly Income", "Transaction Time", "Gender_Male", "City_Tier 2", "City_Tier 3"]

X = df_mod[feature_cols]
Y = df_mod["Total Spend"]

In [35]:
# Definir el modelo de regresión lineal
lm = LinearRegression()
lm.fit(X,Y)

LinearRegression()

In [36]:
# Imprimir los valores de los coeficientes
print(lm.intercept_)
print(lm.coef_)

3681.2348604643876
[ 1.52978246e-01  1.23726086e-01  1.88315598e+02 -1.36342270e+02
 -2.22647485e+02]


In [37]:
list(zip(feature_cols, lm.coef_))

[('Monthly Income', 0.15297824609320476),
 ('Transaction Time', 0.12372608642590277),
 ('Gender_Male', 188.31559766064044),
 ('City_Tier 2', -136.34226961189145),
 ('City_Tier 3', -222.647485199812)]

In [38]:
# Imprimir el valor del coeficiente de determinación (R^2)
lm.score(X,Y)

0.19478920552885381

In [40]:
# Implementar el modelo para llevar a cabo la predicción para el conjunto de observaciones "X"
y_pred = lm.predict(X)

In [41]:
# Integrar las predicciones al dataframe
df_mod["Y_predicted"] = y_pred
df_mod.head(10)

Unnamed: 0,Transaction ID,Age,Items,Monthly Income,Transaction Time,Record,Gender_Male,City_Tier 2,City_Tier 3,Total Spend,Y_predicted
0,TXN001,42,10,7313,627.668127,5,0,0,0,4198.385084,4877.623695
1,TXN002,24,8,17747,126.904567,3,0,1,0,4134.976648,6275.49893
2,TXN003,47,11,22845,873.469701,2,1,1,0,5166.614455,7336.067208
3,TXN004,50,11,18552,380.219428,7,0,0,0,7784.447676,6566.330344
4,TXN005,60,2,14439,403.374223,2,0,1,0,3254.160485,5803.6534
5,TXN006,49,6,6282,48.974268,2,1,1,0,2375.036467,4700.276925
6,TXN007,21,14,7086,961.203768,8,1,0,0,7494.474559,5072.48029
7,TXN008,58,9,8881,962.25374,10,1,0,1,10782.94492,5124.558666
8,TXN009,20,6,5635,858.328132,5,1,0,0,3854.277411,4837.780455
9,TXN010,48,12,20861,43.036737,4,0,1,0,5346.140262,6741.49655


In [42]:
np.unique(df["Record"])

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64)