# A03 - Factores cualitativos
### Gibran Leonardo Chávez González
### Exp.: 757366

## Importar librerías y archivos


In [55]:
import pandas as pd
from sklearn.linear_model import LinearRegression
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import r2_score

In [56]:
df = pd.read_excel('aguas.xlsx')
df

Unnamed: 0,tamaño,hielo,sabor,score
0,grande,sin,kahlúa,8.2
1,grande,con,kahlúa,9.0
2,chica,sin,kahlúa,7.0
3,chica,con,kahlúa,7.5
4,grande,con,horchata,10.0
5,chica,sin,horchata,6.0
6,chica,con,horchata,6.4
7,grande,sin,horchata,9.5


## P.1: Obtener columnas con 0 y 1 (pandas)

In [57]:
df_dummies = pd.get_dummies(df, columns=['tamaño', 'hielo', 'sabor'], dtype=int)
df_dummies.head()

Unnamed: 0,score,tamaño_chica,tamaño_grande,hielo_con,hielo_sin,sabor_horchata,sabor_kahlúa
0,8.2,0,1,0,1,0,1
1,9.0,0,1,1,0,0,1
2,7.0,1,0,0,1,0,1
3,7.5,1,0,1,0,0,1
4,10.0,0,1,1,0,1,0


In [58]:
del df_dummies['tamaño_chica']
del df_dummies['hielo_sin']
# Se puede hacer con drop_first=True
df_dummies

# chica=0, grande=1
# sin hielo=0, con hielo=1

Unnamed: 0,score,tamaño_grande,hielo_con,sabor_horchata,sabor_kahlúa
0,8.2,1,0,0,1
1,9.0,1,1,0,1
2,7.0,0,0,0,1
3,7.5,0,1,0,1
4,10.0,1,1,1,0
5,6.0,0,0,1,0
6,6.4,0,1,1,0
7,9.5,1,0,1,0


## Crear matriz "X" y vector "y"

In [59]:
X = np.array(df_dummies.drop('score', axis=1))
y = np.array(df_dummies['score'])

## Modelo de regresión

In [60]:
X = sm.add_constant(X)  
model = sm.OLS(y, X)
results = model.fit()
print(results.summary())


                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.714
Method:                 Least Squares   F-statistic:                     6.824
Date:                Mon, 09 Feb 2026   Prob (F-statistic):             0.0473
Time:                        19:11:27   Log-Likelihood:                -6.6425
No. Observations:                   8   AIC:                             21.29
Df Residuals:                       4   BIC:                             21.60
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.3000      0.320     13.417      0.0

In [61]:
# Para una R^2
lr = LinearRegression()
lr.fit(X, y)
r_2 = lr.score(X, y)


## P.2: Obtener -1 y 1

In [62]:
df_dummies_2 = df.copy()

In [63]:
df_dummies_2['tamaño'] = df['tamaño'].map({'chica': 1, 'grande': -1})
df_dummies_2['hielo'] = df['hielo'].map({'sin': 1, 'con': -1})

df_dummies_2

Unnamed: 0,tamaño,hielo,sabor,score
0,-1,1,kahlúa,8.2
1,-1,-1,kahlúa,9.0
2,1,1,kahlúa,7.0
3,1,-1,kahlúa,7.5
4,-1,-1,horchata,10.0
5,1,1,horchata,6.0
6,1,-1,horchata,6.4
7,-1,1,horchata,9.5


In [64]:
df_dummies_2 = pd.get_dummies(df_dummies_2, columns=['sabor'], dtype=int,)
df_dummies_2

Unnamed: 0,tamaño,hielo,score,sabor_horchata,sabor_kahlúa
0,-1,1,8.2,0,1
1,-1,-1,9.0,0,1
2,1,1,7.0,0,1
3,1,-1,7.5,0,1
4,-1,-1,10.0,1,0
5,1,1,6.0,1,0
6,1,-1,6.4,1,0
7,-1,1,9.5,1,0


In [65]:
X_2 = np.array(df_dummies_2.drop('score', axis=1))
y_2 = np.array(df_dummies_2['score'])

X_2 = sm.add_constant(X_2)
model_2 = sm.OLS(y_2, X_2)
results_2 = model_2.fit()
print(results_2.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.837
Model:                            OLS   Adj. R-squared:                  0.714
Method:                 Least Squares   F-statistic:                     6.824
Date:                Mon, 09 Feb 2026   Prob (F-statistic):             0.0473
Time:                        19:11:27   Log-Likelihood:                -6.6425
No. Observations:                   8   AIC:                             21.29
Df Residuals:                       4   BIC:                             21.60
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.3000      0.185     28.644      0.0

In [66]:
# R^2
lr_2 = LinearRegression()
lr_2.fit(X_2, y_2)
r_2_2 = lr_2.score(X_2, y_2)

## P_3: Comparar $\hat{\beta}$ y observaciones

In [67]:
# Comparacion de betas entre ambos modelos

for i in range(0, len(results.params)):
    print(f'B_{i}: Modelo 1 (0 y 1) -> {results.params[i]:.4f}, Modelo 2 (-1 y 1) -> {results_2.params[i]:.4f}\n')

print(f'R^2: Modelo 1 -> {r_2:.5f}, R^2 Modelo 2 -> {r_2_2:.5f}')

B_0: Modelo 1 (0 y 1) -> 4.3000, Modelo 2 (-1 y 1) -> 5.3000

B_1: Modelo 1 (0 y 1) -> 2.4500, Modelo 2 (-1 y 1) -> -1.2250

B_2: Modelo 1 (0 y 1) -> 0.5500, Modelo 2 (-1 y 1) -> -0.2750

B_3: Modelo 1 (0 y 1) -> 2.1750, Modelo 2 (-1 y 1) -> 2.6750

B_4: Modelo 1 (0 y 1) -> 2.1250, Modelo 2 (-1 y 1) -> 2.6250

R^2: Modelo 1 -> 0.83654, R^2 Modelo 2 -> 0.83654


Observaciones:

Se puede observar que al realizar modelos de regresión con dummies de 0 y 1, y con dummies de -1 y 1, las betas cambian considerablemente. Sin embargo, la ${R^2}$ de ambos modelos es prácticamente la misma, esto indica que la precisión que tienen ambos modelos es la misma.

Las diferencias entre los coeficientes es debido a que se cambió la escala y el punto de referencia de las variables.