#***A03 - Factores cualitativos***
    **Arturo Ayala Hernández**
**Datos utilizados**: datos.csv

In [1]:
import pandas as pd
import numpy as np

# 1. Cargar los datos
datos_raw = pd.read_csv('datos.csv')
matriz_datos = np.array(datos_raw)

# 2. Recrear el DataFrame para procesar las columnas
df = pd.DataFrame(matriz_datos, columns=['tamaño', 'hielo', 'sabor', 'score'])

# 3. Aplicar las conversiones
df['tamaño'] = df['tamaño'].map({'grande': 1, 'chica': 0})

# Hielo: con -> 1, sin -> 0
df['hielo'] = df['hielo'].map({'con': 1, 'sin': 0})

# 4. Crear variables dummy para el sabor (Kahlúa y horchata)
# Get_dummies crea las columnas de 1s y 0s que ves en el pizarrón
dummies_sabor = pd.get_dummies(df['sabor'])

# 5. Unir todo en el orden : tamaño, hielo, Kahlúa, horchata, score
df_final = pd.concat([
    df[['tamaño', 'hielo']],
    dummies_sabor[['Kahlua', 'horchata']],
    df['score']
], axis=1)

# Convertir a tipos numéricos para asegurar que no haya problemas en la regresión
df_final = df_final.astype(float)

print(df_final)


   tamaño  hielo  Kahlua  horchata  score
0     1.0    0.0     1.0       0.0    8.2
1     1.0    1.0     1.0       0.0    9.0
2     0.0    0.0     1.0       0.0    7.0
3     0.0    1.0     1.0       0.0    7.5
4     1.0    1.0     0.0       1.0   10.0
5     0.0    0.0     0.0       1.0    6.0
6     0.0    1.0     0.0       1.0    6.4
7     1.0    0.0     0.0       1.0    9.5


In [2]:
from sklearn.linear_model import LinearRegression

X = df_final[['tamaño', 'hielo', 'Kahlua', 'horchata']]
y = df_final['score']

Lr = LinearRegression()
Lr.fit(X, y)

print("Betas:", Lr.coef_)
print("Intercepto:", Lr.intercept_)

Betas: [ 2.45   0.55  -0.025  0.025]
Intercepto: 6.449999999999999


In [3]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# --- PASO 2: Preparar datos con una  nueva lógica  ---

# 1. Cargar datos
df = pd.read_csv('datos.csv')
datos = np.array(df)

# 2. Aplicar las nuevos conversiones
# Regla: Grande -> -1, Chica -> 1
df['tamaño'] = df['tamaño'].map({'grande': -1, 'chica': 1})

# Regla: Sin -> -1, Con -> 1
df['hielo'] = df['hielo'].map({'sin': -1, 'con': 1})

# 3. Sabor (se mantiene como dummies 0 y 1)
dummies = pd.get_dummies(df['sabor'])
df = pd.concat([df, dummies], axis=1)

# --- PASO 3: Comparar Betas y Observaciones ---

# Seleccionar variables
X = df[['tamaño', 'hielo', 'Kahlua', 'horchata']] # Asegúrate de los acentos
y = df['score']

# Generar Modelo
Lr = LinearRegression()
Lr.fit(X, y)

# Imprimir resultados para "Comp Beta"
print("Nuevas Betas (Coeficientes):")
print(f"Tamaño: {Lr.coef_[0]}")
print(f"Hielo: {Lr.coef_[1]}")
print(f"Kahlúa: {Lr.coef_[2]}")
print(f"Horchata: {Lr.coef_[3]}")
print("-" * 30)
print(f"Nuevo Intercepto (Beta 0): {Lr.intercept_}")

Nuevas Betas (Coeficientes):
Tamaño: -1.2249999999999996
Hielo: 0.2750000000000002
Kahlúa: -0.02500000000000014
Horchata: 0.025000000000000147
------------------------------
Nuevo Intercepto (Beta 0): 7.949999999999999


Paso 3 (Conclusión):
"Al cambiar la codificación de (0, 1) a (-1, 1), ocurren dos cosas con los coeficientes (Betas):

Se reducen a la mitad: Como la distancia entre las variables se duplicó (antes la distancia de 0 a 1 era 1, ahora de -1 a 1 es 2), el coeficiente se divide entre dos para mantener el mismo efecto real sobre las ventas.

Cambio de Signo: El signo se invierte porque cambiamos la dirección de la referencia (ej. 'Grande' pasó de ser el valor positivo 1 al valor negativo -1).

En resumen: El modelo es matemáticamente equivalente, solo cambia la escala de interpretación."