In [1]:
# Imports
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_absolute_error, mean_squared_error
from sklearn.linear_model import LogisticRegression, LinearRegression

### Cargamos el dataframe limpio generado en el notebook anterior

In [2]:
df_limpio = pd.read_csv("Recursos/03-clientes_limpio.csv")

df_limpio.head()

Unnamed: 0,id,edad,ciudad,ingresos_mensuales,gasto_ultimo_mes,plan,segmento,churn
0,1,56.0,Concepción,1307317.0,237628.0,Premium,Baja,1
1,2,69.0,Santiago,721184.0,423632.0,Standard,Media,0
2,3,46.0,La Serena,2247191.0,184415.0,Premium,Baja,1
3,4,32.0,Santiago,1871091.0,456716.0,Premium,Baja,0
4,5,60.0,Santiago,1068234.0,496438.0,Premium,Alta,0


## Clasificación: Train/Test + Accuracy
* Vamos a predecir churn (0 = se queda, 1 = se va) usando algunas columnas numéricas.
### Definir X (features) e y (target)

In [3]:
# Features numéricas para el modelo de clasificación
X_clf = df_limpio[["edad", "ingresos_mensuales", "gasto_ultimo_mes"]]

# Variable objetivo (churn: 0 = se queda, 1 = se va)
y_clf = df_limpio["churn"]

### Separar en entrenamiento y test

In [4]:
X_train, X_test, y_train, y_test = train_test_split(
    X_clf,
    y_clf,
    test_size=0.2,
    random_state=42,
    stratify=y_clf
)

### Crear y entrenar el modelo

In [5]:
# Creamos el modelo de clasificación (caja negra por ahora)
clf = LogisticRegression(max_iter=1000)

# Entrenamos el modelo con los datos de entrenamiento
clf.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


### Predecir y calcular accuracy

In [6]:
# Hacemos predicciones sobre el conjunto de test
y_pred = clf.predict(X_test)

# Calculamos el accuracy (proporción de aciertos)
acc = accuracy_score(y_test, y_pred)

print("Accuracy en test:", acc)

Accuracy en test: 0.8333333333333334


### predicciones vs realidad

In [7]:
comparacion = pd.DataFrame({
    "y_real": y_test.values,
    "y_pred": y_pred
})

comparacion.head()

Unnamed: 0,y_real,y_pred
0,0,0
1,0,0
2,0,0
3,0,0
4,0,0


## Regresión: Train/Test + MAE y RMSE
* Ahora haremos un ejemplo de regresión: predecir gasto_ultimo_mes usando edad e ingresos_mensuales.
### Definir X e y para regresión

In [8]:
# Features para el modelo de regresión
X_reg = df_limpio[["edad", "ingresos_mensuales"]]

# Variable objetivo: gasto del último mes
y_reg = df_limpio["gasto_ultimo_mes"]

### Train/Test para regresión

In [9]:
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(
    X_reg,
    y_reg,
    test_size=0.2,
    random_state=42
)

### Crear y entrenar el modelo de regresión

In [10]:
# Modelo de regresión lineal (caja negra por ahora)
reg = LinearRegression()

# Entrenamos el modelo
reg.fit(X_train_r, y_train_r)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


### Predecir y calcular MAE / RMSE

In [11]:
# Predicciones en el conjunto de test
y_pred_r = reg.predict(X_test_r)

# Calculamos el MAE (Mean Absolute Error)
mae = mean_absolute_error(y_test_r, y_pred_r)

# Calculamos el MSE (Mean Squared Error)
mse = mean_squared_error(y_test_r, y_pred_r)

# RMSE es la raíz cuadrada del MSE
rmse = np.sqrt(mse)

print("MAE :", mae)
print("RMSE:", rmse)

MAE : 121868.11654650014
RMSE: 147586.2744136751


#### ¿Qué es ese MAE : 121.868?

MAE = Mean Absolute Error = error absoluto medio.

En el conjunto de test, el modelo de regresión se equivoca en promedio alrededor de $121.868 pesos** al predecir gasto_ultimo_mes.

Da igual que el valor sea 121868.11 con muchos decimales, la interpretación es:

Cada vez que el modelo predice el gasto del último mes para un cliente, en promedio queda a ~122 mil pesos de la realidad (a veces más, a veces menos).

#### ¿Qué es ese RMSE : 147.586?
El RMSE te dice que el “tamaño típico” del error está alrededor de $147.586 pesos, pero penalizando más fuerte los errores grandes.

Similar al MAE, pero al elevar al cuadrado antes de promediar, los errores grandes pesan más, por eso es mayor que el MAE.
