In [21]:
# En este casoe el modelo está aprendiendo a detectar la probabilidad de “abandono” (churn) 
# basándose en las características de uso de cada usuario.

In [2]:
# Carga todo lo que vamos a usar: pandas (datos), numpy (cálculos), funciones de validación y métricas.

In [3]:
# Importamos las librerías
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import accuracy_score, confusion_matrix

In [4]:
# Cargamos el dataset, en este caso usamos el de Spotify.

In [5]:
file = "spotify_churn_normalized.csv"  

df = pd.read_csv(file)
df.head()

Unnamed: 0,user_id,age,listening_time,songs_played_per_day,skip_rate,ads_listened_per_week,offline_listening,is_churned,gender_Male,gender_Other,...,country_FR,country_IN,country_PK,country_UK,country_US,subscription_type_Free,subscription_type_Premium,subscription_type_Student,device_type_Mobile,device_type_Web
0,0.0,0.923077,0.003846,0.191011,0.314815,0.756098,0.0,1,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,0.0,0.384615,0.446154,0.629213,0.574074,0.0,1.0,0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
2,0.0,0.512821,0.669231,0.359551,0.018519,0.0,1.0,1,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0
3,0.0,0.102564,0.042308,0.0,0.518519,0.0,1.0,0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
4,0.0,0.282051,0.865385,0.573034,0.611111,0.0,1.0,1,0.0,1.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0


In [22]:
# is_churned es la variable objetivo, o sea, lo que queremos predecir:
# 0 → el usuario no canceló la cuenta.
# 1 → el usuario sí canceló (se fue del servicio).

In [7]:
# INICIO INCISO (B)

In [8]:
# Separamos variables (x) y clase (y). Aquí se estan preparando los datos.

In [9]:
# Quitamos columnas que no aportan, en este caso userr_id, no sirve en el proceso de clasificación 
df = df.drop(columns=['user_id'], errors='ignore')

# Columna objetivo
col_objetivo = 'is_churned'

# y = clase (0 = no se fue, 1 = sí se fue), es decir, la clase (is_churned)
y = df[col_objetivo]

# X = todas las demás columnas, es decir, X → las características (edad, tiempo de escucha, país, tipo de suscripción…)
X = df.drop(columns=[col_objetivo])

X.shape, y.shape

((8000, 20), (8000,))

In [10]:
# En este caso tenemos 8,000 usuarios y 20 características por usuario.

In [11]:
# Definimos el clasificador de Distancia Mínima

In [12]:
# Para cada clase se calcula su centroide y luego se clasifica con la distancia más corta.
class MinDistanceClassifier:
    # Esto define una clase en Python que guarda internamente
    # self.class_centers, es un diccionario con los centroides de cada clase
    # self.classses, son las etiquetas de las clases, es decir, 0 y 1
    def __init__(self):
        self.class_centers_ = {}
        self.classes_ = None
    # En esta función es donde se da inicialmente el entrenamiento, lo que 
    # sucede es que convierte los datos en arreglos de NumPy, donde X, como 
    # dijimos son las características (edad, canciones,etc) y Y, son las etiquetas 
    # 0 y 1. Con np.unique(y) devolvemos estos valores de 0 y 1, y por cada valor
    # dentro de self.class_centers se agrega al nuevo diccionario , donde para cada
    # clase "c", selecciona todos los usuarios que pertenecen a esta, y luego 
    # calcula el promedio con cada colummna con .mean(axis=0). Ese vector promedio 
    # es el centroide de la clase "c". 
    def fit(self, X, y):
        X = np.array(X)
        y = np.array(y)
        self.classes_ = np.unique(y)
        self.class_centers_ = {}
        for c in self.classes_:
            # centroide = promedio de los registros de esa clase
            self.class_centers_[c] = X[y == c].mean(axis=0)
        return self
    # Despúes para la clasificación, toma las muestras de prueba en este caso
    # solo en x, y las convierte en NumPy. Para cada muestra x, calcula la 
    # distancia euclidiana entre x y cada centroide guardado en la función
    # anterior. Despues, en dists, guarda la distancia y la clase, ordena las 
    # distancias y elige cada clase mas cercana con dists[0][1]. Y ya al final
    # devuelve un arreglo con las clases predichas. Este metodo sirve para usar
    # el modelo ya entrenado de los centroides y clasifica nuevos ejemplos, donde
    # indentifica al final a que usuario se parece mas, a 0 o 1.
    def predict(self, X):
        X = np.array(X)
        preds = []
        for x in X:
            dists = []
            for c in self.classes_:
                center = self.class_centers_[c]
                dist = np.linalg.norm(x - center)   # distancia euclidiana
                dists.append((dist, c)) # Ejemplo de guardado: [(0.14, 0), (0.50, 1)]
            dists.sort(key=lambda z: z[0])
            preds.append(dists[0][1])
        return np.array(preds)

In [13]:
# COMBINACIÓN para inciso (B) Y (C).

In [14]:
# Validación Hold-Out 70/30.

In [15]:
# 70% entrenamiento, 30% prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

clf = MinDistanceClassifier()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

acc = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

print("Accuracy Hold-Out 70/30:", acc)
print("Matriz de confusión (70/30):")
print(cm)

Accuracy Hold-Out 70/30: 0.49333333333333335
Matriz de confusión (70/30):
[[865 914]
 [302 319]]


In [16]:
# Primero, con Accuracy Hold-Out, identificamos que el modelo acerto aproximadamente el 49.33% de las veces. Dicho de otra forma, de
# cada 100 usuarios, el modelo clasifica "correctamente" a 49. Esto puede deberse a que la distancia mínima es muy simple.

# Para la matriz se tiene:
# TN(865) - Verdaderos negativos, usuarios que no se fueron (real=0). El modelo acertó en 865 veces.
# FP(915) - Falsos positivos, usuarios que no se fueron. Pero que sí se fueron.  Es decir, el modelo da un aviso creyendo que alguien se fue cuando no.
# FN(302) - Falsos negativos, usuarios que sí se fueron, pero el modelo dijo que no.
# TP(319) - Verdaderos positivos, usuarios que si se fueron (real=1). El modelo acertó en 319 veces.

In [17]:
# La matriz de confusión indica que el modelo no distingue con claridad entre usuarios que permanecen y los que abandonan el servicio.
# En particular, tiende a clasificar erróneamente muchos usuarios que no se fueron como si hubieran abandonado.

In [18]:
# Validación 10-Fold Cross-Validation

In [19]:
k = 10
kf = KFold(n_splits=k, shuffle=True, random_state=42)

accuracies = []

for train_index, test_index in kf.split(X):
    X_train_cv, X_test_cv = X.iloc[train_index], X.iloc[test_index]
    y_train_cv, y_test_cv = y.iloc[train_index], y.iloc[test_index]

    clf_cv = MinDistanceClassifier()
    clf_cv.fit(X_train_cv, y_train_cv)

    y_pred_cv = clf_cv.predict(X_test_cv)

    acc_cv = accuracy_score(y_test_cv, y_pred_cv)
    accuracies.append(acc_cv)

print("Accuracies por fold:", accuracies)
print("Accuracy promedio 10-Fold:", np.mean(accuracies))
print("Desviación estándar:", np.std(accuracies))

Accuracies por fold: [0.5075, 0.53, 0.50875, 0.49875, 0.50625, 0.4775, 0.49375, 0.49625, 0.49375, 0.5075]
Accuracy promedio 10-Fold: 0.502
Desviación estándar: 0.012992786460186286


In [20]:
# El modelo aprende algo, pero no logra distinguir bien entre usuarios que se van y los que se quedan.
# En resumen hasta este paso, el modelo no separa bien las clases. 