# Imports y carga

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Cargamos el dataset

In [2]:
df = pd.read_csv("Recursos/05-clientes_clasificacion.csv")

df.head()

Unnamed: 0,edad,ingresos_mensuales,gasto_ultimo_mes,visitas_web,tickets_soporte,churn
0,56,1541082,309214,35,9,1
1,69,1290198,551108,23,8,0
2,46,998376,418501,14,9,0
3,32,998002,200159,28,9,1
4,60,1888015,222502,7,6,0


# Información general

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype
---  ------              --------------  -----
 0   edad                300 non-null    int64
 1   ingresos_mensuales  300 non-null    int64
 2   gasto_ultimo_mes    300 non-null    int64
 3   visitas_web         300 non-null    int64
 4   tickets_soporte     300 non-null    int64
 5   churn               300 non-null    int64
dtypes: int64(6)
memory usage: 14.2 KB


# Definir X e Y

In [4]:
# Variables predictoras (features)
X = df.drop("churn", axis=1)

# Variable objetivo
y = df["churn"]

# Train / Test

In [5]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

# Escalado

In [6]:
# Creamos el escalador
scaler = StandardScaler()

# Ajustamos con train y transformamos
X_train_std = scaler.fit_transform(X_train)

# Solo transformamos test
X_test_std = scaler.transform(X_test)

# k-NN (vecinos cercanos)

El modelo no aprende reglas.
No crea fórmulas.
No entrena pesos.

* Solo hace esto:
- Guarda todos los datos.
- Cuando llega uno nuevo… Busca los k más cercanos.
- Copia la mayoría

In [7]:
# Creamos modelo k-NN con k=5
knn = KNeighborsClassifier(n_neighbors=5)

# Entrenar

In [8]:
# Entrenamos el modelo
knn.fit(X_train_std, y_train)

0,1,2
,n_neighbors,5
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


# Predecir

In [9]:
# Predicciones
y_pred_knn = knn.predict(X_test_std)

# Métricas k-NN

In [10]:
acc_knn = accuracy_score(y_test, y_pred_knn)

print("Accuracy k-NN:", acc_knn)

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_knn))

print("Reporte:")
print(classification_report(y_test, y_pred_knn))

Accuracy k-NN: 0.6333333333333333
Matriz de confusión:
[[32  9]
 [13  6]]
Reporte:
              precision    recall  f1-score   support

           0       0.71      0.78      0.74        41
           1       0.40      0.32      0.35        19

    accuracy                           0.63        60
   macro avg       0.56      0.55      0.55        60
weighted avg       0.61      0.63      0.62        60



* accuracy_score = Qué porcentaje de veces el modelo acertó
* confusion_matrix = Esto muestra cómo se equivocó el modelo.
  
  [[32  9]
 [13  6]]

    * 32 bien clasificados como “no se va”
    * 9 falsos avisos
    * 13 se fueron y no los detectaste
    * 6 bien detectados
* classification_report
    * PRECISION =  De todos los que dije “sí”, ¿cuántos eran verdad?
    * RECALL (Sensibilidad) = De todos los que se iban a ir, ¿cuántos detecté?
    * F1-SCORE = Balance entre precision y recall.
    * SUPPORT = Cuántos datos reales había de esa clase.

# Regresión Logística

In [11]:
logreg = LogisticRegression(max_iter=1000)

# Entrenar

In [12]:
logreg.fit(X_train_std, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


# Predecir

In [13]:
y_pred_log = logreg.predict(X_test_std)

# Métricas logística

In [14]:
acc_log = accuracy_score(y_test, y_pred_log)

print("Accuracy Logística:", acc_log)

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_log))

print("Reporte:")
print(classification_report(y_test, y_pred_log))

Accuracy Logística: 0.65
Matriz de confusión:
[[36  5]
 [16  3]]
Reporte:
              precision    recall  f1-score   support

           0       0.69      0.88      0.77        41
           1       0.38      0.16      0.22        19

    accuracy                           0.65        60
   macro avg       0.53      0.52      0.50        60
weighted avg       0.59      0.65      0.60        60



# Comparación final

In [15]:
print("Resumen final")
print("-------------")
print("k-NN Accuracy      :", acc_knn)
print("Logística Accuracy :", acc_log)

Resumen final
-------------
k-NN Accuracy      : 0.6333333333333333
Logística Accuracy : 0.65


### k-NN:

- No aprende fórmula.
- Usa distancia.
- Muy sensible a escala.
- Lento con muchos datos.

### Regresión Logística

- Aprende coeficientes.
- Más estable.
- Más rápido.
- Interpretable.