In [None]:
# KNN (K-Nearest Neighbors) es un algoritmo de clasificación muy intuitivo.

#Imagina que tienes un conjunto de datos con varias características, como si fueran puntos en un gráfico. 
# Cada punto pertenece a una clase o categoría, como "perro" o "gato".

# Entrenamiento:
# El modelo KNN no "aprende" en el sentido tradicional (como en otros modelos de machine learning), 
# sino que guarda todos los datos de entrenamiento, solo guarda las posiciones de los puntos en el espacio.

# ------------- EJEMPLO:

#Tenemos un grupo de frutas (manzanas y naranjas) en un gráfico, 
#y la característica que uso para clasificarlas es el peso y el color.

#Si tienes una nueva fruta con un peso y color similares a una manzana, KNN buscará las frutas más cercanas en el gráfico.
#Si la mayoría de las frutas cercanas son manzanas, entonces clasificará la nueva fruta como manzana.


In [None]:
# 1. Cargamos y preprocesamos los datos
import pandas as pd

# Cargar el archivo CSV (ejemplo con 1000 clientes)
df = pd.read_csv("telecom_data_1000.csv")

# Ver las primeras filas del DataFrame
print(df.head())

In [4]:
# 2. Explorar y Preparar los Datos
#Es importante asegurarse de que no haya valores nulos o inconsistencias en los datos.

# Revisar valores nulos
print(df.isnull().sum())

# Revisar estadísticas descriptivas de las variables numéricas
print(df.describe())

# Verificar si las columnas tienen valores no deseados
print(df['Gender'].unique())

Age           0
Gender        0
TotalCalls    0
TotalUsage    0
Churn         0
dtype: int64
              Age      Gender  TotalCalls   TotalUsage       Churn
count  100.000000  100.000000  100.000000   100.000000  100.000000
mean    43.350000    0.400000  117.820000  2761.512721    0.520000
std     14.904663    0.492366   54.359332  1439.601284    0.502117
min     19.000000    0.000000    1.000000    25.307919    0.000000
25%     31.750000    0.000000   80.750000  1556.518634    0.000000
50%     42.000000    0.000000  126.000000  3053.590716    1.000000
75%     57.000000    1.000000  159.250000  4005.308365    1.000000
max     69.000000    1.000000  199.000000  4950.269251    1.000000
[0 1]


In [None]:
# 3. División de Datos: Entrenamiento y Prueba
# Utilizamos un 70% de los datos para entrenamiento y un 30% para prueba. Para esto, podemos usar train_test_split de scikit-learn.

from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en características (X) y objetivo (y)
X = df[['Age', 'Gender', 'TotalCalls', 'TotalUsage']]
y = df['Churn']

# Dividir en entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# 4. Escalar las Características
# El modelo KNN es sensible a la escala de las características, por lo que es necesario normalizar o estandarizar los datos. 
# Usaremos StandardScaler de scikit-learn para estandarizar las características.

from sklearn.preprocessing import StandardScaler

# Estandarizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



In [None]:
# 5. Entrenar el Modelo KNN
# Ahora entrenamos el modelo KNN utilizando KNeighborsClassifier.

from sklearn.neighbors import KNeighborsClassifier

# Crear el modelo KNN con un valor inicial de k=5
knn = KNeighborsClassifier(n_neighbors=5)
#Si de los 5 puntos más cercanos (K=5), 3 son perros y 2 son gatos, el modelo clasificará al nuevo punto como perro.

# Entrenar el modelo
knn.fit(X_train_scaled, y_train)

In [None]:
# 6. Evaluar modelo
# Evaluamos su desempeño con matriz de confusión y puntaj de precisión

from sklearn.metrics import confusion_matrix, classification_report, accuracy_score


# Hacer las predicciones con el modelo entrenado
y_pred = knn.predict(X_test_scaled)

# Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(cm)

# Puntaje de Precisión
accuracy = accuracy_score(y_test, y_pred)
print(f'\nPrecisión del modelo: {accuracy:.4f}')


# Reporte de clasificación (precisión, recall, f1-score)
# print("\nReporte de Clasificación:")
# print(classification_report(y_test, y_pred))