# üìä Modelo 3: K-Nearest Neighbors (KNN)
## Clasificaci√≥n por Vecinos M√°s Cercanos

---

## üéØ Objetivo
Clasificar exportaciones colombianas en categor√≠as de valor usando el algoritmo K-Nearest Neighbors (KNN).

El KNN es un algoritmo de aprendizaje supervisado que clasifica nuevos ejemplos bas√°ndose en la similitud con los k ejemplos m√°s cercanos en el espacio de caracter√≠sticas.

## üìä Variables
- **Target (Variable objetivo)**: `Categoria_Valor` - Clasificaci√≥n del valor FOB en categor√≠as (Bajo/Medio/Alto/Muy Alto)
- **Features (Caracter√≠sticas)**: Variables num√©ricas y categ√≥ricas codificadas relacionadas con las exportaciones

## üìã Contenido
1. Importaci√≥n de librer√≠as
2. Carga y exploraci√≥n de datos
3. Preprocesamiento de datos
4. Preparaci√≥n de features y target
5. Entrenamiento del modelo KNN
6. Evaluaci√≥n del modelo
7. Validaci√≥n cruzada
8. Guardado del modelo

## 1. Importaci√≥n de Librer√≠as

Importamos todas las librer√≠as necesarias para el an√°lisis y modelado.

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Librer√≠as de machine learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score
import pickle

# Configuraci√≥n de gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print('‚úÖ Librer√≠as importadas correctamente')

## 2. Carga de Datos

Cargamos el dataset original desde el archivo Excel y realizamos una exploraci√≥n inicial.

In [None]:
# Cargar el dataset desde Excel
df = pd.read_excel('../DATA/DATAPROYECTO.xlsx', sheet_name='Detalle')

print(f'üì¶ Dataset cargado exitosamente')
print(f'   Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas')
print(f'   Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB')

# Vista r√°pida de las primeras filas
df.head()

## 3. Preprocesamiento de Datos

Realizamos el preprocesamiento necesario para preparar los datos para el modelo KNN.

In [None]:
# Crear una copia para trabajar
df_processed = df.copy()

print('üîß Iniciando preprocesamiento...')

# 1. Manejo de valores faltantes
print('\n1Ô∏è‚É£ Tratamiento de valores faltantes:')

# Para columnas num√©ricas: imputar con la mediana
numeric_cols = df_processed.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    if df_processed[col].isnull().sum() > 0:
        median_val = df_processed[col].median()
        df_processed[col].fillna(median_val, inplace=True)
        print(f'   ‚úì {col}: Imputado con mediana = {median_val:.2f}')

# Para columnas categ√≥ricas: imputar con 'Desconocido'
categorical_cols = df_processed.select_dtypes(include=['object']).columns
for col in categorical_cols:
    if df_processed[col].isnull().sum() > 0:
        df_processed[col].fillna('Desconocido', inplace=True)
        print(f'   ‚úì {col}: Imputado con "Desconocido"')

print(f'\n   Valores nulos restantes: {df_processed.isnull().sum().sum()}')

In [None]:
# 2. Feature Engineering - Crear variables derivadas
print('\n2Ô∏è‚É£ Feature Engineering:')

# Ratio Peso Bruto/Neto
df_processed['Ratio_Peso_Bruto_Neto'] = df_processed['Peso en kilos brutos'] / (df_processed['Peso en kilos netos'] + 1e-10)
print('   ‚úì Ratio_Peso_Bruto_Neto creado')

# Valor por kilogramo
df_processed['Valor_Por_Kg'] = df_processed['Valor FOB (USD)'] / (df_processed['Peso en kilos netos'] + 1e-10)
print('   ‚úì Valor_Por_Kg creado')

# Clasificaci√≥n de valor de exportaci√≥n (target)
def clasificar_valor(valor):
    if valor < 1000:
        return 'Bajo'
    elif valor < 10000:
        return 'Medio'
    elif valor < 100000:
        return 'Alto'
    else:
        return 'Muy Alto'

df_processed['Categoria_Valor'] = df_processed['Valor FOB (USD)'].apply(clasificar_valor)
print('   ‚úì Categoria_Valor creado (Bajo/Medio/Alto/Muy Alto)')

# Ver distribuci√≥n de la variable target
print('\nüìä Distribuci√≥n de la variable target:')
print(df_processed['Categoria_Valor'].value_counts())

In [None]:
# 3. Codificaci√≥n de variables categ√≥ricas
print('\n3Ô∏è‚É£ Codificaci√≥n de variables categ√≥ricas:')

# Variables categ√≥ricas a codificar
categorical_to_encode = ['Pa√≠s de Destino', 'Continente Destino', 'Departamento Origen', 'V√≠a de transporte']

label_encoders = {}

for col in categorical_to_encode:
    if col in df_processed.columns:
        le = LabelEncoder()
        df_processed[col + '_encoded'] = le.fit_transform(df_processed[col].astype(str))
        label_encoders[col] = le
        print(f'   ‚úì {col}: Codificado ({df_processed[col].nunique()} categor√≠as ‚Üí {len(le.classes_)} clases)')

print(f'\n   Total de variables codificadas: {len(label_encoders)}')

## 4. Preparaci√≥n de Features y Target

Seleccionamos las caracter√≠sticas (features) y la variable objetivo (target) para el modelo.

In [None]:
# Definir target y features
target = 'Categoria_Valor'

# Seleccionar features num√©ricas y codificadas
features = [
    'Peso en kilos netos', 'Peso en kilos brutos', 'Cantidad(es)',
    'N√∫mero de art√≠culos', 'Precio Unitario FOB (USD) Peso Neto',
    'Pa√≠s de Destino_encoded', 'Continente Destino_encoded',
    'Departamento Origen_encoded', 'V√≠a de transporte_encoded',
    'Ratio_Peso_Bruto_Neto', 'Valor_Por_Kg'
]

# Crear dataset final
df_model = df_processed[features + [target]].copy().dropna()
df_model = df_model.replace([np.inf, -np.inf], np.nan).dropna()

# Codificar el target
le_target = LabelEncoder()
y = le_target.fit_transform(df_model[target])

X = df_model[features]

print(f'üìä Dataset preparado:')
print(f'   ‚Ä¢ Features: {len(features)} variables')
print(f'   ‚Ä¢ Muestras: {X.shape[0]:,}')
print(f'   ‚Ä¢ Target: {len(np.unique(y))} clases ({le_target.classes_})')

# Ver balance de clases
plt.figure(figsize=(8, 5))
sns.countplot(x=le_target.inverse_transform(y))
plt.title('Distribuci√≥n de Clases - Variable Target')
plt.xlabel('Categor√≠a de Valor')
plt.ylabel('Frecuencia')
plt.xticks(rotation=45)
plt.show()

## 5. Divisi√≥n y Escalamiento de Datos

Dividimos los datos en conjuntos de entrenamiento y prueba, y escalamos las caracter√≠sticas.

In [None]:
# Divisi√≥n train/test con estratificaci√≥n
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f'‚úÇÔ∏è Divisi√≥n de datos:')
print(f'   ‚Ä¢ Train: {X_train.shape[0]:,} muestras')
print(f'   ‚Ä¢ Test: {X_test.shape[0]:,} muestras')

# Escalamiento de features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f'üìè Escalamiento aplicado (StandardScaler)')
print(f'   ‚Ä¢ Media ‚âà 0, Desviaci√≥n est√°ndar ‚âà 1')

## 6. Entrenamiento del Modelo KNN

Entrenamos el modelo K-Nearest Neighbors con los hiperpar√°metros seleccionados.

In [None]:
print('ü§ñ Entrenando modelo K-Nearest Neighbors...')

# Configuraci√≥n del modelo
model = KNeighborsClassifier(
    n_neighbors=5,           # N√∫mero de vecinos
    weights='distance',      # Peso por distancia (m√°s cercano = m√°s peso)
    metric='euclidean'       # Distancia euclidiana
)

# Entrenamiento
model.fit(X_train_scaled, y_train)

print('‚úÖ Modelo entrenado exitosamente')
print(f'   ‚Ä¢ Algoritmo: K-Nearest Neighbors')
print(f'   ‚Ä¢ k: {model.n_neighbors}')
print(f'   ‚Ä¢ Peso: {model.weights}')
print(f'   ‚Ä¢ M√©trica: {model.metric}')

# Predicciones
y_train_pred = model.predict(X_train_scaled)
y_test_pred = model.predict(X_test_scaled)

print('\nüîÆ Predicciones realizadas')

## 7. Evaluaci√≥n del Modelo

Evaluamos el rendimiento del modelo usando varias m√©tricas.

In [None]:
# C√°lculo de m√©tricas
acc_train = accuracy_score(y_train, y_train_pred)
acc_test = accuracy_score(y_test, y_test_pred)
precision = precision_score(y_test, y_test_pred, average='weighted')
recall = recall_score(y_test, y_test_pred, average='weighted')
f1 = f1_score(y_test, y_test_pred, average='weighted')

print('üìä M√âTRICAS DE EVALUACI√ìN:')
print('='*50)
print(f'  Accuracy Train: {acc_train:.4f}')
print(f'  Accuracy Test:  {acc_test:.4f}')
print(f'  Precision:      {precision:.4f}')
print(f'  Recall:         {recall:.4f}')
print(f'  F1-Score:       {f1:.4f}')

# Verificar overfitting/underfitting
if acc_train - acc_test > 0.1:
    print('\n‚ö†Ô∏è  Posible overfitting detectado')
elif acc_test < 0.6:
    print('\n‚ö†Ô∏è  Posible underfitting detectado')
else:
    print('\n‚úÖ Rendimiento equilibrado')

In [None]:
# Reporte de clasificaci√≥n detallado
print('\nüìã REPORTE DE CLASIFICACI√ìN DETALLADO:')
print('='*50)
print(classification_report(y_test, y_test_pred, target_names=le_target.classes_))

## 8. Matriz de Confusi√≥n

Visualizamos la matriz de confusi√≥n para entender mejor los errores de clasificaci√≥n.

In [None]:
# Matriz de confusi√≥n
cm = confusion_matrix(y_test, y_test_pred)

plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le_target.classes_, yticklabels=le_target.classes_)
plt.title('Matriz de Confusi√≥n - Modelo KNN', fontweight='bold', fontsize=14)
plt.xlabel('Predicci√≥n', fontsize=12)
plt.ylabel('Real', fontsize=12)
plt.tight_layout()
plt.show()

print('üìä Interpretaci√≥n de la matriz de confusi√≥n:')
print('   ‚Ä¢ Diagonal principal: Predicciones correctas')
print('   ‚Ä¢ Fuera de diagonal: Errores de clasificaci√≥n')

## 9. Validaci√≥n Cruzada

Realizamos validaci√≥n cruzada para obtener una estimaci√≥n m√°s robusta del rendimiento.

In [None]:
# Validaci√≥n cruzada
cv_scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='accuracy')

print('üîÑ VALIDACI√ìN CRUZADA (5-fold):')
print('='*50)
print(f'  Scores individuales: {cv_scores}')
print(f'  Accuracy promedio: {cv_scores.mean():.4f}')
print(f'  Desviaci√≥n est√°ndar: {cv_scores.std():.4f}')
print(f'  Rango: [{cv_scores.min():.4f}, {cv_scores.max():.4f}]')

# Comparaci√≥n con accuracy de test
print(f'\nüìä Comparaci√≥n:')
print(f'  CV Accuracy: {cv_scores.mean():.4f} ¬± {cv_scores.std():.4f}')
print(f'  Test Accuracy: {acc_test:.4f}')

if abs(cv_scores.mean() - acc_test) < 0.05:
    print('‚úÖ Resultados consistentes')
else:
    print('‚ö†Ô∏è  Diferencia significativa entre CV y test')

## 10. Guardado del Modelo

Guardamos el modelo entrenado junto con los objetos necesarios para su uso posterior.

In [None]:
# Preparar paquete del modelo
model_package = {
    'model': model,
    'scaler': scaler,
    'label_encoder_target': le_target,
    'label_encoders_features': label_encoders,
    'features': features,
    'target': target,
    'metrics': {
        'accuracy_train': acc_train,
        'accuracy_test': acc_test,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'cv_accuracy_mean': cv_scores.mean(),
        'cv_accuracy_std': cv_scores.std()
    },
    'model_info': {
        'algorithm': 'K-Nearest Neighbors',
        'n_neighbors': model.n_neighbors,
        'weights': model.weights,
        'metric': model.metric,
        'n_features': len(features),
        'n_classes': len(le_target.classes_),
        'classes': list(le_target.classes_)
    }
}

# Guardar el modelo
with open('model_knn.pkl', 'wb') as f:
    pickle.dump(model_package, f)

print('üíæ Modelo guardado exitosamente')
print('   ‚Ä¢ Archivo: model_knn.pkl')
print('   ‚Ä¢ Contiene: modelo, scaler, encoders y m√©tricas')

# Verificar que se guard√≥ correctamente
import os
if os.path.exists('model_knn.pkl'):
    size = os.path.getsize('model_knn.pkl') / 1024
    print(f'   ‚Ä¢ Tama√±o: {size:.2f} KB')
    print('‚úÖ Verificaci√≥n exitosa')
else:
    print('‚ùå Error al guardar el modelo')

## üéØ Conclusiones

### Resumen del Modelo KNN:

**Fortalezas:**
- Algoritmo simple e interpretable
- No requiere supuestos sobre la distribuci√≥n de los datos
- Funciona bien con datasets peque√±os a medianos
- Robusto a outliers cuando se usa distancia apropiada

**Limitaciones:**
- Sensible a la escala de las variables (requiere escalamiento)
- Computacionalmente costoso en datasets grandes
- Sensible al n√∫mero k y a la m√©trica de distancia
- No maneja bien datos de alta dimensionalidad

### Resultados Obtenidos:
- **Accuracy en test:** {acc_test:.4f}
- **F1-Score:** {f1:.4f}
- **Validaci√≥n cruzada:** {cv_scores.mean():.4f} ¬± {cv_scores.std():.4f}

### Recomendaciones:
1. **Optimizaci√≥n de hiperpar√°metros:** Usar GridSearchCV para encontrar el mejor valor de k
2. **Selecci√≥n de features:** Considerar reducci√≥n de dimensionalidad si es necesario
3. **Balanceo de clases:** Si las clases est√°n desbalanceadas, considerar t√©cnicas de oversampling/undersampling
4. **Comparaci√≥n con otros modelos:** Evaluar contra otros algoritmos de clasificaci√≥n

---

**üìä Modelo KNN completado exitosamente** ‚úÖ

*Los datos est√°n listos para ser utilizados en la aplicaci√≥n o para comparaciones con otros modelos.*