# üöÄ Modelo de Clasificaci√≥n - Odisea C√≥smica

**Objetivo**: Predecir si los pasajeros fueron transportados durante la ruptura espacio-tiempo.

**M√©trica de Evaluaci√≥n**: Accuracy (Exactitud)

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configurar visualizaciones
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
%matplotlib inline

print('‚úì Librer√≠as cargadas exitosamente')


# PASO 1: An√°lisis Exploratorio de Datos (EDA)

## 1.1 Carga e Inspecci√≥n Inicial

In [None]:

df = pd.read_csv('registros_entrenamiento-2.csv')

print('INFORMACI√ìN GENERAL DEL DATASET')
print('=' * 70)
print(f'Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas')
print(f'\nTipos de datos:')
print(df.dtypes)
print(f'\nValores faltantes:')
print(df.isnull().sum())
print(f'\nEstad√≠sticas descriptivas:')
display(df.describe())


## 1.2 An√°lisis de Valores Faltantes

In [None]:

print('AN√ÅLISIS DE VALORES FALTANTES')
print('=' * 70)

# Contar nulos por columna
nulos = df.isnull().sum()
nulos_pct = (df.isnull().sum() / len(df)) * 100

faltantes = pd.DataFrame({
    'Columna': nulos.index,
    'Nulos': nulos.values,
    'Porcentaje': nulos_pct.values
}).sort_values('Nulos', ascending=False)

print(faltantes[faltantes['Nulos'] > 0])

# Visualizar
plt.figure(figsize=(10, 6))
faltantes_viz = faltantes[faltantes['Nulos'] > 0]
plt.barh(faltantes_viz['Columna'], faltantes_viz['Porcentaje'], color='coral')
plt.xlabel('Porcentaje de Valores Faltantes (%)')
plt.title('An√°lisis de Valores Faltantes por Columna')
plt.tight_layout()
plt.show()


## 1.3 Distribuci√≥n de la Variable Objetivo (Transportado)

In [None]:

print('DISTRIBUCI√ìN DE TRANSPORTADO')
print('=' * 70)

transportado_counts = df['Transportado'].value_counts()
transportado_pct = df['Transportado'].value_counts(normalize=True) * 100

print(transportado_counts)
print(f'\nPorcentajes:')
print(transportado_pct)

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Gr√°fico de barras
axes[0].bar(['No Transportado', 'Transportado'], transportado_counts.values, color=['#FF6B6B', '#4ECDC4'])
axes[0].set_ylabel('Cantidad')
axes[0].set_title('Distribuci√≥n de Transportado (Frecuencia)')
for i, v in enumerate(transportado_counts.values):
    axes[0].text(i, v + 20, str(v), ha='center')

# Gr√°fico de pastel
axes[1].pie(transportado_counts.values, labels=['No Transportado', 'Transportado'], autopct='%1.1f%%', colors=['#FF6B6B', '#4ECDC4'])
axes[1].set_title('Distribuci√≥n de Transportado (Proporci√≥n)')

plt.tight_layout()
plt.show()


## 1.4 Distribuci√≥n de Variables Num√©ricas

In [None]:

print('AN√ÅLISIS DE VARIABLES NUM√âRICAS')
print('=' * 70)

# Identificar columnas num√©ricas
num_cols = df.select_dtypes(include=['float64', 'int64']).columns.tolist()
# Excluir Transportado si est√° incluida
if 'Transportado' in num_cols:
    num_cols.remove('Transportado')

print(f'Variables num√©ricas ({len(num_cols)}): {num_cols}')

# Visualizar histogramas
fig, axes = plt.subplots(3, 3, figsize=(15, 12))
axes = axes.flatten()

for idx, col in enumerate(num_cols[:9]):
    axes[idx].hist(df[col].dropna(), bins=30, color='steelblue', edgecolor='black', alpha=0.7)
    axes[idx].set_title(f'{col}')
    axes[idx].set_xlabel('Valor')
    axes[idx].set_ylabel('Frecuencia')

for idx in range(len(num_cols[:9]), 9):
    axes[idx].axis('off')

plt.tight_layout()
plt.show()


## 1.5 Distribuci√≥n de Variables Categ√≥ricas

In [None]:

print('AN√ÅLISIS DE VARIABLES CATEG√ìRICAS')
print('=' * 70)

# Identificar columnas categ√≥ricas
cat_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()
print(f'Variables categ√≥ricas ({len(cat_cols)}): {cat_cols}')

# Visualizar distribuciones
fig, axes = plt.subplots(2, 3, figsize=(15, 8))
axes = axes.flatten()

for idx, col in enumerate(cat_cols[:6]):
    counts = df[col].value_counts()
    axes[idx].barh(counts.index[:10], counts.values[:10], color='mediumpurple')
    axes[idx].set_title(f'{col} (top 10)')
    axes[idx].set_xlabel('Cantidad')

for idx in range(len(cat_cols[:6]), 6):
    axes[idx].axis('off')

plt.tight_layout()
plt.show()


print('AN√ÅLISIS DE CORRELACIONES')
print('=' * 70)

# Correlaci√≥n de variables num√©ricas
# Convertir Transportado a num√©rico temporalmente para correlaci√≥n
df_corr = df.copy()
df_corr['Transportado'] = df_corr['Transportado'].astype(int)
num_cols_all = df_corr.select_dtypes(include=['float64', 'int64']).columns.tolist()
correlaciones = df_corr[num_cols_all].corr()['Transportado'].sort_values(ascending=False)

print('\nTop 10 correlaciones con Transportado:')
print(correlaciones.head(11))  # 11 para excluir Transportado mismo

# Visualizar correlaciones
plt.figure(figsize=(10, 8))
top_corr = correlaciones.head(11)[1:]  # Excluir Transportado
plt.barh(range(len(top_corr)), top_corr.values, color=['green' if x > 0 else 'red' for x in top_corr.values])
plt.yticks(range(len(top_corr)), top_corr.index)
plt.xlabel('Correlaci√≥n con Transportado')
plt.title('Top 10 Variables Correlacionadas con Transportado')
plt.tight_layout()
plt.show()

# Mapa de calor de correlaciones
plt.figure(figsize=(12, 10))
sns.heatmap(df_corr[num_cols_all].corr(), cmap='coolwarm', center=0, annot=False)
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas')
plt.tight_layout()
plt.show()

In [None]:

print('AN√ÅLISIS DE CORRELACIONES')
print('=' * 70)

# Correlaci√≥n de variables num√©ricas
num_cols_all = df.select_dtypes(include=['float64', 'int64']).columns.tolist()
correlaciones = df[num_cols_all].corr()['Transportado'].sort_values(ascending=False)

print('\nTop 10 correlaciones con Transportado:')
print(correlaciones.head(11))  # 11 para excluir Transportado mismo

# Visualizar correlaciones
plt.figure(figsize=(10, 8))
top_corr = correlaciones.head(11)[1:]  # Excluir Transportado
plt.barh(range(len(top_corr)), top_corr.values, color=['green' if x > 0 else 'red' for x in top_corr.values])
plt.yticks(range(len(top_corr)), top_corr.index)
plt.xlabel('Correlaci√≥n con Transportado')
plt.title('Top 10 Variables Correlacionadas con Transportado')
plt.tight_layout()
plt.show()

# Mapa de calor de correlaciones
plt.figure(figsize=(12, 10))
sns.heatmap(df[num_cols_all].corr(), cmap='coolwarm', center=0, annot=False)
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas')
plt.tight_layout()
plt.show()


## 1.7 Hallazgos Clave y Conclusiones

In [None]:

print('RESUMEN DE HALLAZGOS - PASO 1')
print('=' * 70)

print('''
üîç INSIGHTS PRINCIPALES:

1. VARIABLE OBJETIVO (Transportado):
   - Distribuci√≥n relativamente balanceada
   - Aproximadamente 50% en cada clase
   - Bien para modelos de clasificaci√≥n

2. VALORES FALTANTES:
   - Algunas columnas tienen valores faltantes (revisar EDA anterior)
   - Estrategia: Imputar con media/moda seg√∫n tipo de variable

3. VARIABLES M√ÅS PROMETEDORAS:
   - Variables num√©ricas: Edad, gastos en amenidades (Spa, Cafeteria, etc.)
   - Variables categ√≥ricas: PlanetaOrigen, Destino, SuenoCriogenico
   - Estas ser√°n focalizadas en el modelo

4. CORRELACIONES INTERESANTES:
   - Correlaciones bajas a moderadas con Transportado
   - Sugiere relaciones no lineales
   - Random Forest podr√≠a ser mejor que Regresi√≥n Log√≠stica

5. PR√ìXIMOS PASOS:
   - Imputar valores faltantes
   - Crear nuevas caracter√≠sticas si es necesario
   - Codificar variables categ√≥ricas
   - Escalar variables num√©ricas
''')


# PASO 2: Limpieza de Datos e Ingenier√≠a de Caracter√≠sticas

## 2.1 An√°lisis Detallado de Valores Faltantes

In [None]:

print('AN√ÅLISIS DETALLADO - VALORES FALTANTES')
print('=' * 70)

df_clean = df.copy()

# Agrupar faltantes por tipo de variable
num_cols = df_clean.select_dtypes(include=['float64', 'int64']).columns.tolist()
cat_cols = df_clean.select_dtypes(include=['object', 'category']).columns.tolist()

print('\nVARIABLES NUM√âRICAS CON FALTANTES:')
for col in num_cols:
    if df_clean[col].isnull().sum() > 0:
        print(f'  {col}: {df_clean[col].isnull().sum()} ({df_clean[col].isnull().sum()/len(df_clean)*100:.2f}%)')

print('\nVARIABLES CATEG√ìRICAS CON FALTANTES:')
for col in cat_cols:
    if df_clean[col].isnull().sum() > 0:
        print(f'  {col}: {df_clean[col].isnull().sum()} ({df_clean[col].isnull().sum()/len(df_clean)*100:.2f}%)')


## 2.2 Estrategia de Imputaci√≥n (Justificada)

In [None]:

print('ESTRATEGIA DE IMPUTACI√ìN')
print('=' * 70)

print('''
JUSTIFICACI√ìN POR TIPO DE VARIABLE:

üìä VARIABLES NUM√âRICAS:
   - M√©todo: MEDIA
   - Raz√≥n: Resistente a outliers moderados, mantiene distribuci√≥n
   - Alternativas descartadas: Mediana (menos interpretable), KNN (m√°s complejo)

üìù VARIABLES CATEG√ìRICAS:
   - M√©todo: MODA (valor m√°s frecuente)
   - Raz√≥n: Preserva patrones de la variable, no introduce sesgo
   - Alternativas descartadas: "Desconocido" (sesga modelo), Drop (pierde data)
''')

# Aplicar imputaci√≥n
from sklearn.impute import SimpleImputer

# Imputar num√©ricas con media
num_cols = df_clean.select_dtypes(include=['float64', 'int64']).columns.tolist()
if num_cols:
    imputer_num = SimpleImputer(strategy='mean')
    df_clean[num_cols] = imputer_num.fit_transform(df_clean[num_cols])
    print('\n‚úì Variables num√©ricas imputadas con MEDIA')

# Imputar categ√≥ricas con moda
cat_cols = df_clean.select_dtypes(include=['object', 'category']).columns.tolist()
if cat_cols:
    imputer_cat = SimpleImputer(strategy='most_frequent')
    df_clean[cat_cols] = imputer_cat.fit_transform(df_clean[cat_cols])
    print('‚úì Variables categ√≥ricas imputadas con MODA')

# Verificar
print(f'\nValores faltantes despu√©s de imputaci√≥n: {df_clean.isnull().sum().sum()}')


## 2.3 Ingenier√≠a de Caracter√≠sticas

In [None]:

print('INGENIER√çA DE CARACTER√çSTICAS')
print('=' * 70)

print('''
NUEVAS CARACTER√çSTICAS CREADAS:

1. TotalGastos: Suma de todos los gastos en amenidades
   Raz√≥n: Captura poder adquisitivo total del pasajero
   
2. EsVIP_Binary: Conversi√≥n expl√≠cita a 0/1
   Raz√≥n: Facilita la comparaci√≥n y an√°lisis

3. EdadGrupo: Categorizaci√≥n de edad en grupos
   Raz√≥n: Captura relaciones no lineales con edad

4. EsJoven: Boolean si edad < 18
   Raz√≥n: Podr√≠a tener relaci√≥n especial con transporte

5. TieneGastosAltos: Si TotalGastos > percentil 75
   Raz√≥n: Divide a pasajeros por nivel de consumo
''')

# Crear caracter√≠sticas
df_clean['TotalGastos'] = df_clean[['ServicioHabitacion', 'Cafeteria', 'CentroComercial', 'Spa', 'CubiertaVR']].sum(axis=1)

df_clean['EsVIP'] = (df_clean['ServicioVIP'] == True).astype(int)

df_clean['EdadGrupo'] = pd.cut(df_clean['Edad'], bins=[0, 18, 35, 50, 100], labels=['Ni√±o', 'Adulto', 'Mayor', 'Anciano'])

df_clean['EsJoven'] = (df_clean['Edad'] < 18).astype(int)

df_clean['TieneGastosAltos'] = (df_clean['TotalGastos'] > df_clean['TotalGastos'].quantile(0.75)).astype(int)

print('\n‚úì 5 nuevas caracter√≠sticas creadas exitosamente')
print(f'\nDataset ahora tiene {df_clean.shape[1]} columnas')


## 2.4 Eliminaci√≥n de Columnas sin Valor Predictivo

In [None]:

print('ELIMINACI√ìN DE COLUMNAS')
print('=' * 70)

print('''
COLUMNAS A ELIMINAR Y JUSTIFICACI√ìN:

1. IdPasajero: ID √∫nico, no tiene informaci√≥n predictiva
2. Iniciales: Identificador personal, sin patr√≥n predictivo
3. Cabina: Demasiado variada, solo ubicaci√≥n en nave
   
COLUMNAS A MANTENER:
- Todas las dem√°s tienen potencial predictivo (variables, nuevas caracter√≠sticas)
''')

# Eliminar columnas
columnas_drop = ['IdPasajero', 'Iniciales', 'Cabina']
df_clean = df_clean.drop(columns=columnas_drop)

print(f'\n‚úì Columnas eliminadas: {columnas_drop}')
print(f'\nDataset final: {df_clean.shape[0]} filas √ó {df_clean.shape[1]} columnas')
print(f'Columnas actuales: {df_clean.columns.tolist()}')


## 2.5 Validaci√≥n Final de Datos Limpios

In [None]:

print('VALIDACI√ìN FINAL - PASO 2')
print('=' * 70)

print(f'\n‚úì Sin valores faltantes: {df_clean.isnull().sum().sum() == 0}')
print(f'‚úì Shape: {df_clean.shape}')
print(f'‚úì Columnas: {len(df_clean.columns)}')
print(f'\nTipos de datos:')
print(df_clean.dtypes)
print(f'\nMuestra de datos limpios:')
display(df_clean.head())


# PASO 3: Pre-procesamiento de Datos para el Modelo

## 3.1 Separar Features (X) y Target (y)

In [None]:

print('SEPARACI√ìN DE FEATURES Y TARGET')
print('=' * 70)

y = df_clean['Transportado'].astype(int)
X = df_clean.drop(columns=['Transportado'])

print(f'Target (y): {y.shape}')
print(f'  - Distribuci√≥n: {y.value_counts().to_dict()}')
print(f'\nFeatures (X): {X.shape}')
print(f'  - Columnas: {X.columns.tolist()}')


## 3.2 One-Hot Encoding para Variables Categ√≥ricas

In [None]:

print('ONE-HOT ENCODING')
print('=' * 70)

# Identificar categ√≥ricas
cat_cols = X.select_dtypes(include=['object', 'category']).columns.tolist()
num_cols = X.select_dtypes(include=['float64', 'int64']).columns.tolist()

print(f'Variables categ√≥ricas: {cat_cols}')
print(f'Variables num√©ricas: {num_cols}')

# One-Hot Encoding
if len(cat_cols) > 0:
    encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore', drop='first')
    X_cat_encoded = encoder.fit_transform(X[cat_cols])
    X_cat_encoded = pd.DataFrame(
        X_cat_encoded,
        columns=encoder.get_feature_names_out(cat_cols),
        index=X.index
    )
    print(f'\n‚úì One-Hot Encoding completado: {X_cat_encoded.shape}')
    print(f'Nuevas columnas: {X_cat_encoded.columns.tolist()[:10]}...')
else:
    X_cat_encoded = pd.DataFrame(index=X.index)


## 3.3 StandardScaler para Variables Num√©ricas

In [None]:

print('STANDARDSCALER')
print('=' * 70)

if len(num_cols) > 0:
    scaler = StandardScaler()
    X_num_scaled = scaler.fit_transform(X[num_cols])
    X_num_scaled = pd.DataFrame(X_num_scaled, columns=num_cols, index=X.index)
    print(f'‚úì StandardScaler completado: {X_num_scaled.shape}')
    print(f'\nEjemplo de escalado (primeras 3 filas):')
    display(X_num_scaled.head(3))
else:
    X_num_scaled = pd.DataFrame(index=X.index)


## 3.4 Dataset Final Preprocesado

In [None]:

print('DATASET FINAL PREPROCESADO')
print('=' * 70)

X_processed = pd.concat([X_cat_encoded, X_num_scaled], axis=1)

print(f'‚úì Shape final: {X_processed.shape}')
print(f'‚úì Sin valores NaN: {X_processed.isnull().sum().sum() == 0}')
print(f'\nMuestra de datos procesados:')
display(X_processed.head(3))


# PASO 4: Entrenamiento y Evaluaci√≥n del Modelo

## 4.1 Divisi√≥n de Datos (60% Entrenamiento, 20% Validaci√≥n, 20% Prueba)

In [None]:

print('DIVISI√ìN DE DATOS')
print('=' * 70)

# Primera divisi√≥n: 80% temp, 20% prueba
X_temp, X_test, y_temp, y_test = train_test_split(
    X_processed, y, test_size=0.2, random_state=42, stratify=y
)

# Segunda divisi√≥n: 75% entrenamiento, 25% validaci√≥n
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42, stratify=y_temp
)

print(f'Entrenamiento: {X_train.shape[0]} ({X_train.shape[0]/len(y)*100:.1f}%)')
print(f'Validaci√≥n: {X_val.shape[0]} ({X_val.shape[0]/len(y)*100:.1f}%)')
print(f'Prueba: {X_test.shape[0]} ({X_test.shape[0]/len(y)*100:.1f}%)')

print(f'\nDistribuci√≥n del target - Entrenamiento: {y_train.value_counts().to_dict()}')
print(f'Distribuci√≥n del target - Validaci√≥n: {y_val.value_counts().to_dict()}')
print(f'Distribuci√≥n del target - Prueba: {y_test.value_counts().to_dict()}')


## 4.2 Selecci√≥n y Justificaci√≥n de Modelos


### Modelos Seleccionados: Random Forest + Regresi√≥n Log√≠stica

#### üå≤ Random Forest
**Ventajas:**
- Captura relaciones NO lineales
- Maneja bien datos con correlaciones bajas (como el nuestro)
- Proporciona importancia de caracter√≠sticas
- Robusto ante valores at√≠picos

**Desventajas:**
- Menos interpretable que Regresi√≥n Log√≠stica
- Puede overfitting en datasets peque√±os

#### üìä Regresi√≥n Log√≠stica  
**Ventajas:**
- Modelo baseline r√°pido y interpretable
- Probabilidades calibradas
- Excelente como comparaci√≥n

**Desventajas:**
- Asume relaciones lineales
- Podr√≠a subperformar con relaciones complejas

**Decisi√≥n:** Entrenar ambos y elegir el que mejor Accuracy tenga en validaci√≥n.


## 4.3 Entrenamiento de Modelos

In [None]:

print('ENTRENAMIENTO DE MODELOS')
print('=' * 70)

# Regresi√≥n Log√≠stica
print('\nEntrenando Regresi√≥n Log√≠stica...')
import time
start = time.time()
lr_model = LogisticRegression(max_iter=1000, random_state=42, n_jobs=-1)
lr_model.fit(X_train, y_train)
lr_time = time.time() - start
print(f'‚úì Completado en {lr_time:.2f}s')

# Random Forest
print('\nEntrenando Random Forest...')
start = time.time()
rf_model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1, max_depth=15)
rf_model.fit(X_train, y_train)
rf_time = time.time() - start
print(f'‚úì Completado en {rf_time:.2f}s')


## 4.4 Comparaci√≥n en Conjunto de Validaci√≥n

In [None]:

print('EVALUACI√ìN EN VALIDACI√ìN')
print('=' * 70)

def eval_model(y_true, y_pred, model_name):
    acc = accuracy_score(y_true, y_pred)
    print(f'{model_name} - Accuracy: {acc:.4f}')
    return acc

y_val_pred_lr = lr_model.predict(X_val)
y_val_pred_rf = rf_model.predict(X_val)

acc_lr_val = eval_model(y_val, y_val_pred_lr, 'Regresi√≥n Log√≠stica')
acc_rf_val = eval_model(y_val, y_val_pred_rf, 'Random Forest')

# Seleccionar mejor modelo
mejor_modelo = rf_model if acc_rf_val > acc_lr_val else lr_model
mejor_nombre = 'Random Forest' if acc_rf_val > acc_lr_val else 'Regresi√≥n Log√≠stica'
print(f'\n‚úì MEJOR MODELO EN VALIDACI√ìN: {mejor_nombre}')


## 4.5 Evaluaci√≥n Final en Conjunto de Prueba

In [None]:

print('EVALUACI√ìN FINAL EN PRUEBA')
print('=' * 70)

y_test_pred = mejor_modelo.predict(X_test)
accuracy_final = accuracy_score(y_test, y_test_pred)

print(f'Modelo: {mejor_nombre}')
print(f'Accuracy: {accuracy_final:.4f} ({accuracy_final*100:.2f}%)')


## 4.6 Matriz de Confusi√≥n y Reporte Detallado

In [None]:

print('MATRIZ DE CONFUSI√ìN Y M√âTRICAS')
print('=' * 70)

cm = confusion_matrix(y_test, y_test_pred)
print(f'\nMatriz de Confusi√≥n:')
print(cm)

# Visualizar matriz
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['No Transportado', 'Transportado'],
            yticklabels=['No Transportado', 'Transportado'])
plt.title(f'Matriz de Confusi√≥n - {mejor_nombre}')
plt.ylabel('Verdadero')
plt.xlabel('Predicci√≥n')
plt.tight_layout()
plt.show()

# Reporte de clasificaci√≥n
print(f'\nReporte Detallado de Clasificaci√≥n:')
print(classification_report(y_test, y_test_pred, target_names=['No Transportado', 'Transportado']))


## 4.7 Interpretaci√≥n de Resultados

In [None]:

print('INTERPRETACI√ìN DE RESULTADOS - PASO 4')
print('=' * 70)

tn, fp, fn, tp = cm.ravel()

print(f'''
üìä AN√ÅLISIS DEL RENDIMIENTO:

‚úì Verdaderos Positivos (TP): {tp}
  - Pasajeros correctamente identificados como Transportados

‚úì Verdaderos Negativos (TN): {tn}
  - Pasajeros correctamente identificados como No Transportados

‚ö† Falsos Positivos (FP): {fp}
  - Pasajeros predichos como Transportados pero no fueron

‚ö† Falsos Negativos (FN): {fn}
  - Pasajeros predichos como No Transportados pero s√≠ fueron

üìà M√âTRICAS:
- Accuracy: {accuracy_final:.4f} ({accuracy_final*100:.2f}%)
- Total Errores: {fp + fn}/{len(y_test)} ({(fp+fn)/len(y_test)*100:.2f}%)

üîç AN√ÅLISIS DE ERRORES:
''')

if fp > fn:
    print(f'‚ö† El modelo SE EQUIVOCA M√ÅS en Falsos Positivos ({fp} casos)')
    print(f'   ‚Üí Tiende a predecir "Transportado" demasiado a menudo')
    print(f'   ‚Üí Recomendaci√≥n: Ajustar threshold de predicci√≥n')
elif fn > fp:
    print(f'‚ö† El modelo SE EQUIVOCA M√ÅS en Falsos Negativos ({fn} casos)')
    print(f'   ‚Üí Tiende a perderse casos reales de "Transportado"')
    print(f'   ‚Üí Recomendaci√≥n: Aumentar sensibilidad del modelo')
else:
    print(f'‚úì Errores balanceados entre FP ({fp}) y FN ({fn})')
    print(f'   ‚Üí Buen equilibrio entre precisi√≥n y recall')

# Importancia de caracter√≠sticas (si aplica)
if hasattr(mejor_modelo, 'feature_importances_'):
    print(f'\nüéØ TOP 10 CARACTER√çSTICAS M√ÅS IMPORTANTES ({mejor_nombre}):')
    importances = mejor_modelo.feature_importances_
    indices = np.argsort(importances)[-10:][::-1]
    for i, idx in enumerate(indices, 1):
        print(f'  {i:2d}. {X_processed.columns[idx]:30s} ‚Üí {importances[idx]:.4f}')


# PASO 5: Generaci√≥n del Archivo de Entrega

## 5.1 Cargar Datos de Predicci√≥n

In [None]:

print('CARGAR DATOS DE PREDICCI√ìN')
print('=' * 70)

datos_prediccion = pd.read_csv('registros_evaluacion-2.csv')
print(f'‚úì Datos cargados: {datos_prediccion.shape}')
print(f'Primeras filas:')
display(datos_prediccion.head())


## 5.2 Aplicar Limpieza Id√©ntica al Entrenamiento

In [None]:

print('LIMPIEZA DE DATOS DE PREDICCI√ìN')
print('=' * 70)

df_pred = datos_prediccion.copy()

# Guardar IdPasajero
id_pasajero = df_pred['IdPasajero'].copy()

# Imputar valores faltantes
num_cols_pred = df_pred.select_dtypes(include=['float64', 'int64']).columns.tolist()
cat_cols_pred = df_pred.select_dtypes(include=['object', 'category']).columns.tolist()

if num_cols_pred:
    imputer_num_pred = SimpleImputer(strategy='mean')
    df_pred[num_cols_pred] = imputer_num_pred.fit_transform(df_pred[num_cols_pred])

if cat_cols_pred:
    imputer_cat_pred = SimpleImputer(strategy='most_frequent')
    df_pred[cat_cols_pred] = imputer_cat_pred.fit_transform(df_pred[cat_cols_pred])

# Crear mismas caracter√≠sticas
df_pred['TotalGastos'] = df_pred[['ServicioHabitacion', 'Cafeteria', 'CentroComercial', 'Spa', 'CubiertaVR']].sum(axis=1)
df_pred['EsVIP'] = (df_pred['ServicioVIP'] == True).astype(int)
df_pred['EdadGrupo'] = pd.cut(df_pred['Edad'], bins=[0, 18, 35, 50, 100], labels=['Ni√±o', 'Adulto', 'Mayor', 'Anciano'])
df_pred['EsJoven'] = (df_pred['Edad'] < 18).astype(int)
df_pred['TieneGastosAltos'] = (df_pred['TotalGastos'] > df_pred['TotalGastos'].quantile(0.75)).astype(int)

# Eliminar mismas columnas
df_pred = df_pred.drop(columns=['IdPasajero', 'Iniciales', 'Cabina'])

print(f'‚úì Limpieza completada: {df_pred.shape}')
print(f'‚úì Sin valores faltantes: {df_pred.isnull().sum().sum() == 0}')


## 5.3 Aplicar Preprocesamiento Id√©ntico

In [None]:

print('PREPROCESAMIENTO DE DATOS DE PREDICCI√ìN')
print('=' * 70)

# Separar categ√≥ricas y num√©ricas
cat_cols_pred = df_pred.select_dtypes(include=['object', 'category']).columns.tolist()
num_cols_pred = df_pred.select_dtypes(include=['float64', 'int64']).columns.tolist()

# One-Hot Encoding
X_cat_pred = pd.DataFrame(index=df_pred.index)
if cat_cols_pred:
    encoder_pred = OneHotEncoder(sparse_output=False, handle_unknown='ignore', drop='first')
    X_cat_pred = encoder_pred.fit_transform(df_pred[cat_cols_pred])
    X_cat_pred = pd.DataFrame(X_cat_pred, columns=encoder_pred.get_feature_names_out(cat_cols_pred), index=df_pred.index)

# StandardScaler
X_num_pred = pd.DataFrame(index=df_pred.index)
if num_cols_pred:
    scaler_pred = StandardScaler()
    X_num_pred = scaler_pred.fit_transform(df_pred[num_cols_pred])
    X_num_pred = pd.DataFrame(X_num_pred, columns=num_cols_pred, index=df_pred.index)

# Combinar
X_processed_pred = pd.concat([X_cat_pred, X_num_pred], axis=1)

# Ajustar columnas a match del entrenamiento
if X_processed_pred.shape[1] < X_processed.shape[1]:
    missing_cols = set(X_processed.columns) - set(X_processed_pred.columns)
    for col in missing_cols:
        X_processed_pred[col] = 0
    X_processed_pred = X_processed_pred[X_processed.columns]

print(f'‚úì Preprocesamiento completado: {X_processed_pred.shape}')
print(f'‚úì Coincide con entrenamiento: {X_processed_pred.shape == X_processed.shape}')


## 5.4 Realizar Predicciones

In [None]:

print('REALIZANDO PREDICCIONES')
print('=' * 70)

y_predicciones = mejor_modelo.predict(X_processed_pred)

print(f'‚úì Predicciones realizadas: {len(y_predicciones)}')
print(f'\nDistribuci√≥n de predicciones:')
unique, counts = np.unique(y_predicciones, return_counts=True)
for u, c in zip(unique, counts):
    label = 'Transportado' if u == 1 else 'No Transportado'
    print(f'  {label}: {c} ({c/len(y_predicciones)*100:.1f}%)')


## 5.5 Generar Archivo de Entrega

In [None]:

print('GENERANDO ARCHIVO DE ENTREGA')
print('=' * 70)

# Crear DataFrame
entrega = pd.DataFrame({
    'IdPasajero': id_pasajero,
    'Transportado': y_predicciones
})

# Guardar
archivo_salida = 'predicciones_transportado.csv'
entrega.to_csv(archivo_salida, index=False)

print(f'‚úì Archivo guardado: {archivo_salida}')
print(f'‚úì Dimensiones: {entrega.shape}')
print(f'\nPrimeras 10 filas:')
display(entrega.head(10))
print(f'\n√öltimas 10 filas:')
display(entrega.tail(10))

print(f'\n' + '='*70)
print('‚úÖ GENERACI√ìN DE ENTREGA COMPLETADA')
print('='*70)
print(f'Total de predicciones: {len(entrega)}')
print(f'Transportados: {(entrega["Transportado"] == 1).sum()}')
print(f'No Transportados: {(entrega["Transportado"] == 0).sum()}')
print(f'Archivo listo para env√≠o: {archivo_salida}')
