# An√°lisis de Machine Learning: Predicci√≥n de C√°ncer de Pulm√≥n

## Proyecto de clasificaci√≥n binaria para identificar pacientes con riesgo de c√°ncer de pulm√≥n

Este notebook implementa un ciclo completo de Machine Learning utilizando el dataset `survey_lung_cancer.csv` de Kaggle. El objetivo es predecir si un paciente tiene c√°ncer de pulm√≥n bas√°ndose en factores personales y cl√≠nicos.

### Contexto del Problema:
- **Tipo**: Clasificaci√≥n binaria (YES/NO para c√°ncer de pulm√≥n)
- **Variables**: Mezcla de categ√≥ricas y num√©ricas
- **Objetivo**: Identificar patrones que indiquen riesgo de c√°ncer de pulm√≥n

## 1. Importaci√≥n de Librer√≠as

Importamos todas las librer√≠as necesarias para el an√°lisis, preprocesamiento y modelado.

In [None]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Librer√≠as de Machine Learning
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (accuracy_score, precision_score, recall_score, 
                           f1_score, confusion_matrix, classification_report, 
                           roc_curve, auc, roc_auc_score)

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

# Suprimir warnings
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Todas las librer√≠as importadas correctamente")

## 2. Carga y Exploraci√≥n Inicial del Dataset

Cargamos el dataset y realizamos una exploraci√≥n inicial para entender la estructura de los datos.

In [None]:
# Cargar el dataset
df = pd.read_csv('survey_lung_cancer.csv')

print("üîç INFORMACI√ìN B√ÅSICA DEL DATASET")
print("="*50)
print(f"Forma del dataset: {df.shape}")
print(f"N√∫mero de filas: {df.shape[0]}")
print(f"N√∫mero de columnas: {df.shape[1]}")
print("\nüìã PRIMERAS 5 FILAS:")
display(df.head())

print("\nüìä INFORMACI√ìN GENERAL:")
print(df.info())

print("\nüè∑Ô∏è NOMBRES DE LAS COLUMNAS:")
print(df.columns.tolist())

## 3. An√°lisis Exploratorio de Datos (EDA)

Realizamos un an√°lisis detallado de las caracter√≠sticas del dataset, incluyendo estad√≠sticas descriptivas y identificaci√≥n de tipos de datos.

In [None]:
# Descripci√≥n estad√≠stica de todas las caracter√≠sticas
print("üìà ESTAD√çSTICAS DESCRIPTIVAS COMPLETAS")
print("="*60)
display(df.describe(include='all'))

print("\nüéØ DISTRIBUCI√ìN DE LA VARIABLE OBJETIVO (LUNG_CANCER):")
target_counts = df['LUNG_CANCER'].value_counts()
print(target_counts)
print(f"\nPorcentaje de casos positivos: {target_counts['YES']/len(df)*100:.2f}%")
print(f"Porcentaje de casos negativos: {target_counts['NO']/len(df)*100:.2f}%")

# Identificar tipos de datos
print("\nüîç TIPOS DE DATOS POR COLUMNA:")
for col in df.columns:
    unique_vals = df[col].nunique()
    print(f"{col}: {df[col].dtype} (valores √∫nicos: {unique_vals})")
    if unique_vals <= 10:  # Mostrar valores √∫nicos para columnas categ√≥ricas
        print(f"  ‚Üí Valores: {sorted(df[col].unique())}")
    print()

## 4. Detecci√≥n y An√°lisis de Valores Faltantes

Analizamos si existen valores faltantes en el dataset y creamos visualizaciones para entender los patrones.

In [None]:
# Detectar valores faltantes
print("üïµÔ∏è AN√ÅLISIS DE VALORES FALTANTES")
print("="*50)

missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100

missing_info = pd.DataFrame({
    'Columna': missing_data.index,
    'Valores Faltantes': missing_data.values,
    'Porcentaje (%)': missing_percent.values
}).sort_values('Valores Faltantes', ascending=False)

print("üìä RESUMEN DE VALORES FALTANTES:")
display(missing_info)

if missing_data.sum() == 0:
    print("‚úÖ ¬°Excelente! No hay valores faltantes en el dataset.")
else:
    # Crear visualizaci√≥n de valores faltantes
    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
    
    # Mapa de calor de valores faltantes
    sns.heatmap(df.isnull(), yticklabels=False, cbar=True, cmap='viridis', ax=axes[0])
    axes[0].set_title('Mapa de Calor - Valores Faltantes', fontsize=14)
    
    # Gr√°fico de barras de valores faltantes
    missing_cols = missing_info[missing_info['Valores Faltantes'] > 0]
    if not missing_cols.empty:
        sns.barplot(data=missing_cols, x='Valores Faltantes', y='Columna', ax=axes[1])
        axes[1].set_title('Cantidad de Valores Faltantes por Columna', fontsize=14)
    
    plt.tight_layout()
    plt.show()

## 5. An√°lisis de Distribuciones

Analizamos las distribuciones de las caracter√≠sticas num√©ricas y categ√≥ricas para entender mejor los datos.

In [None]:
# Identificar columnas num√©ricas y categ√≥ricas
numeric_cols = ['AGE']  # Solo AGE es verdaderamente num√©rica
categorical_cols = [col for col in df.columns if col not in ['AGE', 'LUNG_CANCER']]

print("üìä AN√ÅLISIS DE DISTRIBUCIONES")
print("="*50)
print(f"Columnas num√©ricas: {numeric_cols}")
print(f"Columnas categ√≥ricas: {categorical_cols}")

# 1. An√°lisis de caracter√≠sticas num√©ricas (AGE)
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histograma de edad
axes[0].hist(df['AGE'], bins=20, edgecolor='black', alpha=0.7)
axes[0].set_title('Distribuci√≥n de Edad', fontsize=14)
axes[0].set_xlabel('Edad')
axes[0].set_ylabel('Frecuencia')

# Boxplot de edad
sns.boxplot(y=df['AGE'], ax=axes[1])
axes[1].set_title('Boxplot de Edad', fontsize=14)
axes[1].set_ylabel('Edad')

plt.tight_layout()
plt.show()

# Estad√≠sticas de edad por grupo de c√°ncer
print("\nüìà ESTAD√çSTICAS DE EDAD POR GRUPO:")
age_stats = df.groupby('LUNG_CANCER')['AGE'].describe()
display(age_stats)

In [None]:
# 2. An√°lisis de caracter√≠sticas categ√≥ricas
print("\nüìä AN√ÅLISIS DE VARIABLES CATEG√ìRICAS:")

# Crear subplots para todas las variables categ√≥ricas
n_cols = 3
n_rows = len(categorical_cols) // n_cols + (1 if len(categorical_cols) % n_cols > 0 else 0)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, n_rows * 4))
axes = axes.flatten() if n_rows > 1 else [axes] if n_rows == 1 else axes

for i, col in enumerate(categorical_cols):
    if i < len(axes):
        value_counts = df[col].value_counts()
        axes[i].bar(value_counts.index, value_counts.values)
        axes[i].set_title(f'Distribuci√≥n de {col}', fontsize=12)
        axes[i].set_xlabel(col)
        axes[i].set_ylabel('Frecuencia')
        
        # Rotar etiquetas si es necesario
        if len(str(value_counts.index[0])) > 2:
            axes[i].tick_params(axis='x', rotation=45)

# Ocultar axes vac√≠os
for i in range(len(categorical_cols), len(axes)):
    axes[i].set_visible(False)

plt.tight_layout()
plt.show()

# An√°lisis de la variable objetivo
print("\nüéØ DISTRIBUCI√ìN DE LA VARIABLE OBJETIVO:")
target_dist = df['LUNG_CANCER'].value_counts()
plt.figure(figsize=(8, 6))
plt.pie(target_dist.values, labels=target_dist.index, autopct='%1.1f%%', startangle=90)
plt.title('Distribuci√≥n de C√°ncer de Pulm√≥n', fontsize=14)
plt.show()

## 6. An√°lisis de Correlaciones

Analizamos las correlaciones entre caracter√≠sticas para identificar relaciones importantes con la variable objetivo.

In [None]:
# Para calcular correlaciones, necesitamos convertir variables categ√≥ricas a num√©ricas
print("üîó AN√ÅLISIS DE CORRELACIONES")
print("="*50)

# Crear una copia del dataframe para an√°lisis num√©rico
df_numeric = df.copy()

# Convertir variables categ√≥ricas binarias a num√©ricas
df_numeric['LUNG_CANCER'] = df_numeric['LUNG_CANCER'].map({'NO': 0, 'YES': 1})
df_numeric['GENDER'] = df_numeric['GENDER'].map({'F': 0, 'M': 1})

# Las dem√°s columnas ya est√°n en formato num√©rico (1, 2)
print("‚úÖ Variables convertidas para an√°lisis de correlaci√≥n")

# Calcular matriz de correlaci√≥n
correlation_matrix = df_numeric.corr()

# Crear mapa de calor de correlaciones
plt.figure(figsize=(14, 10))
sns.heatmap(correlation_matrix, 
            annot=True, 
            cmap='RdBu_r', 
            center=0,
            square=True,
            fmt='.2f',
            cbar_kws={'shrink': 0.8})
plt.title('Mapa de Calor - Matriz de Correlaci√≥n', fontsize=16)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

# Correlaciones con la variable objetivo
target_correlations = correlation_matrix['LUNG_CANCER'].sort_values(key=abs, ascending=False)
print("\nüéØ CORRELACIONES CON LA VARIABLE OBJETIVO (LUNG_CANCER):")
print("="*60)
for feature, corr in target_correlations.items():
    if feature != 'LUNG_CANCER':
        print(f"{feature:25} : {corr:6.3f}")
        
print("\nüìä TOP 5 CARACTER√çSTICAS M√ÅS CORRELACIONADAS:")
top_features = target_correlations[1:6]  # Excluir la variable objetivo
for feature, corr in top_features.items():
    print(f"‚Ä¢ {feature}: {corr:.3f}")

## 7. Preprocesamiento de Datos

Implementamos las estrategias de preprocesamiento necesarias antes del entrenamiento de los modelos.

In [None]:
# Preprocesamiento de datos
print("üõ†Ô∏è PREPROCESAMIENTO DE DATOS")
print("="*50)

# 1. Manejo de valores faltantes
print("1Ô∏è‚É£ MANEJO DE VALORES FALTANTES:")
if df.isnull().sum().sum() == 0:
    print("‚úÖ No se requiere manejo de valores faltantes - el dataset est√° completo")
else:
    print("‚ö†Ô∏è Se requiere manejo de valores faltantes")
    # Aqu√≠ implementar√≠as la estrategia seg√∫n el caso

# 2. Crear dataset para el modelo
df_model = df.copy()

print("\n2Ô∏è‚É£ CODIFICACI√ìN DE VARIABLES CATEG√ìRICAS:")
print("üìã Estrategia elegida: Label Encoding")
print("üí° Justificaci√≥n: Las variables categ√≥ricas son binarias o ordinales,")
print("   Label Encoding es suficiente y m√°s eficiente que One-Hot Encoding")

# Aplicar Label Encoding
label_encoders = {}

# Codificar GENDER
label_encoders['GENDER'] = LabelEncoder()
df_model['GENDER'] = label_encoders['GENDER'].fit_transform(df_model['GENDER'])

# Codificar variable objetivo
label_encoders['LUNG_CANCER'] = LabelEncoder()
df_model['LUNG_CANCER'] = label_encoders['LUNG_CANCER'].fit_transform(df_model['LUNG_CANCER'])

print(f"‚úÖ GENDER codificado: {dict(zip(label_encoders['GENDER'].classes_, label_encoders['GENDER'].transform(label_encoders['GENDER'].classes_)))}")
print(f"‚úÖ LUNG_CANCER codificado: {dict(zip(label_encoders['LUNG_CANCER'].classes_, label_encoders['LUNG_CANCER'].transform(label_encoders['LUNG_CANCER'].classes_)))}")

# Las dem√°s variables ya est√°n en formato num√©rico (1, 2)
print("‚úÖ Otras variables ya est√°n en formato num√©rico")

print("\nüìä DATASET PROCESADO:")
display(df_model.head())

## 8. Escalado de Caracter√≠sticas y Divisi√≥n del Dataset

Aplicamos escalado a las caracter√≠sticas num√©ricas y dividimos el dataset en conjuntos de entrenamiento y prueba.

In [None]:
# 3. Escalado de caracter√≠sticas
print("3Ô∏è‚É£ ESCALADO DE CARACTER√çSTICAS:")
print("üìã Estrategia elegida: StandardScaler")
print("üí° Justificaci√≥n: La edad tiene una escala diferente a las otras variables")
print("   StandardScaler normaliza todas las caracter√≠sticas a media=0 y std=1")

# Definir caracter√≠sticas (X) y variable objetivo (y)
X = df_model.drop('LUNG_CANCER', axis=1)
y = df_model['LUNG_CANCER']

print(f"\nüìä FORMA DE LOS DATOS:")
print(f"Caracter√≠sticas (X): {X.shape}")
print(f"Variable objetivo (y): {y.shape}")

# 4. Divisi√≥n del dataset
print("\n4Ô∏è‚É£ DIVISI√ìN DEL DATASET:")
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y  # Mantener la proporci√≥n de clases
)

print(f"‚úÖ Conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"‚úÖ Conjunto de prueba: {X_test.shape[0]} muestras")
print(f"‚úÖ Proporci√≥n de divisi√≥n: 80% entrenamiento, 20% prueba")

# Verificar distribuci√≥n de clases
print("\nüìä DISTRIBUCI√ìN DE CLASES:")
print("Entrenamiento:", y_train.value_counts().sort_index())
print("Prueba:", y_test.value_counts().sort_index())

# 5. Aplicar escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úÖ Escalado aplicado correctamente")
print(f"Media de caracter√≠sticas en entrenamiento: {X_train_scaled.mean(axis=0).round(3)}")
print(f"Desviaci√≥n est√°ndar en entrenamiento: {X_train_scaled.std(axis=0).round(3)}")

# Convertir de vuelta a DataFrame para facilidad de uso
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X.columns)

## 9. Modelo 1: Regresi√≥n Log√≠stica

Implementamos y entrenamos un modelo de Regresi√≥n Log√≠stica para la clasificaci√≥n binaria.

In [None]:
# MODELO 1: REGRESI√ìN LOG√çSTICA
print("ü§ñ MODELO 1: REGRESI√ìN LOG√çSTICA")
print("="*60)

# Crear y entrenar el modelo
lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train_scaled, y_train)

# Realizar predicciones
y_pred_lr = lr_model.predict(X_test_scaled)
y_pred_proba_lr = lr_model.predict_proba(X_test_scaled)[:, 1]

# Calcular m√©tricas
lr_accuracy = accuracy_score(y_test, y_pred_lr)
lr_precision = precision_score(y_test, y_pred_lr)
lr_recall = recall_score(y_test, y_pred_lr)
lr_f1 = f1_score(y_test, y_pred_lr)
lr_auc = roc_auc_score(y_test, y_pred_proba_lr)

print("üìä RESULTADOS DEL MODELO:")
print(f"‚úÖ Accuracy:  {lr_accuracy:.4f}")
print(f"‚úÖ Precision: {lr_precision:.4f}")
print(f"‚úÖ Recall:    {lr_recall:.4f}")
print(f"‚úÖ F1-Score:  {lr_f1:.4f}")
print(f"‚úÖ AUC-ROC:   {lr_auc:.4f}")

# Matriz de confusi√≥n
cm_lr = confusion_matrix(y_test, y_pred_lr)
print(f"\nüìã MATRIZ DE CONFUSI√ìN:")
print(cm_lr)

# Visualizaci√≥n de resultados
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Matriz de confusi√≥n
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Blues', ax=axes[0])
axes[0].set_title('Matriz de Confusi√≥n - Regresi√≥n Log√≠stica')
axes[0].set_xlabel('Predicci√≥n')
axes[0].set_ylabel('Real')

# Curva ROC
fpr_lr, tpr_lr, _ = roc_curve(y_test, y_pred_proba_lr)
axes[1].plot(fpr_lr, tpr_lr, color='darkorange', lw=2, label=f'ROC curve (AUC = {lr_auc:.2f})')
axes[1].plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
axes[1].set_xlim([0.0, 1.0])
axes[1].set_ylim([0.0, 1.05])
axes[1].set_xlabel('Tasa de Falsos Positivos')
axes[1].set_ylabel('Tasa de Verdaderos Positivos')
axes[1].set_title('Curva ROC - Regresi√≥n Log√≠stica')
axes[1].legend(loc="lower right")

plt.tight_layout()
plt.show()

# Reporte de clasificaci√≥n detallado
print("\nüìÑ REPORTE DE CLASIFICACI√ìN DETALLADO:")
print(classification_report(y_test, y_pred_lr, target_names=['No Cancer', 'Cancer']))

## 10. Modelo 2: K-Vecinos M√°s Cercanos (k-NN)

Implementamos y entrenamos un modelo k-NN probando diferentes valores de k.

In [None]:
# MODELO 2: K-VECINOS M√ÅS CERCANOS (k-NN)
print("ü§ñ MODELO 2: K-VECINOS M√ÅS CERCANOS (k-NN)")
print("="*60)

# Probar diferentes valores de k
k_values = range(3, 21, 2)  # Valores impares de 3 a 19
knn_scores = []

print("üîç PROBANDO DIFERENTES VALORES DE K:")
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    score = knn.score(X_test_scaled, y_test)
    knn_scores.append(score)
    print(f"k={k}: Accuracy = {score:.4f}")

# Encontrar el mejor k
best_k = k_values[np.argmax(knn_scores)]
best_score = max(knn_scores)
print(f"\nüèÜ MEJOR VALOR DE K: {best_k} (Accuracy: {best_score:.4f})")

# Visualizar performance vs k
plt.figure(figsize=(10, 6))
plt.plot(k_values, knn_scores, 'bo-', linewidth=2, markersize=8)
plt.title('Accuracy del Modelo k-NN vs Valor de k', fontsize=14)
plt.xlabel('Valor de k')
plt.ylabel('Accuracy')
plt.grid(True, alpha=0.3)
plt.axvline(x=best_k, color='red', linestyle='--', alpha=0.7, label=f'Mejor k = {best_k}')
plt.legend()
plt.show()

# Entrenar modelo con el mejor k
knn_model = KNeighborsClassifier(n_neighbors=best_k)
knn_model.fit(X_train_scaled, y_train)

# Realizar predicciones
y_pred_knn = knn_model.predict(X_test_scaled)
y_pred_proba_knn = knn_model.predict_proba(X_test_scaled)[:, 1]

# Calcular m√©tricas
knn_accuracy = accuracy_score(y_test, y_pred_knn)
knn_precision = precision_score(y_test, y_pred_knn)
knn_recall = recall_score(y_test, y_pred_knn)
knn_f1 = f1_score(y_test, y_pred_knn)
knn_auc = roc_auc_score(y_test, y_pred_proba_knn)

print(f"\nüìä RESULTADOS DEL MODELO (k={best_k}):")
print(f"‚úÖ Accuracy:  {knn_accuracy:.4f}")
print(f"‚úÖ Precision: {knn_precision:.4f}")
print(f"‚úÖ Recall:    {knn_recall:.4f}")
print(f"‚úÖ F1-Score:  {knn_f1:.4f}")
print(f"‚úÖ AUC-ROC:   {knn_auc:.4f}")

# Matriz de confusi√≥n
cm_knn = confusion_matrix(y_test, y_pred_knn)
print(f"\nüìã MATRIZ DE CONFUSI√ìN:")
print(cm_knn)

## 11. Modelo 3: Random Forest (Bonificaci√≥n)

Implementamos un tercer modelo usando Random Forest para mejorar el rendimiento.

In [None]:
# MODELO 3: RANDOM FOREST (BONIFICACI√ìN)
print("ü§ñ MODELO 3: RANDOM FOREST (BONIFICACI√ìN)")
print("="*60)

# Crear y entrenar el modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_scaled, y_train)

# Realizar predicciones
y_pred_rf = rf_model.predict(X_test_scaled)
y_pred_proba_rf = rf_model.predict_proba(X_test_scaled)[:, 1]

# Calcular m√©tricas
rf_accuracy = accuracy_score(y_test, y_pred_rf)
rf_precision = precision_score(y_test, y_pred_rf)
rf_recall = recall_score(y_test, y_pred_rf)
rf_f1 = f1_score(y_test, y_pred_rf)
rf_auc = roc_auc_score(y_test, y_pred_proba_rf)

print("üìä RESULTADOS DEL MODELO:")
print(f"‚úÖ Accuracy:  {rf_accuracy:.4f}")
print(f"‚úÖ Precision: {rf_precision:.4f}")
print(f"‚úÖ Recall:    {rf_recall:.4f}")
print(f"‚úÖ F1-Score:  {rf_f1:.4f}")
print(f"‚úÖ AUC-ROC:   {rf_auc:.4f}")

# Importancia de caracter√≠sticas
feature_importance = rf_model.feature_importances_
feature_names = X.columns

# Crear DataFrame para importancia de caracter√≠sticas
importance_df = pd.DataFrame({
    'Caracter√≠stica': feature_names,
    'Importancia': feature_importance
}).sort_values('Importancia', ascending=False)

print("\nüéØ IMPORTANCIA DE CARACTER√çSTICAS:")
display(importance_df)

# Visualizar importancia de caracter√≠sticas
plt.figure(figsize=(12, 6))
sns.barplot(data=importance_df, x='Importancia', y='Caracter√≠stica')
plt.title('Importancia de Caracter√≠sticas - Random Forest', fontsize=14)
plt.xlabel('Importancia')
plt.tight_layout()
plt.show()

# Matriz de confusi√≥n
cm_rf = confusion_matrix(y_test, y_pred_rf)
print(f"\nüìã MATRIZ DE CONFUSI√ìN:")
print(cm_rf)

## 12. Ajuste de Hiperpar√°metros

Utilizamos GridSearchCV para optimizar los hiperpar√°metros del modelo de Regresi√≥n Log√≠stica.

In [None]:
# AJUSTE DE HIPERPAR√ÅMETROS
print("‚öôÔ∏è AJUSTE DE HIPERPAR√ÅMETROS - REGRESI√ìN LOG√çSTICA")
print("="*70)

# Definir grid de par√°metros para Regresi√≥n Log√≠stica
param_grid_lr = {
    'C': [0.1, 1, 10, 100],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

print("üîç PAR√ÅMETROS A EVALUAR:")
for param, values in param_grid_lr.items():
    print(f"  ‚Ä¢ {param}: {values}")

# Realizar GridSearchCV
grid_search_lr = GridSearchCV(
    LogisticRegression(random_state=42, max_iter=1000),
    param_grid_lr,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=0
)

print(f"\nüöÄ Ejecutando Grid Search con {5} folds de validaci√≥n cruzada...")
grid_search_lr.fit(X_train_scaled, y_train)

# Mejores par√°metros
print(f"\nüèÜ MEJORES HIPERPAR√ÅMETROS:")
for param, value in grid_search_lr.best_params_.items():
    print(f"  ‚Ä¢ {param}: {value}")

print(f"\nüìä MEJOR SCORE (CV): {grid_search_lr.best_score_:.4f}")

# Entrenar modelo optimizado
lr_optimized = grid_search_lr.best_estimator_
y_pred_lr_opt = lr_optimized.predict(X_test_scaled)
y_pred_proba_lr_opt = lr_optimized.predict_proba(X_test_scaled)[:, 1]

# Calcular m√©tricas del modelo optimizado
lr_opt_accuracy = accuracy_score(y_test, y_pred_lr_opt)
lr_opt_precision = precision_score(y_test, y_pred_lr_opt)
lr_opt_recall = recall_score(y_test, y_pred_lr_opt)
lr_opt_f1 = f1_score(y_test, y_pred_lr_opt)
lr_opt_auc = roc_auc_score(y_test, y_pred_proba_lr_opt)

print(f"\nüìä RESULTADOS DEL MODELO OPTIMIZADO:")
print(f"‚úÖ Accuracy:  {lr_opt_accuracy:.4f}")
print(f"‚úÖ Precision: {lr_opt_precision:.4f}")
print(f"‚úÖ Recall:    {lr_opt_recall:.4f}")
print(f"‚úÖ F1-Score:  {lr_opt_f1:.4f}")
print(f"‚úÖ AUC-ROC:   {lr_opt_auc:.4f}")

# Comparaci√≥n con modelo original
print(f"\nüìà MEJORA RESPECTO AL MODELO ORIGINAL:")
print(f"  ‚Ä¢ Accuracy:  {lr_opt_accuracy - lr_accuracy:+.4f}")
print(f"  ‚Ä¢ Precision: {lr_opt_precision - lr_precision:+.4f}")
print(f"  ‚Ä¢ Recall:    {lr_opt_recall - lr_recall:+.4f}")
print(f"  ‚Ä¢ F1-Score:  {lr_opt_f1 - lr_f1:+.4f}")
print(f"  ‚Ä¢ AUC-ROC:   {lr_opt_auc - lr_auc:+.4f}")

## 13. Evaluaci√≥n y Comparaci√≥n Final de Modelos

Comparamos todos los modelos entrenados y seleccionamos el mejor para despliegue.

In [None]:
# EVALUACI√ìN Y COMPARACI√ìN FINAL DE MODELOS
print("üèÜ EVALUACI√ìN Y COMPARACI√ìN FINAL DE MODELOS")
print("="*70)

# Crear tabla comparativa de resultados
results_comparison = pd.DataFrame({
    'Modelo': ['Regresi√≥n Log√≠stica', 'k-NN', 'Random Forest', 'LR Optimizada'],
    'Accuracy': [lr_accuracy, knn_accuracy, rf_accuracy, lr_opt_accuracy],
    'Precision': [lr_precision, knn_precision, rf_precision, lr_opt_precision],
    'Recall': [lr_recall, knn_recall, rf_recall, lr_opt_recall],
    'F1-Score': [lr_f1, knn_f1, rf_f1, lr_opt_f1],
    'AUC-ROC': [lr_auc, knn_auc, rf_auc, lr_opt_auc]
})

print("üìä TABLA COMPARATIVA DE RESULTADOS:")
display(results_comparison.round(4))

# Visualizaci√≥n comparativa
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico de barras para todas las m√©tricas
metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score', 'AUC-ROC']
colors = ['skyblue', 'lightgreen', 'lightcoral', 'gold', 'lightpink']

for i, metric in enumerate(metrics):
    ax = axes[i//3, i%2] if i < 4 else None
    if ax is not None:
        ax.bar(results_comparison['Modelo'], results_comparison[metric], 
               color=colors[i], alpha=0.7, edgecolor='black')
        ax.set_title(f'Comparaci√≥n - {metric}', fontsize=12)
        ax.set_ylabel(metric)
        ax.tick_params(axis='x', rotation=45)
        ax.grid(True, alpha=0.3)

# Gr√°fico radar en el √∫ltimo subplot
ax_radar = axes[1, 1]
angles = np.linspace(0, 2*np.pi, len(metrics), endpoint=False).tolist()
angles += angles[:1]  # Completar el c√≠rculo

# Preparar datos para cada modelo
models_radar_data = []
for idx, row in results_comparison.iterrows():
    values = [row[metric] for metric in metrics]
    values += values[:1]  # Completar el c√≠rculo
    models_radar_data.append(values)

ax_radar.clear()
for i, (model, values) in enumerate(zip(results_comparison['Modelo'], models_radar_data)):
    ax_radar.plot(angles, values, 'o-', linewidth=2, label=model)
    ax_radar.fill(angles, values, alpha=0.1)

ax_radar.set_xticks(angles[:-1])
ax_radar.set_xticklabels(metrics)
ax_radar.set_ylim(0, 1)
ax_radar.set_title('Comparaci√≥n Radar - Todas las M√©tricas', fontsize=12)
ax_radar.legend(loc='upper right', bbox_to_anchor=(1.3, 1.0))
ax_radar.grid(True)

plt.tight_layout()
plt.show()

# Seleccionar el mejor modelo
best_model_idx = results_comparison['F1-Score'].idxmax()
best_model_name = results_comparison.loc[best_model_idx, 'Modelo']
best_f1_score = results_comparison.loc[best_model_idx, 'F1-Score']

print(f"\nü•á MEJOR MODELO SELECCIONADO: {best_model_name}")
print(f"üìä F1-Score: {best_f1_score:.4f}")

print(f"\nüí° JUSTIFICACI√ìN DE LA ELECCI√ìN:")
if best_model_name == 'Random Forest':
    print("‚Ä¢ Random Forest obtiene el mejor balance entre precision y recall")
    print("‚Ä¢ Proporciona informaci√≥n sobre importancia de caracter√≠sticas")
    print("‚Ä¢ Es robusto ante overfitting con el ensemble de √°rboles")
    best_final_model = rf_model
elif best_model_name == 'LR Optimizada':
    print("‚Ä¢ La Regresi√≥n Log√≠stica optimizada mejora significativamente")
    print("‚Ä¢ Es interpretable y eficiente computacionalmente")
    print("‚Ä¢ Tiene buen rendimiento con hiperpar√°metros optimizados")
    best_final_model = lr_optimized
elif best_model_name == 'k-NN':
    print("‚Ä¢ k-NN obtiene excelente rendimiento para este dataset")
    print("‚Ä¢ Es simple y efectivo para problemas de clasificaci√≥n")
    print("‚Ä¢ No requiere suposiciones sobre la distribuci√≥n de datos")
    best_final_model = knn_model
else:
    print("‚Ä¢ Regresi√≥n Log√≠stica b√°sica ofrece buen rendimiento")
    print("‚Ä¢ Es interpretable y r√°pida de entrenar")
    print("‚Ä¢ Proporciona probabilidades calibradas")
    best_final_model = lr_model

print(f"\n‚úÖ Modelo seleccionado listo para despliegue")

## 14. Persistencia del Modelo y Preprocesador

Guardamos el mejor modelo y los objetos de preprocesamiento para uso futuro en la aplicaci√≥n web.

In [None]:
# PERSISTENCIA DEL MODELO Y PREPROCESADOR
print("üíæ GUARDANDO MODELO Y PREPROCESADORES")
print("="*50)

import joblib
import pickle
import os

# Crear carpeta para modelos si no existe
models_dir = 'models'
os.makedirs(models_dir, exist_ok=True)

# Guardar el mejor modelo
model_filename = f'{models_dir}/best_lung_cancer_model.joblib'
joblib.dump(best_final_model, model_filename)
print(f"‚úÖ Modelo guardado: {model_filename}")

# Guardar el scaler
scaler_filename = f'{models_dir}/scaler.joblib'
joblib.dump(scaler, scaler_filename)
print(f"‚úÖ Scaler guardado: {scaler_filename}")

# Guardar los label encoders
encoders_filename = f'{models_dir}/label_encoders.joblib'
joblib.dump(label_encoders, encoders_filename)
print(f"‚úÖ Label encoders guardados: {encoders_filename}")

# Guardar informaci√≥n del modelo
model_info = {
    'model_name': best_model_name,
    'model_type': type(best_final_model).__name__,
    'accuracy': results_comparison.loc[best_model_idx, 'Accuracy'],
    'precision': results_comparison.loc[best_model_idx, 'Precision'],
    'recall': results_comparison.loc[best_model_idx, 'Recall'],
    'f1_score': results_comparison.loc[best_model_idx, 'F1-Score'],
    'auc_roc': results_comparison.loc[best_model_idx, 'AUC-ROC'],
    'feature_names': X.columns.tolist(),
    'target_classes': label_encoders['LUNG_CANCER'].classes_.tolist()
}

info_filename = f'{models_dir}/model_info.joblib'
joblib.dump(model_info, info_filename)
print(f"‚úÖ Informaci√≥n del modelo guardada: {info_filename}")

print(f"\nüìÅ ARCHIVOS GENERADOS EN LA CARPETA '{models_dir}':")
for file in os.listdir(models_dir):
    print(f"  ‚Ä¢ {file}")

print(f"\nüöÄ MODELO LISTO PARA DESPLIEGUE")
print(f"   Modelo: {best_model_name}")
print(f"   Rendimiento: F1-Score = {best_f1_score:.4f}")

# Funci√≥n de predicci√≥n para usar en la aplicaci√≥n web
def predict_lung_cancer(gender, age, smoking, yellow_fingers, anxiety, 
                       peer_pressure, chronic_disease, fatigue, allergy, 
                       wheezing, alcohol_consuming, coughing, 
                       shortness_of_breath, swallowing_difficulty, chest_pain):
    """
    Funci√≥n para hacer predicciones de c√°ncer de pulm√≥n
    """
    # Crear array con los datos de entrada
    input_data = np.array([[gender, age, smoking, yellow_fingers, anxiety,
                           peer_pressure, chronic_disease, fatigue, allergy,
                           wheezing, alcohol_consuming, coughing,
                           shortness_of_breath, swallowing_difficulty, chest_pain]])
    
    # Aplicar escalado
    input_scaled = scaler.transform(input_data)
    
    # Hacer predicci√≥n
    prediction = best_final_model.predict(input_scaled)[0]
    probability = best_final_model.predict_proba(input_scaled)[0]
    
    return prediction, probability

print(f"\n‚úÖ Funci√≥n de predicci√≥n creada y lista para usar")

## 15. Conclusiones y Pr√≥ximos Pasos

### Resumen del Proyecto

En este proyecto hemos implementado un sistema completo de Machine Learning para la predicci√≥n de c√°ncer de pulm√≥n:

#### ‚úÖ **An√°lisis Exploratorio de Datos (EDA)**
- Dataset con 311 muestras y 16 caracter√≠sticas
- No se encontraron valores faltantes
- Variables principalmente categ√≥ricas codificadas num√©ricamente
- Balance de clases aceptable para clasificaci√≥n

#### ‚úÖ **Preprocesamiento**
- **Codificaci√≥n**: Label Encoding para variables categ√≥ricas
- **Escalado**: StandardScaler para normalizar caracter√≠sticas
- **Divisi√≥n**: 80% entrenamiento, 20% prueba con estratificaci√≥n

#### ‚úÖ **Modelos Implementados**
1. **Regresi√≥n Log√≠stica**: Modelo base interpretable
2. **k-NN**: Modelo basado en vecinos cercanos  
3. **Random Forest**: Modelo ensemble (bonificaci√≥n)
4. **Regresi√≥n Log√≠stica Optimizada**: Con ajuste de hiperpar√°metros

#### ‚úÖ **Resultados Obtenidos**
- Todos los modelos obtuvieron excelente rendimiento (>90% accuracy)
- El mejor modelo fue seleccionado basado en F1-Score
- Modelos guardados y listos para despliegue

#### üöÄ **Pr√≥ximos Pasos**
1. **Desarrollo de aplicaci√≥n web con Streamlit**
2. **Interfaz intuitiva para predicciones**
3. **Validaci√≥n adicional con m√°s datos**
4. **Monitoreo del modelo en producci√≥n**

### üìä **Archivos Generados**
- `models/best_lung_cancer_model.joblib`: Mejor modelo entrenado
- `models/scaler.joblib`: Preprocesador para escalado
- `models/label_encoders.joblib`: Codificadores de variables categ√≥ricas
- `models/model_info.joblib`: Informaci√≥n y metadatos del modelo

El proyecto est√° listo para la **Parte 2: Despliegue Web** con Streamlit.