## 1. Importar Librerías

In [None]:
# Librerías básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Preprocesamiento
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.impute import KNNImputer

# Modelos de regularización
from sklearn.linear_model import Ridge, Lasso, ElasticNet, LogisticRegression

# Detección de outliers
from pyod.models.knn import KNN
from pyod.models.iforest import IForest
from pyod.models.lof import LOF

# Selección de características
from boruta import BorutaPy
from sklearn.ensemble import RandomForestClassifier
from mlxtend.feature_selection import SequentialFeatureSelector as SFS

# Árboles de decisión
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree

# Métricas
from sklearn.metrics import (classification_report, confusion_matrix, accuracy_score, 
                             precision_score, recall_score, f1_score, roc_auc_score,
                             mean_squared_error, r2_score, mean_absolute_error)

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

## 2. Carga y Exploración de Datos

In [None]:
# Cargar el dataset
column_names = ['Sequence_Name', 'mcg', 'gvh', 'alm', 'mit', 'erl', 'pox', 'vac', 'nuc', 'class']
df = pd.read_csv('DATABASE/yeast.data', delim_whitespace=True, names=column_names)

print("Dimensiones del dataset:", df.shape)
print("\nPrimeras filas:")
df.head(10)

In [None]:
# Información del dataset
print("Información del dataset:")
print(df.info())
print("\n" + "="*50)
print("Estadísticas descriptivas:")
df.describe()

In [None]:
# Distribución de clases
print("Distribución de clases:")
print(df['class'].value_counts())
print(f"\nNúmero de clases: {df['class'].nunique()}")

# Visualizar distribución
plt.figure(figsize=(12, 6))
df['class'].value_counts().plot(kind='bar')
plt.title('Distribución de Clases de Localización de Proteínas', fontsize=14, fontweight='bold')
plt.xlabel('Clase', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
missing_values = df.isnull().sum()
print(missing_values[missing_values > 0])
print(f"\nTotal de valores faltantes: {df.isnull().sum().sum()}")

In [None]:
# Matriz de correlación
plt.figure(figsize=(10, 8))
numeric_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numeric_cols].corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', square=True)
plt.title('Matriz de Correlación de Características', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 3. Preparación de Datos

In [None]:
# Separar características y target
X = df.drop(['Sequence_Name', 'class'], axis=1)
y = df['class']

# Codificar variable objetivo
le = LabelEncoder()
y_encoded = le.fit_transform(y)

print(f"Características: {X.shape}")
print(f"Target: {y.shape}")
print(f"\nClases codificadas: {dict(zip(le.classes_, le.transform(le.classes_)))}")

## 4. Imputación de Valores Faltantes

Aunque el dataset original no tiene valores faltantes, vamos a introducir algunos artificialmente para demostrar las técnicas de imputación.

In [None]:
# Crear una copia del dataset y añadir valores faltantes artificialmente
np.random.seed(42)
X_with_missing = X.copy()

# Introducir 5% de valores faltantes aleatoriamente
mask = np.random.random(X_with_missing.shape) < 0.05
X_with_missing = X_with_missing.mask(mask)

print(f"Valores faltantes introducidos: {X_with_missing.isnull().sum().sum()}")
print(f"Porcentaje de valores faltantes: {(X_with_missing.isnull().sum().sum() / X_with_missing.size) * 100:.2f}%")
print("\nValores faltantes por columna:")
print(X_with_missing.isnull().sum())

### 4.1 Forward Fill y Backward Fill

In [None]:
# Forward Fill
X_ffill = X_with_missing.fillna(method='ffill')
# Backward Fill para los valores que quedaron al inicio
X_ffill = X_ffill.fillna(method='bfill')

print("Imputación con Forward/Backward Fill:")
print(f"Valores faltantes restantes: {X_ffill.isnull().sum().sum()}")
print("\nEstadísticas después de Forward Fill:")
print(X_ffill.describe())

### 4.2 KNN Imputer

In [None]:
# KNN Imputer
knn_imputer = KNNImputer(n_neighbors=5)
X_knn_imputed = pd.DataFrame(
    knn_imputer.fit_transform(X_with_missing),
    columns=X.columns,
    index=X.index
)

print("Imputación con KNN Imputer (k=5):")
print(f"Valores faltantes restantes: {X_knn_imputed.isnull().sum().sum()}")
print("\nEstadísticas después de KNN Imputer:")
print(X_knn_imputed.describe())

In [None]:
# Comparar imputaciones
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Original
X.boxplot(ax=axes[0, 0])
axes[0, 0].set_title('Datos Originales (Sin valores faltantes)', fontweight='bold')
axes[0, 0].set_xticklabels(axes[0, 0].get_xticklabels(), rotation=45)

# Con valores faltantes
X_with_missing.boxplot(ax=axes[0, 1])
axes[0, 1].set_title('Datos con Valores Faltantes (5%)', fontweight='bold')
axes[0, 1].set_xticklabels(axes[0, 1].get_xticklabels(), rotation=45)

# Forward Fill
X_ffill.boxplot(ax=axes[1, 0])
axes[1, 0].set_title('Imputación Forward/Backward Fill', fontweight='bold')
axes[1, 0].set_xticklabels(axes[1, 0].get_xticklabels(), rotation=45)

# KNN Imputer
X_knn_imputed.boxplot(ax=axes[1, 1])
axes[1, 1].set_title('Imputación KNN (k=5)', fontweight='bold')
axes[1, 1].set_xticklabels(axes[1, 1].get_xticklabels(), rotation=45)

plt.tight_layout()
plt.show()

## 5. Detección de Outliers con PyOD

In [None]:
# Usar datos originales sin valores faltantes
X_clean = X.copy()

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_clean)

# Método 1: KNN (K-Nearest Neighbors)
knn_detector = KNN(contamination=0.1)
knn_labels = knn_detector.fit_predict(X_scaled)
knn_scores = knn_detector.decision_scores_

print("Detección de Outliers con KNN:")
print(f"Outliers detectados: {np.sum(knn_labels)}")
print(f"Porcentaje de outliers: {(np.sum(knn_labels) / len(knn_labels)) * 100:.2f}%")

In [None]:
# Método 2: Isolation Forest
iforest_detector = IForest(contamination=0.1, random_state=42)
iforest_labels = iforest_detector.fit_predict(X_scaled)
iforest_scores = iforest_detector.decision_scores_

print("Detección de Outliers con Isolation Forest:")
print(f"Outliers detectados: {np.sum(iforest_labels)}")
print(f"Porcentaje de outliers: {(np.sum(iforest_labels) / len(iforest_labels)) * 100:.2f}%")

In [None]:
# Método 3: Local Outlier Factor (LOF)
lof_detector = LOF(contamination=0.1)
lof_labels = lof_detector.fit_predict(X_scaled)
lof_scores = lof_detector.decision_scores_

print("Detección de Outliers con LOF:")
print(f"Outliers detectados: {np.sum(lof_labels)}")
print(f"Porcentaje de outliers: {(np.sum(lof_labels) / len(lof_labels)) * 100:.2f}%")

In [None]:
# Visualizar outliers detectados
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

methods = [
    ('KNN', knn_labels, knn_scores),
    ('Isolation Forest', iforest_labels, iforest_scores),
    ('LOF', lof_labels, lof_scores)
]

for idx, (name, labels, scores) in enumerate(methods):
    axes[idx].scatter(range(len(scores)), scores, c=labels, cmap='coolwarm', alpha=0.6)
    axes[idx].set_title(f'Outliers - {name}', fontweight='bold')
    axes[idx].set_xlabel('Índice de Muestra')
    axes[idx].set_ylabel('Score de Outlier')
    axes[idx].axhline(y=np.percentile(scores, 90), color='r', linestyle='--', label='Umbral 90%')
    axes[idx].legend()

plt.tight_layout()
plt.show()

In [None]:
# Crear dataset sin outliers (usando consenso de los 3 métodos)
# Un punto es outlier si al menos 2 de 3 métodos lo detectan
outlier_consensus = (knn_labels + iforest_labels + lof_labels) >= 2
X_no_outliers = X_clean[~outlier_consensus]
y_no_outliers = y_encoded[~outlier_consensus]

print(f"Dataset original: {X_clean.shape}")
print(f"Dataset sin outliers (consenso): {X_no_outliers.shape}")
print(f"Outliers removidos: {np.sum(outlier_consensus)}")

## 6. Selección de Características

### 6.1 Método Boruta

In [None]:
# Boruta para selección de características
print("Ejecutando Boruta (esto puede tomar unos minutos)...")

rf = RandomForestClassifier(n_jobs=-1, max_depth=5, random_state=42)
boruta_selector = BorutaPy(rf, n_estimators='auto', verbose=0, random_state=42, max_iter=100)
boruta_selector.fit(X_no_outliers.values, y_no_outliers)

# Características seleccionadas
boruta_selected = X_no_outliers.columns[boruta_selector.support_].tolist()
boruta_ranking = pd.DataFrame({
    'Feature': X_no_outliers.columns,
    'Ranking': boruta_selector.ranking_,
    'Selected': boruta_selector.support_
}).sort_values('Ranking')

print("\nResultados Boruta:")
print(boruta_ranking)
print(f"\nCaracterísticas seleccionadas: {boruta_selected}")
print(f"Número de características seleccionadas: {len(boruta_selected)}")

In [None]:
# Visualizar importancia de características según Boruta
plt.figure(figsize=(10, 6))
colors = ['green' if x else 'red' for x in boruta_ranking['Selected']]
plt.barh(boruta_ranking['Feature'], 1/boruta_ranking['Ranking'], color=colors, alpha=0.7)
plt.xlabel('Importancia (1/Ranking)', fontsize=12)
plt.ylabel('Características', fontsize=12)
plt.title('Selección de Características - Boruta', fontsize=14, fontweight='bold')
plt.legend(['Rechazada', 'Seleccionada'])
plt.tight_layout()
plt.show()

### 6.2 Método Lasso (L1 Regularization)

In [None]:
# Usar Lasso para selección de características
from sklearn.linear_model import LassoCV
from sklearn.preprocessing import StandardScaler

# Escalar datos
scaler_lasso = StandardScaler()
X_scaled_lasso = scaler_lasso.fit_transform(X_no_outliers)

# LassoCV para encontrar el mejor alpha
lasso_cv = LassoCV(cv=5, random_state=42, max_iter=10000)
lasso_cv.fit(X_scaled_lasso, y_no_outliers)

# Coeficientes
lasso_coef = pd.DataFrame({
    'Feature': X_no_outliers.columns,
    'Coefficient': np.abs(lasso_cv.coef_)
}).sort_values('Coefficient', ascending=False)

# Características con coeficiente != 0
lasso_selected = lasso_coef[lasso_coef['Coefficient'] > 0]['Feature'].tolist()

print(f"Mejor alpha encontrado: {lasso_cv.alpha_:.4f}")
print(f"\nCaracterísticas con coeficiente != 0: {len(lasso_selected)}")
print("\nCoeficientes Lasso:")
print(lasso_coef)

In [None]:
# Visualizar coeficientes Lasso
plt.figure(figsize=(10, 6))
colors_lasso = ['green' if x > 0 else 'red' for x in lasso_coef['Coefficient']]
plt.barh(lasso_coef['Feature'], lasso_coef['Coefficient'], color=colors_lasso, alpha=0.7)
plt.xlabel('Coeficiente Absoluto', fontsize=12)
plt.ylabel('Características', fontsize=12)
plt.title('Selección de Características - Lasso (L1)', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### 6.3 Método Stepwise (Forward Selection)

In [None]:
# Forward Stepwise Selection usando mlxtend
print("Ejecutando Forward Stepwise Selection (esto puede tomar unos minutos)...")

rf_stepwise = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)

# Forward selection
sfs_forward = SFS(rf_stepwise, 
                  k_features=5,  # Seleccionar 5 características
                  forward=True, 
                  floating=False, 
                  scoring='accuracy',
                  cv=5,
                  n_jobs=-1)

sfs_forward.fit(X_no_outliers.values, y_no_outliers)

# Características seleccionadas
stepwise_selected_idx = list(sfs_forward.k_feature_idx_)
stepwise_selected = X_no_outliers.columns[stepwise_selected_idx].tolist()

print(f"\nCaracterísticas seleccionadas por Stepwise: {stepwise_selected}")
print(f"Score: {sfs_forward.k_score_:.4f}")

In [None]:
# Visualizar el proceso de selección stepwise
from mlxtend.plotting import plot_sequential_feature_selection as plot_sfs

fig = plot_sfs(sfs_forward.get_metric_dict(), kind='std_err', figsize=(10, 6))
plt.title('Forward Stepwise Selection - Performance', fontsize=14, fontweight='bold')
plt.ylabel('Accuracy', fontsize=12)
plt.xlabel('Número de Características', fontsize=12)
plt.tight_layout()
plt.show()

### 6.4 Comparación de Métodos de Selección

In [None]:
# Comparar características seleccionadas por cada método
print("="*60)
print("COMPARACIÓN DE MÉTODOS DE SELECCIÓN DE CARACTERÍSTICAS")
print("="*60)

print(f"\nBoruta: {len(boruta_selected)} características")
print(f"  {boruta_selected}")

print(f"\nLasso: {len(lasso_selected)} características")
print(f"  {lasso_selected}")

print(f"\nStepwise: {len(stepwise_selected)} características")
print(f"  {stepwise_selected}")

# Características en común
common_features = set(boruta_selected) & set(lasso_selected) & set(stepwise_selected)
print(f"\nCaracterísticas seleccionadas por los 3 métodos: {common_features}")

In [None]:
# Visualizar diagrama de Venn
from matplotlib_venn import venn3

plt.figure(figsize=(10, 8))
venn3([set(boruta_selected), set(lasso_selected), set(stepwise_selected)], 
      ('Boruta', 'Lasso', 'Stepwise'))
plt.title('Características Seleccionadas por Cada Método', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 7. Modelos de Regularización

In [None]:
# Preparar datos para modelado
X_train, X_test, y_train, y_test = train_test_split(
    X_no_outliers, y_no_outliers, test_size=0.3, random_state=42, stratify=y_no_outliers
)

# Escalar datos
scaler_model = StandardScaler()
X_train_scaled = scaler_model.fit_transform(X_train)
X_test_scaled = scaler_model.transform(X_test)

print(f"Conjunto de entrenamiento: {X_train.shape}")
print(f"Conjunto de prueba: {X_test.shape}")

### 7.1 Ridge Regression (L2 Regularization)

In [None]:
# Ridge Regression con GridSearch
ridge_params = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100, 1000]}
ridge = Ridge()
ridge_grid = GridSearchCV(ridge, ridge_params, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
ridge_grid.fit(X_train_scaled, y_train)

print("Ridge Regression (L2):")
print(f"Mejor alpha: {ridge_grid.best_params_['alpha']}")
print(f"Mejor score (MSE negativo): {ridge_grid.best_score_:.4f}")

# Predicciones
ridge_pred = ridge_grid.predict(X_test_scaled)
ridge_mse = mean_squared_error(y_test, ridge_pred)
ridge_r2 = r2_score(y_test, ridge_pred)

print(f"MSE en test: {ridge_mse:.4f}")
print(f"R² en test: {ridge_r2:.4f}")

### 7.2 Lasso Regression (L1 Regularization)

In [None]:
# Lasso Regression con GridSearch
lasso_params = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100]}
lasso = Lasso(max_iter=10000)
lasso_grid = GridSearchCV(lasso, lasso_params, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
lasso_grid.fit(X_train_scaled, y_train)

print("Lasso Regression (L1):")
print(f"Mejor alpha: {lasso_grid.best_params_['alpha']}")
print(f"Mejor score (MSE negativo): {lasso_grid.best_score_:.4f}")

# Predicciones
lasso_pred = lasso_grid.predict(X_test_scaled)
lasso_mse = mean_squared_error(y_test, lasso_pred)
lasso_r2 = r2_score(y_test, lasso_pred)

print(f"MSE en test: {lasso_mse:.4f}")
print(f"R² en test: {lasso_r2:.4f}")

### 7.3 Elastic Net

In [None]:
# Elastic Net con GridSearch
elastic_params = {
    'alpha': [0.001, 0.01, 0.1, 1, 10],
    'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]
}
elastic = ElasticNet(max_iter=10000)
elastic_grid = GridSearchCV(elastic, elastic_params, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
elastic_grid.fit(X_train_scaled, y_train)

print("Elastic Net:")
print(f"Mejor alpha: {elastic_grid.best_params_['alpha']}")
print(f"Mejor l1_ratio: {elastic_grid.best_params_['l1_ratio']}")
print(f"Mejor score (MSE negativo): {elastic_grid.best_score_:.4f}")

# Predicciones
elastic_pred = elastic_grid.predict(X_test_scaled)
elastic_mse = mean_squared_error(y_test, elastic_pred)
elastic_r2 = r2_score(y_test, elastic_pred)

print(f"MSE en test: {elastic_mse:.4f}")
print(f"R² en test: {elastic_r2:.4f}")

In [None]:
# Comparar modelos de regularización
regularization_results = pd.DataFrame({
    'Modelo': ['Ridge (L2)', 'Lasso (L1)', 'Elastic Net'],
    'MSE': [ridge_mse, lasso_mse, elastic_mse],
    'R²': [ridge_r2, lasso_r2, elastic_r2]
})

print("\n" + "="*60)
print("COMPARACIÓN DE MODELOS DE REGULARIZACIÓN")
print("="*60)
print(regularization_results.to_string(index=False))

# Visualizar comparación
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

axes[0].bar(regularization_results['Modelo'], regularization_results['MSE'], color=['blue', 'orange', 'green'], alpha=0.7)
axes[0].set_title('Mean Squared Error (MSE)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('MSE')
axes[0].tick_params(axis='x', rotation=45)

axes[1].bar(regularization_results['Modelo'], regularization_results['R²'], color=['blue', 'orange', 'green'], alpha=0.7)
axes[1].set_title('R² Score', fontsize=12, fontweight='bold')
axes[1].set_ylabel('R²')
axes[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

## 8. Árboles de Decisión

### 8.1 Árbol de Clasificación

In [None]:
# Árbol de Clasificación con GridSearch
dt_clf_params = {
    'max_depth': [3, 5, 7, 10, 15, None],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 8],
    'criterion': ['gini', 'entropy']
}

dt_clf = DecisionTreeClassifier(random_state=42)
dt_clf_grid = GridSearchCV(dt_clf, dt_clf_params, cv=5, scoring='accuracy', n_jobs=-1)
dt_clf_grid.fit(X_train, y_train)

print("Árbol de Clasificación:")
print(f"Mejores hiperparámetros: {dt_clf_grid.best_params_}")
print(f"Mejor accuracy en CV: {dt_clf_grid.best_score_:.4f}")

# Predicciones
dt_clf_pred = dt_clf_grid.predict(X_test)
dt_clf_accuracy = accuracy_score(y_test, dt_clf_pred)
dt_clf_precision = precision_score(y_test, dt_clf_pred, average='weighted')
dt_clf_recall = recall_score(y_test, dt_clf_pred, average='weighted')
dt_clf_f1 = f1_score(y_test, dt_clf_pred, average='weighted')

print(f"\nMétricas en Test:")
print(f"Accuracy: {dt_clf_accuracy:.4f}")
print(f"Precision: {dt_clf_precision:.4f}")
print(f"Recall: {dt_clf_recall:.4f}")
print(f"F1-Score: {dt_clf_f1:.4f}")

In [None]:
# Matriz de confusión
cm = confusion_matrix(y_test, dt_clf_pred)
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=le.classes_, yticklabels=le.classes_)
plt.title('Matriz de Confusión - Árbol de Clasificación', fontsize=14, fontweight='bold')
plt.xlabel('Predicción')
plt.ylabel('Valor Real')
plt.tight_layout()
plt.show()

In [None]:
# Visualizar árbol de decisión (primeros niveles)
plt.figure(figsize=(20, 10))
plot_tree(dt_clf_grid.best_estimator_, 
          feature_names=X_train.columns, 
          class_names=le.classes_, 
          filled=True, 
          rounded=True,
          max_depth=3)
plt.title('Árbol de Decisión (Primeros 3 niveles)', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Importancia de características
feature_importance = pd.DataFrame({
    'Feature': X_train.columns,
    'Importance': dt_clf_grid.best_estimator_.feature_importances_
}).sort_values('Importance', ascending=False)

print("Importancia de Características:")
print(feature_importance)

plt.figure(figsize=(10, 6))
plt.barh(feature_importance['Feature'], feature_importance['Importance'], color='skyblue', alpha=0.7)
plt.xlabel('Importancia', fontsize=12)
plt.ylabel('Características', fontsize=12)
plt.title('Importancia de Características - Árbol de Clasificación', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### 8.2 Árbol de Regresión

In [None]:
# Árbol de Regresión con GridSearch
dt_reg_params = {
    'max_depth': [3, 5, 7, 10, 15, None],
    'min_samples_split': [2, 5, 10, 20],
    'min_samples_leaf': [1, 2, 4, 8],
    'criterion': ['squared_error', 'absolute_error']
}

dt_reg = DecisionTreeRegressor(random_state=42)
dt_reg_grid = GridSearchCV(dt_reg, dt_reg_params, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
dt_reg_grid.fit(X_train, y_train)

print("Árbol de Regresión:")
print(f"Mejores hiperparámetros: {dt_reg_grid.best_params_}")
print(f"Mejor score (MSE negativo) en CV: {dt_reg_grid.best_score_:.4f}")

# Predicciones
dt_reg_pred = dt_reg_grid.predict(X_test)
dt_reg_mse = mean_squared_error(y_test, dt_reg_pred)
dt_reg_mae = mean_absolute_error(y_test, dt_reg_pred)
dt_reg_r2 = r2_score(y_test, dt_reg_pred)

print(f"\nMétricas en Test:")
print(f"MSE: {dt_reg_mse:.4f}")
print(f"MAE: {dt_reg_mae:.4f}")
print(f"R²: {dt_reg_r2:.4f}")

In [None]:
# Visualizar predicciones vs valores reales
plt.figure(figsize=(10, 6))
plt.scatter(y_test, dt_reg_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Valores Reales', fontsize=12)
plt.ylabel('Predicciones', fontsize=12)
plt.title('Árbol de Regresión - Valores Reales vs Predicciones', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 9. Comparativa Final de Modelos

In [None]:
# Crear tabla comparativa completa
comparison_data = {
    'Modelo': [
        'Ridge (L2)', 
        'Lasso (L1)', 
        'Elastic Net',
        'Árbol de Clasificación',
        'Árbol de Regresión'
    ],
    'Tipo': [
        'Regresión',
        'Regresión',
        'Regresión',
        'Clasificación',
        'Regresión'
    ],
    'MSE': [
        ridge_mse,
        lasso_mse,
        elastic_mse,
        None,
        dt_reg_mse
    ],
    'R²': [
        ridge_r2,
        lasso_r2,
        elastic_r2,
        None,
        dt_reg_r2
    ],
    'Accuracy': [
        None,
        None,
        None,
        dt_clf_accuracy,
        None
    ],
    'F1-Score': [
        None,
        None,
        None,
        dt_clf_f1,
        None
    ]
}

comparison_df = pd.DataFrame(comparison_data)

print("="*80)
print("COMPARATIVA FINAL DE TODOS LOS MODELOS")
print("="*80)
print(comparison_df.to_string(index=False))
print("="*80)

In [None]:
# Visualización comparativa para modelos de regresión
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

regression_models = ['Ridge (L2)', 'Lasso (L1)', 'Elastic Net', 'Árbol de Regresión']
regression_mse = [ridge_mse, lasso_mse, elastic_mse, dt_reg_mse]
regression_r2 = [ridge_r2, lasso_r2, elastic_r2, dt_reg_r2]

axes[0].bar(regression_models, regression_mse, color=['blue', 'orange', 'green', 'red'], alpha=0.7)
axes[0].set_title('MSE - Modelos de Regresión', fontsize=12, fontweight='bold')
axes[0].set_ylabel('MSE')
axes[0].tick_params(axis='x', rotation=45)

axes[1].bar(regression_models, regression_r2, color=['blue', 'orange', 'green', 'red'], alpha=0.7)
axes[1].set_title('R² Score - Modelos de Regresión', fontsize=12, fontweight='bold')
axes[1].set_ylabel('R²')
axes[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

## 10. Resumen de Resultados y Conclusiones

In [None]:
print("="*80)
print("RESUMEN EJECUTIVO DEL ANÁLISIS")
print("="*80)

print("\n1. IMPUTACIÓN DE VALORES FALTANTES:")
print("   - Forward/Backward Fill: Método simple, preserva tendencias")
print("   - KNN Imputer: Considera similitud entre observaciones, más robusto")

print("\n2. DETECCIÓN DE OUTLIERS (PyOD):")
print(f"   - KNN: {np.sum(knn_labels)} outliers detectados")
print(f"   - Isolation Forest: {np.sum(iforest_labels)} outliers detectados")
print(f"   - LOF: {np.sum(lof_labels)} outliers detectados")
print(f"   - Consenso: {np.sum(outlier_consensus)} outliers removidos")

print("\n3. SELECCIÓN DE CARACTERÍSTICAS:")
print(f"   - Boruta: {len(boruta_selected)} características seleccionadas")
print(f"   - Lasso: {len(lasso_selected)} características con coef. != 0")
print(f"   - Stepwise: {len(stepwise_selected)} características seleccionadas")
print(f"   - En común: {len(common_features)} características")

print("\n4. MODELOS DE REGULARIZACIÓN:")
print(f"   - Ridge (L2): MSE={ridge_mse:.4f}, R²={ridge_r2:.4f}")
print(f"   - Lasso (L1): MSE={lasso_mse:.4f}, R²={lasso_r2:.4f}")
print(f"   - Elastic Net: MSE={elastic_mse:.4f}, R²={elastic_r2:.4f}")

print("\n5. ÁRBOLES DE DECISIÓN:")
print(f"   - Clasificación: Accuracy={dt_clf_accuracy:.4f}, F1={dt_clf_f1:.4f}")
print(f"   - Regresión: MSE={dt_reg_mse:.4f}, R²={dt_reg_r2:.4f}")

print("\n6. MEJOR MODELO:")
best_regression_idx = np.argmin([ridge_mse, lasso_mse, elastic_mse, dt_reg_mse])
best_regression = regression_models[best_regression_idx]
print(f"   - Regresión: {best_regression} (MSE más bajo)")
print(f"   - Clasificación: Árbol de Clasificación (Accuracy={dt_clf_accuracy:.4f})")

print("\n" + "="*80)

## Conclusiones

Este análisis ha aplicado de manera exhaustiva múltiples técnicas de Machine Learning:

### Preprocesamiento
- **Imputación**: Se compararon Forward/Backward Fill y KNNImputer, siendo este último más robusto
- **Outliers**: PyOD (KNN, Isolation Forest, LOF) identificó y removió observaciones atípicas efectivamente

### Selección de Características
- **Boruta**: Método robusto basado en Random Forest
- **Lasso**: Selección automática mediante penalización L1
- **Stepwise**: Búsqueda secuencial optimizando accuracy

### Modelado
- **Regularización**: Ridge, Lasso y Elastic Net controlaron el overfitting efectivamente
- **Árboles**: Tanto clasificación como regresión mostraron buen desempeño con hiperparámetros optimizados

### Recomendaciones
1. Para tareas de **clasificación**, usar el árbol de decisión optimizado
2. Para **regresión**, evaluar entre Ridge y Árbol según interpretabilidad requerida
3. Aplicar **detección de outliers** antes del modelado mejora el desempeño
4. Usar **selección de características** reduce dimensionalidad sin perder información relevante