# <font color='Red'>Bibliotecas</font>

In [None]:
# -----------------------------
# Bibliotecas estándar de Python
# -----------------------------
import itertools
import random
import time
import warnings
from pathlib import Path
from sys import intern

# -----------------------------
# Bibliotecas para análisis y manipulación de datos
# -----------------------------
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import shapiro
import scipy.cluster.hierarchy as sch

# -----------------------------
# Bibliotecas para visualización de datos
# -----------------------------
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# -----------------------------
# Bibliotecas para Machine Learning
# -----------------------------
from sklearn import set_config
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import (
    AdaBoostClassifier,
    BaggingClassifier,
    GradientBoostingClassifier,
    HistGradientBoostingClassifier,
    IsolationForest,
    RandomForestClassifier,
    VotingClassifier
)
from sklearn.feature_selection import RFE, RFECV
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score,
    classification_report,
    confusion_matrix,
    f1_score,
    fbeta_score,
    get_scorer,
    precision_score,
    recall_score,
    roc_auc_score,
    roc_curve,
    auc
)
from sklearn.model_selection import (
    GridSearchCV,
    KFold,
    RandomizedSearchCV,
    RepeatedStratifiedKFold,
    StratifiedKFold,
    cross_val_score,
    learning_curve,
    train_test_split,
    validation_curve
)
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import (
    KBinsDiscretizer,
    LabelEncoder,
    OneHotEncoder,
    OrdinalEncoder,
    RobustScaler,
    StandardScaler
)
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, plot_tree

# -----------------------------
# Manejo de rutas de archivos
# -----------------------------
from google.colab import drive  # Conectar Google Drive
from google.colab import files
# -----------------------------
# Configuración de aleatoriedad para reproducibilidad
# -----------------------------
random_state = 42

# -----------------------------
# Otras bibliotecas
# -----------------------------
import joblib
import zipfile
import pickle
import io

# <font color='Red'> Datos</font>

In [None]:
from google.colab import drive
import pandas as pd

# Montar Google Drive
drive.mount('/content/drive')

# Definir la ruta del archivo en "Mi unidad"
path = "/content/drive/My Drive/X-IIoTID dataset.csv"  # Ruta de acceso drive

# path = Path("..") / "input" / "dataset" / "/content/X-IIoTID dataset.csv"  # Ruta de acceso local

# Cargar el archivo CSV
try:
    df = pd.read_csv(path, low_memory=False)  # low_memory=False para evitar problemas de tipos mixtos
    print("Archivo cargado exitosamente.")
    print(f"El conjunto de datos tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
except FileNotFoundError:
    print("El archivo no se encontró en la ruta especificada. Verifica que la ruta sea correcta.")
except Exception as e:
    print(f"Ocurrió un error al cargar el archivo: {e}")


Mounted at /content/drive
Archivo cargado exitosamente.
El conjunto de datos tiene 820834 filas y 68 columnas.


## <font color='Red'>Particion de datos Train, Validacion y Test</font>

In [None]:
# Definir X e y
X = df.drop(columns=['class1', 'class2', 'class3'])
y_class3 = df['class3'].replace({'Normal': 0, 'Attack': 1})
y_class2 = df['class2']
y_class1 = df['class1']

print("Forma de X e y_class3:", X.shape, y_class3.shape)

Forma de X e y_class3: (820834, 65) (820834,)


  y_class3 = df['class3'].replace({'Normal': 0, 'Attack': 1})


In [None]:
clases = df[['class3', 'class2', 'class1']]
print(clases)

        class3          class2                  class1
0       Attack  Reconnaissance  Scanning_vulnerability
1       Normal          Normal                  Normal
2       Normal          Normal                  Normal
3       Normal          Normal                  Normal
4       Normal          Normal                  Normal
...        ...             ...                     ...
820829  Attack  Reconnaissance        Generic_scanning
820830  Normal          Normal                  Normal
820831  Normal          Normal                  Normal
820832  Attack  Reconnaissance        Generic_scanning
820833  Normal          Normal                  Normal

[820834 rows x 3 columns]


In [None]:
# Primera división: separa un conjunto de entrenamiento y otro de prueba/validación
X_train, X_temp, y_train_class3, y_temp_class3, y_train_class2, y_temp_class2, y_train_class1, y_temp_class1 = train_test_split(
    X,
    y_class3,
    y_class2,
    y_class1,
    test_size=0.3,
    random_state=random_state,
    stratify=y_class3
)

# Segunda división: separa validación y prueba
X_val, X_test, y_val_class3, y_test_class3, y_val_class2, y_test_class2, y_val_class1, y_test_class1 = train_test_split(
    X_temp,
    y_temp_class3,
    y_temp_class2,
    y_temp_class1,
    test_size=0.5,
    random_state=random_state,
    stratify=y_temp_class3
)

In [None]:
# Resetear índices para evitar desalineaciones
X_train = X_train.reset_index(drop=True)
X_val = X_val.reset_index(drop=True)
X_test = X_test.reset_index(drop=True)  # Opcional

y_train_class3 = y_train_class3.reset_index(drop=True)
y_val_class3 = y_val_class3.reset_index(drop=True)
y_test_class3 = y_test_class3.reset_index(drop=True)  # Opcional

y_train_class2 = y_train_class2.reset_index(drop=True)
y_val_class2 = y_val_class2.reset_index(drop=True)
y_test_class2 = y_test_class2.reset_index(drop=True)  # Opcional

y_train_class1 = y_train_class1.reset_index(drop=True)
y_val_class1 = y_val_class1.reset_index(drop=True)
y_test_class1 = y_test_class1.reset_index(drop=True)  # Opcional

## <font color='Red'>Preprocesamiento</font>

### <font color='Red'>Funciones para el preprocesamiento</font>

In [None]:
import pandas as pd
import ipaddress

def fix_dytype(df, umbral_numerico=0.7):
    object_cols = df.select_dtypes(include=['object']).columns
    int_cols = df.select_dtypes(include=['int64']).columns

    for col in object_cols:
        unique_values = set(df[col].unique())
        if unique_values.issubset({'true', 'false'}):
            df[col] = df[col].map({'true': True, 'false': False})
        elif len(unique_values) == 3 and 'true' in unique_values:
            print(f"Columna {col} convertida a booleana, se han borrado {df[col].isna().sum()} filas que contenían 'nan'.")
            df.dropna(subset=[col], inplace=True)
            df[col] = df[col].map({'true': True, 'false': False})
        else:
            converted = pd.to_numeric(df[col], errors='coerce')
            if converted.notna().mean() > umbral_numerico:
                df[col] = converted.astype(float)

    for col in int_cols:
        if set(df[col].unique()).issubset({0, 1}):
            df[col] = df[col].astype(bool)

    return df

def clasificar_ip(ip):
    """Clasifica una IP como privada/pública y determina su clase."""
    try:
        ip_obj = ipaddress.ip_address(ip)
        es_local = 1 if ip_obj.is_private else 0

        if isinstance(ip_obj, ipaddress.IPv4Address):
            primer_octeto = int(ip.split(".")[0])
            if 1 <= primer_octeto <= 126:
                clase = "A"
            elif 128 <= primer_octeto <= 191:
                clase = "B"
            elif 192 <= primer_octeto <= 223:
                clase = "C"
            elif 224 <= primer_octeto <= 239:
                clase = "D"
            elif 240 <= primer_octeto <= 255:
                clase = "E"
            else:
                clase = "Desconocida"
        else:
            clase = "IPv6"

        return es_local, clase
    except ValueError:
        return None, None

servicios_industriales = ["modbus", "mqtt", "coap"]

def tipo_servicio(series):
    """Crea una columna indicando si el servicio es industrial."""
    return series.apply(lambda x: 1 if x in servicios_industriales else 0)

def delete_ip_port(df):
    """Elimina las columnas 'ip' y 'port'."""
    return df.drop(columns=['Scr_IP', 'Scr_port', 'Des_IP', 'Des_port'])


In [None]:
import pandas as pd
import numpy as np

# Reemplazos comunes de valores
common_replacements = {
    '-': np.nan,
    '?': np.nan,
    'nan': np.nan,
}

def replace_common_values(df):
    """Reemplaza valores comunes como '-', '?' y 'nan' por NaN."""
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].replace(common_replacements)
    return df

def fix_mayus(df):
    for col in df.select_dtypes(include=['object']).columns:
        df[col] = df[col].str.lower()
    return df


### <font color='Red'>Preprocesamiento Train, Validacion</font>

#### <font color='Red'>Correcion de formato</font>

In [None]:
X_train = replace_common_values(X_train)
X_train = fix_mayus(X_train)
X_train = fix_dytype(X_train)
X_train = delete_ip_port(X_train)

y_train_class3 = y_train_class3.loc[X_train.index]
y_train_class2 = y_train_class2.loc[X_train.index]
y_train_class1 = y_train_class1.loc[X_train.index]

X_val = replace_common_values(X_val)
X_val = fix_mayus(X_val)
X_val = fix_dytype(X_val)
X_val = delete_ip_port(X_val)

y_val_class3 = y_val_class3.loc[X_val.index]
y_val_class2 = y_val_class2.loc[X_val.index]
y_val_class1 = y_val_class1.loc[X_val.index]

Columna anomaly_alert convertida a booleana, se han borrado 110 filas que contenían 'nan'.
Columna anomaly_alert convertida a booleana, se han borrado 19 filas que contenían 'nan'.


In [None]:
# Añadir la columna 'Instancia_completa'
X_train['Instancia_completa'] = X_train.notnull().all(axis=1).astype(int)
X_val['Instancia_completa'] = X_val.notnull().all(axis=1).astype(int)

# Contar las instancias completas e incompletas
completas = X_train['Instancia_completa'].sum()
incompletas = len(X_train) - completas

print(f"Instancias completas (Train): {completas}")
print(f"Instancias incompletas (Train): {incompletas}")

Instancias completas (Train): 416933
Instancias incompletas (Train): 157540


In [None]:
# Asignar más peso a las instancias completas (por ejemplo, peso 2 si es completa, 1 si no)
sample_weight_train = X_train['Instancia_completa'].replace({1: 3, 0: 1})
sample_weight_val = X_val['Instancia_completa'].replace({1: 3, 0: 1})

In [None]:
# Filtrar columnas excluyendo 'Timestamp', 'Date' y las de tipo objeto
columnas_sin_timestamp = [col for col in X_train.columns
                          if col not in ['Timestamp', 'Date'] and X_train[col].dtypes != 'object']

# Calcular la varianza de cada columna (excluyendo las filtradas)
varianzas = X_train[columnas_sin_timestamp].var()

# Identificar columnas con varianza igual a cero
variables_con_varianza_cero = [col for col, varianza in varianzas.items() if varianza == 0]

# Imprimir las columnas con varianza cero
print(variables_con_varianza_cero)

['Bad_checksum', 'is_SYN_with_RST']


In [None]:
X_train = X_train.drop(columns=['Date','Timestamp'], errors='ignore')
X_train = X_train.drop(columns=variables_con_varianza_cero)
X_train = X_train.drop(columns=['Instancia_completa'])

X_val = X_val.drop(columns=['Date','Timestamp'], errors='ignore')
X_val = X_val.drop(columns=variables_con_varianza_cero)
X_val = X_val.drop(columns=['Instancia_completa'])

##### <font color='Red'>Reduccion de la dimensionalidad de caracteristicas mediante la correlacion</font>

In [None]:
numeric_cols = X_train.select_dtypes(include=['float64', 'int64']).columns

correlation_matrix = X_train[numeric_cols].corr()
fig = px.imshow(correlation_matrix,
                color_continuous_scale='Viridis',
                title="Matriz de Correlación entre Variables Numéricas y Booleanas",
                labels={'x': 'Variables', 'y': 'Variables', 'color': 'Coeficiente de Correlación'})

# Mostrar el gráfico interactivo
fig.show()

In [None]:
threshold = 0.97

# Toma solo la parte superior de la matriz para evitar duplicados
upper_tri = correlation_matrix.where(np.triu(np.ones(correlation_matrix.shape), k=1).astype(bool))

# Identifica pares altamente correlacionados
correlated_pairs = []
for col in upper_tri.columns:
    for row in upper_tri.index:
        if upper_tri.loc[row, col] > threshold:
            correlated_pairs.append((row, col))

# Muestra los pares detectados
print("Pares altamente correlacionados (row, col):")
print(correlated_pairs)

# Selecciona las columnas a eliminar (de cada par, se elimina la que aparece como columna)
alta_corr_pares = [col for col in upper_tri.columns if any(upper_tri[col] > threshold)]

# Elimina columnas redundantes
X_train = X_train.drop(columns=alta_corr_pares)

print("Columnas eliminadas:", alta_corr_pares)

Pares altamente correlacionados (row, col):
[('Des_bytes', 'Des_ip_bytes'), ('Des_bytes', 'total_bytes'), ('Des_ip_bytes', 'total_bytes'), ('Scr_pkts', 'total_packet'), ('Des_pkts', 'total_packet'), ('paket_rate', 'byte_rate'), ('Avg_num_Proc/s', 'Std_num_proc/s')]
Columnas eliminadas: ['Des_ip_bytes', 'total_bytes', 'total_packet', 'byte_rate', 'Std_num_proc/s']


In [None]:
X_train.shape

(574473, 52)

In [None]:
numeric_cols = X_train.select_dtypes(include=['float64', 'int64']).columns

correlations_with_target = X_train[numeric_cols].corrwith(y_class3)
correlations_df = correlations_with_target.reset_index()
correlations_df.columns = ['Feature', 'Correlation']  # Renombrar las columnas

# Crear un gráfico de barras de las correlaciones para cada una de las variables objetivo
fig = px.bar(
    correlations_df,
    x="Feature",
    y="Correlation",
    title='Correlación de Variables con las Variables Objetivo',
    labels={'Correlation': 'Coeficiente de Correlación', 'Feature': 'Variable'},
    color='Correlation',  # Color según el valor de la correlación
    color_continuous_scale=px.colors.sequential.Plasma
)

# Mostrar el gráfico
fig.show()

In [None]:
threshold = 0.025

# Calculamos la correlación con la variable objetivo
target_correlation = X_train[numeric_cols].corrwith(y_train_class3).abs().sort_values(ascending=True)

# Nos quedamos solo con las características que tengan correlación >= 0.1
baja_corr_respecto_obj = target_correlation[target_correlation < threshold].index.tolist()

# # Eliminamos las que no cumplan el umbral
X_train = X_train.drop(columns=baja_corr_respecto_obj)

print("Columnas eliminadas:", baja_corr_respecto_obj)

Columnas eliminadas: ['Avg_num_Proc/s', 'Avg_wtps', 'Std_iowait_time', 'missed_bytes', 'Std_kbmemused', 'Std_tps', 'Std_ideal_time', 'Std_ldavg_1']


In [None]:
X_train.shape

(574473, 44)

In [None]:
X_val = X_val.drop(columns=alta_corr_pares)
X_val = X_val.drop(columns=baja_corr_respecto_obj)
X_val.shape

(123106, 44)

#### <font color='Red'>Imputadores, codificadores, discretizadores y scalers</font>

##### <font color='Red'>Diccionarios</font>

In [None]:
# Definir los imputadores
imputers = {
    'categorical': {
        'most_frequent': SimpleImputer(strategy='most_frequent'),
    },
    'numeric': {
        'mean': SimpleImputer(strategy='mean'),
        'median': SimpleImputer(strategy='median')
    }
}


# Definir codificadores
encoders = {
    "one_hot": OneHotEncoder(sparse_output=False, handle_unknown="ignore"),  # Codificación One-Hot
    "ordinal": OrdinalEncoder(handle_unknown="use_encoded_value", unknown_value=-1)  # Codificación ordinal
}


# Definir discretizadores
discretizers = {
    "k_bins": KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='uniform'),  # Discretización uniforme
    "quantile_bins": KBinsDiscretizer(n_bins=5, encode='ordinal', strategy='quantile')  # Discretización en percentiles
}

scalers = {
    "robust": RobustScaler()
}

##### <font color='Red'>Imputacion de datos faltantes, codificaciones, discretizaciones y scaler</font>

In [None]:
# Identificar columnas categóricas, numéricas y booleanas
categorical_cols = X_train.select_dtypes(include=['object']).columns

boolean_cols = X_train.select_dtypes(include=['bool']).columns
if boolean_cols.any():  # Si hay columnas booleanas
    X_train[boolean_cols] = X_train[boolean_cols].astype(int)

numerical_cols = X_train.select_dtypes(include=['float64', 'int64']).columns

In [None]:
# Seleccionar el imputador deseado para características categóricas
imputer_categorical = imputers['categorical']['most_frequent']
X_train[categorical_cols] = imputer_categorical.fit_transform(X_train[categorical_cols])
X_val[categorical_cols] = imputer_categorical.transform(X_val[categorical_cols])


# Seleccionar el imputador deseado para características numéricas
imputer_numeric = imputers['numeric']['mean']
X_train[numerical_cols] = imputer_numeric.fit_transform(X_train[numerical_cols])
X_val[numerical_cols] = imputer_numeric.transform(X_val[numerical_cols])

In [None]:
# Seleccionar el scaler deseado
scaler = scalers['robust']
# Ajustar el scaler con el set de entrenamiento y transformarlo
# Se utiliza fit_transform en entrenamiento para calcular la media y desviación (o mediana y IQR en el caso de RobustScaler)
X_train_scaled = scaler.fit_transform(X_train[numerical_cols])

# Transformar el set de validación utilizando los parámetros calculados en el entrenamiento
# Así se evita data leaking, ya que no se recalculan los parámetros con datos de validación
X_val_scaled = scaler.transform(X_val[numerical_cols])


# Convertir las matrices escaladas a DataFrames
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=[f"{col}_scaled" for col in numerical_cols], index=X_train.index)
X_val_scaled_df = pd.DataFrame(X_val_scaled, columns=[f"{col}_scaled" for col in numerical_cols], index=X_val.index)

In [None]:
# Seleccionar el discretizador deseado
discretizer = discretizers['k_bins']  # Puedes cambiar a 'quantile_bins' si lo prefieres
X_train_discrete = discretizer.fit_transform(X_train[numerical_cols])
X_val_discrete = discretizer.transform(X_val[numerical_cols])


# Convertir las matrices discretizadas a DataFrames
X_train_discrete_df = pd.DataFrame(X_train_discrete, columns=[f"{col}_discrete" for col in numerical_cols], index=X_train.index)
X_val_discrete_df = pd.DataFrame(X_val_discrete,  columns=[f"{col}_discrete" for col in numerical_cols], index=X_val.index)

In [None]:
# Combinar las características numéricas escaladas y discretizadas
processed_numeric_train = pd.concat([X_train_scaled_df, X_train_discrete_df], axis=1)
processed_numeric_val = pd.concat([X_val_scaled_df, X_val_discrete_df], axis=1)


# processed_numeric_train = X_train_scaled_df
# processed_numeric_val = X_val_scaled_df


# processed_numeric_train = X_train_discrete_df
# processed_numeric_val = X_val_discrete_df

In [None]:
# Seleccionar el codificadores deseado para
encoder = encoders['one_hot']
X_train_encoded = encoder.fit_transform(X_train[categorical_cols])
X_val_encoded = encoder.transform(X_val[categorical_cols])


# Obtener los nombres de las nuevas columnas codificadas
encoded_cols = encoder.get_feature_names_out(categorical_cols)


# Convertir las matrices codificadas a DataFrames
X_train_encoded_df = pd.DataFrame(X_train_encoded, columns=encoded_cols, index=X_train.index)
X_val_encoded_df = pd.DataFrame(X_val_encoded, columns=encoded_cols, index=X_val.index)

In [None]:
# Combinar con las características categóricas codificadas
X_train_processed = pd.concat([processed_numeric_train, X_train_encoded_df], axis=1)
X_val_processed = pd.concat([processed_numeric_val, X_val_encoded_df], axis=1)

In [None]:
# Opcional: Reordenar las columnas si es necesario
X_train_processed = X_train_processed.reindex(sorted(X_train_processed.columns), axis=1)
X_val_processed = X_val_processed.reindex(sorted(X_val_processed.columns), axis=1)

In [None]:
len(X_train_processed.columns.to_list())

104

In [None]:
# 1. Transformaciones Aplicadas:
#    - Variables escaladas (ej. 'Avg_ideal_time_scaled')
#    - Variables discretizadas (ej. 'Avg_ideal_time_scaled_discrete')
#    - Variables codificadas one-hot (ej. 'Des_IP_10.0.1.5')
#
# 2. Representaciones y sus Beneficios:
#    - Escalado:
#         - Normaliza variables numéricas.
#         - Beneficia a algoritmos sensibles a la escala:
#             * SVM, KNN, regresión lineal y logística, redes neuronales.
#
#    - Discretización:
#         - Convierte variables continuas en categorías.
#         - Puede capturar relaciones no lineales.
#         - Beneficia a modelos que manejan bien variables categóricas, como:
#             * Árboles de decisión, random forests, gradient boosting.
#
#    - Codificación One-Hot:
#         - Transforma variables categóricas en múltiples columnas binarias.
#         - Es útil en modelos que pueden gestionar alta dimensionalidad,
#           pero cuidado con la alta cardinalidad.
#
# 3. Recomendación:
#    - Seleccionar una única representación por variable según el modelo a utilizar.
#
# 4. Mejora del Pipeline:
#    - Revisar si la discretización aporta valor al modelo.
#    - Reducir la cardinalidad de variables categóricas.
#    - Integrar transformaciones en un único pipeline para asegurar consistencia y evitar errores.

In [None]:
from collections import Counter

def seleccionar_variables_pca(X_train, X_val, n_components=0.95, num_top_features=10):
    """
    Aplica PCA para seleccionar las características más influyentes, pero mantiene los datos originales.

    Parámetros:
        - X_train: DataFrame de entrenamiento
        - X_val: DataFrame de validación
        - n_components: float/int, cantidad de componentes principales o porcentaje de varianza a retener
        - num_top_features: int, número de características más influyentes a seleccionar

    Retorna:
        - X_train_filtrado: DataFrame de entrenamiento con las características seleccionadas
        - X_val_filtrado: DataFrame de validación con las características seleccionadas
    """

    # Aplicar PCA (sin guardar la transformación)
    pca = PCA(n_components=n_components)
    pca.fit(X_train)  # Solo ajustamos el modelo, no transformamos los datos

    # Obtener nombres originales de las variables
    original_feature_names = np.array(X_train.columns)

    # Contador de importancia de características en PCA
    feature_counter = Counter()

    for comp in pca.components_:
        top_indices = np.argsort(np.abs(comp))[-num_top_features:]  # Índices de las más importantes
        top_features = original_feature_names[top_indices]  # Obtener nombres
        feature_counter.update(top_features)  # Contar ocurrencias

    # Seleccionar las variables más influyentes ordenadas por frecuencia de aparición
    variables_pca = [feature for feature, _ in feature_counter.most_common()]

    # Filtrar las variables seleccionadas en los conjuntos de datos
    X_train_filtrado = X_train[variables_pca]
    X_val_filtrado = X_val[variables_pca]

    return X_train_filtrado, X_val_filtrado

In [None]:
# # Entrenar el modelo RandomForest con los pesos
# rf = RandomForestClassifier(n_estimators=100, random_state=42)
# rf.fit(X_train_processed, y_train_class3, sample_weight=sample_weight_train)

# # Obtener importancia de características
# feature_importances = pd.DataFrame({
#     'Feature': X_train_processed.columns,
#     'Importance': rf.feature_importances_
# }).sort_values(by='Importance', ascending=False)

In [None]:
# caracteristicas_imp_rf = feature_importances.head(150)
# caracteristicas_imp_rf = caracteristicas_imp_rf.Feature.to_list()
# print(caracteristicas_imp_rf)

In [None]:
# X_train_processed = X_train_processed[caracteristicas_imp_rf]
# X_val_processed = X_val_processed[caracteristicas_imp_rf]

In [None]:
# len(X_train_processed.columns.to_list())
# len(X_val_processed.columns.to_list())

In [None]:
 X_train_processed, X_val_processed = seleccionar_variables_pca(X_train_processed, X_val_processed, n_components=0.95, num_top_features=10)

In [None]:
X_train_processed.shape

(574473, 35)

# <font color='Red'>Implementacion de modelos con Train y Validacion</font>

## <font color='Red'>Funciones para la implementacion</font>

In [None]:
def create_pipeline(model=None,
                   imputer_categorical=None,
                   imputer_numeric=None,
                   discretizer=None,
                   encoders=None,
                   categorical_features=None,
                   numerical_features=None,
                   feature_selection=None):
    """
    Crea un pipeline de preprocesamiento y modelo.

    Parámetros:
    - model: Un objeto de modelo de sklearn que tiene métodos `fit` y `predict`.
    - imputer_categorical: Instancia de imputador para características categóricas.
    - imputer_numeric: Instancia de imputador para características numéricas.
    - discretizer: Instancia de discretizador para características numéricas.
    - encoder: Instancia de codificador para características categóricas.
    - categorical_features: Lista de nombres de características categóricas.
    - numerical_features: Lista de nombres de características numéricas.
    - feature_selection: Objeto de selección de características (e.g., RFE).
    """

    # Asegurarse de que categorical_features y numerical_features sean listas
    if categorical_features is not None and isinstance(categorical_features, pd.Index):
        categorical_features = categorical_features.tolist()

    if numerical_features is not None and isinstance(numerical_features, pd.Index):
        numerical_features = numerical_features.tolist()

    # Pipeline para características numéricas
    numeric_pipeline_steps = []
    if imputer_numeric:
        numeric_pipeline_steps.append(('imputer', imputer_numeric))
    if discretizer:
        numeric_pipeline_steps.append(('discretizer', discretizer))
    numeric_pipeline_steps.append(('scaler', RobustScaler()))

    numeric_pipeline = Pipeline(numeric_pipeline_steps) if numeric_pipeline_steps else 'passthrough'

    # Pipeline para características categóricas
    categorical_pipeline_steps = []
    if imputer_categorical:
        categorical_pipeline_steps.append(('imputer', imputer_categorical))
    if encoders:
        categorical_pipeline_steps.append(('encoder', encoders))

    categorical_pipeline = Pipeline(categorical_pipeline_steps) if categorical_pipeline_steps else 'passthrough'

    # Crear el ColumnTransformer con pipelines secuenciales
    if numerical_features and categorical_features:
        preprocessor = ColumnTransformer(
            transformers=[
                ('num', numeric_pipeline, numerical_features),
                ('cat', categorical_pipeline, categorical_features)
            ],
            remainder='passthrough',
            verbose_feature_names_out=True)
    else:
        preprocessor = 'passthrough'

    # Crear el pipeline completo
    pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        # ('feature_selection', feature_selection),
        ('model', model)
    ])

    return pipeline

In [None]:
def optimize(random_grid, estimator, X, y, param_grid, random_state=None, n_iter=None, scoring=None, cv=None, n_jobs=None, refit=True,
             verbose=0, pre_dispatch='2*n_jobs', error_score=np.nan, return_train_score=False):

  """
    estimator:
        El estimador (modelo) que se quiere optimizar.

    X:
        Datos de entrada.

    y:
        Etiquetas de salida.

    param_grid:
        Diccionario con los hiperparámetros a probar. **Este parámetro es obligatorio**.

    scoring:
        Métrica de evaluación. **Valor por defecto**: `None`, lo que significa que se usará la métrica por defecto:
        - Para clasificación: `accuracy`.
        - Para regresión: `r2`.
        También puede ser un diccionario para evaluar múltiples métricas.

    cv:
        Número de particiones para la validación cruzada. **Valor por defecto**: `None`, lo que significa que se usará 5 particiones (`cv=5`).

    n_jobs:
        Número de trabajos paralelos para la búsqueda. **Valor por defecto**: `None` (1 núcleo).
        - `-1` para usar todos los núcleos disponibles.

    refit:
        Si es `True`, ajusta el modelo con los mejores parámetros encontrados.
        También puede ser el nombre de una métrica si se utiliza scoring múltiple.
        **Valor por defecto**: `True`.

    verbose:
        Nivel de detalles de los mensajes. **Valor por defecto**: `0` (sin salida).

    pre_dispatch:
        Número de trabajos a despachar antes de ejecutar en paralelo.
        **Valor por defecto**: `'2*n_jobs'`.

    error_score:
        Puntuación a asignar si ocurre un error durante el ajuste. **Valor por defecto**: `np.nan`.
        - `'raise'` lanza una excepción si hay errores.

    return_train_score:
        Si `True`, se devolverán los puntajes del conjunto de entrenamiento en los resultados.
        **Valor por defecto**: `False`.
  """

  best_metric = None
  all_metrics = {
      'accuracy' : None,
      'precision': None,
      'recall': None,
      'f1': None,
  }
  best_metric_score = 0
  metrics = ('accuracy', 'precision', 'recall', 'f1')

  if not random_grid: # False
      if scoring is not None: # Viene
          model = GridSearchCV(estimator=estimator,
                                param_grid=param_grid,
                                scoring=scoring,
                                cv=cv,
                                n_jobs=n_jobs,
                                refit=refit,
                                verbose=verbose,
                                pre_dispatch=pre_dispatch,
                                error_score=error_score,
                                return_train_score=return_train_score)
          classifier = model.fit(X, y)
          all_metrics[scoring] = model.best_score_
          best_metric = scoring
      else:
          for metric in metrics:
              model = GridSearchCV(estimator=estimator,
                                    param_grid=param_grid,
                                    scoring=metric,
                                    cv=cv,
                                    n_jobs=n_jobs,
                                    refit=refit,
                                    verbose=verbose,
                                    pre_dispatch=pre_dispatch,
                                    error_score=error_score,
                                    return_train_score=return_train_score)
              classifier = model.fit(X, y)
              all_metrics[metric] = model.best_score_
              if best_metric_score < model.best_score_:
                  best_metric_score = model.best_score_
                  best_metric = metric

  else: # True
      if scoring is not None: # Viene
          model = RandomizedSearchCV(estimator=estimator,
                                      param_distributions=param_grid,
                                      random_state=random_state,
                                      scoring=scoring,
                                      n_iter=n_iter,
                                      cv=cv,
                                      n_jobs=n_jobs,
                                      refit=refit,
                                      verbose=verbose,
                                      pre_dispatch=pre_dispatch,
                                      error_score=error_score,
                                      return_train_score=return_train_score)
          classifier = model.fit(X, y)
          all_metrics[scoring] = model.best_score_
          best_metric = scoring
      else:
          for metric in metrics:
              model = RandomizedSearchCV(estimator=estimator,
                                          param_distributions=param_grid,
                                          scoring=metric,
                                          n_iter=n_iter,
                                          cv=cv,
                                          n_jobs=n_jobs,
                                          refit=refit,
                                          verbose=verbose,
                                          pre_dispatch=pre_dispatch,
                                          error_score=error_score,
                                          return_train_score=return_train_score)
              classifier = model.fit(X, y)
              all_metrics[metric] = model.best_score_
              if best_metric_score < model.best_score_:
                  best_metric_score = model.best_score_
                  best_metric = metric

  return classifier, best_metric, all_metrics


In [None]:
# Definir algoritmos basados en árboles
algorithms = {
    "DecisionTreeClassifier": DecisionTreeClassifier,  # Árbol de decisión simple
    "RandomForestClassifier": RandomForestClassifier,  # Bosque aleatorio
    # "GradientBoostingClassifier": GradientBoostingClassifier,  # Gradient Boosting
    # "AdaBoostClassifier": AdaBoostClassifier,  # AdaBoost
    # "XGBClassifier": XGBClassifier,  # XGBoost
}


param_grid = {
    'DecisionTreeClassifier': [
        {
            'criterion': ['gini', 'entropy'],  # Criterio para medir la calidad de la división
            'splitter': ['best', 'random'],  # Estrategia para dividir nodos
            'max_depth': [3, 5],  # Profundidad máxima del árbol
            'min_samples_split': [2, 5],  # Mínimo número de muestras para dividir un nodo
            'min_samples_leaf': [1, 3],  # Mínimo número de muestras en una hoja
            'max_features': ['sqrt', 'log2'],  # Número máximo de características consideradas en cada división
            'ccp_alpha': [0.0, 0.05],  # Parámetro de complejidad para la poda
            'random_state': [random_state]  # Semilla aleatoria para reproducibilidad
        }
    ],
    'RandomForestClassifier': [
        {
            'n_estimators': [100, 150],  # Número de árboles en el bosque
            'criterion': ['gini', 'entropy'],  # Criterio para medir la calidad de la división
            'max_depth': [3, 5],  # Profundidad máxima del árbol
            'min_samples_split': [2, 5],  # Mínimo número de muestras para dividir un nodo
            'min_samples_leaf': [1, 3],  # Mínimo número de muestras en una hoja
            'max_features': ['sqrt', 'log2'],  # Número máximo de características consideradas en cada división
            'bootstrap': [True, False],  # Uso de muestreo con reemplazo
            'ccp_alpha': [0.0, 0.05],  # Parámetro de complejidad para la poda
            'random_state': [random_state]  # Semilla aleatoria para reproducibilidad
        }
    ],
    'GradientBoostingClassifier': [
        {
            'n_estimators': [100, 150],  # Número de árboles en el modelo
            'learning_rate': [0.01, 0.1, 0.2],  # Tasa de aprendizaje
            'max_depth': [3, 5],  # Profundidad máxima de los árboles
            'min_samples_split': [2, 5],  # Mínimo número de muestras para dividir un nodo
            'min_samples_leaf': [1, 3],  # Mínimo número de muestras en una hoja
            'subsample': [0.8, 1.0],  # Porcentaje de muestras usadas en cada iteración
            'max_features': ['sqrt', 'log2'],  # Número máximo de características consideradas en cada división
            'ccp_alpha': [0.0, 0.05],  # Parámetro de complejidad para la poda
            'random_state': [random_state]  # Semilla aleatoria para reproducibilidad
        }
    ],
    'AdaBoostClassifier': [
        {
            'n_estimators': [50, 100, 150],  # Número de clasificadores base
            'learning_rate': [0.01, 0.1, 1.0],  # Tasa de aprendizaje
            'algorithm': ['SAMME', 'SAMME.R'],  # Algoritmo de actualización de pesos
            'random_state': [random_state]  # Semilla aleatoria para reproducibilidad
        }
    ]
}

n_iter = 2
extern_kfold = 2
intern_kfold = 2

# Ejemplo

In [None]:
def clasificacion_binaria(random_state, model, grid, validacion_grid, grid_n_iter, random_grid, X_train, X_val, y_train_class3, y_val_class3):

        y_train_class3 = y_train_class3.values.ravel()
        y_val_class3 = y_val_class3.values.ravel()

        # Identificar columnas categóricas, numéricas y booleanas
        categorical_cols = X_train.select_dtypes(include=['object']).columns
        boolean_cols = X_train.select_dtypes(include=['bool']).columns
        if boolean_cols.any():  # Si hay columnas booleanas
            X_train[boolean_cols] = X_train[boolean_cols].astype(int)
        numerical_cols = X_train.select_dtypes(include=['float64', 'int64']).columns

        if grid:
            X_train_sampled = X_train.sample(n=10000, random_state=random_state)
            y_train_class3_sampled  = y_train_class3.loc[X_train_sampled.index]

            X_train = X_train.drop(index=X_train_sampled.index)
            y_train_class3 = y_train_class3.drop(index=X_train_sampled.index)

            grid_search = optimize(
                random_grid=random_grid,
                random_state=random_state,
                estimator=model,
                X=X_train_sampled,
                y=y_train_class3_sampled,
                param_grid=param_grid[model.__class__.__name__],
                n_iter=grid_n_iter,
                cv=validacion_grid,
                scoring='accuracy',
                n_jobs=-1,
            )
            model = grid_search[0].best_estimator_
            print(f"Optimización completa para {model.__class__.__name__}.")

        print("Creando el pipeline...")
        pipeline = create_pipeline(
            model=model,  # Modelo del algoritmo final (ensemble)
            categorical_features=categorical_cols,  # Columnas categóricas
            numerical_features=numerical_cols,  # Columnas numéricas
        )
        print("Pipeline creado exitosamente.")

        # # Validación cruzada de 5 pliegues
        # print("Realizando validación cruzada de 5 pliegues...")
        # cv_scores = cross_val_score(pipeline, X_train, y_train_class3, cv=5, scoring='accuracy')
        # print("CV scores:", cv_scores)
        # print("Accuracy media (CV): {:.4f}".format(cv_scores.mean()))

        # Entrenar el pipeline completo (incluyendo preprocesamiento y RFE)
        print("Entrenando el pipeline...")
        pipeline.fit(X_train, y_train_class3)
        print("Entrenamiento completo.")


        # Realizar predicciones
        print("Realizando predicciones en el conjunto de validación...")
        y_pred_class3 = pipeline.predict(X_val)
        print("Predicciones realizadas.")


        # Evaluar el rendimiento
        accuracy = accuracy_score(y_val_class3, y_pred_class3)
        print(f'Accuracy (validacion): {accuracy:.4f}')

        precision = precision_score(y_val_class3, y_pred_class3)
        print(f'Precision (validacion): {precision:.4f}')

        recall = recall_score(y_val_class3, y_pred_class3)
        print(f'Recall (validacion): {recall:.4f}')

        f1 = f1_score(y_val_class3, y_pred_class3)
        print(f'F1 (validacion): {f1:.4f}')

        return pipeline, accuracy, precision, recall, f1

In [None]:
grid = False
random_grid = False
grid_n_iter = 2
random_state = 42
validacion_grid = StratifiedKFold(n_splits=intern_kfold, shuffle=True, random_state=random_state)

model = algorithms["DecisionTreeClassifier"]()
# Entrenar el modelo
modelo, accuracy, precision, recall, f1 = clasificacion_binaria(random_state, model, grid, validacion_grid, grid_n_iter, random_grid, X_train_processed, X_val_processed, y_train_class3, y_val_class3)

Creando el pipeline...
Pipeline creado exitosamente.
Entrenando el pipeline...
Entrenamiento completo.
Realizando predicciones en el conjunto de validación...
Predicciones realizadas.
Accuracy (validacion): 0.9927
Precision (validacion): 0.9921
Recall (validacion): 0.9929
F1 (validacion): 0.9925


In [None]:
from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
clusters = dbscan.fit_predict(X_train_processed)

In [None]:
import numpy as np
print("Clusters únicos:", np.unique(clusters))

Clusters únicos: [  -1    0    1 ... 8224 8225 8226]
