Paso 1: Carga del Dataset
1. Importar Pandas y NumPy: Son las librerías fundamentales para manejar datos (pandas) y realizar cálculos numéricos eficientes (numpy).

2. Cargar el Archivo: Usamos pd.read_csv() para leer el archivo del AI4I 2020 Predictive Maintenance Dataset. Asumiremos que el archivo se llama ai4i2020.csv y se encuentra en la misma carpeta que tu Jupyter Notebook.

3. Mostrar Encabezado: Usamos .head() para ver las primeras 10 filas y confirmar que la carga fue exitosa y para empezar a inspeccionar el formato de los datos.

In [39]:
import pandas as pd
import numpy as np

df = pd.read_csv("./ai4i2020.csv")

df.head(10)

Unnamed: 0,UDI,Product ID,Type,Air temperature [K],Process temperature [K],Rotational speed [rpm],Torque [Nm],Tool wear [min],Machine failure,TWF,HDF,PWF,OSF,RNF
0,1,M14860,M,298.1,308.6,1551,42.8,0,0,0,0,0,0,0
1,2,L47181,L,298.2,308.7,1408,46.3,3,0,0,0,0,0,0
2,3,L47182,L,298.1,308.5,1498,49.4,5,0,0,0,0,0,0
3,4,L47183,L,298.2,308.6,1433,39.5,7,0,0,0,0,0,0
4,5,L47184,L,298.2,308.7,1408,40.0,9,0,0,0,0,0,0
5,6,M14865,M,298.1,308.6,1425,41.9,11,0,0,0,0,0,0
6,7,L47186,L,298.1,308.6,1558,42.4,14,0,0,0,0,0,0
7,8,L47187,L,298.1,308.6,1527,40.2,16,0,0,0,0,0,0
8,9,M14868,M,298.3,308.7,1667,28.6,18,0,0,0,0,0,0
9,10,M14869,M,298.5,309.0,1741,28.0,21,0,0,0,0,0,0


Paso 2: Limpieza de nombres de columnas y Análisis Exploratorio de Datos (EDA)
1. Crea una herramienta que toma un nombre de columna, elimina espacios al inicio/final, y reemplaza secuencias de múltiples espacios con un solo espacio.
2. df.info(): Imprime un resumen de cuántos valores no nulos hay en cada columna y el tipo de dato (Dtype).
3. df.describe(): Calcula estadísticas básicas (media, min, max, desviación estándar) para las columnas numéricas.
4. df[NOMBRE_OBJETIVO].value_counts()

In [40]:
# Función para limpiar nombres: reemplaza múltiples espacios por uno y elimina espacios al inicio/final
def limpiar_nombre_columna(col):
    # ' '.join(col.split()) elimina cualquier secuencia de espacios y la reemplaza por un solo espacio.
    col = ' '.join(col.split())
    return col.strip()

# Aplicar la limpieza a todos los nombres de columna
df.columns = [limpiar_nombre_columna(col) for col in df.columns]
""""
print("--- Nombres de columnas después de la limpieza ---")
print(df.columns.tolist())
"""

# --- 2.2 ANÁLISIS DE TIPOS DE DATOS Y ESTADÍSTICAS ---

print("\n--- 2.2.1 Información General del DataFrame ---")
# Muestra el tipo de dato y la cuenta de valores no nulos (verificar si hay NaNs)
df.info()

print("\n--- 2.2.2 Estadísticas Descriptivas de Variables Numéricas ---")
# Muestra estadísticas como media, desviación estándar, min/max.
print(df.describe())


# --- 2.3 ANÁLISIS DE LA VARIABLE OBJETIVO ---

print(f"\n--- 2.3.1 Conteo de la Variable Objetivo ('Machine failure') ---")
# Analiza el balance de la variable objetivo (0 = No Fallo, 1 = Fallo)
conteo_fallos = df['Machine failure'].value_counts()
print(conteo_fallos)

# Calcular el porcentaje de fallos
porcentaje_fallos = (conteo_fallos.get(1, 0) / df.shape[0]) * 100
print(f"\nPorcentaje de Fallo de Máquina (Clase 1): {porcentaje_fallos:.2f}%")
print("Este bajo porcentaje confirma un problema de desbalance de clases.")


--- 2.2.1 Información General del DataFrame ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   UDI                      10000 non-null  int64  
 1   Product ID               10000 non-null  object 
 2   Type                     10000 non-null  object 
 3   Air temperature [K]      10000 non-null  float64
 4   Process temperature [K]  10000 non-null  float64
 5   Rotational speed [rpm]   10000 non-null  int64  
 6   Torque [Nm]              10000 non-null  float64
 7   Tool wear [min]          10000 non-null  int64  
 8   Machine failure          10000 non-null  int64  
 9   TWF                      10000 non-null  int64  
 10  HDF                      10000 non-null  int64  
 11  PWF                      10000 non-null  int64  
 12  OSF                      10000 non-null  int64  
 13  RNF                      100

Paso 3: Preprocesamiento de Datos y Escalado

1. Eliminar Columnas Innecesarias: Se eliminan las columnas de identificación (UDI, Product ID) que no tienen poder predictivo.

2. Separar X e y: El dataset se divide en características predictoras (X) y la variable objetivo (y), que es 'Machine failure'.

3. Codificación de Variable Categórica: Se aplica One-Hot Encoding a la columna 'Type' (L, M, H) para convertirla en columnas binarias (ej: Type_L, Type_M), ya que los modelos matemáticos solo trabajan con números.

4. Identificar Numéricas: Se identifican las columnas con valores continuos (temperatura, velocidad, torque, etc.).

5. Escalado (StandardScaler): Se aplica StandardScaler a las columnas numéricas. Esto es crucial: centra los datos en una media de 0 y desviación estándar de 1, igualando las escalas para que Naive Bayes y KDE funcionen correctamente.

6. División de Datos (70/30): El dataset se divide en un 70% para entrenamiento (X_train, y_train) y un 30% para prueba (X_test, y_test). La opción stratify=y asegura que la proporción de fallos (el desbalance) se mantenga igual en ambos conjuntos.

In [41]:
# Importar librerías necesarias para preprocesamiento
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 3.1 Eliminar Columnas Innecesarias
# Eliminamos los identificadores UDI y Product ID
df = df.drop(columns=['UDI', 'Product ID'])

# 3.2 Separar X (predictoras) e y (objetivo)
NOMBRE_OBJETIVO = 'Machine failure'
X = df.drop(columns=[NOMBRE_OBJETIVO])
y = df[NOMBRE_OBJETIVO]

print("--- 3.3 Codificación de Variable Categórica ('Type') ---")
# Aplicar One-Hot Encoding a la columna 'Type' (L, M, H)
X = pd.get_dummies(X, columns=['Type'], drop_first=False)
print(f"Columnas después de codificación: {X.columns.tolist()}")

# 3.4 Identificar columnas numéricas para escalado
# Todas las columnas excepto las binarias (Type_L, Type_M, Type_H, y fallos específicos) son numéricas
# Usamos select_dtypes para mayor seguridad
columnas_numericas = X.select_dtypes(include=np.number).columns.tolist()

# 3.5 Instanciar y aplicar el escalador (StandardScaler)
# Esto centra los datos en media 0 y desviación estándar 1. Vital para KDE.
scaler = StandardScaler()
X[columnas_numericas] = scaler.fit_transform(X[columnas_numericas])

print("\nPrimeras filas de X después del escalado:")
print(X.head())

# 3.6 División en conjuntos de entrenamiento (70%) y prueba (30%)
# stratify=y asegura que la proporción de fallos se mantenga en ambos conjuntos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print("\n--- 3.7 Resumen de la División ---")
print(f"Tamaño de Entrenamiento (X_train): {X_train.shape}")
print(f"Tamaño de Prueba (X_test): {X_test.shape}")

--- 3.3 Codificación de Variable Categórica ('Type') ---
Columnas después de codificación: ['Air temperature [K]', 'Process temperature [K]', 'Rotational speed [rpm]', 'Torque [Nm]', 'Tool wear [min]', 'TWF', 'HDF', 'PWF', 'OSF', 'RNF', 'Type_ H   ', 'Type_ L   ', 'Type_ M   ']

Primeras filas de X después del escalado:
   Air temperature [K]  Process temperature [K]  Rotational speed [rpm]  \
0            -0.952389                -0.947360                0.068185   
1            -0.902393                -0.879959               -0.729472   
2            -0.952389                -1.014761               -0.227450   
3            -0.902393                -0.947360               -0.590021   
4            -0.902393                -0.879959               -0.729472   

   Torque [Nm]  Tool wear [min]      TWF      HDF       PWF       OSF  \
0     0.282200        -1.695984 -0.06798 -0.10786 -0.097934 -0.099484   
1     0.633308        -1.648852 -0.06798 -0.10786 -0.097934 -0.099484   
2     0.

Paso 4: Establecer la Línea Base (IA 1 - GaussianNB)

Este paso implementa tu primera IA (IA 1), que es el modelo Gaussian Naive Bayes estándar de Scikit-learn. Este modelo actúa como el punto de referencia (baseline) con el cual compararás tus implementaciones de Naive Bayes con KDE más adelante.

1. Importar Herramientas: Importar las clases necesarias: GaussianNB (el modelo) y roc_auc_score (la métrica requerida en tu metodología).

2. Instanciar y Entrenar: Se inicializa el modelo GaussianNB y se entrena usando el conjunto de entrenamiento (X_train, y_train) que preparamos en el Paso 3.

3. Predicción de Probabilidades: Se utiliza el modelo para predecir las probabilidades de pertenencia a la clase (0 o 1) en el conjunto de prueba (X_test). La métrica AUC ROC requiere probabilidades, no solo la clase final.

4. Evaluación: Se calcula el valor AUC ROC usando las probabilidades predichas y los valores reales (y_test).

In [42]:
# 4.1 Importar el modelo y la métrica de evaluación
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score

# 4.2 Instanciar y Entrenar el modelo
gnb_model = GaussianNB()
gnb_model.fit(X_train, y_train)

# 4.3 Predecir las probabilidades en el conjunto de prueba
# Usamos predict_proba para obtener la probabilidad de que sea la clase 1 (fallo)
y_pred_proba_gnb = gnb_model.predict_proba(X_test)[:, 1]

# 4.4 Evaluar el modelo con la métrica AUC ROC
auc_roc_gnb = roc_auc_score(y_test, y_pred_proba_gnb)

print("--- Evaluación de la Línea Base (Gaussian Naive Bayes) ---")
print(f"AUC ROC del Baseline (GaussianNB): {auc_roc_gnb:.4f}")

# Guardamos el resultado del baseline para compararlo en pasos futuros
resultados = {'GaussianNB_Baseline': auc_roc_gnb}

--- Evaluación de la Línea Base (Gaussian Naive Bayes) ---
AUC ROC del Baseline (GaussianNB): 0.9931


Paso 5: Implementación del Clasificador Naive Bayes Personalizado

Este código implementa la lógica de Naive Bayes utilizando el logaritmo de las probabilidades para evitar errores de underflow (probabilidades muy pequeñas). Usaremos KernelDensity de Scikit-learn como la herramienta para la estimación.

1. Definir la Clase: Creamos una clase CustomNaiveBayesKDE con un método de inicialización (__init__) para almacenar el método KDE y el bandwidth $h$ que se usarán.
2. Método fit(X, y) (Entrenamiento):
- Calcular Probabilidad a Priori: Calcula $P(y)$, la probabilidad de cada clase (Fallo y No Fallo).
- Entrenar KDE: Para cada característica $x_i$ y para cada clase $y$, ajusta el estimador de densidad (KDE) a los datos de entrenamiento. Estos modelos ajustados se almacenan.
3. Método predict_proba(X) (Predicción):
- Calcular Verosimilitud: Para una nueva muestra de prueba, usa los modelos KDE entrenados para calcular la verosimilitud (probabilidad de las características dadas las clases), $P(x_i \mid y)$.
- Aplicar la Regla de Bayes: Combina la Probabilidad a Priori ($P(y)$) con la Verosimilitud para obtener la probabilidad final de pertenencia a la clase.

In [43]:
import numpy as np
from sklearn.neighbors import KernelDensity
from sklearn.base import BaseEstimator, ClassifierMixin

class CustomNaiveBayesKDE(BaseEstimator, ClassifierMixin):
    
    def __init__(self, kernel='gaussian', bandwidth=1.0):
        # Almacena el tipo de kernel y el bandwidth (h)
        self.kernel = kernel
        self.bandwidth = bandwidth
        
        # Inicializa las variables que se almacenarán durante el entrenamiento
        self.classes_ = None
        self.class_log_prior_ = None
        self.feature_estimators_ = None

    def fit(self, X, y):
        self.classes_ = np.unique(y)
        n_features = X.shape[1]
        
        # Inicializar estructuras para almacenar las probabilidades a priori y los estimadores de densidad
        self.class_log_prior_ = {}
        self.feature_estimators_ = {}
        
        # 1. Calcular Probabilidad a Priori (P(y))
        for c in self.classes_:
            # Obtener índices de las muestras que pertenecen a la clase actual
            X_c = X[y == c]
            
            # Calcular log(P(y))
            # Usamos logaritmos para evitar el underflow numérico
            self.class_log_prior_[c] = np.log(X_c.shape[0] / X.shape[0])
            
            # 2. Entrenar KDE para cada característica (P(x_i | y))
            self.feature_estimators_[c] = {}
            for i in range(n_features):
                # Extraer la característica i para la clase c
                feature_data = X_c.iloc[:, i].values.reshape(-1, 1)
                
                # Instanciar y entrenar el KDE con el kernel y bandwidth definidos
                kde = KernelDensity(kernel=self.kernel, bandwidth=self.bandwidth)
                kde.fit(feature_data)
                self.feature_estimators_[c][i] = kde

        return self

    def predict_proba(self, X):
        n_samples = X.shape[0]
        # Inicializar matriz de log-probabilidades (una fila por muestra, una columna por clase)
        log_prob_matrix = np.zeros((n_samples, len(self.classes_)))
        
        # Calcular log(P(y | x)) para cada clase
        for idx, c in enumerate(self.classes_):
            # Sumar el log-prior (log(P(y)))
            log_prob_matrix[:, idx] = self.class_log_prior_[c]
            
            # Sumar las log-verosimilitudes (log(P(x_i | y))) para cada característica
            n_features = X.shape[1]
            for i in range(n_features):
                feature_data = X.iloc[:, i].values.reshape(-1, 1)
                
                # Obtener log-verosimilitud del KDE para la característica i y la clase c
                log_likelihoods = self.feature_estimators_[c][i].score_samples(feature_data)
                
                # log(P(y | x)) = log(P(y)) + SUM(log(P(x_i | y)))
                log_prob_matrix[:, idx] += log_likelihoods

        # Convertir log-probabilidades a probabilidades normales (prob_matrix)
        # Esto requiere normalizar las log-probabilidades para obtener probabilidades válidas
        
        # Restar el máximo para evitar sobreflujo al exponer
        max_log_prob = np.max(log_prob_matrix, axis=1, keepdims=True)
        exp_prob = np.exp(log_prob_matrix - max_log_prob)
        
        # Normalizar para que las probabilidades sumen 1
        prob_matrix = exp_prob / np.sum(exp_prob, axis=1, keepdims=True)
        
        return prob_matrix

    def predict(self, X):
        # La predicción es simplemente la clase con la probabilidad más alta
        probabilities = self.predict_proba(X)
        return self.classes_[np.argmax(probabilities, axis=1)]


# Prueba rápida de la estructura (no es una prueba real de KDE aún)
print("Clase CustomNaiveBayesKDE definida exitosamente.")

Clase CustomNaiveBayesKDE definida exitosamente.


Paso 6: KDE con Regla de Silverman (Método 2.c)

Dado que la librería scipy.stats.gaussian_kde maneja el cálculo de la densidad de manera diferente a sklearn.neighbors.KernelDensity, crearemos una función de entrenamiento separada.

1. Importar Herramienta: Importar gaussian_kde de SciPy, que se basa en la Regla de Silverman.
2. Definir CustomNaiveBayesKDE_Silverman: Creamos una nueva clase que hereda la lógica general del Naive Bayes implementado en el Paso 5, pero que sobrescribe el método de entrenamiento (fit) para usar la función de SciPy.
3. Entrenamiento con Silverman: Dentro del fit, usamos gaussian_kde(feature_data) para entrenar la estimación de densidad para cada característica y clase. Esta función calcula internamente el $h$ óptimo con la Regla de Silverman.
4. Cálculo de Verosimilitud: Para la predicción, usamos el método .logpdf() del objeto de SciPy para obtener el $\log P(x_i \mid y)$.
5. Evaluación: Entrenar y evaluar esta nueva clase para obtener el AUC ROC y compararlo con el Baseline (Paso 4).

In [45]:
from scipy.stats import gaussian_kde
from sklearn.metrics import roc_auc_score
import numpy as np
import pandas as pd

# Creamos una clase que sobrescribe el método fit para usar gaussian_kde de SciPy
# Herencia de la clase base de Scikit-learn para compatibilidad
class CustomNaiveBayesKDE_Silverman(CustomNaiveBayesKDE):
    
    # 6.1 Implementación de FIT usando la Regla de Silverman (SciPy)
    def fit(self, X, y):
        self.classes_ = np.unique(y)
        n_features = X.shape[1]
        self.class_log_prior_ = {}
        self.feature_estimators_ = {}
        
        for c in self.classes_:
            X_c = X[y == c]
            
            # Cálculo del log(P(y)) - Probabilidad a Priori
            self.class_log_prior_[c] = np.log(X_c.shape[0] / X.shape[0])
            self.feature_estimators_[c] = {}
            
            # Entrenamiento de KDE para cada característica usando SciPy
            for i in range(n_features):
                # SciPy requiere que los datos sean una matriz 1D
                feature_data = X_c.iloc[:, i].values
                
                # gaussian_kde calcula el bandwidth h automáticamente con la Regla de Silverman
                kde = gaussian_kde(feature_data) 
                self.feature_estimators_[c][i] = kde
        
        return self

    # 6.2 Implementación de PREDICT_PROBA adaptada a SciPy
    # Sobrescribimos predict_proba para usar el método .logpdf() de SciPy
    def predict_proba(self, X):
        n_samples = X.shape[0]
        log_prob_matrix = np.zeros((n_samples, len(self.classes_)))
        
        for idx, c in enumerate(self.classes_):
            # Sumar el log-prior (log(P(y)))
            log_prob_matrix[:, idx] = self.class_log_prior_[c]
            
            n_features = X.shape[1]
            for i in range(n_features):
                feature_data = X.iloc[:, i].values
                
                # Usar logpdf() de SciPy para obtener la log-verosimilitud
                # .logpdf() toma las muestras X y devuelve el logaritmo de la densidad estimada
                log_likelihoods = self.feature_estimators_[c][i].logpdf(feature_data)
                
                # log(P(y | x)) = log(P(y)) + SUM(log(P(x_i | y)))
                log_prob_matrix[:, idx] += log_likelihoods

        # Conversión de log-probabilidades a probabilidades (código estándar del Paso 5)
        max_log_prob = np.max(log_prob_matrix, axis=1, keepdims=True)
        exp_prob = np.exp(log_prob_matrix - max_log_prob)
        prob_matrix = exp_prob / np.sum(exp_prob, axis=1, keepdims=True)
        
        return prob_matrix

# 6.3 Evaluación del Modelo con Regla de Silverman
modelo_silverman = CustomNaiveBayesKDE_Silverman()
modelo_silverman.fit(X_train, y_train)

y_pred_proba_silverman = modelo_silverman.predict_proba(X_test)[:, 1]
auc_roc_silverman = roc_auc_score(y_test, y_pred_proba_silverman)

print("--- Evaluación de KDE con Regla de Silverman ---")
print(f"AUC ROC (KDE Silverman): {auc_roc_silverman:.4f}")

# Almacenar el resultado
resultados['KDE_Silverman'] = auc_roc_silverman
print("\nResultados actuales para comparación:")
print(pd.Series(resultados))

LinAlgError: The data appears to lie in a lower-dimensional subspace of the space in which it is expressed. This has resulted in a singular data covariance matrix, which cannot be treated using the algorithms implemented in `gaussian_kde`. Consider performing principal component analysis / dimensionality reduction and using `gaussian_kde` with the transformed data.