# MÉTODO SVM + BAGGING

Tras preprocesar los datos, es hora de implementar el modelo de clasificación SVM y, seguidamente, diferentes modelos de bagging para la precisión. Antes de comenzar con el modelo de clasificación, se han implementado todas las bibliotecas que son necesarias para todo el código y se han observado las primeras líneas del conjunto ya preprocesado.

In [1]:
import numpy as np
import pandas as pd
#Para escalar los datos
from sklearn.preprocessing import StandardScaler
#Ppara el modelo SVM
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix
#Para los diferentes tipos de bagging


df = pd.read_csv("datos_procesados.csv")
print(df.head())

     id  TP2_mean   TP2_max   TP2_min  TP2_median  TP3_mean   TP3_max  \
0   218 -0.617889 -0.617889 -0.617889   -0.617889 -0.047516 -0.047516   
1    79 -1.016661 -1.016661 -1.016661   -1.016661 -0.115374 -0.115374   
2   538 -1.021409 -1.021409 -1.021409   -1.021409 -0.082052 -0.082052   
3  4848  0.142652  0.142652  0.142652    0.142652  0.114354  0.114354   
4  4505 -0.291480 -0.291480 -0.291480   -0.291480  0.028539  0.028539   

    TP3_min  TP3_median   H1_mean  ...  Oil_level_median  \
0 -0.047516   -0.047516  0.601018  ...          0.095844   
1 -0.115374   -0.115374  0.930239  ...          0.095844   
2 -0.082052   -0.082052  0.966176  ...          0.095844   
3  0.114354    0.114354 -0.057371  ...          0.095844   
4  0.028539    0.028539  0.327444  ...          0.095844   

   Caudal_impulses_mean  Caudal_impulses_max  Caudal_impulses_min  \
0              0.062893             0.062893             0.062893   
1              0.062893             0.062893             0.062

## 1. SVM

Para el modelo SVM, se ha seleccionado en una variable X las características de los datos y en una variable y las etiquetas ("True" si hay un fallo o "False" si no lo hay). Seguidamente, se han noralizado estas variables y se han separado en conjuntos de entrenamiento y test.

In [3]:
#Separación entre X e Y
#Eliminar también la columna de identificación
X = df.drop(columns=["id", "is_anomaly"]) 
y = df["is_anomaly"].astype(int) 

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [13]:
# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

A continuación, se ha implementado el modelo SVM con GridSearch para encontrar el mejor modelo

In [24]:
# Configurar SVM con búsqueda de hiperparámetros
param_grid = {
    "C": [0.1, 1, 10, 100],
    "gamma": [0.001, 0.01, 0.1, 1],
    "kernel": ["rbf"]
}

grid_search = GridSearchCV(SVC(), param_grid, cv=5, scoring="accuracy")
grid_search.fit(X_train_scaled, y_train)

# Mejor modelo
best_svm = grid_search.best_estimator_

In [26]:
# Evaluar en datos de prueba
y_pred = best_svm.predict(X_test_scaled)

# Reporte de métricas
print("Best Parameters:", grid_search.best_params_)
print("\nClassification Report:\n", classification_report(y_test, y_pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))

Best Parameters: {'C': 10, 'gamma': 0.1, 'kernel': 'rbf'}

Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99      1217
           1       0.84      0.74      0.79        35

    accuracy                           0.99      1252
   macro avg       0.92      0.87      0.89      1252
weighted avg       0.99      0.99      0.99      1252


Confusion Matrix:
 [[1212    5]
 [   9   26]]


## 2. Bagging

posteriormente, se han implementado diversos tipos de bagging (random forest, ...)

In [29]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Entrenamiento del modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_rf = rf_model.predict(X_test)

# Resultados
print("Random Forest Classification Report:\n", classification_report(y_test, y_pred_rf))
print("Random Forest Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))

Random Forest Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99      1217
           1       0.81      0.71      0.76        35

    accuracy                           0.99      1252
   macro avg       0.90      0.85      0.88      1252
weighted avg       0.99      0.99      0.99      1252

Random Forest Confusion Matrix:
 [[1211    6]
 [  10   25]]


In [33]:
from sklearn.ensemble import ExtraTreesClassifier

# Entrenamiento del modelo Extra Trees
et_model = ExtraTreesClassifier(n_estimators=100, random_state=42)
et_model.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_et = et_model.predict(X_test)

# Resultados
print("Extra Trees Classification Report:\n", classification_report(y_test, y_pred_et))
print("Extra Trees Confusion Matrix:\n", confusion_matrix(y_test, y_pred_et))

Extra Trees Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99      1217
           1       0.83      0.71      0.77        35

    accuracy                           0.99      1252
   macro avg       0.91      0.86      0.88      1252
weighted avg       0.99      0.99      0.99      1252

Extra Trees Confusion Matrix:
 [[1212    5]
 [  10   25]]


In [35]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Configuración del modelo base (árbol de decisión) y Bagging con subespacios aleatorios
base_model = DecisionTreeClassifier(random_state=42)
random_subspaces_model = BaggingClassifier(
    estimator=base_model,  # Cambiado de base_estimator a estimator
    max_features=0.5,      # Usar 50% de las características aleatorias
    n_estimators=100,
    random_state=42
)

# Entrenamiento
random_subspaces_model.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_rs = random_subspaces_model.predict(X_test)

# Resultados
print("Random Subspaces Classification Report:\n", classification_report(y_test, y_pred_rs))
print("Random Subspaces Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rs))

Random Subspaces Classification Report:
               precision    recall  f1-score   support

           0       0.99      0.99      0.99      1217
           1       0.73      0.69      0.71        35

    accuracy                           0.98      1252
   macro avg       0.86      0.84      0.85      1252
weighted avg       0.98      0.98      0.98      1252

Random Subspaces Confusion Matrix:
 [[1208    9]
 [  11   24]]
