# <font color='blue'> **Clasificación**
<font color='blue'> Tras haber analizado detenidamente la estructura de los datos en la fase de Visualización, vamos a diseñar una estrategia de Preprocesamiento para preparar los datos con los que vamos a entrenar los modelos. Tras ello, analizaremos los resultados y estudiaremos el rendimiento de los distintos clasificadores generados.

 ##  **1. Importar dataset**
 En primer lugar vamos a importar los tres archivos donde se encuentran nuestros datos. Cada uno posee una estructura distintas, por lo que tendremos que uniformizarlos.
A continuación combinaremos los tres datasets para formar nuestro corpus de correos spam.

In [40]:
#INSTALAR PAQUETES
#!pip install pandas
#!pip install wordcloud
#!pip install imbalanced-learn
#!pip install seaborn
#!pip install nltk

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS #Lista predeterminada de palabras vacías en inglés
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from imblearn.over_sampling import RandomOverSampler
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS #Lista predeterminada de palabras vacías en inglés
import string
import re  #Biblioteca para utilizar expresiones regulares
import nltk #Biblioteca para técnicas de PLN
from nltk.tokenize import word_tokenize
nltk.download('punkt') #Datos para tokenizar
from imblearn.over_sampling import RandomOverSampler
from nltk import bigrams, trigrams
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import cross_val_score

import warnings
warnings.filterwarnings('ignore')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\monic\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [41]:
'''
#Para acceder a nuestros ficheros de Google Drive
from google.colab import drive
drive.mount('/content/drive')
'''

"\n#Para acceder a nuestros ficheros de Google Drive\nfrom google.colab import drive\ndrive.mount('/content/drive')\n"

In [42]:
'''
dataFolder = 'drive/MyDrive/Colab Notebooks/datos_tfg/'
data1 = pd.read_csv(dataFolder + "/enronSpamSubset.csv")
data2 = pd.read_csv(dataFolder + "/lingSpam.csv")
data3 = pd.read_csv(dataFolder + "/completeSpamAssassin.csv")
'''

'\ndataFolder = \'drive/MyDrive/Colab Notebooks/datos_tfg/\'\ndata1 = pd.read_csv(dataFolder + "/enronSpamSubset.csv")\ndata2 = pd.read_csv(dataFolder + "/lingSpam.csv")\ndata3 = pd.read_csv(dataFolder + "/completeSpamAssassin.csv")\n'

In [43]:
#Para leer desde el pc
data1=pd.read_csv("./deteccion_spam/datos/enronSpamSubset.csv")
data2=pd.read_csv("./deteccion_spam/datos/lingSpam.csv")
data3=pd.read_csv("./deteccion_spam/datos/completeSpamAssassin.csv")

## **2. Preprocesamiento**

Tras el análisis descriptivo y exploratorio del problema realizado en Visualizacion.ipynb, hemos comprendido mejor cómo se comportan nuestros datos. Ahora procedemos a la transformación de estos a una estructura que permita a los algoritmos de clasificación llegar a su máxima eficiencia.
Dicho preprocesamiento se divide en dos:
- **Limpieza y representación de los datos:** ya explicado detenidamente durante la fase de visualización
- **Preprocesamiento:** .....

In [44]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0.1  10000 non-null  int64 
 1   Unnamed: 0    10000 non-null  int64 
 2   Body          10000 non-null  object
 3   Label         10000 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 312.6+ KB


In [45]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2605 entries, 0 to 2604
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  2605 non-null   int64 
 1   Body        2605 non-null   object
 2   Label       2605 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 61.2+ KB


In [46]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6046 entries, 0 to 6045
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  6046 non-null   int64 
 1   Body        6045 non-null   object
 2   Label       6046 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 141.8+ KB


Como los datos provienen de tres fuentes distintas, tenemos que uniformizar su estructura para que tengan únicamente 2 columnas: el cuerpo del mensaje (Body) y su etiqueta (Label).

In [47]:
#Quitamos para cada dataset las columnas irrelevantes
data1.drop(["Unnamed: 0","Unnamed: 0.1"],inplace=True,axis=1)
data2.drop("Unnamed: 0",inplace=True,axis=1)
data3.drop("Unnamed: 0",inplace=True,axis=1)

### **Limpieza y representación de los datos**

In [48]:
def limpieza(dataset):
    data = dataset.copy() #Creamos una copia explícita para evitar errores

    data.drop_duplicates(inplace=True)

    #Reemplazamos los espacios en blanco con NaN.
    #Usamos una expresión regular para reemplazar cualquier cadena que contenga únicamente espacios en blanco
    data['Body'] = data['Body'].replace(r'^\s*$', pd.NA, regex=True)

    # Eliminamos los correos con valores nulos
    data.dropna(subset=['Body'], inplace=True)

    # Quitamos mayúsculas
    data['Body'] = data['Body'].str.lower()

    # Reemplazamos las URLs por el token 'URL'
    url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    data['Body'] = data['Body'].apply(lambda x: re.sub(url_pattern, 'URL', x))

    # Eliminamos signos de puntuación
    data['Body'] = data['Body'].str.replace(f'[{string.punctuation}]', ' ', regex=True)

    # Eliminamos todos los elementos que no sean caracteres alfanuméricos
    pattern = "[^a-zA-Z0-9]"
    data['Body'] = data['Body'].apply(lambda x: re.sub(pattern, ' ', x))

    # Creamos una lista personalizada de palabras vacías
    stop_words_list = list(ENGLISH_STOP_WORDS)
    stop_words_list += ["subject"]

    # Eliminamos las stop words
    data['Body'] = data['Body'].apply(lambda x: ' '.join([word for word in x.split() if word.lower() not in stop_words_list]))

    # Eliminamos términos con longitud menor que 2
    data['Body'] = data['Body'].apply(lambda x: ' '.join([word for word in x.split() if len(word) > 1]))

    return data

In [49]:
data1_clean=limpieza(data1)
data2_clean=limpieza(data2)
data3_clean=limpieza(data3)

A continuación concatenamos los tres Dataframes.

In [50]:
#Concatenar los tres dataframes
data_clean = pd.concat([data1_clean, data2_clean, data3_clean], ignore_index=True)

# Verificar la información del DataFrame
print(data_clean.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17570 entries, 0 to 17569
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Body    17570 non-null  object
 1   Label   17570 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 274.7+ KB
None


In [51]:
#data_clean=data3_clean

In [52]:
def seleccion_caracteristicas(data):
  #Contar frecuencia de cada palabra en todo el dataset
  all_words = ' '.join(data['Body']).split()
  word_freq = Counter(all_words)
  print(word_freq)
  # Filtrar palabras con frecuencia menor que 5
  data['Body'] = data['Body'].apply(lambda x: ' '.join([word for word in x.split() if word_freq[word] > 5]))

  return data

In [53]:
data=seleccion_caracteristicas(data_clean)



In [54]:
data

Unnamed: 0,Body,Label
0,stock promo mover cwtd urgent investor trading...,1
1,listed major search engines submitting website...,1
2,important information thu 30 jun 2005 importan...,1
3,utf life utf individual utf internal utf 25 ye...,1
4,bidstogo places things hello privacy policy pe...,1
...,...,...
17565,isilo tm 25 palm os pocket pc windows enters b...,0
17566,effector vol 15 35 november 2002 ren eff orga ...,0
17567,extended free seat sale thursday 21st november...,0
17568,27 11 02 insignificant matters heavily hugh mt...,0


In [55]:
data_clean=data

### **Detección de hiperónimos**

In [56]:
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet as wn

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\monic\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [57]:
def obtener_primer_hiperonimo(palabra):
    #Obtenemos todos los synsets de la palabra
    synsets = wn.synsets(palabra)

    #Verificar si hay al menos un synset
    if synsets:
        #Seleccionamos el primer synset
        primer_synset = synsets[0]

        #Obtenemos los hiperónimos del primer synset
        hiperonimos = primer_synset.hypernyms()

        # Verificar si el synset tiene hiperónimos
        if hiperonimos:
            # Seleccionar el primer hiperónimo y obtener el primer lema
            primer_hiperonimo = hiperonimos[0].lemmas()[0].name()
            return primer_hiperonimo
        else:
            return palabra #No hay hiperónimos así que dejamos la palabra inicial
    else:
        return palabra #No hay synsets así que dejamos la palabra inicial

# Ejemplo de uso de la función
palabra = "child"
hiperonimo = obtener_primer_hiperonimo(palabra)
print(f"El primer hiperónimo de '{palabra}' es: {hiperonimo}")

El primer hiperónimo de 'child' es: juvenile


In [58]:
def reemplazar_con_hiperonimos(frase):
    palabras = frase.split()
    palabras_con_hiperonimos = [obtener_primer_hiperonimo(palabra) for palabra in palabras]
    frase_transformada = ' '.join(palabras_con_hiperonimos)
    return frase_transformada

In [59]:
data_clean['Body'] = data_clean['Body'].apply(reemplazar_con_hiperonimos)

In [69]:
data_clean.head()

Unnamed: 0,Body,Label
0,capital promo workman cwtd urgent capitalist c...,1
1,enumerate commissioned_military_officer activi...,1
2,important message thu large_integer jun 2005 i...,1
3,utf being utf causal_agent utf internal utf la...,1
4,bidstogo point property greeting reclusiveness...,1


### **Selección de características**

Debido a que cuando vectoricemos el conjunto de datos, las características serán las palabras y los valores de estas la frecuencia en el correo, queremos quitar **características irrelevantes** eliminado las palabras cuya frecuencia total sea casi nula, pues no aportan gran cosa.

Realizamos esta selección tras la sustitución de hiperónimos, pues ahora tendremos un recuento distinto de palabras

In [70]:
def seleccion_caracteristicas(data):
  #Contar frecuencia de cada palabra en todo el dataset
  all_words = ' '.join(data['Body']).split()
  word_freq = Counter(all_words)
  print(word_freq)
  # Filtrar palabras con frecuencia menor que 5
  data['Body'] = data['Body'].apply(lambda x: ' '.join([word for word in x.split() if word_freq[word] > 10]))

  return data

In [73]:
data=seleccion_caracteristicas(data_clean)



In [63]:
data_clean=data

### **División del conjunto de datos**

In [64]:
data=data_clean

In [86]:
#División del conjunto de datos en entrenamiento y prueba
X= data["Body"] #Atributos (sólo hay uno)
y= data["Label"] #Etiquetas
X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, random_state=42) #Dividimos en conjunto de entrenamiento y de prueba (20% prueba)


### **Vectorización**

In [87]:
def vectorizacion(X_train, X_test):



    #Vectorizamos el conjunto de entrenamiento
    vectorizer=CountVectorizer(min_df=10) #Selección de características (eliminamos palabras con frecuencia menor de 10)
    #vectorizer=TfidfVectorizer(min_df=10)
    X_train=vectorizer.fit_transform(X_train)
    X_test=vectorizer.transform(X_test)
    #print(vectorizer.vocabulary_)

    return X_train, X_test, vectorizer

In [88]:
X_train, X_test, vectorizer= vectorizacion(X_train, X_test)

In [89]:
import operator

# Obtener el vocabulario y sus recuentos de palabras
vocab = vectorizer.vocabulary_
word_counts = {word: X_train.getcol(idx).sum() for word, idx in vocab.items()}

# Ordenar el vocabulario por frecuencia de palabra (de mayor a menor)
sorted_vocab = sorted(word_counts.items(), key=operator.itemgetter(1), reverse=True)

# Calcular el número total de palabras
total_words = sum(word_counts.values())

# Imprimir las palabras ordenadas por frecuencia
print("Palabras ordenadas por frecuencia:")
for word, count in sorted_vocab:
    print(word, count)

print("\nNúmero total de palabras:", total_words)


Palabras ordenadas por frecuencia:
large_integer 101590
message 46692
activity 38941
communication 31690
gregorian_calendar_month 20473
body 19141
person 18767
kind 18004
time_period 17657
act 17318
metallic_element 16197
property 15517
information 15192
collection 15117
computer_network 14724
code 14564
enron 14345
address 13079
happening 12932
00 12483
writing 12285
people 12129
document 11694
idea 11693
written_record 11621
com 11578
statement 11377
new 11209
point 11098
meeting 10521
electronic_communication 10477
case 10397
content 10164
change 10117
database 10041
quality 9991
time_unit 9956
work 9715
science 9636
examination 9535
weekday 9453
get 9426
tract 9302
move 9110
institution 9001
investigation 8956
abstraction 8936
protocol 8850
electrotherapy 8575
command 8494
word 8309
group 8207
assets 7922
speech_act 7895
give 7575
000 7553
be 7384
record 7351
publication 7296
knowing 7211
condition 7193
workplace 7184
structure 7056
just 6924
think 6900
enterprise 6770
communicate 

## **3. Entrenamiento**

En esta sección realizamos una **búsqueda de hiperparámetros** con el fin de encontrar los valores más óptimos para cada modelo. El problema principal que hemos encontrado es que, por ejemplo, para SVM, al tener tantas posibles combinaciones, tarda unas 2 horas en realizar la búsqueda.

- Para SVM usamos `RandomizedSearchCV` ya que tenemos muchos hiperparámetros y va a tardar una eternidad
- Para NBM usamos `GridSearchCV`

**Nota**: Fijamos una semilla `random_state=42` para siempre obtener los mismos resultados y no depender de la aleatoriedad.

### **Naive Bayes**

In [90]:
from sklearn.model_selection import cross_val_score, StratifiedKFold, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score

#Definimos el método de validación cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

param_grid_NB = {
    'alpha': [1.0, 0.5, 0.2, 0.1, 0.01, 0]  # Diferentes valores de alpha para probar
}

# Definición de GridSearchCV para Naive Bayes Multinomial
grid_NB = GridSearchCV(MultinomialNB(), param_grid_NB, cv=cv, scoring='accuracy', verbose=2)

#Ejecutamos la búsqueda de hiperparámetros
grid_NB.fit(X_train, y_train)
print(f"NB Multinomial best parameters: {grid.best_params_}")
print(f"NB Multinomial best CV accuracy: {grid.best_score_}")

Fitting 5 folds for each of 6 candidates, totalling 30 fits
[CV] END ..........................................alpha=1.0; total time=   0.0s
[CV] END ..........................................alpha=1.0; total time=   0.0s
[CV] END ..........................................alpha=1.0; total time=   0.0s
[CV] END ..........................................alpha=1.0; total time=   0.0s
[CV] END ..........................................alpha=1.0; total time=   0.0s
[CV] END ..........................................alpha=0.5; total time=   0.0s
[CV] END ..........................................alpha=0.5; total time=   0.0s
[CV] END ..........................................alpha=0.5; total time=   0.0s
[CV] END ..........................................alpha=0.5; total time=   0.0s
[CV] END ..........................................alpha=0.5; total time=   0.0s
[CV] END ..........................................alpha=0.2; total time=   0.0s
[CV] END ........................................

### **SVM**


In [97]:
from sklearn.svm import SVC

#Definimos el método de validación cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

param_grid_SVM = {
    'C': [0.1, 1, 10],
    'gamma': ['scale', 'auto', 0.1, 1, 10],
    'kernel': ['rbf', 'linear', 'poly']
}

# Definición de GridSearchCV para SVM
#grid_SVM = GridSearchCV(SVC(random_state=42), param_grid_SVM, cv=cv, scoring='accuracy', verbose=2)

# Definición de RandomizedSearchCV para SVM
grid_SVM = RandomizedSearchCV(SVC(random_state=42), param_grid_SVM, n_iter=5, cv=cv, scoring='accuracy', random_state=42, verbose=2)

#Ejecutamos la búsqueda de hiperparámetros
grid_SVM.fit(X_train, y_train)
print(f"SVM best parameters: {grid_SVM.best_params_}")
print(f"SVM best CV accuracy: {grid_SVM.best_score_}")

Fitting 5 folds for each of 5 candidates, totalling 25 fits
[CV] END ..........................C=10, gamma=1, kernel=rbf; total time= 4.5min
[CV] END ..........................C=10, gamma=1, kernel=rbf; total time= 4.6min
[CV] END ..........................C=10, gamma=1, kernel=rbf; total time= 4.6min
[CV] END ..........................C=10, gamma=1, kernel=rbf; total time= 4.7min
[CV] END ..........................C=10, gamma=1, kernel=rbf; total time= 4.8min
[CV] END ........................C=1, gamma=1, kernel=linear; total time=   9.5s
[CV] END ........................C=1, gamma=1, kernel=linear; total time=   9.8s
[CV] END ........................C=1, gamma=1, kernel=linear; total time=   9.0s
[CV] END ........................C=1, gamma=1, kernel=linear; total time=   9.0s
[CV] END ........................C=1, gamma=1, kernel=linear; total time=   8.8s
[CV] END ..........................C=1, gamma=1, kernel=poly; total time=  21.1s
[CV] END ..........................C=1, gamma=1, 

#### **Resultados**
Observamos que las siguientes configuraciones de hiperparámetros son las que conducen a los mejores modelos:
- **Hiperparámetros del mejor modelo SVM:** {'kernel': 'linear', 'gamma': 1, 'C': 1}
- **Hiperparámetros del mejor modelo NB Multinomial:** {'alpha': 0.01}.

## **4. Validación**

El entrenamiento de modelos de aprendizaje automático y la estimación del error fuera de la muestra son cruciales para entender cómo los modelos generalizarán a instancias o datos nuevos, que no fueron considrados durante el entrenamiento. Este apartado aborda cómo se entrenaron los modelos, cómo se estimó el error fuera de la muestra y qué conclusiones podemos extraer de los resultados.


**Entrenamiento de los modelos**

Los modelos seleccionados fueron entrenados utilizando el conjunto de entrenamiento (`X_train`: espacio de características, `y_train`: etiquetas). Para cada modelo, se utilizaron los mejores hiperparámetros calculados mediante GridSearchCV, asegurando que cada modelo estuviera optimizado. El entrenamiento del modelo consiste en primer lugar en definir el objeto de validación cruzada, y pasarle el modelo declarado. Tras ello, con `model.fit` se entrena el modelo con el conjunto de entrenamiento dado. Así para cada uno de los tres modelos elegidos.


**Validación: Estimación del error fuera de la muestra**

El error fuera de la muestra se estima utilizando el conjunto de prueba (`X_test`, `y_test`). Esto proporciona una evaluación de cómo cada modelo realiza predicciones sobre datos que no fueron utilizados durante el entrenamiento, simulando cómo el modelo podría comportarse en situaciones del mundo real. La predicción se hace con el conjunto test dado, con `model.predict(X_test)`. Una vez obtenido el resultado de dicha predicción, `y_test_pred`, podemos calcular las medidas de evaluación y rendimiento.

In [95]:
#Función que calcula las métricas de evaluación y rendimiento, dado y e y_pred
def metricas_evaluacion(y, y_pred, model_name):
  accuracy= accuracy_score(y, y_pred)
  precision= precision_score(y, y_pred, average='macro')
  recall= recall_score(y, y_pred, average='macro')
  f1= f1_score(y, y_pred, average='macro')
  conf_matrix=confusion_matrix(y, y_pred)
  class_report = classification_report(y, y_pred)

  #Mostramos por pantalla los resultados
  print(f"Resultados para {model_name}:")
  print("Accuracy:", accuracy)
  print("Precision:", precision)
  print("Recall:", recall)
  print("F1-Score:", f1)
  print("\nConfusion Matrix:\n", conf_matrix)
  print("\nClassification Report:\n", class_report)
  print("\n")

#### **NB Multinomial**

In [96]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, classification_report

name="NB Multinomial"

#Reentrenamos los mejores modelos pero ahora sí con todo el conjunto de entrenamiento
model_NB = MultinomialNB(alpha=0.01)
model_NB.fit(X_train, y_train)

#for name, model in models.items():
#Realizamos predicciones para el conjunto de entrenamiento
y_train_pred = model_NB.predict(X_train)

#Realizamos predicciones con el conjunto de prueba
y_test_pred = model_NB.predict(X_test)

#Métricas de evaluación para la predicción del conjunto de entrenamiento y_train_pred
print(f"--- Entrenamiento - {name} ---")
metricas_evaluacion(y_train, y_train_pred, name)

#Métricas de evaluación para la predicción del conjunto de test y_test_pred
print(f"--- Prueba - {name} ---")
metricas_evaluacion(y_test, y_test_pred, name)

--- Entrenamiento - NB Multinomial ---
Resultados para NB Multinomial:
Accuracy: 0.9607996585088219
Precision: 0.9563121451695383
Recall: 0.9604826565612059
F1-Score: 0.9583098652626769

Confusion Matrix:
 [[8470  337]
 [ 214 5035]]

Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.96      0.97      8807
           1       0.94      0.96      0.95      5249

    accuracy                           0.96     14056
   macro avg       0.96      0.96      0.96     14056
weighted avg       0.96      0.96      0.96     14056



--- Prueba - NB Multinomial ---
Resultados para NB Multinomial:
Accuracy: 0.950199203187251
Precision: 0.9457858882924195
Recall: 0.9480818577260812
F1-Score: 0.9469072971795295

Confusion Matrix:
 [[2107   96]
 [  79 1232]]

Classification Report:
               precision    recall  f1-score   support

           0       0.96      0.96      0.96      2203
           1       0.93      0.94      0.93      1311


#### **SVM**

In [98]:
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, classification_report

name="SVM"
#Reentrenamos los mejores modelos pero ahora sí con todo el conjunto de entrenamiento
model_SVM = SVC(kernel='linear', gamma=1, C=1)
model_SVM.fit(X_train, y_train)

#for name, model in models.items():
#Realizamos predicciones para el conjunto de entrenamiento
y_train_pred = model_SVM.predict(X_train)

#Realizamos predicciones con el conjunto de prueba
y_test_pred = model_SVM.predict(X_test)

#Métricas de evaluación para la predicción del conjunto de entrenamiento y_train_pred
print(f"--- Entrenamiento - {name} ---")
metricas_evaluacion(y_train, y_train_pred, model_name="SVM")

#Métricas de evaluación para la predicción del conjunto de test y_test_pred
print(f"--- Prueba - {name} ---")
metricas_evaluacion(y_test, y_test_pred, model_name="SVM")

--- Entrenamiento - SVM ---
Resultados para SVM:
Accuracy: 0.9991462720546386
Precision: 0.9989732375148529
Recall: 0.9992032740890071
F1-Score: 0.9990880348301143

Confusion Matrix:
 [[8798    9]
 [   3 5246]]

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00      8807
           1       1.00      1.00      1.00      5249

    accuracy                           1.00     14056
   macro avg       1.00      1.00      1.00     14056
weighted avg       1.00      1.00      1.00     14056



--- Prueba - SVM ---
Resultados para SVM:
Accuracy: 0.960728514513375
Precision: 0.957399032707814
Recall: 0.9587958726277495
F1-Score: 0.9580881071767371

Confusion Matrix:
 [[2129   74]
 [  64 1247]]

Classification Report:
               precision    recall  f1-score   support

           0       0.97      0.97      0.97      2203
           1       0.94      0.95      0.95      1311

    accuracy                           0.96 

**Comentar la diferencia de accuracy entre train y test para SVM, posiblemente debido a un sobreajuste en la fase de entrenamiento, lo cual produce una pobre generalización del modelo a datos nuevos**