Probamos SVM sin aplicar tecnicas para el desbalanceo

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Supongamos que df es tu DataFrame con las columnas 'text' y 'label_num'
df = pd.read_csv('../data_en/spam_ham_dataset_modificado.csv')  # Asegúrate de cargar tus datos correctamente

# Preparar datos
X = df['text']
y = df['label_num']

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectorizar el texto
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.7)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Entrenar el modelo SVM
svm_model = SVC(kernel='linear', random_state=42)
svm_model.fit(X_train_vec, y_train)

# Evaluar el modelo
y_test_pred = svm_model.predict(X_test_vec)

# Reporte de Clasificación
print("Reporte de Clasificación en el conjunto de prueba:")
print(classification_report(y_test, y_test_pred, target_names=['ham', 'spam']))

# Matriz de Confusión
print("Matriz de Confusión en el conjunto de prueba:")
print(confusion_matrix(y_test, y_test_pred))

# Exactitud
accuracy = accuracy_score(y_test, y_test_pred)
print("Exactitud en el conjunto de prueba:")
print(accuracy)


Reporte de Clasificación en el conjunto de prueba:
              precision    recall  f1-score   support

         ham       0.99      0.99      0.99       732
        spam       0.96      0.97      0.97       267

    accuracy                           0.98       999
   macro avg       0.98      0.98      0.98       999
weighted avg       0.98      0.98      0.98       999

Matriz de Confusión en el conjunto de prueba:
[[722  10]
 [  8 259]]
Exactitud en el conjunto de prueba:
0.9819819819819819


Los resultados del modelo SVM que hemos obtenido muestran un rendimiento muy bueno. Vamos a desglosar los resultados y compararlos con los resultados del modelo Naive Bayes.

### **Resultados del Modelo SVM**

#### **Reporte de Clasificación**

| Clase | Precision | Recall | F1-score | Support |
|-------|-----------|--------|----------|---------|
| **ham**  | 0.99      | 0.99   | 0.99     | 732     |
| **spam** | 0.96      | 0.97   | 0.97     | 267     |
| **Accuracy** |       |        | 0.98     | 999     |
| **Macro avg** | 0.98  | 0.98   | 0.98     | 999     |
| **Weighted avg** | 0.98 | 0.98 | 0.98     | 999     |

#### **Matriz de Confusión**

|        | Predicted ham | Predicted spam |
|--------|---------------|----------------|
| **Actual ham**  | 722           | 10             |
| **Actual spam** | 8             | 259            |

#### **Exactitud**

- **Exactitud en el conjunto de prueba**: 0.982

### **Comparación con el Modelo Naive Bayes**

Aquí está el resumen de los resultados del modelo Naive Bayes para comparación:

#### **Reporte de Clasificación**

| Clase | Precision | Recall | F1-score | Support |
|-------|-----------|--------|----------|---------|
| **ham**  | 1.00      | 0.96   | 0.98     | 706     |
| **spam** | 0.91      | 0.99   | 0.95     | 293     |
| **Accuracy** |       |        | 0.97     | 999     |
| **Macro avg** | 0.95  | 0.97   | 0.96     | 999     |
| **Weighted avg** | 0.97 | 0.97 | 0.97     | 999     |

#### **Matriz de Confusión**

|        | Predicted ham | Predicted spam |
|--------|---------------|----------------|
| **Actual ham**  | 677           | 29             |
| **Actual spam** | 3             | 290            |

#### **Exactitud**

- **Exactitud en el conjunto de prueba**: 0.958

### **Análisis Comparativo**

1. **Precisión**:
   - **SVM**: 0.99 para `ham` y 0.96 para `spam`.
   - **Naive Bayes**: 1.00 para `ham` y 0.91 para `spam`.

2. **Recall**:
   - **SVM**: 0.99 para `ham` y 0.97 para `spam`.
   - **Naive Bayes**: 0.96 para `ham` y 0.99 para `spam`.

3. **F1-score**:
   - **SVM**: 0.99 para `ham` y 0.97 para `spam`.
   - **Naive Bayes**: 0.98 para `ham` y 0.95 para `spam`.

4. **Exactitud**:
   - **SVM**: 0.982
   - **Naive Bayes**: 0.958

5. **Matriz de Confusión**:
   - **SVM** tiene menos falsos positivos y falsos negativos en comparación con Naive Bayes, especialmente para la clase `ham`, donde ha clasificado correctamente la mayoría de los casos.

### **Conclusión**

El modelo SVM ha mostrado una mejor precisión general, recall y F1-score en comparación con el modelo Naive Bayes en el conjunto de prueba. La exactitud del modelo SVM es más alta (0.982 frente a 0.958), y la matriz de confusión indica que el modelo SVM ha cometido menos errores en la clasificación, especialmente para los casos de `ham`.

Esto sugiere que el modelo SVM es mejor para tu problema de clasificación en este caso específico. Sin embargo, es importante considerar otros factores como el tiempo de entrenamiento, la interpretabilidad y el ajuste del modelo antes de tomar una decisión final.