# Detección de spam
- Tenemos datos que contienen correos electrónicos y una etiqueta marcando si son correos spam o no. Ejemplo:

In [5]:
import pandas as pd

In [6]:
df = pd.read_csv("../Data/spam_ejercicio.csv")
df.head()

Unnamed: 0,label,data
0,ham,Subject: enron methanol ; meter # : 988291\r\n...
1,ham,"Subject: hpl nom for january 9 , 2001\r\n( see..."
2,ham,"Subject: neon retreat\r\nho ho ho , we ' re ar..."
3,spam,"Subject: photoshop , windows , office . cheap ..."
4,ham,Subject: re : indian springs\r\nthis deal is t...


- Nuestra tarea es crear un modelo capaz de predecir cuando tenemos un correo no deseado, pero que en la medida de lo posible evite marcar correos legítimos como spam. **No queremos que un correo importante se pierda en la carpeta de no deseados** y quedarnos sin notificación.
    - Objetivo: que menos del 1% de correos legítimos acaben en la bandeja de no deseados.
- Revisa el siguiente código de preprocesado y entrenamiento y responde:
    - ¿Podemos mejorar el preprocesamiento? ¿Cómo?
    - ¿Estamos evaluando correctamente el desempeño de nuestro modelo? ¿Por qué?
    - ¿De qué maneras podemos reducir el coste computacional de nuestro modelo sin sacrificar su eficacia?

## Preprocesado

In [7]:
df["label"] = df["label"].map({"ham" : 0, "spam" : 1})

df

Unnamed: 0,label,data
0,0,Subject: enron methanol ; meter # : 988291\r\n...
1,0,"Subject: hpl nom for january 9 , 2001\r\n( see..."
2,0,"Subject: neon retreat\r\nho ho ho , we ' re ar..."
3,1,"Subject: photoshop , windows , office . cheap ..."
4,0,Subject: re : indian springs\r\nthis deal is t...
...,...,...
5166,0,Subject: put the 10 on the ft\r\nthe transport...
5167,0,Subject: 3 / 4 / 2000 and following noms\r\nhp...
5168,0,Subject: calpine daily gas nomination\r\n>\r\n...
5169,0,Subject: industrial worksheets for august 2000...


In [8]:
X = df["data"]
y = df["label"]

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2, random_state = 43)

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(max_features=1000)

bag_train = vect.fit_transform(X_train)
bag_test = vect.transform(X_test)

X_train = bag_train.toarray()
X_test = bag_test.toarray()

## Entrenamiento

In [11]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()

model.fit(X_train, y_train)

## Métricas

In [12]:
from sklearn.metrics import accuracy_score, confusion_matrix

yhat = model.predict(X_test)

print(f"ACCURACY: {accuracy_score(y_test, yhat)}")

print("\nMATRIZ DE CONFUSION")
print(confusion_matrix(y_test, yhat))

ACCURACY: 0.9671497584541063

MATRIZ DE CONFUSION
[[707  23]
 [ 11 294]]


## Validación

In [None]:
import numpy as np

metrics = []

for _ in range(10):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = .2)

    vect = CountVectorizer(max_features=1000)

    bag_train = vect.fit_transform(X_train)
    bag_test = vect.transform(X_test)

    X_train = bag_train.toarray()
    X_test = bag_test.toarray()
    
    model = RandomForestClassifier()

    model.fit(X_train, y_train)
    
    yhat = model.predict(X_test)
    
    acc = accuracy_score(y_test, yhat)
    metrics.append(acc)
    
print(f"MIN ACCURACY {min(metrics)}")
print(f"AVG ACCURACY {np.mean(metrics)}")
print(f"MAX ACCURACY {max(metrics)}")

---
# Ejercicio:
---
- Realiza un preprocesamiento que consideres que pueda darnos un modelo mejor.
- Evalua el modelo de la manera que creas que es la más correcta dados los requerimientos del problema.
- Valida las métricas.
- ### Extra
    - Guarda el modelo y las funciones de preprocesamiento.
    - Carga el modelo y las funciones de preprocesamiento. Aplica el preprocesamiento a los datos de `spam_no_labels.csv` y usa el modelo para hacer las predicciones.