# TP3: Detector de SPAM

**Integrantes:**
- Carreras, Sebastian
- Fajardo, Lucas
- Más Valdecantos, Marcelo A.

---
Uno de los problemas más comunes en la clasificación es la detección de correos electrónicos SPAM. Uno de los primeros modelos utilizados para abordar este problema fue el clasificador de Bayes ingenuo. La detección de SPAM es un problema persistente en el mundo digital, ya que los spammers continúan adaptando sus estrategias para eludir los filtros de correo no deseado. Además del clasificador de Bayes ingenuo, se han desarrollado y utilizado una variedad de técnicas más avanzadas en la detección de SPAM, que incluyen algoritmos de aprendizaje automático, redes neuronales y métodos basados en reglas.

En este trabajo práctico, utilizaremos un conjunto de datos que consta de 4601 observaciones de correos electrónicos, de los cuales 2788 son correos legítimos y 1813 son correos SPAM. Dado que el contenido de los correos electrónicos es un tipo de dato no estructurado, es necesario procesarlo de alguna manera. Para este conjunto de datos, ya se ha aplicado un procesamiento típico en el Procesamiento del Lenguaje Natural (NLP), que consiste en contar la frecuencia de palabras observadas en los correos.

El procesamiento de lenguaje natural (NLP) desempeña un papel fundamental en la detección de SPAM, ya que permite analizar el contenido de los correos electrónicos y extraer características relevantes para la clasificación. Además de contar la frecuencia de palabras, se pueden utilizar técnicas más sofisticadas, como la extracción de características semánticas y el análisis de sentimientos, para mejorar la precisión de los modelos de detección de SPAM.

En este proceso, se cuenta la cantidad de ocurrencias de cada palabra en los diferentes correos.

![spam counter](./spam.png)

Con el fin de preservar la privacidad de los mensajes, la frecuencia de palabras se encuentra normalizada. El conjunto de datos está compuesto por 54 columnas de atributos que se denominan:

- `word_freq_XXXX`: Donde `XXXX` es la palabra o símbolo. Los valores son enteros que van de 0 a 20k.

Además, hay una columna adicional llamada `spam`, que es 1 si el correo es SPAM o 0 si no lo es.

Los clasificadores de Bayes ingenuos fueron los primeros filtros utilizados por las aplicaciones de correo electrónico, basados en este principio de palabras. La idea es que, partiendo de un dato a priori sobre la probabilidad de que un correo sea SPAM o no, ciertas palabras nos indicarán que la probabilidad a posteriori, dadas esas palabras, es más probable que el correo sea SPAM o no.

---
#### 1.¿Cuáles son las 10 palabras más encontradas en correos con SPAM y en correos No SPAM? ¿Hay palabras en común? ¿Algunas llaman la atención?


In [71]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# Scikit-learn nos ofrece una variedad ampliada de modelos Naive Bayes, para este problema usamos MultinomialNB que es pensado para este tipo de problemas
from sklearn.naive_bayes import MultinomialNB   

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, ConfusionMatrixDisplay

In [73]:
dataset = pd.read_csv("dataset/spambase.csv") # cargando los datos desde un CSV
dataset.head(100)
dataset.rename(columns={"word_freq_make\r": "word_freq_make"}, inplace=True)

In [77]:
#Obtenemos los palabras mas usadas. 
column_sum = dataset.groupby(by="spam", as_index=False).sum()

In [79]:
#  Filtramos los datos para solo los correos etiquetados como spam
spam_word_counts = column_sum[column_sum['spam'] == 1]

In [81]:
# Eliminamos la columna Spam 
spam_word_counts = spam_word_counts.drop(columns=["spam"])

In [93]:
# Transponemos el DataFrame para que las palabras sean los índices
transposed_spam_word_counts = spam_word_counts.T

# Renombramos la columna resultante, en caso de que no tenga un nombre adecuado
transposed_spam_word_counts.columns = ['numero_de_palabras']

# Ordenamos las palabras por su frecuencia en orden descendente
most_frequent_words = transposed_spam_word_counts.sort_values(by='numero_de_palabras', ascending=False)

# Mostramos las n palabras más frecuentes
n = 10
print(most_frequent_words.head(n))


                    numero_de_palabras
word_freq_you                  4105599
word_freq_your                 2502597
word_freq_will                  997100
word_freq_free                  939790
word_freq_our                   931799
char_freq_!                     931352
word_freq_all                   732080
word_freq_mail                  635470
word_freq_email                 578759
word_freq_business              521250


In [95]:
# Hacemos lo mismo para las mails que no son spam
no_spam_word_counts = column_sum[column_sum['spam'] == 0]

In [97]:
# Eliminamos la columna Spam 
no_spam_word_counts = no_spam_word_counts.drop(columns=["spam"])

In [129]:
# Transponemos el DataFrame para que las palabras sean los índices
transposed_no_spam_word_counts = no_spam_word_counts.T

# Renombramos la columna resultante, en caso de que no tenga un nombre adecuado
transposed_no_spam_word_counts.columns = ['numero_de_palabras']

# Ordenamos las palabras por su frecuencia en orden descendente
no_spam_most_frequent_words = transposed_no_spam_word_counts.sort_values(by='numero_de_palabras', ascending=False)

# Mostramos las n palabras más frecuentes en mails que no son Spam 
n = 10
print(no_spam_most_frequent_words.head(n))

                   numero_de_palabras
word_freq_you                 3541702
word_freq_george              3527559
word_freq_hp                  2496576
word_freq_will                1495268
word_freq_your                1223098
word_freq_hpl                 1204398
word_freq_re                  1159138
word_freq_edu                  800669
word_freq_address              681569
word_freq_meeting              604460


---

#### Respuesta 1
##### ¿Hay palabras en común?
- Podemos Observar que la palabra "you" es la que más se repite en el caso de Spam y No Spam, las otras palabras que más se repiten en ambos casos son "will" y "your".
##### ¿Algunas llaman la atención?
- La palabra que llama la atención, o más bien el signo, por su frecuencia de aparición en el correo de spam, es el signo de admiración “!”.



---
#### 2. Separe el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba (70% y 30% respectivamente).

In [132]:
# Obtenemos los atributos y target
X = (dataset.drop(columns="spam") * 100).astype(int)
#X = dataset2.drop(columns="spam")
y = dataset["spam"]

In [134]:
# Separamos el conjunto de datos como fue indicado.
X_train, X_test, y_train, y_test= train_test_split(X, y, test_size = 0.3)

---
#### 3. Utilizando un clasificador de Bayes ingenuo, entrene con el conjunto de entrenamiento.

In [None]:
#Escalamos los datos
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Lo transformamos en DataFrames
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X.columns)