## Introducción al Trabajo de Detección de SPAM con Inteligencia Artificial

Desde hace décadas, la presencia de la inteligencia artificial (IA) en nuestras vidas ha sido una constante evolución, marcando hitos significativos en la forma en que interactuamos con la tecnología. Sin embargo, es en los últimos años que hemos presenciado un impresionante avance, especialmente en el campo del **procesamiento del lenguaje natural (PLN)**, que ha llevado a las IA a alcanzar niveles de sofisticación notables. La detección de correo no deseado o SPAM es un ejemplo destacado de cómo la IA ha transformado la manera en que abordamos problemas cotidianos. En este contexto, nos encontramos con algoritmos que no solo reconocen patrones y características en el texto, sino que también comprenden el contexto y la semántica de las comunicaciones escritas.

Un referente fundamental en este viaje hacia la excelencia en el PLN es el paquete **scikit-learn** (sklearn) en Python. Este conjunto de herramientas proporciona implementaciones eficientes y accesibles de una variedad de algoritmos de aprendizaje automático, incluyendo aquellos utilizados para la clasificación de texto en tareas como la detección de SPAM. Además, la biblioteca **nltk (Natural Language Toolkit)** juega un papel crucial en este proceso. Brindando herramientas y recursos para el procesamiento del lenguaje natural, nltk facilita la manipulación y comprensión de textos, permitiendo a los desarrolladores aprovechar técnicas avanzadas de PLN.

En este script, exploraremos la aplicación de estas tecnologías, destacando cómo la convergencia de la inteligencia artificial, sklearn y nltk, ha revolucionado nuestra capacidad para identificar y filtrar eficientemente contenido no deseado en nuestros correos electrónicos. Al sumergirnos en la teoría y práctica detrás de estos avances, examinaremos cómo estos modelos, alimentados con grandes cantidades de datos etiquetados, pueden discernir entre mensajes legítimos y aquellos destinados a inundar nuestras bandejas de entrada con SPAM. Este viaje nos permitirá apreciar la extraordinaria capacidad de las IA modernas para procesar el texto natural, casi emulando la comprensión humana del lenguaje.

In [1]:
#Se cargan todas las librerías que vamos a usar

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.pipeline import make_pipeline

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize



In [3]:
#Lectura de tablas de datos con panda
data = pd.read_csv('combined_data.csv')
data[1:5]

Unnamed: 0,label,text
1,1,wulvob get your medircations online qnb ikud v...
2,0,computer connection from cnn com wednesday es...
3,1,university degree obtain a prosperous future m...
4,0,thanks for all your answers guys i know i shou...


In [4]:
#Extrae el atributo, en este caso el texto de nuestros correos
atributos=data["text"]
#Vectoriza el texto del atributo con el codificador CountVectorizer, distinto al que usamos con la tarea
#de cars
vectorizer = CountVectorizer()
#Convierte nuestros atributos en valores numéricos
atributos = vectorizer.fit_transform(atributos)

#Extrae el objetivo (ya es numérico)
objetivo=data["label"]

#Separa conjunto de entrenamiento y de prueba
(atributos_entrenamiento, atributos_prueba,
 objetivo_entrenamiento, objetivo_prueba) = train_test_split(
        atributos, objetivo,
        random_state=12345,
        test_size=.2,
        stratify=objetivo)


#Entrena el modelo de Naive Bayes usando la instancia MultinomialNB que es recomendada 
#para este tipo de tareas
spam_detector = MultinomialNB(alpha=1.0)  # alpha es el parámetro de suavizado
spam_detector.fit(atributos_entrenamiento, objetivo_entrenamiento)

#Realiza las predicciones con el conjunto de prueba
predicciones = spam_detector.predict(atributos_prueba)
#Calcular la precisión del modelo
precision = spam_detector.score(atributos_prueba, objetivo_prueba)
print("La precisión del modelo desarrollado es", precision*100)



La precisión del modelo desarrollado es 97.50149790293588


Una vez que nuestro modelo ha sido entrenado con datos significativos y ha internalizado patrones distintivos asociados con correos SPAM y no SPAM, se convierte en una herramienta poderosa para la detección automatizada. Al aplicar este modelo a nuevos conjuntos de correos electrónicos, el proceso se vuelve tan simple como enviar el texto del mensaje a través del modelo previamente entrenado. Este acto de inferencia permite que el modelo evalúe rápidamente las características del texto en cuestión, clasificando el correo electrónico como potencialmente dañino o legítimo. 

In [1]:
#Hago la prueba con un email
email=["¡Felicidades! Has ganado un premio increíble. Haz clic aquí para reclamar tu premio."]
#Conviertelo en valores numérico
email_bien = vectorizer.transform(email) 
#ahora no se usa el el fit, ya que el codificador ya se creó al principio
#solo hay que volver a usarlo pero sin crear uno nuevo.

#Predice con el modelo
deteccion_email= spam_detector.predict(email_bien)

print(f"Texto del correo: {email[0]}")
print(f"Predicción: {deteccion_email[0]} (Con un rango de 1 como spam y 0 no spam)")

    

NameError: name 'vectorizer' is not defined