# Correos electrónicos SPAM: Un enfoque con Procesamiento de Lenguaje Natural.

## Alumna: Daniela Olivas Mendoza.

Los correos electrónicos no deseados en su bandeja de entrada son molestos ya que perturban la rutina del usuario. Es por eso que las cuentas de correo electrónico ya tiene un filtro spam. Dado que es una de las palicaciones del PLN más utilizadas, vamos a ver como se desarrolló un filtro de spam simple para correos electrónicos.

In [3]:
#Importamos las famosas librerías
from functools import reduce

import nltk
from nltk.stem import WordNetLemmatizer
import pandas as pd
import string 
import re

In [4]:
# Insertando los datos
full_corpus = pd.read_csv('SMSSpamCollection.tsv', sep='/t', header= None, names=['label', 'msg_body'])

#Separando los mensajes en 'ham' y 'spam'
ham_text = []
spam_text = []

  


### Bigrams

Los N-gramos se usan para modelar el lenguaje de función de la predicción de palabras, es decir, predice la siguiente palabra de una oración de palabras N1 anteriores. Bigram es la secuencia de 2 palabras de N-gramos que predice la siguiente palabra de una oración usando la palabra anterior. En lugar de considerar la historia completa de una oración o una secuencia de palabras en particular, un modelo de bigram puede ser ocupado en términos de uuna aproximación de la historia al ocupar uuna historia limitada.

La identificación de un mensaje como 'ham' o 'spam' es una tarea de clasificación ya que la variable de destino tiene valores discretos que son "ham" o "spam". En esta práctica, se usa el modelo bigram, aunque existen muchas técnicas avanzadas que s epueden utilizar para este propósito. Para utilizar el modelo bigram para asignar un mensaje dado como "spam" o "ham", hay varios pasos que deben lograrse:

### 1. Inspección y separación de mensajes en las categorías "ham" y "spam".

nicialmente, el conjunto de datos debe inspeccionarse para ocuparlo y abordarlo para lograr la tarea. El formato de los datos dados, la cantidad de datos proporcionados, la naturaleza de los datos se incluyen en esta inspección para identificar la mejor aproximación posible para la tarea.

El corpus de mensajes dado ha marcado cada mensaje como ham o spam. Además, hay 5568 mensajes en uun DataFrame escrito en inglés que no son objetos nulos. Por lo tanto, el archivo tsv se puede leer usando DataFrame en Python para clasificar esos mensajes de acuerdo con el indicador dado.
            

In [5]:
def separate_msgs():
    for index, column in full_corpus.iterrowa():
        label = column[0]
        message_text = column[1]
        if label == 'ham':
            ham_text.append(message_text)
        elif label == "spam":
            spam_text.append(message_text)

            separate_msgs()

## 2. Procesamiento de texto

El preprocesamiento es la tarea de realizar los pasos de preparación en el corpus de texto sin formato para completar de manera edificente una extracción de texto o procesamiento de lenguaje natural o cualquier tarea que incluya texto sin formato. El preprocesamiento de texto consta de varios pasos, aunque algunos de ellos pueden aplicarse a una tarea en particular debido a la naturaleza del conjunto de datos disponible.

En esta tarea, el preprocesamiento de texto incliye los siguientes pasos de acuerdo con el conjunto de datos:

### Eliminación de signos de puntuación.

In [7]:
#Eliminación de signos de puntuación de los mensajes del correo elec.
def remove_msg_punctuations(email_msg):
    puntuation_removed_msg = "".join([word for word in email_msg if word not in string.punctuation])
    return punctuation_removed_msg

### Convertir minúsculas.

Convertir a minúsculas: la conversión de todos los caracteres del texto en un contexto común, como los soportes en minúsculas, impide identificar dos palabras de manera diferente donde una está en minúscula y la otra no. Por ejemplo, "Primero" y "primero" deben identificarse como iguales, por lo tanto, poner en minúscula todos los caracteres facilita la tarea. Además, las palabras de detención también están em minúsculas, por lo que esto también haría posible eliminar palabras de detención más adelante.

## Tokenizing.

 Tokenizing es la tarea de dividir el texto en partes significativas, es decir, tokens que incluyen oraciones y palabras. Un token se puede considerar como una instancia de una secuencia de caracteres en uun texto particular que se agrupan para proporcionar una unidad semantica util para su posterior procesamiento. En esta tarea, la tokenización de palabras se utiliza cambiando espacios en blanco entre palabras como delimitador. Esto se logra en Python, usando expresiones regulares para dividir una cadena en subcadenas con la función split(), que es un tokenizador básico.

In [8]:
#Convierte el texto en minúsculas y tokenizing de palabras.

def tokenize_into_words(text):
    tokens = re.split('/W+', text)
    return tokens

### Palabras lemantizantes:

La derivación es el proceso de eliminar afijos (sufijos, prefijos, infijos, circunfijos) de una palabra para obtener su raíz de palabra. Aunque la lematización está relacionada con la derivación, difiere ya que la lemantización puede capturar formas canónicas basadas en el lema de una palabra. La lematización ocupa un vocabulario y un análisis morfológico de las palabras que lo hacen más rápido y preciso que la derivación. WordNetLemmatizer ha lograo la lematización en lenguaje Python.

In [10]:
#Lemmatizing
word_lemmatizer = WordNetLemmatizer()
def lemmatization(tokenized_words):
    lemmatized_text = [word_lemmatizer.lemmatize(word)for word in tokenized_words]
    return " ".join(lemmatized_text)

def preprocessing_msg(corpus):
    categorized_text = pd.DataFrame(corpus)
    categorized_text['non_punc_message_body'] = categorized_text[0].apply(lambda msg: remove_msg_punctuations(msg))
    categorized_text['tokenized_msg_body'] = categorized_text['non_punc_message_body'].apply(lambda msg: tokenize_into_words(msg.lower()))
    categorized_text['lemmatized_msg_word'] = categorized_text['tokenized_msg_body'].apply(lambda word_list: lemmatization(word_list))
    return  categorized_text['lemmatized_msg_word']
    
    


## 3. Extracción de características.