# Regresión Logística: Detención de SPAM

En este ejercicio se muestra los funamentos de la regresión logística, planteando uno de los primeros problemas que fueron solucionados, mediante el uso técnicas de Machine Learning La Detección de SPAM.

## Enunciado del ejercicio

Se propone la contrucción de un sistema de aprendizaje automático capaz de predecir, si un correo determinado se corresponde con un correo SPAM o no, para ello se utilizará el siguiente DataSet:

##### [2007/Trec public SPAM Corpus](https://plg.uwaterloo.ca/cgi-bin/cgiwrap/gvcormac/foo07)

The corpus trec07p contains 75,419 messages:

    25220 ham
    50199 spam

These messages constitute all the messages delivered to a particular
server between these dates:

    Sun, 8 Apr 2007 13:07:21 -0400
    Fri, 6 Jul 2007 07:04:53 -0400

In [1]:
# En esta clase se facilita el procesamiento de correos electronicos que poseen código HTML

from html.parser import HTMLParser


class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.strict = False
        self.convert_charrefs = True
        self.fed = []
        
    def handle_data(self, d):
        self.fed.append(d)
        
    def get_data(self):
        return ''.join(self.fed)

In [2]:
# Esta función se encarga de eliminar los tags HTML que se encuentren en el texto de los correos electronicos

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

In [3]:
# Ejemplo de eliminación de los tags HTML de un texto

t = '<tr><td align="left"><ahref="../../issues/51/16.html#article">Phrack World News</a><td>'
strip_tags(t)

'Phrack World News'

Además de eliminar los posible tags HTML que se encuentran en el correo electrónico, deben realizarse otras acciones para evitar que los mensajes contengan ruido inecesario. Entre ellas se encuentran la eliminación de los signos de puntación, eliminación de los posibles campos de correo electronico que no son relevantes o eliminación de los afijos de una palabra manteniendo únicamente la raiz de la misma (Stemming). La clase que se muestra a continuación realiza las transformación.

In [4]:
import email
import string
import nltk

class Parser:

    def __init__(self):
        self.stemmer = nltk.PorterStemmer()
        self.stopwords = set(nltk.corpus.stopwords.words("english"))
        self.punctuation = list(string.punctuation)

    def parse(self, email_path):
        """Parse an email._"""
        with open(email_path, errors = 'ignore') as e:
            msg = email.message_from_file(e)
        return None if not msg else self.get_email_content(msg)

    def get_email_content (self, email, msg):
        """Extract the email content."""
        subject = self.tokenize(msg['subject']) if msg['subject'] else []
        body = self.get_email_boddy(msg.get_payload(), msg.get_content_type())
        content_type = msg.get_content_type()
        # Return the content ot the email
        return {
            "subject": subject,
            "body": body,
            "conetent_type": content_type
        }
    def get_email_body(self, payload, content_type):
        """Extract the body of the email"""
        body = []
        if type(payload) is str and content_type == 'text/plain':
            return self.tokenize(payload)
        elif type(payload) is str and content_type == "text/html":
            return self.tokenize
    