# Regresión Lógistica: Detección de SPAM

En este ejercicio se muestran los fundamentos de la **Regresión Logística** planteando uno de los primeros problemas que fueron solucionados mendiante el uso de técnicas de Machine Learnin: La Detección de SPAM

## Enuncido del ejercicio

Se propone la contrucción de aprendizaje automático capaz de predecir si un correo determinado se SPAM o no, para esto se utilizará el siguiente DataSet (Conjunto de Datos):

##### [2007 TREC Public Spam Corpurs](https://plg.uwaterloo.ca/~gvcormac/treccorpurs07/)
The corpus trec07p contains 75,419 messages:

    25220 ham
    50199 spam

These messages constitute all the messages delivered to a particular
server between these dates:

    Sun, 8 Apr 2007 13:07:21 -0400
    Fri, 6 Jul 2007 07:04:53 -0400

## 1. Funciones Complementarios

permitirá preposesar los datos calitativaos en datos cauntitaticos

En este caso práctico con la detección de correos electrónicos SPAM, el DataSet del que se disponem esta formado por correos electrónicos, con sus correspondientes cabeceras y campos adicionales. Por lo tanto, requieren un preprocesamiento previo antes de que sean ingeridos por un Modelo de Machine Learning

In [1]:
# Esta clase facilita el preprocesamiento de correos electrónicos que poseen códigos HTML

from html.parser import HTMLParser

In [2]:
class MLStripper(HTMLParser):
    def __init__(self):
        self.reset() # Cada vez que reciba un correo limpeara la memoria 
        self.strict = False # 
        self.convert_charrefs = True # Controla las referencia de caracteries HTML (eliminar ligas)
        self.fed = [] # Crear una lista vacía dentro del objeto self

    def handle_data (self, d): # función d va a guardar el codgio html en el obejto self guardarlo en texto plano
        self.fed.append(d)

    def get_data (self): # Recuperar los datos en el objetos self guardados en la lista fed
        return ''.join(self.fed) # Extaer todos los correos en el objeto self

In [3]:
# Esta función se encarga de eliminar los Tags HTML que se encuentren en el texto del correo electrónico

def strip_tags(html):
    s = MLStripper() # 
    s.feed(html) # Devolvera los correos sin Tags pero bien estructurados
    return s.get_data()

In [4]:
#Ejemplo de eliminacion de los tags de HTML de un texto
t = '<tr><td align="left"><ahref="../../.issues/51/16.html#article">Phrack World News</a><td>'
strip_tags(t)

'Phrack World News'

Ademas de eliminar los posibles tags HTML que se encuentran en el correo electronico, deben realizarse otras acciones de preprocesamiento para evitar que  los mensajes contengan ruido inecesario. Entre ellas se encuentran la eliminacion de los signos de puntuacion, eliminación de los posibles campos de correo electronico que no son relevantes o eliminación de los afijos de una palabra manteniendo unicamente la raiz de la misma (Stemming). La clase que se muestra a continuación realiza estas transformaciones.

In [5]:
import email
import string
import nltk

class Parser:
    def __init__(self):
        self.stemmer = nltk.PorterStemmer() 
        self.stopwords = set(nltk.corpus.stopwords.words('english')) 
        self.punctuation = list(string.punctuation) # bascar todos los signos de puntuación
    def parse(self, email_path): # regresar la ruta del email
        """Parse an Email""" # recordar que las comillas triples es declarar la variable pero ahorrando la variable
        with open(email_path, errors = 'ignore') as e: 
            msg = email.message_from_file(e)
        return None if not msg else self.get_email_content(msg) # si encuentra un error en la ruta del email retornara un mensaje de error
    def get_email_content(self, msg): 
        """Extract the email content.""" 
        subject = self.tokenize(msg['Subject']) if msg ['Subject'] else [] # Se buscara lo que se quiere extraer del email
        body = self.get_email_body(msg.get_payload(),
                                    msg.get_content_type())  
        content_type = msg.get_content_type() # se esta diciendo que es lo que va a encontrar,
        # Return the contentm of the email
        return {"subject": subject,
               "body": body,
               "content_type":content_type} # retornando el subject, el body y el content type "una lista"
    def get_email_body(self, payload, content_type): # estos son los parametros que contiene el email
        """Extract the body of the email."""
        body = []
        if type(payload) is str and content_type == 'text/plain':  
            return self.tokenize(payload) # OCR 
        elif type(payload) is str and content_type == 'text/html':
            return self.tokenize(strip_tags(payload))
        elif type(payload) is list:
            for p in payload:
                body += self.get_email_body(p.get_payload(),
                                           p.get_content_type())
        return body
    def tokenize(self, text):
        """Transform a text string in tokens. Perform two main actions, clean the puntuaction symbols and do stemming of the text"""
        for c in self.punctuation:
            text = text.replace(c, "")
        text = text.replace("\t", " ")
        text = text.replace("\n", " ")
        tokens = list(filter(None, text.split(" ")))
        # Stemming of the tokens
        return [self.stemmer.stem(w) for w in tokens if w not in self.stopwords]

#### Lectura en formato .raw

In [6]:
inmail = open("ALERT/datasets/datasets/trec07p/data/inmail.1").read()
print(inmail)

From RickyAmes@aol.com  Sun Apr  8 13:07:32 2007
Return-Path: <RickyAmes@aol.com>
Received: from 129.97.78.23 ([211.202.101.74])
	by speedy.uwaterloo.ca (8.12.8/8.12.5) with SMTP id l38H7G0I003017;
	Sun, 8 Apr 2007 13:07:21 -0400
Received: from 0.144.152.6 by 211.202.101.74; Sun, 08 Apr 2007 19:04:48 +0100
Message-ID: <WYADCKPDFWWTWTXNFVUE@yahoo.com>
From: "Tomas Jacobs" <RickyAmes@aol.com>
Reply-To: "Tomas Jacobs" <RickyAmes@aol.com>
To: the00@speedy.uwaterloo.ca
Subject: Generic Cialis, branded quality@ 
Date: Sun, 08 Apr 2007 21:00:48 +0300
X-Mailer: Microsoft Outlook Express 6.00.2600.0000
MIME-Version: 1.0
Content-Type: multipart/alternative;
	boundary="--8896484051606557286"
X-Priority: 3
X-MSMail-Priority: Normal
Status: RO
Content-Length: 988
Lines: 24

----8896484051606557286
Content-Type: text/html;
Content-Transfer-Encoding: 7Bit

<html>
<body bgcolor="#ffffff">
<div style="border-color: #00FFFF; border-right-width: 0px; border-bottom-width: 0px; margin-bottom: 0px;" align="

#### Parsing del email

```
import nltk
nltk.download('stopwords')
```

Establecer ruta personalizada:

```
import nltk
import os

route_download = "/home/terrazas/Documentos/GitHub/machine-learning-aplication/nuevos/nltk_data"
nltk.download('stopwords', download_dir=route_download)

if route_download not in nltk.data.path:
    nltk.data.path.append(route_download)
```

In [12]:
import nltk
import os

p = Parser() # Realizar el preprocesamiento
p.parse("ALERT/datasets/datasets/trec07p/data/inmail.1")

{'subject': ['gener', 'ciali', 'brand', 'qualiti'],
 'body': ['do',
  'feel',
  'pressur',
  'perform',
  'rise',
  'occas',
  'tri',
  'viagra',
  'anxieti',
  'thing',
  'past',
  'back',
  'old',
  'self'],
 'content_type': 'multipart/alternative'}

#### Lectura del índice

Estas funciones complementarias se encargar de cargar en memoria la ruta de cada correo electrónico y su etiqueta correspondiente {spam, ham}

In [None]:
index = open("ALERT/datasets/datasets/trec07p/full/index").readlines()
index

In [None]:
import os
DATASET_PATH = "ALERT/datasets/datasets/trec07p"

def parse_index(path_to_index, n_elements):
    ret_indexes = [] # en esta arreglo se mostraran 
    index = open(path_to_index).readlines()
    for i in range(n_elements):
        mail = index[i].split(" ../")
        label = mail[0] # trayendo su etiqueta
        path = mail[1][:-1] # iniciará en la primera posición del arreglo hasta la ultima posición del arreglo
        ret_indexes.append({"label" : label, "email_path": os.path.join(DATASET_PATH, path)}) # .append sirve para insertar en un diccionario, con su etiqueta si es 'spam' o no 
    return ret_indexes 

infraestructura para bases de datos usar la skill "airbyte"

In [None]:
def parse_email(index):
    p = Parser()
    pmail = p.parse(index["email_path"]) # 
    return pmail, index["label"]

In [None]:
indexes = parse_index("ALERT/datasets/datasets/trec07p/full/index", 10)
indexes

## 2. Preprocesamiento del DataSet

Con las funciones presentadas anteriormente se permite la lectura de los correos electrónicos de manera programática y el procesamiento de los mismos para eliminar aquellos componentes que no resultan de utilidad para la detección de correos de SPAM. Sin embargo cada uno de los correos sigue estando representado por un diccionario de Python con una serie de palabras.

In [None]:
# Cargar el indice y las etiquetas en memoria
index = parse_index("ALERT/datasets/datasets/trec07p/full/index",1)

In [None]:
# Leemos el primer correo
import os

open(index[0]["email_path"]).read()

In [None]:
# Parsear el primer correo
mail, label = parse_email(index[0])
print("El correo es: ",label, "\n")
print(mail)

el algoritmo de regresión logística no es capaz de ingerir texto como parte del DataSet. Por lo tanto, genera aplicarse una serie de funciones adicionales que transformen el texto de los correos electronicos parseados en una representacion numérica

### Aplicación de CountVectorizer

El **CountVectorizer** es una clase de Python de la biblioteca de scikit-learn utilizada para convertir 

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Preparación del email en una cadena de texto.
prep_email = [" ".join(mail['subject']) + " ".join(mail['body'])] # preparamos el email con el subject y el body.

vectorizer = CountVectorizer() # declaramos una variable ocupando la clase CountVectorizar 
X = vectorizer.fit(prep_email) 

print("e-mail:", prep_email, "\n")
print("Caracteristicas de entrada: ", vectorizer.get_feature_names_out()) # Extraer con CountVectorizer las características entrada

# Extrae los tokens en un solo arreglo 
# Recordar que la función de hipótesis necesita en función de x a y

In [None]:
X = vectorizer.transform(prep_email)
print("\nValues:\n", X.toarray())

Porque aparecen puros uno, esta cotejando en si msimo, es decir, se esta evaluando el correo con el mismo

#### Aplicacion de OneHotEncoding

El **OneHotEncoding** es una técnica para representar datos categorícos como vectores binarios. Extrae la características de entrada y las convierte en categorías

In [None]:
from sklearn.preprocessing import OneHotEncoder

prep_email = [[w] for w in mail['subject'] + mail['body']] # w se refiere a 'words' 
enc = OneHotEncoder(handle_unknown = 'ignore') 
X = enc.fit_transform(prep_email)

print("Features:\n", enc.get_feature_names_out(), "\n")
print("\nValues:\n", X.toarray())

### Funciones auxiliares para le preprocesamiento del DataSet

In [None]:
def create_prep_dataset(index_path, n_elements):
    X = []
    y = []
    indexes = parse_index(index_path, n_elements)
    for i in range(n_elements):
        print("\rParsing email: {0}".format(i + 1),end = '')
        mail, label = parse_email(indexes[i])
        X.append(" ".join(mail['subject']) + " ".join(mail['body']))
        y.append(label)
    return X, y

## 3. Entrenamiento de los datos

In [None]:
# Leer únicamente un subconjunto de 100 correos electronicos
X_train, y_train = create_prep_dataset("ALERT/datasets/datasets/trec07p/full/index", 100)
X_train

### Aplicar la Vectorización de los datos

In [None]:
vectorizer = CountVectorizer()
X_train= vectorizer.fit_transform(X_train)

In [None]:
print(X_train.toarray()) # Todos los tokens que logro extrar de los 100 correos conviertidos ya en numeros por el CountVectorizer
print("\nFeatures", len(vectorizer.get_feature_names_out()))

In [None]:
import pandas as pd

pd.DataFrame(X_train.toarray(), columns=[vectorizer.get_feature_names_out()])

In [None]:
y_train # Mostrar las etiquetas

#### Entrenamiento del Algoritmo de Regresión Logistica con el DataSet Preprocesado

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression() # clf será el 'clasificador'
clf.fit(X_train, y_train) # De forma que lo esta entrenando

Estudiar ITIL, COBIT, PMBook, Gobierno de TI

## 4.- Predicción

Lectrua de un DataSer nuevo

In [None]:
# Lectura de un DataSet de correos nuevos.

# Leer 150 correos del DataSet y quedarnos unicamente con los 50 últimos correos electrónicos, los cuales no se han utilizado para entrenar el algoritmo.
X, y = create_prep_dataset("ALERT/datasets/datasets/trec07p/full/index", 150) # Se esta leyendo los 150 datos
X_test = X[100:] # Se empiza con 100 porque el entrenamiento ya se hizo con 100 correos
y_test = y[100:] 

### Procesamiento de los correos electrónicos con el vectorizador creado anteriomente

In [None]:
X_test = vectorizer.transform(X_test)

#### Predicción del tipo de correo

In [None]:
y_pred = clf.predict(X_test)
y_pred

In [None]:
print("Predicción\n", y_pred)
print("\nEtiquetas Reales\n", y_pred)

### Evaluación de resultados

In [None]:
from sklearn.metrics import accuracy_score

print("Accuracy: {:.3f}".format(accuracy_score(y_test, y_pred)))

## 5. Aumentando el DataSet


In [None]:
# Leer 12,000 correos electrónicos

X, y = create_prep_dataset("ALERT/datasets/datasets/trec07p/full/index", 12000)

In [None]:
# Utilizamos 10,000 para entrenar el algoritmo y 2,000 para realizar pruebas.
X_train, y_train = X[:10000], y[:10000]
X_test, y_test = X[10000:], y[10000:]

In [None]:
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(X_train)

In [None]:
clf = LogisticRegression()
clf.fit(X_train, y_train)

In [None]:
X_test = vectorizer.transform(X_test)
y_pred = clf.predict(X_test)
print("Accuracy: {:.3f}".format(accuracy_score(y_test, y_pred)))