# Clasificación de documentos (email spam o no spam)

In [1]:
import nltk, random
import pandas as pd
import numpy as np
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/oem/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/oem/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to /home/oem/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Ejercicio de práctica


¿Como podrías construir un mejor clasificador de documentos?

0. **Dataset más grande:** El conjunto de datos que usamos fue muy pequeño, considera usar los archivos corpus que estan ubicados en la ruta: `datasets/email/plaintext/` 

1. **Limpieza:** como te diste cuenta no hicimos ningun tipo de limpieza de texto en los correos electrónicos. Considera usar expresiones regulares, filtros por categorias gramaticales, etc ... . 

---

Con base en eso construye un dataset más grande y con un tokenizado más pulido. 

In [2]:
# Descomprimir ZIP
import zipfile
fantasy_zip = zipfile.ZipFile('datasets/email/plaintext/corpus1.zip')
fantasy_zip.extractall('datasets/email/plaintext')
fantasy_zip.close()

In [3]:
# Creamos un listado de los archivos dentro del Corpus1 ham/spam
from os import listdir

path_ham = "datasets/email/plaintext/corpus1/ham/"
filepaths_ham = [path_ham+f for f in listdir(path_ham) if f.endswith('.txt')]

path_spam = "datasets/email/plaintext/corpus1/spam/"
filepaths_spam = [path_spam+f for f in listdir(path_spam) if f.endswith('.txt')]

In [4]:
# Creamos la funcion para tokenizar y leer los archivos 

def abrir(texto):
    with open(texto, 'r', errors='ignore') as f2:
        data = f2.read()
        data = word_tokenize(data)
    return data

In [5]:
# Creamos la lista tokenizada del ham
list_ham = list(map(abrir, filepaths_ham))
# Creamos la lista tokenizada del spam
list_spam = list(map(abrir, filepaths_spam))

2. **Validación del modelo anterior:**  
---

una vez tengas el nuevo conjunto de datos más pulido y de mayor tamaño, considera el mismo entrenamiento con el mismo tipo de atributos del ejemplo anterior, ¿mejora el accuracy del modelo resultante?

3. **Construye mejores atributos**: A veces no solo se trata de las palabras más frecuentes sino de el contexto, y capturar contexto no es posible solo viendo los tokens de forma individual, ¿que tal si consideramos bi-gramas, tri-gramas ...?, ¿las secuencias de palabras podrián funcionar como mejores atributos para el modelo?. Para ver si es así,  podemos extraer n-gramas de nuestro corpus y obtener sus frecuencias de aparición con `FreqDist()`, desarrolla tu propia manera de hacerlo y entrena un modelo con esos nuevos atributos, no olvides compartir tus resultados en la sección de comentarios. 

In [6]:
# Separamos las palabras mas comunes
all_words = nltk.FreqDist([w for tokenlist in list_ham+list_spam for w in tokenlist])
top_words = all_words.most_common(250)
top_words

[('-', 85724),
 ('.', 54709),
 ('/', 42848),
 (',', 40664),
 (':', 30278),
 ('the', 25656),
 ('to', 20345),
 ('ect', 13900),
 ('and', 12829),
 ('@', 12736),
 ('for', 10508),
 ('of', 10188),
 ('a', 9820),
 ('you', 8162),
 ('in', 7717),
 ("'", 7542),
 ('on', 7317),
 ('hou', 7289),
 ('this', 7171),
 ('is', 7170),
 ('?', 6881),
 ('enron', 6555),
 ('i', 6391),
 (')', 6089),
 ('(', 5758),
 ('>', 5622),
 ('Subject', 5172),
 ('be', 5067),
 ('=', 4912),
 ('that', 4769),
 (';', 4708),
 ('2000', 4386),
 ('we', 4341),
 ('from', 4192),
 ('will', 4137),
 ('have', 4097),
 ('your', 4042),
 ('with', 3987),
 ('at', 3735),
 ('com', 3710),
 ('!', 3637),
 ('s', 3435),
 ('are', 3388),
 ('it', 3335),
 ('please', 3200),
 ('as', 3157),
 ('if', 3135),
 ('or', 3080),
 ('not', 3074),
 ('gas', 3034),
 ('``', 3020),
 ('_', 3009),
 ('by', 3000),
 ('3', 2922),
 ('$', 2891),
 ('subject', 2889),
 ('deal', 2827),
 ('1', 2743),
 ('me', 2572),
 ('am', 2533),
 ('meter', 2459),
 ('00', 2404),
 ('#', 2385),
 ('2', 2379),
 ('

In [7]:
# Agregamos Bigramas
bigram_text = nltk.Text([w for token in list_ham+list_spam for w in token])
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250)
top_bigrams

[(('-', '-'), 65612),
 (('/', 'ect'), 7313),
 (('/', 'hou'), 7278),
 (('hou', '/'), 7278),
 (('@', 'ect'), 6547),
 (('ect', '@'), 6420),
 (('Subject', ':'), 5172),
 (('.', '.'), 4350),
 (('ect', ','), 4278),
 (('>', '>'), 3810),
 (('.', 'com'), 3650),
 (('?', '?'), 3213),
 (('to', ':'), 2766),
 (('/', '2000'), 2700),
 (('subject', ':'), 2683),
 (('@', 'enron'), 2524),
 (('/', 'enron'), 2409),
 (("'", 's'), 2380),
 (('cc', ':'), 2336),
 (('of', 'the'), 2317),
 (('.', 'i'), 1877),
 (('.', 'the'), 1840),
 (('=', '='), 1786),
 (('in', 'the'), 1748),
 (('re', ':'), 1646),
 (('enron', '@'), 1629),
 ((':', 're'), 1613),
 (('if', 'you'), 1587),
 (('_', '_'), 1558),
 (('for', 'the'), 1545),
 ((',', '000'), 1446),
 (('ect', 'cc'), 1388),
 (('will', 'be'), 1378),
 (('on', 'the'), 1367),
 (('pm', 'to'), 1351),
 (('.', 'thanks'), 1318),
 ((',', 'and'), 1294),
 ((':', '/'), 1271),
 (('/', '/'), 1267),
 (('from', ':'), 1260),
 (('-', 'forwarded'), 1249),
 (('forwarded', 'by'), 1248),
 (('to', 'the'),

In [8]:
def document_featuresEmail(document, top_words=top_words, top_bigrams=top_bigrams):
    document_words = set(document)
    bigram = set(list(nltk.bigrams(nltk.Text([token for token in document]))))
    features = {}
    for word, j in top_words:
        features['contains({})'.format(word)] = (word in document_words)

    for bigrams, i in top_bigrams:
        features['contains_bigram({})'.format(bigrams)] = (bigrams in bigram)
  
    return features

In [9]:
# Juntamos las listas indicando si tienen palabras de las mas comunes
import random
fset_ham = [(document_featuresEmail(texto), 0) for texto in list_ham]
fset_spam = [(document_featuresEmail(texto), 1) for texto in list_spam]
fset = fset_spam + fset_ham
random.shuffle(fset)
len(fset)

5172

In [10]:
fset_train, fset_test = fset[:2000], fset[2000:]
# Entrenamos el programa
classifier = nltk.NaiveBayesClassifier.train(fset_train)

In [11]:
classifier.classify(document_featuresEmail(list_ham[34]))

1

In [12]:
print(nltk.classify.accuracy(classifier, fset_test))

0.8575031525851198


In [13]:
classifier.show_most_informative_features(5)

Most Informative Features
            contains(cc) = True                0 : 1      =    131.5 : 1.0
     contains(forwarded) = True                0 : 1      =     95.3 : 1.0
          contains(2001) = True                0 : 1      =     86.3 : 1.0
contains_bigram(('pm', 'to')) = True                0 : 1      =     83.8 : 1.0
contains_bigram(('am', 'to')) = True                0 : 1      =     81.1 : 1.0


In [14]:
!jupyter nbconvert --to=python 4_clasificacion.ipynb

[NbConvertApp] Converting notebook 4_clasificacion.ipynb to python
[NbConvertApp] Writing 4269 bytes to 4_clasificacion.py
