# Clasificación de palabras (por género de nombre)

In [1]:
import nltk, random
nltk.download('names')
from nltk.corpus import names 

[nltk_data] Downloading package names to /home/oem/nltk_data...
[nltk_data]   Package names is already up-to-date!


**Función básica de extracción de atributos**

Creamos una función donde nos devuelve unicamente la última letra de cada palabra

In [2]:
# definición de atributos relevantes
def atributos(palabra):
    return {'Ultima letra': palabra[-1]}

Unimos la lista de nombres **masculinos** y **femeninos** en una lista de tuplas

In [3]:
tagset = [(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')]
len(tagset)

7944

Hacemos que la lista sea distribuida aleatoriamente para evitar el sesgo, ya que la lista de nombres masculinos queda primero que la lista de nombres femeninos.

In [4]:
random.shuffle(tagset)
tagset[:10]

[('Lust', 'female'),
 ('Melisenda', 'female'),
 ('Donny', 'female'),
 ('Jewelle', 'female'),
 ('Filbert', 'male'),
 ('Monte', 'male'),
 ('Norwood', 'male'),
 ('Heidie', 'female'),
 ('Ximenez', 'male'),
 ('Joelle', 'female')]

Creo una segunda lista de atributos, ya que nuestro modelo NO lee los nombres, sino los atributos de los nombres.

In [5]:
fset1 = [(atributos(n), g) for (n, g) in tagset]

Divido el dataset en los conjuntos de entrenamiento y pruebas

In [6]:
train1, test1 = fset1[2000:], fset1[:2000]
print(len(train1))
print(len(test1))

5944
2000


**Modelo de clasificación Naive Bayes**

In [7]:
# entrenamiento del modelo NaiveBayes
classifier = nltk.NaiveBayesClassifier.train(train1)

 **Verificación de algunas predicciones**

In [8]:
classifier.classify(atributos('amanda'))

'female'

In [9]:
classifier.classify(atributos('peter'))

'male'

**Performance del modelo**

In [10]:
print(nltk.classify.accuracy(classifier, train1))

0.7668236877523553


In [11]:
print(nltk.classify.accuracy(classifier, test1))

0.747


**Mejores atributos**

Los atributos se almacenan en un diccionario. Creo una función de atributos completamente personalizada (Hay que recordar que no hay un protocolo establecido para definir atributos).

Para este caso:
* Atributo 1: La primera letra de la palabra
* Atributo 2: La última letra de la palabra
* Atributo 3: Cuantas veces aparece una letra del alfabeto en la palabra
* Atributo 4: Si el alfabeto tiene o no tiene una letra del alfabeto

In [12]:
def mas_atributos(nombre):
    atributos = {}
    atributos["primera_letra"] = nombre[0].lower()
    atributos["ultima_letra"] = nombre[-1].lower()
    for letra in 'abcdefghijklmnopqrstuvwxyz':
        atributos["count({})".format(letra)] = nombre.lower().count(letra)
        atributos["has({})".format(letra)] = (letra in nombre.lower())
    return atributos

In [13]:
mas_atributos('jhon')

{'primera_letra': 'j',
 'ultima_letra': 'n',
 'count(a)': 0,
 'has(a)': False,
 'count(b)': 0,
 'has(b)': False,
 'count(c)': 0,
 'has(c)': False,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 0,
 'has(e)': False,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 1,
 'has(h)': True,
 'count(i)': 0,
 'has(i)': False,
 'count(j)': 1,
 'has(j)': True,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 0,
 'has(l)': False,
 'count(m)': 0,
 'has(m)': False,
 'count(n)': 1,
 'has(n)': True,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 0,
 'has(r)': False,
 'count(s)': 0,
 'has(s)': False,
 'count(t)': 0,
 'has(t)': False,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 0,
 'has(y)': False,
 'count(z)': 0,
 'has(z)': False}

In [14]:
fset2 = [(mas_atributos(n), g) for (n, g) in tagset]
train2, test2 = fset2[2000:], fset2[:2000]

In [15]:
classifier2 = nltk.NaiveBayesClassifier.train(train2)

In [16]:
print(nltk.classify.accuracy(classifier2, train2))

0.7823014804845222


In [17]:
print(nltk.classify.accuracy(classifier2, test2))

0.766


### Ejercicio de práctica

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [18]:
!git clone https://github.com/jvalhondo/spanish-names-surnames

fatal: la ruta de destino 'spanish-names-surnames' ya existe y no es un directorio vacío.


In [19]:
def atributos_esp(nombre):
    atributos = {}
    atributos["primera_letra"] = nombre[0].lower()
    atributos["ultima_letra"] = nombre[-1].lower() #Ultima letra
    #atributos["ultimas_cinco_letras"] = nombre[-5:].lower() #ultimas 5 letras
    atributos["palabras"] = len(nombre.split(" ")) #Cuantas palabras tiene el nombre
    for i, palabra in enumerate(nombre.split(" ")):
        atributos["primera_letra({})".format(i)] = palabra[0].lower()
        atributos["ultima_letra({})".format(i)] = palabra[-1].lower()
    return atributos

In [20]:
import numpy as np
tag_men = np.genfromtxt('spanish-names-surnames/male_names.csv', skip_header=1, delimiter=',', dtype=('U20','i8','f8'))
tag_women = np.genfromtxt('spanish-names-surnames/female_names.csv', skip_header=1, delimiter=',', dtype=('U20','i8','f8'))

In [21]:
tagsetE = [(name[0], 'male') for name in tag_men] + [(name[0], 'female') for name in tag_women]
len(tagsetE)

49340

In [22]:
random.shuffle(tagsetE)
tagsetE

[('NADIUSKA', 'female'),
 ('DJIBY', 'male'),
 ('POMPEYA', 'female'),
 ('MARYAMA', 'female'),
 ('ELICINIA', 'female'),
 ('JUANA MAGDALENA', 'female'),
 ('MANUEL CEFERINO', 'male'),
 ('DENISA ANA MARIA', 'female'),
 ('MARTIRIO', 'female'),
 ('GRACIELA ROSA', 'female'),
 ('YUHAN', 'male'),
 ('HONGFEN', 'female'),
 ('ERIKA JULIETH', 'female'),
 ('RICARDO GABRIEL', 'male'),
 ('ROSA ERLINDA', 'female'),
 ('PAOLA CAROLINA', 'female'),
 ('VICTOR FELIPE', 'male'),
 ('MARIA IDAIRA', 'female'),
 ('CANDELARIA COVADONGA', 'female'),
 ('RAUL JULIAN', 'male'),
 ('DUMITRU VASILE', 'male'),
 ('USOA', 'female'),
 ('PLAMEN IVANOV', 'male'),
 ('CONRADA', 'female'),
 ('ELVIRA JOSEFA', 'female'),
 ('RANA', 'female'),
 ('PAUL IOAN', 'male'),
 ('LUISA', 'female'),
 ('MARIA INOCENTA', 'female'),
 ('MIRIAN DOLORES', 'female'),
 ('MARIA DAVINIA', 'female'),
 ('SERGE', 'male'),
 ('JOSHUA JAMES', 'male'),
 ('NUNO FELIPE', 'male'),
 ('EDGAR SANTIAGO', 'male'),
 ('KATRIEN', 'female'),
 ('RAUL EDUARDO', 'male'),
 ('J

In [23]:
atributos_esp('DIANA MARISOL')

{'primera_letra': 'd',
 'ultima_letra': 'l',
 'palabras': 2,
 'primera_letra(0)': 'd',
 'ultima_letra(0)': 'a',
 'primera_letra(1)': 'm',
 'ultima_letra(1)': 'l'}

In [24]:
atributos_esp('VASILKA')

{'primera_letra': 'v',
 'ultima_letra': 'a',
 'palabras': 1,
 'primera_letra(0)': 'v',
 'ultima_letra(0)': 'a'}

2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [25]:
# escribe tu código aquí
fsetE1 = [(atributos(n), g) for (n, g) in tagsetE]
trainE1, testE1 = fsetE1[10000:], fsetE1[:10000]
print(len(trainE1))
print(len(testE1))

39340
10000


In [26]:
classifierE1 = nltk.NaiveBayesClassifier.train(trainE1)
print(nltk.classify.accuracy(classifierE1, trainE1))
print(nltk.classify.accuracy(classifierE1, testE1))

0.7894001016776817
0.7899


In [27]:
fsetE2 = [(mas_atributos(n), g) for (n, g) in tagsetE]
trainE2, testE2 = fsetE2[10000:], fsetE2[:10000]

In [28]:
classifierE2 = nltk.NaiveBayesClassifier.train(trainE2)
print(nltk.classify.accuracy(classifierE2, trainE2))
print(nltk.classify.accuracy(classifierE2, testE2))

0.7991103202846975
0.8047


3. **Mejores atributos:** Define una función como `atributos_esp()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [29]:
# escribe tu código aquí
fsetE3 = [(atributos_esp(n), g) for (n, g) in tagsetE]
trainE3, testE3 = fsetE3[10000:], fsetE3[:10000]
print(len(trainE3))
print(len(testE3))

39340
10000


In [30]:
classifierE3 = nltk.NaiveBayesClassifier.train(trainE3)
print(nltk.classify.accuracy(classifierE3, trainE3))
print(nltk.classify.accuracy(classifierE3, testE3))

0.8632435180477885
0.8636


# Clasificación de documentos (email spam o no spam)

In [31]:
!git clone https://github.com/pachocamacho1990/datasets

fatal: la ruta de destino 'datasets' ya existe y no es un directorio vacío.


In [32]:
import pandas as pd
import numpy as np
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /home/oem/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/oem/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [33]:
df = pd.read_csv('datasets/email/csv/spam-apache.csv', names = ['clase','contenido'])
df['tokens'] = df['contenido'].apply(lambda x: word_tokenize(x))
print(len(df))
df.head()

250


Unnamed: 0,clase,contenido,tokens
0,-1,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.0 Tr...","[<, !, DOCTYPE, HTML, PUBLIC, ``, -//W3C//DTD,..."
1,1,> Russell Turpin:\n> > That depends on how the...,"[>, Russell, Turpin, :, >, >, That, depends, o..."
2,-1,Help wanted. We are a 14 year old fortune 500...,"[Help, wanted, ., We, are, a, 14, year, old, f..."
3,-1,Request A Free No Obligation Consultation!\nAc...,"[Request, A, Free, No, Obligation, Consultatio..."
4,1,Is there a way to look for a particular file o...,"[Is, there, a, way, to, look, for, a, particul..."


In [34]:
df['tokens'].values[0]

['<',
 '!',
 'DOCTYPE',
 'HTML',
 'PUBLIC',
 '``',
 '-//W3C//DTD',
 'HTML',
 '4.0',
 'Transitional//EN',
 "''",
 '>',
 '<',
 'HTML',
 '>',
 '<',
 'HEAD',
 '>',
 '<',
 'META',
 'http-equiv=Content-Type',
 'content=',
 "''",
 'text/html',
 ';',
 'charset=iso-8859-1',
 "''",
 '>',
 '<',
 'META',
 'content=',
 "''",
 'MSHTML',
 '6.00.2600.0',
 "''",
 'name=GENERATOR',
 '>',
 '<',
 'STYLE',
 '>',
 '<',
 '/STYLE',
 '>',
 '<',
 '/HEAD',
 '>',
 '<',
 'BODY',
 'bgColor=',
 '#',
 'ffffff',
 '>',
 '<',
 'DIV',
 '>',
 '<',
 'FONT',
 'face=Arial',
 'size=2',
 '>',
 '<',
 'FONT',
 'face=',
 "''",
 'Times',
 'New',
 'Roman',
 "''",
 'size=3',
 '>',
 'Dear',
 'Friend',
 ',',
 '<',
 'BR',
 '>',
 '<',
 'BR',
 '>',
 'A',
 'recent',
 'survey',
 'by',
 'Nielsen/Netratings',
 'says',
 'that',
 '``',
 'The',
 'Internet',
 '<',
 'BR',
 '>',
 'population',
 'is',
 'rapidly',
 'approaching',
 'a',
 "'Half",
 'a',
 'Billion',
 "'",
 'people',
 '!',
 '``',
 '<',
 'BR',
 '>',
 '<',
 'BR',
 '>',
 'SO',
 'WHAT',
 'D

In [35]:
all_words = nltk.FreqDist([w for tokenlist in df['tokens'].values for w in tokenlist])
top_words = all_words.most_common(200)
top_words

[('.', 2200),
 (',', 2173),
 ('the', 1963),
 ('>', 1787),
 ('--', 1611),
 ('to', 1435),
 (':', 1220),
 ('and', 1064),
 ('of', 958),
 ('a', 879),
 ('you', 743),
 ('in', 742),
 ('I', 741),
 ('<', 718),
 ('!', 698),
 ('%', 677),
 ('for', 609),
 ('is', 577),
 ('#', 521),
 ('BR', 494),
 ('that', 477),
 (')', 463),
 ('it', 458),
 ("''", 434),
 ('$', 413),
 ('this', 384),
 ('(', 380),
 ('on', 378),
 ('http', 362),
 ('?', 360),
 ('your', 359),
 ('have', 351),
 ('with', 334),
 ('...', 327),
 ('``', 307),
 ('be', 299),
 ('-', 289),
 ('from', 271),
 ("'s", 263),
 ('are', 257),
 ('31', 255),
 ('or', 252),
 ('as', 251),
 ('will', 243),
 ('not', 224),
 ('30', 220),
 ('my', 206),
 ('at', 199),
 ('The', 196),
 ('has', 195),
 ('can', 194),
 ('&', 181),
 ('all', 176),
 ("n't", 175),
 ('do', 167),
 ('out', 166),
 ('but', 164),
 ('our', 160),
 ('by', 156),
 ('if', 152),
 ('was', 149),
 ('one', 129),
 ('an', 129),
 ('just', 128),
 ('@', 128),
 ('This', 125),
 ('1', 123),
 ('more', 118),
 ('You', 117),
 ('5

In [36]:
def document_features(document, top_words=top_words):
    document_words = set(document)
    features = {}
    for word, freq in top_words:
        features['contains({})'.format(word)] = (word in document_words)
    return features

In [37]:
document_features(df['tokens'].values[0])

{'contains(.)': True,
 'contains(,)': True,
 'contains(the)': True,
 'contains(>)': True,
 'contains(--)': True,
 'contains(to)': True,
 'contains(:)': True,
 'contains(and)': True,
 'contains(of)': True,
 'contains(a)': True,
 'contains(you)': True,
 'contains(in)': True,
 'contains(I)': True,
 'contains(<)': True,
 'contains(!)': True,
 'contains(%)': True,
 'contains(for)': True,
 'contains(is)': True,
 'contains(#)': True,
 'contains(BR)': True,
 'contains(that)': True,
 'contains())': True,
 'contains(it)': True,
 "contains('')": True,
 'contains($)': True,
 'contains(this)': True,
 'contains(()': True,
 'contains(on)': True,
 'contains(http)': False,
 'contains(?)': True,
 'contains(your)': True,
 'contains(have)': True,
 'contains(with)': True,
 'contains(...)': True,
 'contains(``)': True,
 'contains(be)': True,
 'contains(-)': True,
 'contains(from)': True,
 "contains('s)": True,
 'contains(are)': True,
 'contains(31)': False,
 'contains(or)': True,
 'contains(as)': True,
 'co

Lo primero que hacemos es un conjunto de atributos como una lista de **tuplas**, obteniendo **textos** y **clases**. De esta forma estamos recorriendo dos listas de forma simultanea.

La función `zip` se utiliza porque se estan recorriendo dos listas de forma simultanea.

In [38]:
fset = [(document_features(texto), clase) for texto, clase in zip(df['tokens'].values, df['clase'].values)]
random.shuffle(fset)
train, test = fset[:200], fset[200:]

In [39]:
classifier = nltk.NaiveBayesClassifier.train(train)

In [40]:
print(nltk.classify.accuracy(classifier, train))

0.97


In [41]:
print(nltk.classify.accuracy(classifier, test))

0.94


In [42]:
df[df['clase']==-1]['contenido']

0      <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Tr...
2      Help wanted.  We are a 14 year old fortune 500...
3      Request A Free No Obligation Consultation!\nAc...
10     >\n>“µ×è¹µÑÇ ¡ÑºâÅ¡¸ØÃ¡Ô¨º¹ÍÔ¹àµÍÃìà¹çµ” \n>àµ...
                             ...                        
243    ##############################################...
244    Wanna see sexually curious teens playing with ...
246    REQUEST FOR URGENT BUSINESS ASSISTANCE\n------...
248    Email marketing works!  There's no way around ...
249    Email marketing works!  There's no way around ...
Name: contenido, Length: 125, dtype: object

In [43]:
classifier.show_most_informative_features(5)

Most Informative Features
             contains(]) = True                1 : -1     =     13.3 : 1.0
          contains(YOUR) = True               -1 : 1      =     12.1 : 1.0
            contains(We) = True               -1 : 1      =     11.9 : 1.0
             contains([) = True                1 : -1     =     11.9 : 1.0
         contains(below) = True               -1 : 1      =     10.0 : 1.0


## Ejercicio de práctica


¿Como podrías construir un mejor clasificador de documentos?

0. **Dataset más grande:** El conjunto de datos que usamos fue muy pequeño, considera usar los archivos corpus que estan ubicados en la ruta: `datasets/email/plaintext/` 

1. **Limpieza:** como te diste cuenta no hicimos ningun tipo de limpieza de texto en los correos electrónicos. Considera usar expresiones regulares, filtros por categorias gramaticales, etc ... . 

---

Con base en eso construye un dataset más grande y con un tokenizado más pulido. 

In [44]:
# Descomprimir ZIP
import zipfile
fantasy_zip = zipfile.ZipFile('datasets/email/plaintext/corpus1.zip')
fantasy_zip.extractall('datasets/email/plaintext')
fantasy_zip.close()

In [45]:
# Creamos un listado de los archivos dentro del Corpus1 ham/spam
from os import listdir

path_ham = "datasets/email/plaintext/corpus1/ham/"
filepaths_ham = [path_ham+f for f in listdir(path_ham) if f.endswith('.txt')]

path_spam = "datasets/email/plaintext/corpus1/spam/"
filepaths_spam = [path_spam+f for f in listdir(path_spam) if f.endswith('.txt')]

In [46]:
# Creamos la funcion para tokenizar y leer los archivos 

def abrir(texto):
    with open(texto, 'r', errors='ignore') as f2:
        data = f2.read()
        data = word_tokenize(data)
    return data

In [47]:
# Creamos la lista tokenizada del ham
list_ham = list(map(abrir, filepaths_ham))
# Creamos la lista tokenizada del spam
list_spam = list(map(abrir, filepaths_spam))

2. **Validación del modelo anterior:**  
---

una vez tengas el nuevo conjunto de datos más pulido y de mayor tamaño, considera el mismo entrenamiento con el mismo tipo de atributos del ejemplo anterior, ¿mejora el accuracy del modelo resultante?

3. **Construye mejores atributos**: A veces no solo se trata de las palabras más frecuentes sino de el contexto, y capturar contexto no es posible solo viendo los tokens de forma individual, ¿que tal si consideramos bi-gramas, tri-gramas ...?, ¿las secuencias de palabras podrián funcionar como mejores atributos para el modelo?. Para ver si es así,  podemos extraer n-gramas de nuestro corpus y obtener sus frecuencias de aparición con `FreqDist()`, desarrolla tu propia manera de hacerlo y entrena un modelo con esos nuevos atributos, no olvides compartir tus resultados en la sección de comentarios. 

In [None]:
# Separamos las palabras mas comunes
all_words = nltk.FreqDist([w for tokenlist in list_ham+list_spam for w in tokenlist])
top_words = all_words.most_common(250)
top_words

In [None]:
# Agregamos Bigramas
bigram_text = nltk.Text([w for token in list_ham+list_spam for w in token])
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250)
top_bigrams

In [None]:
def document_featuresEmail(document, top_words=top_words, top_bigrams=top_bigrams):
    document_words = set(document)
    bigram = set(list(nltk.bigrams(nltk.Text([token for token in document]))))
    features = {}
    for word, j in top_words:
        features['contains({})'.format(word)] = (word in document_words)

    for bigrams, i in top_bigrams:
        features['contains_bigram({})'.format(bigrams)] = (bigrams in bigram)
  
    return features

In [None]:
# Juntamos las listas indicando si tienen palabras de las mas comunes
import random
fset_ham = [(document_features(texto), 0) for texto in list_ham]
fset_spam = [(document_features(texto), 1) for texto in list_spam]
fset = fset_spam + fset_ham
random.shuffle(fset)
len(fset)

In [None]:
fset_train, fset_test = fset[:2000], fset[2000:]
# Entrenamos el programa
classifier = nltk.NaiveBayesClassifier.train(fset_train)

In [None]:
classifier.classify(document_features(list_ham[34]))

In [None]:
print(nltk.classify.accuracy(classifier, fset_test))

In [None]:
classifier.show_most_informative_features(5)

[('-', 85724),
 ('.', 54709),
 ('/', 42848),
 (',', 40664),
 (':', 30278),
 ('the', 25656),
 ('to', 20345),
 ('ect', 13900),
 ('and', 12829),
 ('@', 12736),
 ('for', 10508),
 ('of', 10188),
 ('a', 9820),
 ('you', 8162),
 ('in', 7717),
 ("'", 7542),
 ('on', 7317),
 ('hou', 7289),
 ('this', 7171),
 ('is', 7170),
 ('?', 6881),
 ('enron', 6555),
 ('i', 6391),
 (')', 6089),
 ('(', 5758),
 ('>', 5622),
 ('Subject', 5172),
 ('be', 5067),
 ('=', 4912),
 ('that', 4769),
 (';', 4708),
 ('2000', 4386),
 ('we', 4341),
 ('from', 4192),
 ('will', 4137),
 ('have', 4097),
 ('your', 4042),
 ('with', 3987),
 ('at', 3735),
 ('com', 3710),
 ('!', 3637),
 ('s', 3435),
 ('are', 3388),
 ('it', 3335),
 ('please', 3200),
 ('as', 3157),
 ('if', 3135),
 ('or', 3080),
 ('not', 3074),
 ('gas', 3034),
 ('``', 3020),
 ('_', 3009),
 ('by', 3000),
 ('3', 2922),
 ('$', 2891),
 ('subject', 2889),
 ('deal', 2827),
 ('1', 2743),
 ('me', 2572),
 ('am', 2533),
 ('meter', 2459),
 ('00', 2404),
 ('#', 2385),
 ('2', 2379),
 ('

In [49]:
# Agregamos Bigramas
bigram_text = nltk.Text([w for token in list_ham+list_spam for w in token])
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250)
top_bigrams

[(('-', '-'), 65612),
 (('/', 'ect'), 7313),
 (('/', 'hou'), 7278),
 (('hou', '/'), 7278),
 (('@', 'ect'), 6547),
 (('ect', '@'), 6420),
 (('Subject', ':'), 5172),
 (('.', '.'), 4350),
 (('ect', ','), 4278),
 (('>', '>'), 3810),
 (('.', 'com'), 3650),
 (('?', '?'), 3213),
 (('to', ':'), 2766),
 (('/', '2000'), 2700),
 (('subject', ':'), 2683),
 (('@', 'enron'), 2524),
 (('/', 'enron'), 2409),
 (("'", 's'), 2380),
 (('cc', ':'), 2336),
 (('of', 'the'), 2317),
 (('.', 'i'), 1877),
 (('.', 'the'), 1840),
 (('=', '='), 1786),
 (('in', 'the'), 1748),
 (('re', ':'), 1646),
 (('enron', '@'), 1629),
 ((':', 're'), 1613),
 (('if', 'you'), 1587),
 (('_', '_'), 1558),
 (('for', 'the'), 1545),
 ((',', '000'), 1446),
 (('ect', 'cc'), 1388),
 (('will', 'be'), 1378),
 (('on', 'the'), 1367),
 (('pm', 'to'), 1351),
 (('.', 'thanks'), 1318),
 ((',', 'and'), 1294),
 ((':', '/'), 1271),
 (('/', '/'), 1267),
 (('from', ':'), 1260),
 (('-', 'forwarded'), 1249),
 (('forwarded', 'by'), 1248),
 (('to', 'the'),

In [50]:
def document_featuresEmail(document, top_words=top_words, top_bigrams=top_bigrams):
    document_words = set(document)
    bigram = set(list(nltk.bigrams(nltk.Text([token for token in document]))))
    features = {}
    for word, j in top_words:
        features['contains({})'.format(word)] = (word in document_words)

    for bigrams, i in top_bigrams:
        features['contains_bigram({})'.format(bigrams)] = (bigrams in bigram)
  
    return features

In [51]:
# Juntamos las listas indicando si tienen palabras de las mas comunes
import random
fset_ham = [(document_features(texto), 0) for texto in list_ham]
fset_spam = [(document_features(texto), 1) for texto in list_spam]
fset = fset_spam + fset_ham
random.shuffle(fset)
len(fset)

5172

In [52]:
fset_train, fset_test = fset[:2000], fset[2000:]
# Entrenamos el programa
classifier = nltk.NaiveBayesClassifier.train(fset_train)

In [53]:
classifier.classify(document_features(list_ham[34]))

0

In [54]:
print(nltk.classify.accuracy(classifier, fset_test))

0.9025851197982345


In [55]:
classifier.show_most_informative_features(5)

Most Informative Features
             contains(|) = True                1 : 0      =     23.0 : 1.0
          contains(http) = True                1 : 0      =      7.7 : 1.0
         contains(money) = True                1 : 0      =      7.3 : 1.0
            contains(am) = True                0 : 1      =      7.0 : 1.0
             contains(*) = True                1 : 0      =      6.4 : 1.0
