# Clasificación de palabras (por género de nombre)

In [1]:
import nltk, random
nltk.download('names')
from nltk.corpus import names 

[nltk_data] Downloading package names to /root/nltk_data...
[nltk_data]   Package names is already up-to-date!


**Función básica de extracción de atributos**

In [2]:
# definición de atributos relevantes
def atributos(palabra):
	return {'ultima_letra': palabra[-1]}

In [3]:
# Creacion del tagset usando los archivos de texto generados por names
tagset = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])

In [4]:
tagset[:10]

[('Aamir', 'male'),
 ('Aaron', 'male'),
 ('Abbey', 'male'),
 ('Abbie', 'male'),
 ('Abbot', 'male'),
 ('Abbott', 'male'),
 ('Abby', 'male'),
 ('Abdel', 'male'),
 ('Abdul', 'male'),
 ('Abdulkarim', 'male')]

In [5]:
random.shuffle(tagset)
tagset[:10]

[('Bruce', 'male'),
 ('Godwin', 'male'),
 ('Lenore', 'female'),
 ('Ellene', 'female'),
 ('Lyndon', 'male'),
 ('Fiona', 'female'),
 ('Nadean', 'female'),
 ('Douglis', 'male'),
 ('Olia', 'female'),
 ('Kalila', 'female')]

In [6]:
fset = [(atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]

**Modelo de clasificación Naive Bayes**

In [7]:
# entrenamiento del modelo NaiveBayes
classifier = nltk.NaiveBayesClassifier.train(train)

 **Verificación de algunas predicciones**

In [8]:
classifier.classify(atributos('amanda'))

'female'

In [9]:
classifier.classify(atributos('peter'))

'male'

**Performance del modelo**

In [10]:
print(nltk.classify.accuracy(classifier, test))

0.764


In [11]:
print(nltk.classify.accuracy(classifier, train))

0.7627619559376679


**Mejores atributos**

In [12]:
def mas_atributos(nombre):
    atrib = {}
    atrib["primera_letra"] = nombre[0].lower()
    atrib["ultima_letra"] = nombre[-1].lower()
    for letra in 'abcdefghijklmnopqrstuvwxyz':
        #atrib 3. numero de veces aparece la letra
        atrib["count({})".format(letra)] = nombre.lower().count(letra)
        #atrib 4. si tiene o no la letra
        atrib["has({})".format(letra)] = (letra in nombre.lower())
    return atrib

In [13]:
mas_atributos('jhon')

{'count(a)': 0,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 1,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 0,
 'count(t)': 0,
 'count(u)': 0,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0,
 'has(a)': False,
 'has(b)': False,
 'has(c)': False,
 'has(d)': False,
 'has(e)': False,
 'has(f)': False,
 'has(g)': False,
 'has(h)': True,
 'has(i)': False,
 'has(j)': True,
 'has(k)': False,
 'has(l)': False,
 'has(m)': False,
 'has(n)': True,
 'has(o)': True,
 'has(p)': False,
 'has(q)': False,
 'has(r)': False,
 'has(s)': False,
 'has(t)': False,
 'has(u)': False,
 'has(v)': False,
 'has(w)': False,
 'has(x)': False,
 'has(y)': False,
 'has(z)': False,
 'primera_letra': 'j',
 'ultima_letra': 'n'}

In [14]:
fset = [(mas_atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]
classifier2 = nltk.NaiveBayesClassifier.train(train)

In [None]:
print(nltk.classify.accuracy(classifier2, test))

### Ejercicio de práctica

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [16]:
# escribe tu código aquí
!git clone https://github.com/jvalhondo/spanish-names-surnames

fatal: destination path 'spanish-names-surnames' already exists and is not an empty directory.


In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split

male_names = pd.read_csv('/content/spanish-names-surnames/male_names.csv')
female_names =  pd.read_csv('/content/spanish-names-surnames/female_names.csv')
female_names.dropna(axis=0, inplace=True)

tagnames = [(name.lower(), 'male') for name in male_names['name']] + [(name.lower(), 'female') for name in female_names['name']] 
random.shuffle(tagset)

In [18]:
# definición de atributos relevantes
def atributos(palabra):
	return {'ultima_letra': palabra[-1]}

In [19]:
# Creando dataset con atributos
fset = [(atributos(n), g) for (n, g) in tagset]

# Dividiendo en train_data y test_data
train_data, test_data = train_test_split(fset, test_size=0.20)

2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [20]:
# escribe tu código aquí
classifier = nltk.NaiveBayesClassifier.train(train_data)

print(f'test_data accuracy: {nltk.classify.accuracy(classifier, test_data)}')
print(f'train_data accuracy {nltk.classify.accuracy(classifier, train_data)}')

test_data accuracy: 0.7715544367526747
train_data accuracy 0.7594020456333596


3. **Mejores atributos:** Define una función como `atributos2()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [21]:
def atributos2(nombre):
    atrib = {}
    atrib["nombre"] = nombre.lower()
    atrib["primera_letra"] = nombre[0].lower()
    atrib["ultima_letra"] = nombre[-1].lower()
    atrib["primeras_dos_letras"] = nombre[:2].lower()
    atrib["ultimas_dos_letras"] = nombre[-2:].lower()

    for letra in 'abcdefghijklmnopqrstuvwxyz':
        #atrib 3. numero de veces aparece la letra
        atrib["count({})".format(letra)] = nombre.lower().count(letra)
        #atrib 4. si tiene o no la letra
        atrib["has({})".format(letra)] = (letra in nombre.lower())
    return atrib

In [22]:
fset2 = [(mas_atributos(n), g) for (n, g) in tagset]

# Dividiendo en train_data y test_data
train_data2, test_data2 = train_test_split(fset2, test_size=0.20)

In [23]:
classifier2 = nltk.NaiveBayesClassifier.train(train_data2)
print(f'train_data accuracy: {nltk.classify.accuracy(classifier2, train_data2)}')
print(f'test_data accuracy {nltk.classify.accuracy(classifier2, test_data2)}')

train_data accuracy: 0.7801730920535012
test_data accuracy 0.7734424166142227


# Clasificación de documentos (email spam o no spam)

In [1]:
!git clone https://github.com/pachocamacho1990/datasets

Cloning into 'datasets'...
remote: Enumerating objects: 39, done.[K
remote: Total 39 (delta 0), reused 0 (delta 0), pack-reused 39[K
Unpacking objects: 100% (39/39), done.


In [9]:
import pandas as pd
import numpy as np
import nltk
import random
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [5]:
df = pd.read_csv('datasets/email/csv/spam-apache.csv', names = ['clase','contenido'])
df['tokens'] = df['contenido'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,clase,contenido,tokens
0,-1,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.0 Tr...","[<, !, DOCTYPE, HTML, PUBLIC, ``, -//W3C//DTD,..."
1,1,> Russell Turpin:\n> > That depends on how the...,"[>, Russell, Turpin, :, >, >, That, depends, o..."
2,-1,Help wanted. We are a 14 year old fortune 500...,"[Help, wanted, ., We, are, a, 14, year, old, f..."
3,-1,Request A Free No Obligation Consultation!\nAc...,"[Request, A, Free, No, Obligation, Consultatio..."
4,1,Is there a way to look for a particular file o...,"[Is, there, a, way, to, look, for, a, particul..."


In [None]:
df['tokens'].values[0]

In [6]:
#obtendremos la lista de palabras mas frecuentes para usarlas como aproximacion inicial

all_words = nltk.FreqDist([w for tokenlist in df['tokens'].values for w in tokenlist])
top_words = all_words.most_common(200)

def document_features(document):
    document_words = set(document)
    features = {}
    for word in top_words:
        features['contains({})'.format(word)] = (word in document_words)
    return features

In [7]:
document_features(df['tokens'].values[0])

{'contains(("\'", 88))': False,
 'contains(("\'\'", 438))': False,
 'contains(("\'m", 51))': False,
 'contains(("\'re", 41))': False,
 'contains(("\'s", 263))': False,
 'contains(("\'ve", 39))': False,
 'contains(("n\'t", 175))': False,
 "contains(('!', 698))": False,
 "contains(('#', 521))": False,
 "contains(('$', 413))": False,
 "contains(('%', 677))": False,
 "contains(('&', 181))": False,
 "contains(('(', 380))": False,
 "contains((')', 463))": False,
 "contains(('*', 43))": False,
 "contains((',', 2173))": False,
 "contains(('-', 283))": False,
 "contains(('--', 1611))": False,
 "contains(('.', 2200))": False,
 "contains(('...', 327))": False,
 "contains(('//www.adclick.ws/p.cfm', 40))": False,
 "contains(('1', 123))": False,
 "contains(('2', 94))": False,
 "contains(('2002', 67))": False,
 "contains(('3', 72))": False,
 "contains(('30', 220))": False,
 "contains(('31', 255))": False,
 "contains(('4', 61))": False,
 "contains(('5', 116))": False,
 "contains((':', 1220))": False,


In [10]:
fset = [(document_features(texto), clase) 
            for texto, clase in zip(df['tokens'].values, df['clase'].values)]
            #zip() permite recorrer ambas columnas/listas al mismo tiempo, great hack
random.shuffle(fset)
train, test = fset[:200], fset[200:]

In [11]:
classifier = nltk.NaiveBayesClassifier.train(train)

In [12]:
print(nltk.classify.accuracy(classifier, test))

0.46


In [15]:
classifier.show_most_informative_features(10)

Most Informative Features
  contains(('been', 87)) = False               1 : -1     =      1.0 : 1.0
    contains(('-', 283)) = False               1 : -1     =      1.0 : 1.0
contains(('Please', 47)) = False               1 : -1     =      1.0 : 1.0
 contains(('your', 359)) = False               1 : -1     =      1.0 : 1.0
 contains(('their', 76)) = False               1 : -1     =      1.0 : 1.0
  contains(('THE', 108)) = False               1 : -1     =      1.0 : 1.0
  contains(('get', 107)) = False               1 : -1     =      1.0 : 1.0
    contains(('OF', 67)) = False               1 : -1     =      1.0 : 1.0
contains(('within', 47)) = False               1 : -1     =      1.0 : 1.0
    contains(('so', 99)) = False               1 : -1     =      1.0 : 1.0


In [14]:
df[df['clase']==-1]['contenido']

0      <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Tr...
2      Help wanted.  We are a 14 year old fortune 500...
3      Request A Free No Obligation Consultation!\nAc...
10     >\n>“µ×è¹µÑÇ ¡ÑºâÅ¡¸ØÃ¡Ô¨º¹ÍÔ¹àµÍÃìà¹çµ” \n>àµ...
                             ...                        
243    ##############################################...
244    Wanna see sexually curious teens playing with ...
246    REQUEST FOR URGENT BUSINESS ASSISTANCE\n------...
248    Email marketing works!  There's no way around ...
249    Email marketing works!  There's no way around ...
Name: contenido, Length: 125, dtype: object

## Ejercicio de práctica


¿Como podrías construir un mejor clasificador de documentos?

0. **Dataset más grande:** El conjunto de datos que usamos fue muy pequeño, considera usar los archivos corpus que estan ubicados en la ruta: `datasets/email/plaintext/` 

1. **Limpieza:** como te diste cuenta no hicimos ningun tipo de limpieza de texto en los correos electrónicos. Considera usar expresiones regulares, filtros por categorias gramaticales, etc ... . 

---

Con base en eso construye un dataset más grande y con un tokenizado más pulido. 

In [17]:
# escribe tu código aquí
!git clone https://github.com/jvalhondo/spanish-names-surnames

Cloning into 'spanish-names-surnames'...
remote: Enumerating objects: 36, done.[K
remote: Total 36 (delta 0), reused 0 (delta 0), pack-reused 36[K
Unpacking objects: 100% (36/36), done.


In [18]:
import zipfile
import random

import pandas as pd
import numpy as np
import nltk

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [19]:
unzip_files = zipfile.ZipFile('/content/datasets/email/plaintext/corpus1.zip')
unzip_files.extractall('/content/datasets/email/plaintext')
unzip_files.close()

In [23]:
from os import listdir

In [24]:
path_ham = "/content/datasets/email/plaintext/corpus1/ham/"
filepaths_ham = [path_ham+f for f in listdir(path_ham) if f.endswith('.txt')]

path_spam = "/content/datasets/email/plaintext/corpus1/spam/"
filepaths_spam = [path_spam+f for f in listdir(path_spam) if f.endswith('.txt')]

In [25]:
# Creamos la funcion para tokenizar y leer los archivos 

def abrir(texto):
  with open(texto, 'r', errors='ignore') as f2:
    data = f2.read()
    data = word_tokenize(data)
  return data

# Creamos la lista tokenizada del ham
list_ham = list(map(abrir, filepaths_ham))
# Creamos la lista tokenizada del spam
list_spam = list(map(abrir, filepaths_spam))

nltk.download('stopwords')

# Separamos las palabras mas comunes
all_words = nltk.FreqDist([w for tokenlist in list_ham+list_spam for w in tokenlist])
top_words = all_words.most_common(250)

# Agregamos Bigramas
bigram_text = nltk.Text([w for token in list_ham+list_spam for w in token])
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


2. **Validación del modelo anterior:**  
---

una vez tengas el nuevo conjunto de datos más pulido y de mayor tamaño, considera el mismo entrenamiento con el mismo tipo de atributos del ejemplo anterior, ¿mejora el accuracy del modelo resultante?

In [27]:
def document_features(document):
    document_words = set(document)
    bigram = set(list(nltk.bigrams(nltk.Text([token for token in document]))))
    features = {}
    for word, j in top_words:
        features['contains({})'.format(word)] = (word in document_words)

    for bigrams, i in top_bigrams:
        features['contains_bigram({})'.format(bigrams)] = (bigrams in bigram)
  
    return features

# Juntamos las listas indicando si tienen palabras de las mas comunes
import random
fset_ham = [(document_features(texto), 0) for texto in list_ham]
fset_spam = [(document_features(texto), 1) for texto in list_spam]
fset = fset_spam + fset_ham[:1500]
random.shuffle(fset)



In [28]:
# Separamos en las listas en train y test
from sklearn.model_selection import train_test_split
fset_train, fset_test = train_test_split(fset, test_size=0.20, random_state=45)


In [30]:

# Entrenamos el programa
classifier = nltk.NaiveBayesClassifier.train(fset_train)

# Probamos y calificamos
classifier.classify(document_features(list_ham[34]))
print(nltk.classify.accuracy(classifier, fset_test))


0.8683333333333333


3. **Construye mejores atributos**: A veces no solo se trata de las palabras más frecuentes sino de el contexto, y capturar contexto no es posible solo viendo los tokens de forma individual, ¿que tal si consideramos bi-gramas, tri-gramas ...?, ¿las secuencias de palabras podrián funcionar como mejores atributos para el modelo?. Para ver si es así,  podemos extraer n-gramas de nuestro corpus y obtener sus frecuencias de aparición con `FreqDist()`, desarrolla tu propia manera de hacerlo y entrena un modelo con esos nuevos atributos, no olvides compartir tus resultados en la sección de comentarios. 

In [None]:
# escribe tu código aquí:
