# Clasificación de palabras (por género de nombre)

In [1]:
import nltk, random
nltk.download('names')
from nltk.corpus import names 

[nltk_data] Downloading package names to
[nltk_data]     C:\Users\osval\AppData\Roaming\nltk_data...
[nltk_data]   Package names is already up-to-date!


**Función básica de extracción de atributos**

In [2]:
# definición de atributos relevantes
def atributos(palabra):
	return {'ultima_letra': palabra[-1]}

tagset = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])

In [3]:
tagset[:10]

[('Aamir', 'male'),
 ('Aaron', 'male'),
 ('Abbey', 'male'),
 ('Abbie', 'male'),
 ('Abbot', 'male'),
 ('Abbott', 'male'),
 ('Abby', 'male'),
 ('Abdel', 'male'),
 ('Abdul', 'male'),
 ('Abdulkarim', 'male')]

In [4]:
random.shuffle(tagset)
tagset[:10]

[('Christoph', 'male'),
 ('Korry', 'female'),
 ('Jacob', 'male'),
 ('Mavra', 'female'),
 ('Abdul', 'male'),
 ('Adora', 'female'),
 ('Elora', 'female'),
 ('Richmond', 'male'),
 ('Pattie', 'male'),
 ('Heida', 'female')]

In [5]:
fset = [(atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]

**Modelo de clasificación Naive Bayes**

In [6]:
# entrenamiento del modelo NaiveBayes
classifier = nltk.NaiveBayesClassifier.train(train)

 **Verificación de algunas predicciones**

In [7]:
classifier.classify(atributos('amanda'))

'female'

In [8]:
classifier.classify(atributos('peter'))

'male'

**Performance del modelo**

In [9]:
print(nltk.classify.accuracy(classifier, test))

0.774


In [10]:
print(nltk.classify.accuracy(classifier, train))

0.7620902740462118


**Mejores atributos**

In [11]:
def mas_atributos(nombre):
    atrib = {}
    atrib["primera_letra"] = nombre[0].lower()
    atrib["ultima_letra"] = nombre[-1].lower()
    for letra in 'abcdefghijklmnopqrstuvwxyz':
        atrib["count({})".format(letra)] = nombre.lower().count(letra)
        atrib["has({})".format(letra)] = (letra in nombre.lower())
    return atrib

In [12]:
mas_atributos('jhon')

{'primera_letra': 'j',
 'ultima_letra': 'n',
 'count(a)': 0,
 'has(a)': False,
 'count(b)': 0,
 'has(b)': False,
 'count(c)': 0,
 'has(c)': False,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 0,
 'has(e)': False,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 1,
 'has(h)': True,
 'count(i)': 0,
 'has(i)': False,
 'count(j)': 1,
 'has(j)': True,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 0,
 'has(l)': False,
 'count(m)': 0,
 'has(m)': False,
 'count(n)': 1,
 'has(n)': True,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 0,
 'has(r)': False,
 'count(s)': 0,
 'has(s)': False,
 'count(t)': 0,
 'has(t)': False,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 0,
 'has(y)': False,
 'count(z)': 0,
 'has(z)': False}

In [13]:
fset = [(mas_atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]
classifier2 = nltk.NaiveBayesClassifier.train(train)

In [14]:
print(nltk.classify.accuracy(classifier2, test))

0.756


### Ejercicio de práctica

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [None]:
# escribe tu código aquí
!git clone https://github.com/jvalhondo/spanish-names-surnames

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
male_names = pd.read_csv('C:/Users/osval/Documents/Clasificacion_Texto/spanish-names-surnames/male_names.csv')
female_names =  pd.read_csv('C:/Users/osval/Documents/Clasificacion_Texto/spanish-names-surnames/female_names.csv')
female_names.dropna(axis=0, inplace=True)

In [None]:
tagnames = [(name.lower(), 'male') for name in male_names['name']] + [(name.lower(), 'female') for name in female_names['name']] 
random.shuffle(tagset)

In [None]:
# definición de atributos relevantes
def atributos(palabra):
    return {'ultima_letra': palabra[-1]}

In [None]:
# Creando dataset con atributos
fset = [(atributos(n), g) for (n, g) in tagset]

In [None]:
# escribe tu código aquí


2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [21]:
# Dividiendo en train_data y test_data
train_data, test_data = train_test_split(fset, test_size=0.20)

In [22]:
# Evaluacion
classifier = nltk.NaiveBayesClassifier.train(train_data)

In [23]:
print(f'test_data accuracy: {nltk.classify.accuracy(classifier, test_data)}')
print(f'train_data accuracy {nltk.classify.accuracy(classifier, train_data)}')

test_data accuracy: 0.7564505978602895
train_data accuracy 0.7644374508261211


In [24]:
# escribe tu código aquí


3. **Mejores atributos:** Define una función como `atributos2()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [25]:
def atributos2(nombre):
    atrib = {}
    atrib["nombre"] = nombre.lower()
    atrib["primera_letra"] = nombre[0].lower()
    atrib["ultima_letra"] = nombre[-1].lower()
    atrib["primeras_dos_letras"] = nombre[:2].lower()
    atrib["ultimas_dos_letras"] = nombre[-2:].lower()

    for letra in 'abcdefghijklmnopqrstuvwxyz':
        #atrib 3. numero de veces aparece la letra
        atrib["count({})".format(letra)] = nombre.lower().count(letra)
        #atrib 4. si tiene o no la letra
        atrib["has({})".format(letra)] = (letra in nombre.lower())
    return atrib

fset2 = [(mas_atributos(n), g) for (n, g) in tagset]

In [26]:
# Dividiendo en train_data y test_data
train_data2, test_data2 = train_test_split(fset2, test_size=0.20)

In [27]:
# Evaluacion
classifier2 = nltk.NaiveBayesClassifier.train(train_data2)
print(f'train_data accuracy: {nltk.classify.accuracy(classifier2, train_data2)}')
print(f'test_data accuracy {nltk.classify.accuracy(classifier2, test_data2)}')

train_data accuracy: 0.7804878048780488
test_data accuracy 0.7784770295783512


In [28]:
# escribe tu código aquí


# Clasificación de documentos (email spam o no spam)

In [29]:
!git clone https://github.com/pachocamacho1990/datasets

fatal: destination path 'datasets' already exists and is not an empty directory.


In [30]:
import pandas as pd
import numpy as np
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\osval\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\osval\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [32]:
df = pd.read_csv('C:/Users/osval/Documents/Clasificacion_Texto/datasets/email/csv/spam-apache.csv', names = ['clase','contenido'])
df['tokens'] = df['contenido'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,clase,contenido,tokens
0,-1,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 4.0 Tr...","[<, !, DOCTYPE, HTML, PUBLIC, ``, -//W3C//DTD,..."
1,1,> Russell Turpin:\r\n> > That depends on how t...,"[>, Russell, Turpin, :, >, >, That, depends, o..."
2,-1,Help wanted. We are a 14 year old fortune 500...,"[Help, wanted, ., We, are, a, 14, year, old, f..."
3,-1,Request A Free No Obligation Consultation!\r\n...,"[Request, A, Free, No, Obligation, Consultatio..."
4,1,Is there a way to look for a particular file o...,"[Is, there, a, way, to, look, for, a, particul..."


In [33]:
df['tokens'].values[0]

['<',
 '!',
 'DOCTYPE',
 'HTML',
 'PUBLIC',
 '``',
 '-//W3C//DTD',
 'HTML',
 '4.0',
 'Transitional//EN',
 "''",
 '>',
 '<',
 'HTML',
 '>',
 '<',
 'HEAD',
 '>',
 '<',
 'META',
 'http-equiv=Content-Type',
 'content=',
 "''",
 'text/html',
 ';',
 'charset=iso-8859-1',
 "''",
 '>',
 '<',
 'META',
 'content=',
 "''",
 'MSHTML',
 '6.00.2600.0',
 "''",
 'name=GENERATOR',
 '>',
 '<',
 'STYLE',
 '>',
 '<',
 '/STYLE',
 '>',
 '<',
 '/HEAD',
 '>',
 '<',
 'BODY',
 'bgColor=',
 '#',
 'ffffff',
 '>',
 '<',
 'DIV',
 '>',
 '<',
 'FONT',
 'face=Arial',
 'size=2',
 '>',
 '<',
 'FONT',
 'face=',
 "''",
 'Times',
 'New',
 'Roman',
 "''",
 'size=3',
 '>',
 'Dear',
 'Friend',
 ',',
 '<',
 'BR',
 '>',
 '<',
 'BR',
 '>',
 'A',
 'recent',
 'survey',
 'by',
 'Nielsen/Netratings',
 'says',
 'that',
 '``',
 'The',
 'Internet',
 '<',
 'BR',
 '>',
 'population',
 'is',
 'rapidly',
 'approaching',
 'a',
 "'Half",
 'a',
 'Billion',
 "'",
 'people',
 '!',
 '``',
 '<',
 'BR',
 '>',
 '<',
 'BR',
 '>',
 'SO',
 'WHAT',
 'D

In [34]:
all_words = nltk.FreqDist([w for tokenlist in df['tokens'].values for w in tokenlist])
top_words = all_words.most_common(200)

def document_features(document):
    document_words = set(document)
    features = {}
    for word in top_words:
        features['contains({})'.format(word)] = (word in document_words)
    return features

In [35]:
document_features(df['tokens'].values[0])

{"contains((',', 2173))": False,
 "contains(('.', 2171))": False,
 "contains(('the', 1967))": False,
 "contains(('>', 1787))": False,
 "contains(('--', 1611))": False,
 "contains(('to', 1435))": False,
 "contains((':', 1220))": False,
 "contains(('*', 1149))": False,
 "contains(('and', 1064))": False,
 "contains(('of', 958))": False,
 "contains(('a', 879))": False,
 "contains(('you', 744))": False,
 "contains(('in', 742))": False,
 "contains(('I', 741))": False,
 "contains(('<', 718))": False,
 "contains(('!', 698))": False,
 "contains(('%', 677))": False,
 "contains(('for', 609))": False,
 "contains(('is', 578))": False,
 "contains(('#', 521))": False,
 "contains(('BR', 494))": False,
 "contains(('that', 479))": False,
 "contains((')', 463))": False,
 "contains(('it', 458))": False,
 'contains(("\'\'", 434))': False,
 "contains(('$', 413))": False,
 "contains(('this', 384))": False,
 "contains(('(', 380))": False,
 "contains(('on', 378))": False,
 "contains(('http', 362))": False,
 "c

In [36]:
fset = [(document_features(texto), clase) for texto, clase in zip(df['tokens'].values, df['clase'].values)]
random.shuffle(fset)
train, test = fset[:200], fset[200:]

In [37]:
classifier = nltk.NaiveBayesClassifier.train(train)

In [38]:
print(nltk.classify.accuracy(classifier, test))

0.48


In [39]:
classifier.show_most_informative_features(5)

Most Informative Features
     contains(("'", 95)) = False              -1 : 1      =      1.0 : 1.0
   contains(("''", 434)) = False              -1 : 1      =      1.0 : 1.0
    contains(("'m", 51)) = False              -1 : 1      =      1.0 : 1.0
   contains(("'re", 41)) = False              -1 : 1      =      1.0 : 1.0
   contains(("'s", 263)) = False              -1 : 1      =      1.0 : 1.0


In [40]:
df[df['clase']==-1]['contenido']

0      <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Tr...
2      Help wanted.  We are a 14 year old fortune 500...
3      Request A Free No Obligation Consultation!\r\n...
10     >\r\n>“µ×è¹µÑÇ ¡ÑºâÅ¡¸ØÃ¡Ô¨º¹ÍÔ¹àµÍÃìà¹çµ” \r\...
                             ...                        
243    ##############################################...
244    Wanna see sexually curious teens playing with ...
246    REQUEST FOR URGENT BUSINESS ASSISTANCE\r\n----...
248    Email marketing works!  There's no way around ...
249    Email marketing works!  There's no way around ...
Name: contenido, Length: 125, dtype: object

## Ejercicio de práctica


¿Como podrías construir un mejor clasificador de documentos?

0. **Dataset más grande:** El conjunto de datos que usamos fue muy pequeño, considera usar los archivos corpus que estan ubicados en la ruta: `datasets/email/plaintext/` 

1. **Limpieza:** como te diste cuenta no hicimos ningun tipo de limpieza de texto en los correos electrónicos. Considera usar expresiones regulares, filtros por categorias gramaticales, etc ... . 

---

Con base en eso construye un dataset más grande y con un tokenizado más pulido. 

In [41]:
# Descomprimir ZIP
import zipfile
fantasy_zip = zipfile.ZipFile('C:/Users/osval/Documents/Clasificacion_Texto/datasets/email/plaintext/corpus1.zip')
fantasy_zip.extractall('C:/Users/osval/Documents/Clasificacion_Texto/datasets/email/plaintext')
fantasy_zip.close()

In [43]:
# Creamos un listado de los archivos dentro del Corpus1 ham/spam
from os import listdir

path_ham = "C:/Users/osval/Documents/Clasificacion_Texto/datasets/email/plaintext/corpus1/ham/"
filepaths_ham = [path_ham+f for f in listdir(path_ham) if f.endswith('.txt')]

path_spam = "C:/Users/osval/Documents/Clasificacion_Texto/datasets/email/plaintext/corpus1/spam/"
filepaths_spam = [path_spam+f for f in listdir(path_spam) if f.endswith('.txt')]


In [45]:
# Creamos la funcion para tokenizar y leer los archivos 

def abrir(texto):
  with open(texto, 'r', errors='ignore') as f2:
    data = f2.read()
    data = word_tokenize(data)
  return data

In [46]:
# Creamos la lista tokenizada del ham
list_ham = list(map(abrir, filepaths_ham))
# Creamos la lista tokenizada del spam
list_spam = list(map(abrir, filepaths_spam))

In [47]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\osval\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [48]:
# Separamos las palabras mas comunes
all_words = nltk.FreqDist([w for tokenlist in list_ham+list_spam for w in tokenlist])
top_words = all_words.most_common(250)

In [49]:

# Agregamos Bigramas
bigram_text = nltk.Text([w for token in list_ham+list_spam for w in token])
bigrams = list(nltk.bigrams(bigram_text))
top_bigrams = (nltk.FreqDist(bigrams)).most_common(250)

In [50]:
def document_features(document):
    document_words = set(document)
    bigram = set(list(nltk.bigrams(nltk.Text([token for token in document]))))
    features = {}
    for word, j in top_words:
        features['contains({})'.format(word)] = (word in document_words)

    for bigrams, i in top_bigrams:
        features['contains_bigram({})'.format(bigrams)] = (bigrams in bigram)
  
    return features

2. **Validación del modelo anterior:**  
---

una vez tengas el nuevo conjunto de datos más pulido y de mayor tamaño, considera el mismo entrenamiento con el mismo tipo de atributos del ejemplo anterior, ¿mejora el accuracy del modelo resultante?

In [51]:
# Juntamos las listas indicando si tienen palabras de las mas comunes
import random
fset_ham = [(document_features(texto), 0) for texto in list_ham]
fset_spam = [(document_features(texto), 1) for texto in list_spam]
fset = fset_spam + fset_ham[:1500]
random.shuffle(fset)

In [52]:
# Separamos en las listas en train y test
from sklearn.model_selection import train_test_split
fset_train, fset_test = train_test_split(fset, test_size=0.20, random_state=45)

In [53]:
# Entrenamos el programa
classifier = nltk.NaiveBayesClassifier.train(fset_train)

3. **Construye mejores atributos**: A veces no solo se trata de las palabras más frecuentes sino de el contexto, y capturar contexto no es posible solo viendo los tokens de forma individual, ¿que tal si consideramos bi-gramas, tri-gramas ...?, ¿las secuencias de palabras podrián funcionar como mejores atributos para el modelo?. Para ver si es así,  podemos extraer n-gramas de nuestro corpus y obtener sus frecuencias de aparición con `FreqDist()`, desarrolla tu propia manera de hacerlo y entrena un modelo con esos nuevos atributos, no olvides compartir tus resultados en la sección de comentarios. 

In [54]:
# Probamos y calificamos
classifier.classify(document_features(list_ham[34]))
print(nltk.classify.accuracy(classifier, fset_test))

0.8666666666666667
