# Clasificación de palabras (por género de nombre)

In [9]:
import nltk, random
nltk.download('names')
from nltk.corpus import names 

[nltk_data] Downloading package names to /home/oem/nltk_data...
[nltk_data]   Package names is already up-to-date!


**Función básica de extracción de atributos**

Creamos una función donde nos devuelve unicamente la última letra de cada palabra

In [10]:
# definición de atributos relevantes
def atributos(palabra):
    return {'Ultima letra': palabra[-1]}

Unimos la lista de nombres **masculinos** y **femeninos** en una lista de tuplas

In [11]:
tagset = [(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')]
len(tagset)

7944

Hacemos que la lista sea distribuida aleatoriamente para evitar el sesgo, ya que la lista de nombres masculinos queda primero que la lista de nombres femeninos.

In [12]:
random.shuffle(tagset)
tagset[:10]

[('Henry', 'male'),
 ('Shani', 'female'),
 ('Ichabod', 'male'),
 ('Ferdy', 'male'),
 ('Saxe', 'male'),
 ('Federico', 'male'),
 ('Asia', 'female'),
 ('Coralie', 'female'),
 ('Bettye', 'female'),
 ('Giffer', 'male')]

Creo una segunda lista de atributos, ya que nuestro modelo NO lee los nombres, sino los atributos de los nombres.

In [13]:
fset1 = [(atributos(n), g) for (n, g) in tagset]

Divido el dataset en los conjuntos de entrenamiento y pruebas

In [14]:
train1, test1 = fset1[2000:], fset1[:2000]
print(len(train1))
print(len(test1))

5944
2000


**Modelo de clasificación Naive Bayes**

In [15]:
# entrenamiento del modelo NaiveBayes
classifier = nltk.NaiveBayesClassifier.train(train)

 **Verificación de algunas predicciones**

In [16]:
classifier.classify(atributos('amanda'))

'female'

In [17]:
classifier.classify(atributos('peter'))

'male'

**Performance del modelo**

In [41]:
print(nltk.classify.accuracy(classifier, train))

0.7617765814266487


In [42]:
print(nltk.classify.accuracy(classifier, test))

0.766


**Mejores atributos**

Los atributos se almacenan en un diccionario. Creo una función de atributos completamente personalizada (Hay que recordar que no hay un protocolo establecido para definir atributos).

Para este caso:
* Atributo 1: La primera letra de la palabra
* Atributo 2: La última letra de la palabra
* Atributo 3: Cuantas veces aparece una letra del alfabeto en la palabra
* Atributo 4: Si el alfabeto tiene o no tiene una letra del alfabeto

In [34]:
def mas_atributos(nombre):
    atributos = {}
    atributos["primera_letra"] = nombre[0].lower()
    atributos["ultima_letra"] = nombre[-1].lower()
    for letra in 'abcdefghijklmnopqrstuvwxyz':
        atributos["count({})".format(letra)] = nombre.lower().count(letra)
        atributos["has({})".format(letra)] = (letra in nombre.lower())
    return atributos

In [35]:
mas_atributos('jhon')

{'primera_letra': 'j',
 'ultima_letra': 'n',
 'count(a)': 0,
 'has(a)': False,
 'count(b)': 0,
 'has(b)': False,
 'count(c)': 0,
 'has(c)': False,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 0,
 'has(e)': False,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 1,
 'has(h)': True,
 'count(i)': 0,
 'has(i)': False,
 'count(j)': 1,
 'has(j)': True,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 0,
 'has(l)': False,
 'count(m)': 0,
 'has(m)': False,
 'count(n)': 1,
 'has(n)': True,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 0,
 'has(r)': False,
 'count(s)': 0,
 'has(s)': False,
 'count(t)': 0,
 'has(t)': False,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 0,
 'has(y)': False,
 'count(z)': 0,
 'has(z)': False}

In [36]:
fset2 = [(mas_atributos(n), g) for (n, g) in tagset]
train2, test2 = fset2[2000:], fset2[:2000]

In [37]:
classifier2 = nltk.NaiveBayesClassifier.train(train2)

In [39]:
print(nltk.classify.accuracy(classifier2, train2))

0.7792732166890982


In [40]:
print(nltk.classify.accuracy(classifier2, test2))

0.772


### Ejercicio de práctica

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [43]:
!git clone https://github.com/jvalhondo/spanish-names-surnames

Clonando en 'spanish-names-surnames'...
remote: Enumerating objects: 36, done.[K
remote: Total 36 (delta 0), reused 0 (delta 0), pack-reused 36[K
Desempaquetando objetos: 100% (36/36), listo.


In [99]:
def atributos_esp(nombre):
    atributos = {}
    atributos["primera_letra"] = nombre[0].lower()
    atributos["ultima_letra"] = nombre[-1].lower() #Ultima letra
    #atributos["ultimas_cinco_letras"] = nombre[-5:].lower() #ultimas 5 letras
    atributos["palabras"] = len(nombre.split(" ")) #Cuantas palabras tiene el nombre
    for i, palabra in enumerate(nombre.split(" ")):
        atributos["primera_letra({})".format(i)] = palabra[0].lower()
        atributos["ultima_letra({})".format(i)] = palabra[-1].lower()
    return atributos

In [83]:
tag_men = np.genfromtxt('spanish-names-surnames/male_names.csv', skip_header=1, delimiter=',', dtype=('U20','i8','f8'))
tag_women = np.genfromtxt('spanish-names-surnames/female_names.csv', skip_header=1, delimiter=',', dtype=('U20','i8','f8'))

In [84]:
tagsetE = [(name[0], 'male') for name in tag_men] + [(name[0], 'female') for name in tag_women]
len(tagsetE)

49340

In [85]:
random.shuffle(tagsetE)
tagsetE

[('BARBARA CARMEN', 'female'),
 ('GHEORGHE MIRCEA', 'male'),
 ('RAFAEL DANIEL', 'male'),
 ('ANNETT', 'female'),
 ('IRINEO', 'male'),
 ('FERNANDO ANTONIO', 'male'),
 ('ESTEFANIA VICTORIA', 'female'),
 ('SOPHIE ANNE', 'female'),
 ('DIGNA EMERITA', 'female'),
 ('MARIA ERICA', 'female'),
 ('GUSTAVO SERGIO', 'male'),
 ('EL HOUCINE', 'male'),
 ('AMIN', 'male'),
 ('GABRIEL GUILLERMO', 'male'),
 ('ANTONIA GABRIELA', 'female'),
 ('DARIUS ALEXANDRU', 'male'),
 ('CARLOS SEBASTIAN', 'male'),
 ('VICTOR LEONARDO', 'male'),
 ('ZORA', 'female'),
 ('RUTA', 'female'),
 ('FIRDAUS', 'female'),
 ('SERGIO CESAR', 'male'),
 ('FRANCISCA ANGELA', 'female'),
 ('JAVIER ANIBAL', 'male'),
 ('OMAR ANTONIO', 'male'),
 ('MARIA EVELYN', 'female'),
 ('YAIZA ESTHER', 'female'),
 ('PRECIOUS', 'female'),
 ('ION ANDONI', 'male'),
 ('SOFIA', 'female'),
 ('DULCE', 'female'),
 ('SVETLA', 'female'),
 ('IRENE LAURA', 'female'),
 ('VICTOR ESTEBAN', 'male'),
 ('YALILE', 'female'),
 ('CELIA ELENA', 'female'),
 ('DAVOR', 'male'),
 

In [None]:
atributos_esp('DIANA MARISOL')

In [None]:
atributos_esp('VASILKA')

2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [None]:
# escribe tu código aquí
fsetE1 = [(atributos(n), g) for (n, g) in tagsetE]
trainE1, testE1 = fsetE1[10000:], fsetE1[:10000]
print(len(trainE1))
print(len(testE1))

In [None]:
classifierE1 = nltk.NaiveBayesClassifier.train(trainE1)
print(nltk.classify.accuracy(classifierE1, trainE1))
print(nltk.classify.accuracy(classifierE1, testE1))

In [None]:
fsetE2 = [(mas_atributos(n), g) for (n, g) in tagsetE]
trainE2, testE2 = fsetE2[10000:], fsetE2[:10000]

In [None]:
classifierE2 = nltk.NaiveBayesClassifier.train(trainE2)
print(nltk.classify.accuracy(classifierE2, trainE2))
print(nltk.classify.accuracy(classifierE2, testE2))

3. **Mejores atributos:** Define una función como `atributos_esp()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [None]:
# escribe tu código aquí
fsetE3 = [(atributos_esp(n), g) for (n, g) in tagsetE]
trainE3, testE3 = fsetE3[10000:], fsetE3[:10000]
print(len(trainE3))
print(len(testE3))

In [None]:
classifierE3 = nltk.NaiveBayesClassifier.train(trainE3)
print(nltk.classify.accuracy(classifierE3, trainE3))
print(nltk.classify.accuracy(classifierE3, testE3))

In [100]:
# Clasificación de documentos (email spam o no spam)

{'primera_letra': 'd',
 'ultima_letra': 'l',
 'palabras': 2,
 'primera_letra(0)': 'd',
 'ultima_letra(0)': 'a',
 'primera_letra(1)': 'm',
 'ultima_letra(1)': 'l'}

In [101]:
atributos_esp('VASILKA')

{'primera_letra': 'v',
 'ultima_letra': 'a',
 'palabras': 1,
 'primera_letra(0)': 'v',
 'ultima_letra(0)': 'a'}

2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [88]:
# escribe tu código aquí
fsetE1 = [(atributos(n), g) for (n, g) in tagsetE]
trainE1, testE1 = fsetE1[10000:], fsetE1[:10000]
print(len(trainE1))
print(len(testE1))

39340
10000


In [89]:
classifierE1 = nltk.NaiveBayesClassifier.train(trainE1)
print(nltk.classify.accuracy(classifierE1, trainE1))
print(nltk.classify.accuracy(classifierE1, testE1))

0.7883070665988815
0.7931


In [90]:
fsetE2 = [(mas_atributos(n), g) for (n, g) in tagsetE]
trainE2, testE2 = fsetE2[10000:], fsetE2[:10000]

In [95]:
classifierE2 = nltk.NaiveBayesClassifier.train(trainE2)
print(nltk.classify.accuracy(classifierE2, trainE2))
print(nltk.classify.accuracy(classifierE2, testE2))

0.7989578037620743
0.8011


3. **Mejores atributos:** Define una función como `atributos_esp()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [92]:
# escribe tu código aquí
fsetE3 = [(atributos_esp(n), g) for (n, g) in tagsetE]
trainE3, testE3 = fsetE3[10000:], fsetE3[:10000]
print(len(trainE3))
print(len(testE3))

39340
10000


In [102]:
classifierE3 = nltk.NaiveBayesClassifier.train(trainE3)
print(nltk.classify.accuracy(classifierE3, trainE3))
print(nltk.classify.accuracy(classifierE3, testE3))

0.9273258769700051
0.9073


# Clasificación de documentos (email spam o no spam)

In [28]:
!git clone https://github.com/pachocamacho1990/datasets

fatal: la ruta de destino 'datasets' ya existe y no es un directorio vacío.


In [29]:
import pandas as pd
import numpy as np
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk import word_tokenize

[nltk_data] Downloading package punkt to /home/oem/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/oem/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


## Ejercicio de práctica


¿Como podrías construir un mejor clasificador de documentos?

0. **Dataset más grande:** El conjunto de datos que usamos fue muy pequeño, considera usar los archivos corpus que estan ubicados en la ruta: `datasets/email/plaintext/` 

1. **Limpieza:** como te diste cuenta no hicimos ningun tipo de limpieza de texto en los correos electrónicos. Considera usar expresiones regulares, filtros por categorias gramaticales, etc ... . 

---

Con base en eso construye un dataset más grande y con un tokenizado más pulido. 

In [30]:
# escribe tu código aquí:


2. **Validación del modelo anterior:**  
---

una vez tengas el nuevo conjunto de datos más pulido y de mayor tamaño, considera el mismo entrenamiento con el mismo tipo de atributos del ejemplo anterior, ¿mejora el accuracy del modelo resultante?

In [31]:
# escribe tu código aquí:


3. **Construye mejores atributos**: A veces no solo se trata de las palabras más frecuentes sino de el contexto, y capturar contexto no es posible solo viendo los tokens de forma individual, ¿que tal si consideramos bi-gramas, tri-gramas ...?, ¿las secuencias de palabras podrián funcionar como mejores atributos para el modelo?. Para ver si es así,  podemos extraer n-gramas de nuestro corpus y obtener sus frecuencias de aparición con `FreqDist()`, desarrolla tu propia manera de hacerlo y entrena un modelo con esos nuevos atributos, no olvides compartir tus resultados en la sección de comentarios. 

In [32]:
# escribe tu código aquí:
