<a href="https://colab.research.google.com/github/danieldrako/Algoritmos-Clasificacion-de-Texto/blob/main/03Modelos_de_clasificacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificación de palabras (por género de nombre)

In [2]:
import nltk, random
nltk.download('names') #descarga de dataset de  nombre en inglés 
from nltk.corpus import names #extraer el datasets

[nltk_data] Downloading package names to /root/nltk_data...
[nltk_data]   Package names is already up-to-date!


**Función básica de extracción de atributos**

In [5]:
# definición de atributos relevantes
def atributos(palabra):
	return {'ultima_letra': palabra[-1]}

tagset = ([(name, 'male') for name in names.words('male.txt')] + 
          [(name, 'female') for name in names.words('female.txt')])#counstrir lista de tuplas
#el dataset tiene nombres masculinos y femeninos en archivos distinos

In [6]:
tagset[:10]

[('Aamir', 'male'),
 ('Aaron', 'male'),
 ('Abbey', 'male'),
 ('Abbie', 'male'),
 ('Abbot', 'male'),
 ('Abbott', 'male'),
 ('Abby', 'male'),
 ('Abdel', 'male'),
 ('Abdul', 'male'),
 ('Abdulkarim', 'male')]

In [8]:
random.shuffle(tagset) #mezcla de manera aleatoria nombre masculinos como femeninos
tagset[:10]

[('Davoud', 'male'),
 ('Maurits', 'male'),
 ('Elly', 'female'),
 ('Marlee', 'female'),
 ('Farica', 'female'),
 ('Rivalee', 'female'),
 ('Dafna', 'female'),
 ('Lee', 'female'),
 ('Hilliard', 'male'),
 ('Teddie', 'male')]

In [9]:
fset = [(atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]

**Modelo de clasificación Naive Bayes**

In [10]:
# entrenamiento del modelo NaiveBayes
classifier = nltk.NaiveBayesClassifier.train(train)

 **Verificación de algunas predicciones**

In [15]:
classifier.classify(atributos('fernando'))

'male'

In [16]:
classifier.classify(atributos('william'))

'male'

**Performance del modelo**

In [17]:
print(nltk.classify.accuracy(classifier, test))

0.742


In [18]:
print(nltk.classify.accuracy(classifier, train))

0.7642396560988716


**Mejores atributos**

In [19]:
def mas_atributos(nombre):
    atrib = {}
    atrib["primera_letra"] = nombre[0].lower() #primera letra del nombre
    atrib["ultima_letra"] = nombre[-1].lower() #ultima letra del nombre
    for letra in 'abcdefghijklmnopqrstuvwxyz': #el numero de veces que existe una letra en el nombre podria ser un atributo
        atrib["count({})".format(letra)] = nombre.lower().count(letra) #cuantas veces aparece esa letra
        atrib["has({})".format(letra)] = (letra in nombre.lower()) # pregunta si contiene esa letra
    return atrib

In [None]:
mas_atributos('jhon')

In [21]:
fset = [(mas_atributos(n), g) for (n, g) in tagset]
train, test = fset[500:], fset[:500]
classifier2 = nltk.NaiveBayesClassifier.train(train)

In [22]:
print(nltk.classify.accuracy(classifier2, test))

0.784


### Ejercicio de práctica

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [30]:
# escribe tu código aquí
!git clone https://github.com/jvalhondo/spanish-names-surnames


import pandas as pd
df_female = pd.read_csv("spanish-names-surnames/female_names.csv", delimiter=",", encoding="utf-8")
df_male = pd.read_csv("spanish-names-surnames/male_names.csv", delimiter=",", encoding="utf-8")

# construccion del dataset 
female_names=list(df_female['name'])
male_names=list(df_male['name'])

tagset = [(n, 'female') for n in female_names] + [(n, 'male') for n in male_names]
random.shuffle(tagset)
tagset[:10]

fatal: destination path 'spanish-names-surnames' already exists and is not an empty directory.


[('JURG', 'male'),
 ('TAIRA', 'female'),
 ('NIKITA', 'female'),
 ('SUPING', 'female'),
 ('JHONATAN', 'male'),
 ('GENOVEVA MARIA', 'female'),
 ('MARIA VANESSA', 'female'),
 ('KHADIDIATOU', 'female'),
 ('XABIN', 'male'),
 ('XUJUN', 'male')]

2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [33]:
# escribe tu código aquí

def atributos_sp(nombre):
  attr = {}
  attr["ultima_letra"] = nombre[-1].lower()
  attr["cant_nombres"] = str(len(nombre.split(" ")))
  attr["tiene_dos_nombres"] = True if (len(nombre.split(" "))==2) else False
  attr["ultima_letra_seg_nombre"] = nombre.split(" ")[1][-1].lower() if (len(nombre.split(" "))==2) else False
  return attr

  fset = [(atributos_sp(n), g) for (n, g) in tagset if type(n)==str]
train, test = fset[500:], fset[:500]

classifier3 = nltk.NaiveBayesClassifier.train(train)
print(nltk.classify.accuracy(classifier3, test))


0.784


3. **Mejores atributos:** Define una función como `atributos2()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [37]:
# escribe tu código aquí

def atributos_sp2(nombre):
  attr = {}
  attr["cant_nombres"] = str(len(nombre.split(" ")))
  attr["ultima_letra"] = nombre.split(" ")[0][-1].lower()
  attr["tiene_dos_nombres"] = True if (len(nombre.split(" "))==2) else False
  attr["ultima_letra_seg_nombre"] = nombre.split(" ")[1][-1].lower() if (len(nombre.split(" "))==2) else False
  attr["ultima_letra_es_a"] = nombre[-1].lower() == 'a'
  attr["ultima_letra_es_o"] = nombre[-1].lower() == 'o'
  attr["ultima_letra_2do_nombre_a"] = nombre[-1].lower() == nombre.split(" ")[1][-1].lower() in'a'if (len(nombre.split(" "))==2) else False
  attr["ultima_letra_2do_nombre_o"] = nombre[-1].lower() == nombre.split(" ")[1][-1].lower() in'o'if (len(nombre.split(" "))==2) else False
  for letra in'abcdefghijklmnopqrstuvwxyz':
    attr['count({})'.format(letra)]=nombre.lower().count(letra)
    attr['has({})'.format(letra)]=(letra in nombre.lower())
  return attr

fset = [(atributos_sp2(n), g) for (n, g) in tagset if type(n)==str]
train, test = fset[500:], fset[:500]
classifier4 = nltk.NaiveBayesClassifier.train(train)

In [38]:
fset = [(atributos_sp2(n), g) for (n, g) in tagset if type(n)==str]
train, test = fset[500:], fset[:500]
classifier4 = nltk.NaiveBayesClassifier.train(train)
print(nltk.classify.accuracy(classifier4, test))


0.85


In [39]:
 # se mejoró el modelo de un 78% a un  85%