<a href="https://colab.research.google.com/github/deoa17/Ejercicios-de-clasificacion-Naive-Bayes/blob/master/Ejercicios_de_Modelos_Clasificacion_Naive_Bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ejercicios de Modelo de clasificación Naive Bayes**

1.   Clasificación de palabras (por género de nombre)
2.   Clasificación de correos (Ham o Spam)



## Ejercicio de práctica: Clasificación de palabras por género

**Objetivo:** Construye un classificador de nombres en español usando el siguiente dataset: 
https://github.com/jvalhondo/spanish-names-surnames

1. **Preparación de los datos**: con un `git clone` puedes traer el dataset indicado a tu directorio en Colab, luego asegurate de darle el formato adecuado a los datos y sus features para que tenga la misma estructura del ejemplo anterior con el dataset `names` de nombres en ingles. 

* **Piensa y analiza**: ¿los features en ingles aplican de la misma manera para los nombres en español?

In [14]:
# Cargamos los archivos csv con numpy para tenerlos en listas
import numpy as np
import nltk, random
import pandas as pd

from openpyxl import load_workbook

# Reemplaza 'ruta/del/archivo/listado_nombres.xlsx' con la ruta correcta de tu archivo Excel
archivo_excel = 'listado_nombres.xlsx'

# Cargar el archivo Excel en un DataFrame de pandas con encoding UTF-8
with open(archivo_excel, 'rb') as f:
    content = f.read()
    df = pd.read_excel(pd.ExcelFile(content, engine='openpyxl'), dtype={'nombre': 'str', 'nombre2': 'str', 'Genero': 'str'})

# Shuffle de las filas del DataFrame
df = df.sample(frac=1).reset_index(drop=True)

# Mostrar todas las columnas del DataFrame
print(df)



        nombre     nombre2  genero
0         Jose        Luis  hombre
1        El�as   Alejandro  hombre
2       Hector      Guerra  hombre
3       Efrain    Gonzalez  hombre
4       Víctor      Sabiel  hombre
...        ...         ...     ...
1780    Saï¿½l     Ernesto  hombre
1781      ADAN   ALEXANDER  hombre
1782   William     Stanley  hombre
1783  Yamileth   Guadalupe   mujer
1784    Ariela  Guitierrez   mujer

[1785 rows x 3 columns]


2. **Entrenamiento y performance del modelo**: usando el classificador de Naive Bayes de NLTK entrena un modelo sencillo usando el mismo feature de la última letra del nombre, prueba algunas predicciones y calcula el performance del modelo. 

In [15]:
# Entrenamos teniendo en cuenta nuestro primer atributo (Revisando la ultima letra del nombre)
def atributo_uno(palabra):
	return {'ultima_letra': palabra[-1].lower()}

In [16]:
from sklearn.model_selection import train_test_split

# Supongamos que 'nombre' y 'nombre2' son las columnas en tu DataFrame
f_un_atributo = [
    (atributo_uno(row['nombre']), row['genero']) for index, row in df.iterrows() if not pd.isnull(row['nombre'])
] + [
    (atributo_uno(row['nombre2']), row['genero']) for index, row in df.iterrows() if not pd.isnull(row['nombre2'])
]

# Usamos el 80% de los datos para train y 20% para test
f_un_atributo_train, f_un_atributo_test = train_test_split(f_un_atributo, test_size=0.20, random_state=45)

# Mostrar el resultado
print(f_un_atributo_train)
print(f_un_atributo_test)

[({'ultima_letra': '©'}, 'hombre'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'h'}, 'mujer'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'l'}, 'hombre'), ({'ultima_letra': 'l'}, 'hombre'), ({'ultima_letra': 'o'}, 'hombre'), ({'ultima_letra': 'e'}, 'hombre'), ({'ultima_letra': 'o'}, 'hombre'), ({'ultima_letra': 'o'}, 'hombre'), ({'ultima_letra': 'e'}, 'hombre'), ({'ultima_letra': 'z'}, 'hombre'), ({'ultima_letra': 'l'}, 'mujer'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'e'}, 'mujer'), ({'ultima_letra': 's'}, 'hombre'), ({'ultima_letra': 'e'}, 'mujer'), ({'ultima_letra': 's'}, 'hombre'), ({'ultima_letra': 'n'}, 'hombre'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'o'}, 'hombre'), ({'ultima_letra': 'l'}, 'mujer'), ({'ultima_letra': 'e'}, 'mujer'), ({'ultima_letra': 'e'}, 'hombre'), ({'ultima_letra': 'a'}, 'mujer'), ({'ultima_letra': 'd'}, 'hombre')

In [17]:
# Entrenamos
classifier_1 = nltk.NaiveBayesClassifier.train(f_un_atributo_train)

In [18]:
#Probamos
classifier_1.classify(atributo_uno('lorena'))

'mujer'

In [19]:
# Sacamos el accuracy
print(nltk.classify.accuracy(classifier_1, f_un_atributo_test))

0.8356741573033708


3. **Mejores atributos:** Define una función como `atributos2()` donde puedas extraer mejores atributos con los cuales entrenar una mejor version del clasificador. Haz un segundo entrenamiento y verifica como mejora el performance de tu modelo. ¿Se te ocurren mejores maneras de definir atributos para esta tarea particular?

In [20]:
# Agregamos mas atributos para ver cuanto mejora el accuracy
def atributos2(nombre):
    atrib = {}
    atrib["ultima_letra"] = nombre[-1].lower() #Ultima letra
    atrib["ultimas_dos_letra"] = nombre[-1:-5:-1].lower() #ultimas 4 letras
    return atrib

# Suponiendo que 'nombre', 'nombre2', y 'Genero' son los nombres de las columnas en tu DataFrame
f_varios_atributo = [
    (atributos2(row['nombre']), row['genero']) for index, row in df.iterrows() if not pd.isnull(row['nombre'])
] + [
    (atributos2(row['nombre2']), row['genero']) for index, row in df.iterrows() if not pd.isnull(row['nombre2'])
]

# Usamos el 80% de los datos para train y 20% para test
f_varios_atributo_train, f_varios_atributo_test = train_test_split(f_varios_atributo, test_size=0.20, random_state=45)

In [21]:
# Entrenamos
classifier_2 = nltk.NaiveBayesClassifier.train(f_varios_atributo_train)

In [26]:
# Sacamos accuracy
print(classifier_2.classify(atributos2('francis')))
print(nltk.classify.accuracy(classifier_2, f_varios_atributo_test))

hombre
0.9185393258426966
