# Proyecto 1 y 2
## Temas selectos de tecnologías del lenguaje

López Velarde González Guillermo

# Modelado del problema

## Elección de la tarea

Primero se intentará predecir el Género de una persona utilizando información sobre su Orientación sexual, Edad, Lugar de nacimiento, Lugar de residencia, Nivel educativo, Ocupación y Facultad. El Género podrá ser "hombre" o "mujer".

Después, cambiaremos nuestro vector de características a uno que sólo tome en cuenta una conversación de esa persona en WhatsApp. Modelándola usando una matriz TFIDF.

Así, podrémos estimar cual de las dos representaciones vectoriales es más acertada, y podrémos saber qué datos son mejores para inferir el género.

Ocuparemos 2 métodos para cada representación vectorial: K-Nearest y Naive Bayes.

<b>Como hipótesis:</b>
En el primer caso, al tener un vector de características con pocos atributos, esperaría un mejor resultado de K-Nearest.
En el segundo caso, al tener un vector de características con muchos atributos, esperaría un mejor resultado de Naive Bayes.

## Dataset

Se tiene un corpus etiquetado de español mensajeado a través de WhatsApp, el cual consta de conversaciones entre dos personas, de las cuales se conocen las siguientes características:

Nombre
Número telefónico
Edad
Género
Orientación Sexual
Lugar de nacimiento
Lugar de residencia (Código postal)
Otras lenguas
Nivel educativo
Facultad
Licenciatura
Ocupación
Profesión u oficio
Relación con interlocutor

Consta de 646 conversaciones con 1292 participantes, donde 698 son mujeres y 594 son hombres.

Es importante señalar que las conversaciones se obtuvieron respetando la relación entre hombres y mujeres de cada facultad. Es decir, en Ingeniería se obtuveron proporcionalmente más conversaciones de hombres que de mujeres.

Todas las conversaciones fueron recolectadas de ciudad universitaria, por lo que cualquier generalización que de aquí pueda surgir, está delimitada por ese hecho.

## Representación Vectorial 1
Así, la primera representación vectorial sería la siguiente:<br>

Y = [ Género ]<br>
Género:<br>
1 = Hombre<br>
2 = Mujer<br>

X = [Edad, Orientación Sexual, LugardeN, CP, Nedu, Fac, Ocu] donde <br>
<br>
Edad será el número de la edad en sí<br>
Orientación Sexual:<br>
1 = Heterosexual<br>
2 = Otro<br>
LugardeN:<br>
1 = Aguascalientes<br>
2 = Chiapas<br>
3 = Chihuahua<br>
4 = Chile<br>
5 = Ciudad de México<br>
6 = Coahuila<br>
7 = Colombia<br>
8 = Costa Rica<br>
9 = Durango<br>
10 = Estado de México<br>
11 = Estados Unidos<br>
12 = Guanajuato<br>
13 = Guerrero<br>
14 = Hidalgo<br>
15 = Italia<br>
16 = Jalisco<br>
17 = Líbano<br>
18 = Michoacán<br>
19 = Morelos<br>
20 = N/A<br>
21 = Oaxaca<br>
22 = Puebla<br>
23 = Querétaro<br>
24 = Quintana Roo<br>
25 = Sinaloa<br>
26 = Tabasco<br>
27 = Veracruz<br>
28 = Yucatán<br>

CP:<br>
El código postal en sí<br>
o 1 si el código postal no existe

Nedu:<br>
1 = Bachillerato<br>
2 = Carrera Técnica<br>
3 = Doctorado<br>
4 = Especialidad<br>
5 = Licenciatura<br>
6 = Maestría<br>
7 = N/A<br>
8 = Secundaria<br>

Fac: <br>
1 = Si no estudia en alguna facultad (N/A)<br>
2 = Arquitectura<br>
3 = Ciencias<br>
4 = Ciencias políticas<br>
5 = Contaduría y Administración<br>
6 = Derecho<br>
7 = Economía<br>
8 = Escuela Nacional de Trabajo Social<br>
9 = Filosofía y Letras<br>
10 = Ingeniería<br>
11 = Medicina<br>
12 = Medicina Veterinaria y Zootecnia<br>
13 = Odontología<br>
14 = Psicología<br>
15 = Química<br>
16 = Urbanismo<br>

Ocu:<br>
1 = Desempleado<br>
2 = Estudia<br>
3 = Estudia y Trabaja<br>
4 = N/A<br>
5 = Trabaja<br>

## Representación Vectorial 2

Matriz TFIDF de los textos del participante.

# Desarrollo

#### Dependencias

In [1]:
# -*- coding: utf-8 -*-
#López Velarde González Guillermo
#Proyecto 1

#Importamos las dependencias necesarias.

from sklearn.naive_bayes import MultinomialNB
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets
import os
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import snowballstemmer
import matplotlib.pyplot as plt
import re
import io
%matplotlib inline

In [2]:
np.random.seed(15)

In [3]:
df = pd.ExcelFile("plantilla11nov_etiquetada.xlsx")
df = df.parse("Sheet1")

## 1er Representación Vectorial

### Obtener vectores X y Y

In [4]:
Y = []
X = []
for row in df.iterrows():
    Y.append(row[1]['Género'])
    try:
        CP = int(row[1]['Lugar de residencia (C.P.)'])
    except ValueError:
        CP = 1
    fac = row[1]['Facultad'] 
    edad = row[1]['Edad']
    lugar = row[1]['Lugar de nacimiento']
    educativo = row[1]['Nivel educativo']
    ocupacion = row[1]['Ocupación']
    orsex = row[1]['Orientación sexual']

    X.append([int(edad), int(orsex), int(lugar), int(CP), int(educativo), int(fac), int(ocupacion)])

X = np.array(X)
Y = np.array(Y)

#### Comprobamos que los vectores sean del mismo tamaño
Es decir, a cada elemento de X le corresponde una etiqueta en el vector Y

In [5]:
if len(X) == len(Y):
    print ("X y Y son del mismo tamaño")

X y Y son del mismo tamaño


### Segmentación de datos
Se realizará una segmentación para poder realizar una evaluación Hold-Out

In [6]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, shuffle = True)

### Naive Bayes

In [7]:
clf = MultinomialNB(alpha=0.50,fit_prior=True)

In [8]:
clf.fit(X_train,Y_train)

MultinomialNB(alpha=0.5, class_prior=None, fit_prior=True)

### Evaluación, matriz de confusión, medidas de desempeño

In [9]:
all_predictions = clf.predict(X)
print(clf.score(X_test,Y_test)*100,"%")

44.8916408669 %


In [10]:
tp, fn, fp, tn = confusion_matrix(Y, all_predictions).ravel()
tp, fn, fp, tn 

(471, 123, 524, 174)

<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>471</td>
    <td>123</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>524</td>
    <td>174</td>
  </tr>
</table>

In [11]:
target_names = ['Hombre','Mujer']
print (classification_report(Y, all_predictions,target_names=target_names))

             precision    recall  f1-score   support

     Hombre       0.47      0.79      0.59       594
      Mujer       0.59      0.25      0.35       698

avg / total       0.53      0.50      0.46      1292



### Interpretación
De los 594 hombres, 471 fueron detectados correctamente.
Mientras que de las 698 mujeres, sólo 174 fueron detectadas correctamente.

Esto es contraintuitivo, pues dado que hay más mujeres, creería que tendría un mejor generalización.

La medidas de desempeño están alrededor del 50%, es decir, es equivalente tirar una moneda a usar el predictor. Sin embargo, la mujer tiene mejor precisión, pues de las 297 predicciones de mujer, 174 fueron correctas. 

Aún así, la medida F1 de la mujer no es superior a la del hombre, a pesar de la mayor cantidad de datos.

### K-Nearest

Elegimos un K de 15

Hacemos nuestro clasificador con el siguiente parámetro: <br>

pesado 'distance' el cual pesa los puntos por el inverso de su distancia. Es decir, vecinos más cercanos del punto de búsqueda tienen mayor influencia que los puntos lejanos.

In [12]:
n_neighbors = 15

In [13]:
kne = neighbors.KNeighborsClassifier(n_neighbors, weights='distance')
kne.fit(X_train, Y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=15, p=2,
           weights='distance')

### Evaluación, matriz de confusión, medidas de desempeño

In [14]:
all_predictions = kne.predict(X)
print(kne.score(X_test,Y_test)*100,"%")

59.4427244582 %


In [15]:
tp, fn, fp, tn = confusion_matrix(Y, all_predictions).ravel()
print (tp, fn, fp, tn)

532 62 72 626


<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>532</td>
    <td>62</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>72</td>
    <td>626</td>
  </tr>
</table>

In [16]:
target_names = ['Hombre','Mujer']
print (classification_report(Y, all_predictions,target_names=target_names))

             precision    recall  f1-score   support

     Hombre       0.88      0.90      0.89       594
      Mujer       0.91      0.90      0.90       698

avg / total       0.90      0.90      0.90      1292



### Interpretación de los resultados

Observamos una mejora en el sistema. Detecta correctamente la mayoría de hombres y la mayoría de mujeres. Esto se ve reflejado también en las medidas de desempeño.

Además, la medida F1 es mayor por poco en el caso de las mujeres. En general, conforme a la hipótesis planteada, K-Nearest se ha comportado mejor con la 1er representación vectorial.

## 2da Representación Vectorial

### Obtener vectores X y Y

Empezamos por limpiar el texto, eliminando la fecha y hora en la que se emite cada mensaje. Para lo cual definimos la siguiente expresión regular, y la función preprocesamiento, que elimina la fecha del texto.

In [17]:
PATH = "conversaciones/"
regex_fechahora = re.compile("[0-9][0-9]?(/|-)[0-9][0-9]?(/|-)([0-9][0-9])?[0-9][0-9]?,? [0-9][0-9]?:[0-9][0-9]:?([0-9][0-9])?:? (((a. ?m.|p. ?m.)|(AM|PM))? ?(:|-))? ?")

def preprocesamiento(s_texto):
    s_texto = regex_fechahora.sub("",s_texto)
    return s_texto

Después, extraemos el texto de cada participante, y lo guardamos en textoParticipante. También guardamos su respectiva etiqueta en el vector Y.

In [18]:
X = []
textoParticipante = []
Y = []
row_iterator = df.iterrows()
regexQuitarNombre = re.compile(".*?: ")
for index,row in row_iterator:
    #obtengo el row siguiente del iterador
    _,siguiente = row_iterator.__next__()
    #obtengo el nombre de la conversación si no es nulo, así como de los 2 participantes
    s_nombreArchivo = row[u'Nombre de archivo de la conversación']
    #obtengo el nombre de los participantes
    s_nombrePart1 = row['Participante']
    s_nombrePart2 = siguiente['Participante']
    #Obtengo la expresión regular que me extrae los mensajes de dicho participante.
    regexNombre1 = re.compile(re.escape(s_nombrePart1) + r"( ?:? ?)?.*?\n")
    regexNombre2 = re.compile(re.escape(s_nombrePart2) + r"( ?:? ?)?.*?\n")
    #Abro el archivo, y lo proceso
    with io.open(""+PATH+""+s_nombreArchivo,mode="r",encoding="utf-8") as file:
        s_texto = file.read()
        #lo preproceso
        s_texto = preprocesamiento(s_texto)
        s_texto_1 = regexNombre1.sub("",s_texto)
        s_texto_2 = regexNombre2.sub("",s_texto)
        s_texto_1 = regexQuitarNombre.sub("",s_texto_1)
        s_texto_2 = regexQuitarNombre.sub("",s_texto_2)
        textoParticipante.append(s_texto_1)
        textoParticipante.append(s_texto_2)
        Y.append(row[u'Género'])
        Y.append(siguiente[u'Género'])

Creamos nuestro vectorizador, TFIDF, aplicando smoothing y un poco de preprocesamiento.

In [19]:
vectorizer = TfidfVectorizer(use_idf=True,               # Usa medida IDF
                             lowercase=True,             # Convierte tokens a minúsculas.
                             strip_accents='ascii',      # Elimina acentos y caracteres especiales
                             smooth_idf=True             # Aplica alisado para prevenir divisiones entre cero.
                             )

Como en la primera representación vectorial, nos aseguramos que textoParticipante y Y sean de la misma dimensión. Es decir, que a cada texto, le corresponde una etiqueta.

In [20]:
if len(Y) == len(textoParticipante):
    print("Son del mismo tamaño")

Son del mismo tamaño


Creamos la matriz X TFIDF utilizando el texto de cada participante

In [21]:
X = vectorizer.fit_transform(textoParticipante)

Obteniendo las siguientes dimensiones

In [22]:
print(X.shape)

(1292, 168503)


### Segmentación de datos
Se realizará una segmentación para poder realizar una evaluación Hold-Out

In [23]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, shuffle = True)

### Naive Bayes

In [24]:
clf = MultinomialNB(alpha=0.50,fit_prior=True)

In [25]:
clf.fit(X_train,Y_train)

MultinomialNB(alpha=0.5, class_prior=None, fit_prior=True)

### Evaluación, matriz de confusión, medidas de desempeño

In [26]:
print(clf.score(X_test,Y_test)*100,"%")

61.919504644 %


In [27]:
all_predictions = clf.predict(X)
tp, fn, fp, tn = confusion_matrix(Y, all_predictions).ravel()
tp, fn, fp, tn 

(176, 418, 0, 698)

<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>176</td>
    <td>418</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>0</td>
    <td>698</td>
  </tr>
</table>

In [28]:
target_names = ['Hombre','Mujer']
print (classification_report(Y, all_predictions,target_names=target_names))

             precision    recall  f1-score   support

     Hombre       1.00      0.30      0.46       594
      Mujer       0.63      1.00      0.77       698

avg / total       0.80      0.68      0.63      1292



### Interpretación de resultados

Todas las mujeres han sido clasificadas correctamente. Los hombres, en su mayoría han sido clasificados erróneamente.

La precisión de Hombre ha sido 100% pues todos los predichos fueron hombres. Sin embargo, su recall fue bajo, pues de todos los hombres que había, encontró la minoría.

Con la mujer, las predicciones no fueron tan acertadas con lo cual la precisión es de 63%. Sin embargo, todas las mujeres fueron clasificadas como tal, por lo que el recall fue de 100%.

En general, es coherente que la medida f1 salga mejor en la mujer, por el número de mujeres que hay en el corpus de entrenamiento.

Además, en este caso, Naive Bayes con la 2da representación se ha comportado mejor que Naive Bayes con la 1ra Representación. Y aún así, se ha comportado peor que K-Nearest de la 1ra representación.

### K-Nearest

Elegimos un K de 15

Hacemos nuestro clasificador con el siguiente parámetro: 

pesado 'distance' el cual pesa los puntos por el inverso de su distancia. Es decir, vecinos más cercanos del punto de búsqueda tienen mayor influencia que los puntos lejanos.

In [29]:
n_neighbors = 15

In [30]:
kne = neighbors.KNeighborsClassifier(n_neighbors, weights='distance')
kne.fit(X_train, Y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=15, p=2,
           weights='distance')

### Evaluación, matriz de confusión, medidas de desempeño

In [31]:
all_predictions = kne.predict(X)
print(kne.score(X_test,Y_test)*100,"%")

60.6811145511 %


In [32]:
tp, fn, fp, tn = confusion_matrix(Y, all_predictions).ravel()
print (tp, fn, fp, tn)

477 117 12 686


<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>477</td>
    <td>117</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>12</td>
    <td>686</td>
  </tr>
</table>

In [33]:
target_names = ['Hombre','Mujer']
print (classification_report(Y, all_predictions,target_names=target_names))

             precision    recall  f1-score   support

     Hombre       0.98      0.80      0.88       594
      Mujer       0.85      0.98      0.91       698

avg / total       0.91      0.90      0.90      1292



### Interpretación de resultados

Se ha comportado un poco mejor Naive-Bayes que K-Nearest con la 2da representación vectorial. 
Al igual que Naive Bayes, el hombre tiene mayor precisión y menor recall, y la medida F1 sigue reflejando el hecho de que hay más mujeres con cuales generalizar.

El promedio de las medidas de desempeño es superior a Naive Bayes.

# Conclusiones

## 1ra Representación Vectorial

#### NAIVE BAYES
<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>471</td>
    <td>123</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>524</td>
    <td>174</td>
  </tr>
</table>

Score: 44.8916408669 %

#### K-Nearest

<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>532</td>
    <td>62</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>72</td>
    <td>626</td>
  </tr>
</table>

Score: 59.4427244582 %

## 2da Representación Vectorial

#### NAIVE BAYES
<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>176</td>
    <td>418</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>0</td>
    <td>698</td>
  </tr>
</table>

Score: 61.919504644 %

#### K-Nearest

<table>
  <tr>
    <th></th>
    <th>Hombre</th>
    <th>Mujer</th>
  </tr>
  <tr>
    <td><b>Hombre</b></td>
    <td>477</td>
    <td>117</td>
  </tr>
  <tr>
    <td><b>Mujer</b></td>
    <td>12</td>
    <td>686</td>
  </tr>
</table>

Score: 60.6811145511 %

Según nuestra hipótesis, K-Nearest se comportaría mejor en la 1ra representación vectorial, y peor en la segunda, <b>lo cual resultó ser cierto</b> tomando sólo en cuenta el score. Sin embargo, dicha métrica no refleja del todo la realidad de los resultados.

A pesar de que Naive-Bayes de la 2da representación tenga mejor score, observamos que hizo un pésimo trabajo para clasificar hombres. 

También, con los resultados se ve el incremento del score de Naive Bayes, al agregar más dimensiones a la representación vectorial. 

Si quisieramos algo más balanceado, yo me inclinaría a utilizar K-Nearest, con cualquiera de las 2 representaciones vectoriales, pues son los que poseen las matrices de confusión con mayores valores verdaderos positivos y verdaderos negativos.

Si sólo nos fijáramos en los scores, se podría decir que es mejor tomar el texto que escribe la persona, que las características que conocemos de ella, para predecir su género. Sin embargo, si la tarea estuviera sometida a requerimientos de clasificación con algún margen de precisión o recall mínimo, seguramente tendríamos que recurrir al K-Nearest de la 1ra o la 2da representación, que son los que obtuvieron mejores medidas de desempeño.

