# Experimentación

Vimos que la distribución de las palabras en el texto de entrenamiento no es buena. Puede haber dos alternativas para solucionar este problema: conseguir más corpus o balancear las clases. Esto podrá ser tomado como un trabajo futuro, debido a la falta de tiempo y dificultad para adquirir nuevos chats. Por ende, descartamos la posibilidad de utilizar textos sin preproceso (las palabras de los chats aparecerán al menos 20 veces).

# Primeros experimento: por respuesta corta

Los siguientes experimentos serán realizados por respuesta corta, es decir respuestas con una dos y tres palabras.

Compararemos una palabra vs. dos palabras vs. tres palabras como respuesta corta.

Experimentaremos con:

- palabras que suceden más de 20 veces en el corpus. Quitando todos los signos de puntuación y los emojis, letras repetidas, etc.
- bolsa de subpalabras (BOsW) con 3-gramas.
- logistic Regression

Una vez comparados los tres resultados, elegiremos de este para compararlos con otra forma de etiquetar el corpus.

In [7]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import CountVectorizer

import pandas as pd

In [22]:
def manage_file(path):
    df = pd.read_csv(path)
    labels_unique = df.label.unique()
    label_to_num = dict(zip(labels_unique, range(len(labels_unique))))

    df.label = df.label.map(label_to_num)

    target_names = [x for x, _ in sorted(label_to_num.items(), key=lambda x: x[1])]
    return df, target_names

In [15]:
def BOW(df, min_df=10, analizer='char', ngram_range=(3,4)):
    vectorizer = CountVectorizer(min_df=10, analyzer='char', ngram_range=(3,4))
    representation = vectorizer.fit(df.context)
    BOW_matrix = representation.transform(df.context)

    return BOW_matrix

In [10]:
def split_data(X, Y, train_size=.9):
    return train_test_split(X, Y, train_size=train_size)

In [25]:
def results(Y_test, predict, target_names=[]):
    print('accuracy: ', sum(predict == Y_test) / len(Y_test))
    print('==================================================================')
    
    print(classification_report(Y_test, predict, target_names=target_names))
    
    print('==================================================================')

### Una palabra

In [23]:
df, target_names = manage_file('short_ans1.csv')

In [16]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(12771, 22052)

Hay 12,771 oraciones de entrenamiento con 22,052 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [17]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [18]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [19]:
predict = lg.predict(X_test)

In [26]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.507042253521
             precision    recall  f1-score   support

         yo       0.17      0.12      0.14         8
       hola       0.20      0.05      0.08        20
         ja       0.60      0.86      0.71       632
          🏼       0.00      0.00      0.00        15
          🏻       0.08      0.04      0.05        27
         no       0.12      0.04      0.06        47
         si       0.09      0.07      0.08        91
         🏻🏻       0.00      0.00      0.00         7
        jja       0.00      0.00      0.00        13
         🏻‍       0.00      0.00      0.00         8
         oh       0.00      0.00      0.00         7
          m       0.40      0.14      0.21        14
         ok       0.47      0.44      0.45       130
      claro       0.09      0.05      0.06        20
    gracias       0.21      0.14      0.17        42
       dale       0.30      0.32      0.31        34
     genial       0.50      0.19      0.27        16
         ah       0

  'precision', 'predicted', average, warn_for)


### Dos palabras

In [27]:
df, target_names = manage_file('short_ans2.csv')

In [28]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(13240, 22075)

Hay 13,240 oraciones de entrenamiento con 22,075 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [29]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [30]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [31]:
predict = lg.predict(X_test)

In [32]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.482628398792
             precision    recall  f1-score   support

         yo       0.43      0.33      0.38         9
       hola       0.14      0.11      0.12         9
         ja       0.58      0.85      0.69       639
          🏼       0.17      0.05      0.08        20
          🏻       0.17      0.05      0.08        37
      ja si       0.00      0.00      0.00        12
         no       0.11      0.08      0.09        39
         si       0.15      0.11      0.13       109
         🏻🏻       0.00      0.00      0.00         6
        jja       0.00      0.00      0.00        12
         🏻‍       0.00      0.00      0.00        13
         oh       0.00      0.00      0.00        12
          m       0.00      0.00      0.00        16
         ok       0.37      0.37      0.37       115
      claro       0.25      0.17      0.20        12
    gracias       0.35      0.20      0.26        30
       dale       0.28      0.20      0.24        44
     genial       0

  'precision', 'predicted', average, warn_for)


### Tres palabras

In [35]:
df, target_names = manage_file('short_ans3.csv')

In [36]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(13240, 22075)

Hay 13,240 oraciones de entrenamiento con 22,075 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [37]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [38]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [39]:
predict = lg.predict(X_test)

In [40]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.46752265861
             precision    recall  f1-score   support

         yo       0.20      0.18      0.19        11
       hola       0.25      0.06      0.10        17
         ja       0.57      0.86      0.68       615
          🏼       0.08      0.06      0.07        17
          🏻       0.23      0.09      0.13        34
      ja si       0.00      0.00      0.00         7
         no       0.00      0.00      0.00        30
         si       0.13      0.11      0.12        99
         🏻🏻       0.00      0.00      0.00         8
        jja       0.00      0.00      0.00         7
         🏻‍       0.00      0.00      0.00        10
         oh       0.00      0.00      0.00         5
          m       0.33      0.11      0.17         9
         ok       0.40      0.37      0.38       131
      claro       0.25      0.06      0.10        31
    gracias       0.27      0.13      0.18        46
       dale       0.27      0.21      0.23        39
     genial       0.

  'precision', 'predicted', average, warn_for)


## Conclusión

Los resultados fueron mejores para una sola palabra en la respuesta. Es claro que iba a ser mejor debido a que la variedad de respuestas iban a ser mayor. Elegimos el modelo entrenado con una sola palabra de respuesta para comparar con los otros.

# Segundo experimento: por turnos

Etiquetamos de acuerdo a los turnos, es decir eligiremos el contexto de acuerdo con:
   - el turno inmediatamente anterior de respuesta corta
   - los 3 turnos inmediatamente anteriores de respuesta corta
   - los 10 turnos inmediatamente anteriores de respuesta corta
   
Al igual que el experimento uno, usaremos:

- palabras que suceden más de 20 veces en el corpus. Quitando todos los signos de puntuación y los emojis, letras repetidas, etc.
- bolsa de subpalabras (BOsW) con 3-gramas.
- logistic Regression

Eligiremos la mejor de cada uno, para luego intentar otros embeddings y/o clasificadores

### Turno inmediatamente anterior

In [44]:
df, target_names = manage_file('turn1_short1_pre2.csv')

In [45]:
BOW_matrix = BOW(df)
BOW_matrix.shape

(17758, 8480)

Hay 17,758 oraciones de entrenamiento con 8,480 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [46]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [47]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [48]:
predict = lg.predict(X_test)

In [49]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.515202702703
             precision    recall  f1-score   support

         yo       0.86      0.24      0.38        25
       hola       0.38      0.24      0.29        21
         ja       0.59      0.88      0.71       935
         no       0.16      0.07      0.10        54
          🏻       0.38      0.07      0.11        45
          🏼       0.09      0.05      0.06        20
         🏻‍       1.00      0.06      0.12        16
         si       0.16      0.12      0.14       100
         ok       0.30      0.27      0.28       128
         🏻🏻       0.00      0.00      0.00         8
        jja       0.50      0.09      0.15        11
    gracias       0.24      0.10      0.14        62
         oh       0.00      0.00      0.00         9
          m       0.40      0.14      0.21        14
         ah       0.29      0.07      0.11        30
      claro       0.17      0.04      0.07        24
       dale       0.14      0.09      0.11        55
     genial       0

  'precision', 'predicted', average, warn_for)


### Tres turnos  anteriores

In [50]:
df, target_names = manage_file('turn3_short1_pre2.csv')

In [51]:
BOW_matrix = BOW(df)
BOW_matrix.shape

(17758, 14565)

Hay 17,758 oraciones de entrenamiento con 14,565 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [52]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [53]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [54]:
predict = lg.predict(X_test)

In [55]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.496058558559
             precision    recall  f1-score   support

         yo       0.45      0.29      0.36        17
       hola       0.25      0.10      0.14        20
         ja       0.57      0.89      0.70       890
         no       0.05      0.02      0.03        51
          🏻       0.12      0.03      0.05        34
          🏼       0.00      0.00      0.00        32
         🏻‍       0.00      0.00      0.00        18
         si       0.19      0.13      0.15       116
         ok       0.34      0.26      0.30       144
         🏻🏻       0.00      0.00      0.00        13
        jja       0.00      0.00      0.00        10
    gracias       0.17      0.07      0.10        56
         oh       0.25      0.07      0.11        14
          m       0.00      0.00      0.00        13
         ah       0.10      0.03      0.05        32
      claro       0.09      0.04      0.06        24
       dale       0.30      0.15      0.20        53
     genial       0

### Diez turnos  anteriores

In [63]:
df, target_names = manage_file('turn10_short1_pre2.csv')

In [64]:
BOW_matrix = BOW(df)
BOW_matrix.shape

(17758, 23881)

Hay 17,758 oraciones de entrenamiento con 23,881 features por cada oración (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [65]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [66]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [67]:
predict = lg.predict(X_test)

In [68]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.492117117117
             precision    recall  f1-score   support

         yo       0.55      0.30      0.39        20
       hola       0.50      0.18      0.26        28
         ja       0.57      0.86      0.69       902
         no       0.00      0.00      0.00        43
          🏻       0.07      0.03      0.04        40
          🏼       0.20      0.04      0.07        23
         🏻‍       0.00      0.00      0.00        15
         si       0.17      0.13      0.15       109
         ok       0.28      0.28      0.28       137
         🏻🏻       0.00      0.00      0.00         9
        jja       0.00      0.00      0.00        14
    gracias       0.44      0.21      0.28        58
         oh       1.00      0.08      0.15        12
          m       0.25      0.06      0.10        16
         ah       0.00      0.00      0.00        26
      claro       0.20      0.04      0.06        26
       dale       0.19      0.13      0.15        55
     genial       0

  'precision', 'predicted', average, warn_for)


## Conclusión

Resulto el mejor resultado para respuestas de una sóla palabra con turnos de uno.