# Experimentaci√≥n

Vimos que la distribuci√≥n de las palabras en el texto de entrenamiento no es buena. Puede haber dos alternativas para solucionar este problema: conseguir m√°s corpus o balancear las clases. Esto podr√° ser tomado como un trabajo futuro, debido a la falta de tiempo y dificultad para adquirir nuevos chats. Por ende, descartamos la posibilidad de utilizar textos sin preproceso (las palabras de los chats aparecer√°n al menos 20 veces).

# Primeros experimento: por respuesta corta

Los siguientes experimentos ser√°n realizados por respuesta corta, es decir respuestas con una dos y tres palabras.

Compararemos una palabra vs. dos palabras vs. tres palabras como respuesta corta.

Experimentaremos con:

- palabras que suceden m√°s de 20 veces en el corpus. Quitando todos los signos de puntuaci√≥n y los emojis, letras repetidas, etc.
- bolsa de subpalabras (BOsW) con 3-gramas.
- logistic Regression

Una vez comparados los tres resultados, elegiremos de este para compararlos con otra forma de etiquetar el corpus.

In [2]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import CountVectorizer

import pandas as pd

In [3]:
def manage_file(path):
    df = pd.read_csv(path)
    labels_unique = df.label.unique()
    label_to_num = dict(zip(labels_unique, range(len(labels_unique))))

    df.label = df.label.map(label_to_num)

    target_names = [x for x, _ in sorted(label_to_num.items(), key=lambda x: x[1])]
    return df, target_names

In [4]:
def BOW(df, min_df=10, analizer='char', ngram_range=(3,4)):
    vectorizer = CountVectorizer(min_df=10, analyzer='char', ngram_range=(3,4))
    representation = vectorizer.fit(df.context)
    BOW_matrix = representation.transform(df.context)

    return BOW_matrix

In [5]:
def split_data(X, Y, train_size=.9):
    return train_test_split(X, Y, train_size=train_size)

In [6]:
def results(Y_test, predict, target_names=[]):
    print('accuracy: ', sum(predict == Y_test) / len(Y_test))
    print('==================================================================')
    
    print(classification_report(Y_test, predict, target_names=target_names))
    
    print('==================================================================')

### Una palabra

In [6]:
df, target_names = manage_file('short_ans1_20words.csv')

In [7]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(21923, 14319)

Hay 21,923 oraciones de entrenamiento con 14,319 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [8]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [9]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [10]:
predict = lg.predict(X_test)

In [11]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.312813497492
                precision    recall  f1-score   support

    bienvenido       0.50      0.14      0.22         7
       quienes       0.46      0.24      0.32        25
            yo       0.15      0.15      0.15        26
          hola       0.00      0.00      0.00         3
         quien       0.00      0.00      0.00         2
       siempre       0.38      0.85      0.53       637
            um       0.10      0.09      0.10        34
            ja       0.08      0.03      0.05        32
             üèª       0.00      0.00      0.00        12
             üèº       0.03      0.02      0.02        46
           que       0.16      0.21      0.18       140
          pues       0.00      0.00      0.00        15
            no       0.00      0.00      0.00         1
           has       0.00      0.00      0.00         1
         tiene       0.00      0.00      0.00         2
            si       0.00      0.00      0.00         2
             y 

  .format(len(labels), len(target_names))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


### Dos palabras

In [12]:
df, target_names = manage_file('short_ans2_20words.csv')

In [13]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(34582, 14327)

Hay 13,240 oraciones de entrenamiento con 22,075 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [14]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [15]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [16]:
predict = lg.predict(X_test)

In [17]:
results(Y_test, predict, target_names=target_names)

accuracy:  0.211621856028


  .format(len(labels), len(target_names))


                        precision    recall  f1-score   support

            bienvenido       0.00      0.00      0.00         5
                 oh si       0.21      0.21      0.21        24
               quienes       0.25      0.33      0.29        30
                    yo       0.00      0.00      0.00         1
                  hola       0.00      0.00      0.00         2
                 quien       0.00      0.00      0.00         1
               siempre       0.00      0.00      0.00         4
                 um ok       0.25      0.83      0.38       685
                    um       0.08      0.08      0.08        24
              ah claro       0.22      0.10      0.14        20
                    ja       0.11      0.03      0.05        30
                     üèª       0.00      0.00      0.00        12
        pasa direccion       0.00      0.00      0.00         4
                     üèº       0.00      0.00      0.00         1
               ja casi       0.00

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


### Tres palabras

In [6]:
df, target_names = manage_file('short_ans3_20words.csv')

In [7]:
BOG_matrix = BOW(df)
BOG_matrix.shape

(44883, 14328)

In [None]:
c = get_config()
c.Exporter.preprocessors = ['pre_pymarkdown.PyMarkdownPreprocessor']

{{BOG_matrix}}

Hay 44,883 oraciones de entrenamiento con 14,328 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [None]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)



In [None]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [None]:
predict = lg.predict(X_test)

In [None]:
results(Y_test, predict, target_names=target_names)

## Conclusi√≥n

Los resultados fueron mejores para una sola palabra en la respuesta. Es claro que iba a ser mejor debido a que la variedad de respuestas iban a ser mayor. Elegimos el modelo entrenado con una sola palabra de respuesta para comparar con los otros.

# Segundo experimento: por turnos

Etiquetamos de acuerdo a los turnos, es decir eligiremos el contexto de acuerdo con:
   - el turno inmediatamente anterior de respuesta corta
   - los 3 turnos inmediatamente anteriores de respuesta corta
   - los 10 turnos inmediatamente anteriores de respuesta corta
   
Al igual que el experimento uno, usaremos:

- palabras que suceden m√°s de 20 veces en el corpus. Quitando todos los signos de puntuaci√≥n y los emojis, letras repetidas, etc.
- bolsa de subpalabras (BOsW) con 3-gramas.
- logistic Regression

Eligiremos la mejor de cada uno, para luego intentar otros embeddings y/o clasificadores

### Turno inmediatamente anterior

In [7]:
df, target_names = manage_file('turn1_short1_pre2_20words.csv')

In [8]:
BOW_matrix = BOW(df)
BOW_matrix.shape

(33502, 8515)

Hay 17,758 oraciones de entrenamiento con 8,480 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [10]:
X_train, X_test, Y_train, Y_test = split_data(BOW_matrix, df.label, train_size=.9)



In [None]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

  " = {}.".format(self.n_jobs))


In [None]:
predict = lg.predict(X_test)

In [None]:
results(Y_test, predict, target_names=target_names)

### Tres turnos  anteriores

In [None]:
df, target_names = manage_file('turn3_short1_pre2_20words.csv')

In [None]:
BOW_matrix = BOW(df)
BOW_matrix.shape

Hay 17,758 oraciones de entrenamiento con 14,565 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [None]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)

In [None]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

In [None]:
predict = lg.predict(X_test)

In [None]:
results(Y_test, predict, target_names=target_names)

### Diez turnos  anteriores

In [None]:
df, target_names = manage_file('turn10_short1_pre2_20words.csv')

In [None]:
BOW_matrix = BOW(df)
BOW_matrix.shape

Hay 17,758 oraciones de entrenamiento con 23,881 features por cada oraci√≥n (muchas columnas de las matriz seguramente son 0, matriz esparsa)

In [None]:
X_train, X_test, Y_train, Y_test = split_data(BOG_matrix, df.label, train_size=.9)

In [None]:
lg = LogisticRegression(n_jobs=4)
lg = lg.fit(X_train, Y_train)

In [None]:
predict = lg.predict(X_test)

In [None]:
results(Y_test, predict, target_names=target_names)

## Conclusi√≥n

Resulto el mejor resultado para respuestas de una s√≥la palabra con turnos de uno.

# Experimentos con un turno anterior + una palabra de respuesta