# Laboratorio de Introducción al Procesamiento de Lenguaje Natural

# Tarea 2

El objetivo de este laboratorio es realizar diferentes experimentos para representar y clasificar textos. Para esto se trabajará con un corpus para análisis de sentimiento, creado para la competencia [TASS 2020](http://www.sepln.org/workshops/tass/) (IberLEF - SEPLN).

### Entrega
Deberán entregar un archivo *.ipynb* con su solución, que incluya código, comentarios y respuestas a las preguntas que se incluyen al final de este notebook. 

El plazo de entrega de la tarea 2 cierra el **20 de junio a las 23:59 horas**.

### Plataforma sugerida
Sugerimos que utilicen la plataforma [Google colab](https://colab.research.google.com/), que permite trabajar colaborativamente con un *notebook* de python. Al finalizar pueden descargar ese *notebook* en un archivo .ipynb, incluyendo las salidas ya ejecutadas, con la opción ```File -> Download -> Download .ipynb```.

### Aprobación del laboratorio
Para aprobar el laboratorio se exige como mínimo: 
* Probar dos enfoques diferentes para la representación de tweets (uno basado en BoW y otro en word embeddings)
* Probar al menos dos modelos de aprendizaje automático con cada representación
* Comparar los resultados con los obtenidos por el modelo de pysentimiento. 
El preprocesamiento, las pruebas con otras formas de representación de los tweets, los experimentos con otros modelos de aprendizaje automático, incluyendo aprendizaje profundo, entre otros posibles experimentos, no son requisito para aprobar el laboratorio, aunque aportan a la nota final.



## Parte 1 - Carga y preprocesamiento del corpus

Para trabajar en este notebook deben cargar los tres archivos disponbiles en eva: train.csv, devel.csv y test.csv.

La aplicación de una etapa de preprocesamiento similar a la implementada en la tarea 1 es opcional. Es interesante hacer experimentos con y sin la etapa de preprocesamiento, de modo de comparar resultados (sobre el corpus de desarrollo, devel.csv) y definir si se incluye o no en la solución final.



In [2]:
import code.carga as carga

DATASET_PATH = './csv/'


# Carga de los datasets
devel_df, train_df, test_df = carga.get_datasets(dataset_path=DATASET_PATH)

Loading datasets...
Datasets loaded


In [3]:
# Preprocesamiento de los tweets
import code.preprocessing as pre

preprocessing_methods = [pre.DummyPreprocess(), pre.AllPreprocess(), pre.StopWordsPreprocess(), pre.Tarea1Preprocess()]
pre.set_abbr_dir('./csv/abbreviations/')
pre.set_lexico_path('./csv/')


tweet = train_df.sample(n=1,random_state=6).iloc[0]['Tweet'] # seed 2 ejemplo simple
print('\nTweet original:')
print(tweet)
print('Tweet preprocesado:')
for method in preprocessing_methods:
    print('Preprocesamiento', method.__class__.__name__)
    print(method.preprocess_tweet(tweet))
    print()


Tweet original:
@pvaya @Sailor_Tesserei @Sh3rryMH es que es una reivindicación muy de moda... Ya sabes... de gente pedante como yo 
Tweet preprocesado:
Preprocesamiento DummyPreprocess
@pvaya @sailor_tesserei @sh3rrymh es que es una reivindicación muy de moda... ya sabes... de gente pedante como yo 

Preprocesamiento AllPreprocess
mención mención mención reivindicación muy moda sabes gente pedante

Preprocesamiento StopWordsPreprocess
pvaya sailor_tesserei sh3rrymh reivindicación muy moda sabes gente pedante

Preprocesamiento Tarea1Preprocess
mención mención mención es que es una reivindicación muy de moda ya sabes de gente pedante como yo



## Parte 2 - Representación de los tweets

Para representar los tweets se pide que experimenten con modelos basados en Bag of Words (BoW) y con Word Embeddings.

Para los dos enfoques podrán elegir entre diferentes opciones:

**Bag of Words**

* BOW estándar: se recomienda trabajar con la clase [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) de sklearn, en particular, fit_transform y transform.
* BOW filtrando stop-words: tienen disponible en eva una lista de stop-words para el español, adaptada para análisis de sentimiento (no se filtran palabras relevantes para determinar la polaridad, como "no", "pero", etc.).
* BoW usando lemas: pueden usar herramientas de spacy.
* BOW seleccionando las features más relevantes: se recomienda usar la clase [SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html?highlight=select%20k%20best#sklearn.feature_selection.SelectKBest) y probar con diferentes valores de k (por ejemplo, 10, 50, 200, 1000).
* BOW combinado con TF-IDF: se recomienda usar la clase [TfidfVectorizer](https://https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)

**Word Embeddings**

* A partir de los word embeddings, representar cada tweet como el vector promedio (mean vector) de los vectores de las palabras que lo componen.
* A partir de los word embeddings, representar cada tweet como la concatenación de los vectores de las palabras que lo componen (llevando el vector total a un largo fijo).

Se recomienda trabajar con alguna de las colecciones de word embeddings disponibles en https://github.com/dccuchile/spanish-word-embeddings. El repositorio incluye links a ejemplos y tutoriales.


Se pide que prueben al menos una opción basada en BoW y una basada en word embeddings.

In [4]:
# Representación de los tweets usando BoW
import code.representacion as rep

standard_bow = rep.StandardBowMapper()
count_bow = rep.CountStandardBowMapper()

In [5]:
# Representación de los tweets usando word embeddings
import code.representacion as rep
import code.test as test

EMBEDDING_PATH = './embeddings/embeddings-l-model.vec'

mean_tweet_lenght = test.get_mean_tweet_lenght(train_df)
wordvectors = carga.get_embeddings(word_vector_path = EMBEDDING_PATH, limit=300000)
mean_embedding = rep.MeanEmbeddingMapper(wordvectors)
array_embedding = rep.ArrayEmbeddingMapper(mean_tweet_lenght, wordvectors)
count_mean_embedding = rep.CountMeanEmbeddingMapper(wordvectors)
count_array_embedding = rep.CountArrayEmbeddingMapper(mean_tweet_lenght, wordvectors)

Loading embeddings model...
Embeddings loaded


## Parte 3 - Clasificación de los tweets

Para la clasificación de los tweets es posible trabajar con dos enfoques diferentes:

* Aprendizaje Automático basado en atributos: se pide probar al menos dos modelos diferentes, por ejemplo, Multi Layer Perceptron ([MLP](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier)) y Support Vector Machines ([SVM](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)), y usar al menos dos formas de representación de tweets (una basada en BoW y otra basada en word embeddings). Se publicó en eva un léxico de palabras positivas y negativas que puede ser utilizado para generar atributos.

* Aprendizaje Profundo: se recomienda experimentar con alguna red recurrente como LSTM. En este caso deben representar los tweets an base a word embeddings.

Deberán usar el corpus de desarrollo (devel.csv) para comparar resultados de diferentes experimentos, variando los valores de los hiperparámetros, la forma de representación de los tweets, el preprocesamiento, los modelos de AA, etc. 

Tanto para la evaluación sobre desarrollo como para la evaluación final sobre test se usará la medida [Macro-F1](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html) (promedio de la medida F1 de cada clase).

In [5]:
import code.clasificacion as clf
import code.test as test
import time
import code.load_run_data as load
from IPython.display import clear_output

svm_parameters = {'c':[1, 2], 'kernel':['rbf', 'poly']}
knn_parameters ={'n_neighbors':[5, 3, 7, 10], 'weights':['uniform', 'distance'], 'p':[1, 2]}
mlp_embedding_parameters = {'max_iter':[100, 200, 400], 'hidden_layer_sizes':[(50,), (100,), (50, 50), (100, 100)],
                             'activation':['relu', 'logistic'], 'random_state':[1]}
mlp_bow_parameters = {'max_iter':[400], 'hidden_layer_sizes':[(100,), (50, 50)], 'activation':['relu', 'logistic'], 'random_state':[1]}
lstm_parameters_embedding = {'sequence_length': [mean_tweet_lenght], 'embedding_length': [300], 'lstm_layers': [[(50,'tanh','sigmoid')]],
                        'dense_layer': [[(50,None)], [(50,'relu')], [(100, 'relu')], [(100,'relu'), (100,'relu'), (100,'relu')]], 'seed': [1]}
lstm_parameters_count_embedding = {'sequence_length': [mean_tweet_lenght], 'embedding_length': [303], 'lstm_layers': [[(50,'tanh','sigmoid')]],
                        'dense_layer': [[(50,None)], [(50,'relu')], [(100, 'relu')], [(100,'relu'), (100,'relu'), (100,'relu')]], 'seed': [1]}


time_id = int(time.time())

### Experimentos con Aprendizaje Automatico y BOW

In [6]:
classifiers_svm = test.get_classifiers(svm_parameters, clf.SVMClassifier)
results_classifiers_svm_bow = test.test_classifers(classifiers_svm, [standard_bow, count_bow], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_classifiers_svm_bow, "svm_bow", time_id, './results')

Successful run
Results saved in ./results/1687138584_svm_bow_results.csv
Top 3 results:
   Classifier    Metaparameters    Word Representation    Preprocessing  F1 Score  Train Time  Test time
SVMClassifier c: 2, kernel: rbf CountStandardBowMapper    AllPreprocess  0.604917    8.626708   0.708100
SVMClassifier c: 2, kernel: rbf CountStandardBowMapper Tarea1Preprocess  0.592301   10.813308   0.951350
SVMClassifier c: 2, kernel: rbf CountStandardBowMapper  DummyPreprocess  0.588521   12.266164   1.175033


In [7]:
classifiers_knn = test.get_classifiers(knn_parameters, clf.KNNClassifier)
results_classifiers_knn_bow = test.test_classifers(classifiers_knn, [standard_bow, count_bow], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_classifiers_knn_bow, "knn_bow", time_id, './results')

Successful run
Results saved in ./results/1687138584_knn_bow_results.csv
Top 3 results:
   Classifier                           Metaparameters    Word Representation       Preprocessing  F1 Score  Train Time  Test time
KNNClassifier  n_neighbors: 10, weights: uniform, p: 1 CountStandardBowMapper StopWordsPreprocess  0.554032    0.005330   0.489399
KNNClassifier  n_neighbors: 7, weights: distance, p: 1 CountStandardBowMapper StopWordsPreprocess  0.552499    0.004000   0.461447
KNNClassifier n_neighbors: 10, weights: distance, p: 1 CountStandardBowMapper StopWordsPreprocess  0.551799    0.004965   0.470813


In [8]:
mlp_for_bow_classifiers = test.get_classifiers(mlp_bow_parameters, clf.MLPClassifier)  
results_mlp_for_bow = test.test_classifers(mlp_for_bow_classifiers, [standard_bow, count_bow], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_mlp_for_bow, "mlp_for_bow", time_id, './results')

Successful run
Results saved in ./results/1687138584_mlp_for_bow_results.csv
Top 3 results:
   Classifier                                                                 Metaparameters    Word Representation       Preprocessing  F1 Score  Train Time  Test time
MLPClassifier max_iter: 400, hidden_layer_sizes: (50, 50), activation: relu, random_state: 1 CountStandardBowMapper StopWordsPreprocess  0.576701  119.607115   0.002924
MLPClassifier   max_iter: 400, hidden_layer_sizes: (100,), activation: relu, random_state: 1 CountStandardBowMapper StopWordsPreprocess  0.576433  320.371513   0.002924
MLPClassifier max_iter: 400, hidden_layer_sizes: (50, 50), activation: relu, random_state: 1 CountStandardBowMapper       AllPreprocess  0.575675   97.333843   0.002001


### Experimentos con Aprendizaje Automatico y Embeddings

In [9]:
classifiers_svm = test.get_classifiers(svm_parameters, clf.SVMClassifier)
results_classifiers_svm_emb = test.test_classifers(classifiers_svm, [mean_embedding, count_mean_embedding], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_classifiers_svm_emb, "svm_emb", time_id, './results')

Successful run
Results saved in ./results/1687138584_svm_emb_results.csv
Top 3 results:
   Classifier    Metaparameters Word Representation       Preprocessing  F1 Score  Train Time  Test time
SVMClassifier c: 1, kernel: rbf MeanEmbeddingMapper       AllPreprocess  0.634167   11.123228   2.173713
SVMClassifier c: 2, kernel: rbf MeanEmbeddingMapper       AllPreprocess  0.630164   11.405119   2.338367
SVMClassifier c: 1, kernel: rbf MeanEmbeddingMapper StopWordsPreprocess  0.629565   10.784764   2.101844


In [10]:
classifiers_knn = test.get_classifiers(knn_parameters, clf.KNNClassifier)
results_classifiers_knn_emb = test.test_classifers(classifiers_knn, [mean_embedding, count_mean_embedding], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_classifiers_knn_emb, "knn_emb", time_id, './results')

Successful run
Results saved in ./results/1687138584_knn_emb_results.csv
Top 3 results:
   Classifier                          Metaparameters      Word Representation Preprocessing  F1 Score  Train Time  Test time
KNNClassifier  n_neighbors: 5, weights: uniform, p: 1 CountMeanEmbeddingMapper AllPreprocess  0.570104    0.007999   0.516565
KNNClassifier n_neighbors: 10, weights: uniform, p: 1 CountMeanEmbeddingMapper AllPreprocess  0.563895    0.008502   0.583435
KNNClassifier n_neighbors: 5, weights: distance, p: 1 CountMeanEmbeddingMapper AllPreprocess  0.562804    0.009000   0.479562


In [11]:
mlp_for_embedding_classifiers = test.get_classifiers(mlp_embedding_parameters, clf.MLPClassifier)
results_mlp_for_emb = test.test_classifers(mlp_for_embedding_classifiers, [mean_embedding, count_mean_embedding], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_mlp_for_emb, "mlp_for_embedding", time_id, './results')

Successful run
Results saved in ./results/1687138584_mlp_for_embedding_results.csv
Top 3 results:
   Classifier                                                                   Metaparameters      Word Representation       Preprocessing  F1 Score  Train Time  Test time
MLPClassifier max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1 CountMeanEmbeddingMapper       AllPreprocess  0.637245   11.696102   0.007427
MLPClassifier max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1 CountMeanEmbeddingMapper StopWordsPreprocess  0.633987   11.479834   0.008090
MLPClassifier  max_iter: 100, hidden_layer_sizes: (50,), activation: logistic, random_state: 1 CountMeanEmbeddingMapper StopWordsPreprocess  0.633377    7.899633   0.005014


### Experimentos con Aprendizaje Profundo

Largo de secuencia 300:

In [12]:
lstm_classifiers = test.get_classifiers(lstm_parameters_embedding, clf.LSTMClassifier)
results_lstm_sl_300 = test.test_classifers(lstm_classifiers, [array_embedding], preprocessing_methods, train_df, devel_df) 
clear_output()
test.dump_results(results_lstm_sl_300, "lstm_sl_300", time_id, './results')

Successful run
Results saved in ./results/1687138584_lstm_sl_300_results.csv
Top 3 results:
    Classifier                                                                                                            Metaparameters  Word Representation       Preprocessing  F1 Score  Train Time  Test time
LSTMClassifier sequence_length: 9, embedding_length: 300, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1 ArrayEmbeddingMapper StopWordsPreprocess  0.586923   25.574628   0.195253
LSTMClassifier    sequence_length: 9, embedding_length: 300, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(50, None)], seed: 1 ArrayEmbeddingMapper StopWordsPreprocess  0.582857   25.887776   0.172518
LSTMClassifier  sequence_length: 9, embedding_length: 300, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(50, 'relu')], seed: 1 ArrayEmbeddingMapper    Tarea1Preprocess  0.582669   25.315014   0.173689


Largo de secuencia 303:

In [13]:
lstm_classifiers_count_embedding = test.get_classifiers(lstm_parameters_count_embedding, clf.LSTMClassifier)
results_lstm_sl_303 = test.test_classifers(lstm_classifiers_count_embedding, [count_array_embedding], preprocessing_methods, train_df, devel_df)
clear_output()
test.dump_results(results_lstm_sl_303, "lstm_sl_303", time_id, './results')

Successful run
Results saved in ./results/1687138584_lstm_sl_303_results.csv
Top 3 results:
    Classifier                                                                                                            Metaparameters       Word Representation       Preprocessing  F1 Score  Train Time  Test time
LSTMClassifier sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1 CountArrayEmbeddingMapper StopWordsPreprocess  0.600652   25.310352   0.163551
LSTMClassifier sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1 CountArrayEmbeddingMapper    Tarea1Preprocess  0.596711   25.244154   0.154698
LSTMClassifier sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1 CountArrayEmbeddingMapper       AllPreprocess  0.592267   25.533471   0.158754


### Analisis de todos los experimentos

El codigo a continuacion resume los resultados obtenidos anteriormente, mostrando los mejores resultados obtenidos para cada clasificador, y un ranking global de los mejores 10 configuraciones de clasificacadores/representaciones/preprocesados.

In [6]:
import code.load_run_data as load

load.print_global_summary(path='./results', global_top=10)


Top 10:
   Classifier      Word Representation       Preprocessing  F1 Score  Train Time  Test time                                                                       Metaparameters
MLPClassifier CountMeanEmbeddingMapper       AllPreprocess  0.637245   11.696102   0.007427   {max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1}
SVMClassifier      MeanEmbeddingMapper       AllPreprocess  0.634167   11.123228   2.173713                                                                  {c: 1, kernel: rbf}
MLPClassifier CountMeanEmbeddingMapper StopWordsPreprocess  0.633987   11.479834   0.008090   {max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1}
MLPClassifier CountMeanEmbeddingMapper StopWordsPreprocess  0.633377    7.899633   0.005014    {max_iter: 100, hidden_layer_sizes: (50,), activation: logistic, random_state: 1}
SVMClassifier      MeanEmbeddingMapper       AllPreprocess  0.630164   11.405119   2.338367               

COMENTARIO DE POR CLASIFICADOR

In [8]:
import code.load_run_data as load

load.print_algorithm_summary(path='./results', top_per_classifier=3)


Top 3 per classifier:

Classifier: KNNClassifier 
   Classifier      Word Representation Preprocessing  F1 Score  Train Time  Test time                            Metaparameters
KNNClassifier CountMeanEmbeddingMapper AllPreprocess  0.570104    0.007999   0.516565  {n_neighbors: 5, weights: uniform, p: 1}
KNNClassifier CountMeanEmbeddingMapper AllPreprocess  0.563895    0.008502   0.583435 {n_neighbors: 10, weights: uniform, p: 1}
KNNClassifier CountMeanEmbeddingMapper AllPreprocess  0.562804    0.009000   0.479562 {n_neighbors: 5, weights: distance, p: 1}

Classifier: LSTMClassifier 
    Classifier       Word Representation       Preprocessing  F1 Score  Train Time  Test time                                                                                                              Metaparameters
LSTMClassifier CountArrayEmbeddingMapper StopWordsPreprocess  0.600652   25.310352   0.163551 {sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers

COMENTARIO DE GLOBAL

## Parte 4: Evaluación sobre test

Deben probar los mejores modelos obtenidos en la parte anterior sobre el corpus de test.

También deben comparar sus resultados con un modelo pre-entrenado para análisis de sentimientos de la biblioteca [pysentimiento](https://github.com/pysentimiento/pysentimiento) (deben aplicarlo sobre el corpus de test).



In [None]:
import pandas as pd
import code.clasificacion as clf
import code.test as test
import code.pysentimientod as ps

# Evaluación sobre test
new_train_df = pd.concat([train_df, devel_df], ignore_index=True)

summarize = pd.DataFrame(columns=['Classifier', 'Metaparameters', 'Word Representation', 'Preprocessing', 'F1 Score',
                                       'Train Time', 'Test time'])

top_4_configs = [[clf.MLPClassifier([('max_iter',100), ('hidden_layer_sizes',100), ('activation', 'logistic'), ('random_state', 1)]), count_mean_embedding, preprocessing_methods[1]],
 [clf.SVMClassifier([('c',1), ('kernel','rbf')]), mean_embedding, preprocessing_methods[1]],
 [clf.MLPClassifier([('max_iter',100), ('hidden_layer_sizes',100), ('activation', 'logistic'), ('random_state', 1)]), count_mean_embedding, preprocessing_methods[2]],
 [clf.MLPClassifier([('max_iter',100), ('hidden_layer_sizes',50), ('activation', 'logistic'), ('random_state', 1)]), count_mean_embedding, preprocessing_methods[2]]]

#KNNClassifier CountMeanEmbeddingMapper AllPreprocess  0.570104    0.007999   0.516565  {n_neighbors: 5, weights: uniform, p: 1}
#KNNClassifier CountMeanEmbeddingMapper AllPreprocess  0.563895    0.008502   0.583435 {n_neighbors: 10, weights: uniform, p: 1}
#LSTMClassifier CountArrayEmbeddingMapper StopWordsPreprocess  0.600652   25.310352   0.163551 {sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1}
#LSTMClassifier CountArrayEmbeddingMapper    Tarea1Preprocess  0.596711   25.244154   0.154698 {sequence_length: 9, embedding_length: 303, lstm_layers: [(50, 'tanh', 'sigmoid')], dense_layers: [(100, 'relu')], seed: 1}
#MLPClassifier CountMeanEmbeddingMapper       AllPreprocess  0.637245   11.696102   0.007427 {max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1}
#MLPClassifier CountMeanEmbeddingMapper StopWordsPreprocess  0.633987   11.479834   0.008090 {max_iter: 100, hidden_layer_sizes: (100,), activation: logistic, random_state: 1}

#---SVMClassifier MeanEmbeddingMapper       AllPreprocess  0.634167   11.123228   2.173713 {c: 1, kernel: rbf}
#---SVMClassifier MeanEmbeddingMapper       AllPreprocess  0.630164   11.405119   2.338367 {c: 2, kernel: rbf}

preprocessing_methods = [pre.DummyPreprocess(), pre.AllPreprocess(), pre.StopWordsPreprocess(), pre.Tarea1Preprocess()]

best_two_configs_per_clasiffier = [[clf.SVMClassifier([('c',1), ('kernel','rbf')]), mean_embedding, preprocessing_methods[1]],
 [clf.SVMClassifier([('c',2), ('kernel','rbf')]), mean_embedding, preprocessing_methods[1]],
                                   
 [clf.MLPClassifier([('c',1), ('kernel','rbf')]), standard_bow, preprocessing_methods[2]],
 [clf.SVMClassifier([('c',1), ('kernel','rbf')]), standard_bow, preprocessing_methods[2]]]

for classifier, word_rep, preprocesing in best_classifiers:
    f1_score, train_time, test_time = test.test_single_classifer(classifier, word_rep, preprocesing, new_train_df, test_df)
    row = [classifier.__class__.__name__, classifier.get_metaparameters(),
           word_rep.__class__.__name__, preprocesing.__class__.__name__,
           f1_score, train_time, test_time]
    summarize.loc[len(summarize.index)] = row

X_test, Y_test = test.split_dataset(test_df)
pysentimiento_f1_score = ps.test_pysentimiento(X_test, Y_test)

row = ['pysentimiento', '-', '-', '-', pysentimiento_f1_score, '-', '-']
summarize.loc[len(summarize.index)] = row

summarize = summarize.sort_values(by=["F1 Score"], ascending=False)
print(summarize.to_string(index=False))

## Preguntas finales

Responda las siguientes preguntas:

1) ¿Qué modelos probaron para la representación de los tweets?

2) ¿Aplicaron algún tipo de preprocesamiento de los textos?

3) ¿Qué modelos de aprendizaje automático probaron?

4) ¿Qué atributos utilizaron para estos modelos?

5) ¿Probaron algún enfoque de aprendizaje profundo?

6) ¿Probaron diferentes configuraciones de hiperparámetros?

7) ¿Qué enfoque (preprocesamiento + representación de tweets + modelo + atributos/parámetros) obtuvo la mejor Macro-F1?

8) ¿Qué clase es la mejor clasificada por este enfoque? ¿Cuál es la peor? ¿Por qué piensan que sucede esto?

9) ¿Cómo son sus resultados en comparación con los de pysentimiento? ¿Por qué piensan que sucede esto?


