## 1.3 Conclusiones

El mejor modelo que he obtenido es a traves de una red convolucional, pero esta conclusión tiene trampa, ya que los modelos de ML los he entrenado con sólo la decima parte del dataset, con lo que la red neuronal parte con ventaja frente al resto. Si bien es cierto que para entrenar una red neuronal se necesitan muchos datos, y con pocos dan resultados mediocres, hay que tenerlo en cuenta.

Si fuese Amazon, o Google y tuviese tiempo y potencia de calculo infinito, podría haber entrenado todo con el dataset completo, y realizar distintos ajustes, para obtener unos resultados mejores. En cualquier caso, el objetivo de la practica es aplicar lo enseñado en clase, y no lograr un accuracy impresionante.

Me resulta destacable que, aunque el modelo que mejor se comporta es el de SVM, uno de los mejores modelos es el más sencillo, un Bayes. 

**¿Qué puede indicar?**

Pues probalemente que al quitar datos el modelo que  podiamos generar se ha resentido. En la primera iteración, cuando trabajaba con el dataset completo, al usar Bayes he obtenido un `acc=0.77` mientras que con el dataset reducido ha sido de `0.72`.

Tambien es cierto que es posible que la selección de caracteristicas en el vectorizador (y en el stemming) no esté optimizada para el problema, y se pudiese trabajar más en ella. Por poner un ejemplo, se ve que en el dataset hay caracteres extraños, procedentes de un [error de decodificación de utf-8](https://www.i18nqa.com/debug/utf8-debug.html). Esos errores pueden enmascarar caracteres unicodes tipo emojis que pueden tambien ser interesantes en la interpretacion de sentimientos. No es lo mismo usar un 😊que 🙁, y cuando he hecho la vectorización he ignorado todos esos datos. 

En cualquier caso aqui tienes una tabla resumen de todos los experimentos.

In [1]:
import pandas as pd

RESULT_FILE='results/resultados_modelos.csv'

In [2]:
resultadosModelo = pd.read_csv(RESULT_FILE)
resultadosModelo = resultadosModelo.drop(['Unnamed: 0'], axis=1)

In [3]:
resultadosModelo.sort_values(by=['test'], ascending=False)

Unnamed: 0,Modelo,parametros-optimos,train,test,confusion_matrix,acc_sen_esp_ppv_fsc
10,CNN - Big Dataset,-,0.927431,0.761541,[[ 7141 3821]\n [ 2140 11896]],"[0.7615409232738619, 0.847534910230835, 0.6514..."
0,SVM - Small Dataset,"{'svm__C': 5.994842503189409, 'svm__gamma': 0....",0.716,0.733,[[ 799 507]\n [ 294 1400]],"[0.733, 0.8264462809917356, 0.611791730474732,..."
4,Boosted Tree - Small Dataset,"{'boosted__learning_rate': 0.1, 'boosted__max_...",0.714857,0.728667,[[ 784 522]\n [ 292 1402]],"[0.7286666666666667, 0.8276269185360094, 0.600..."
1,Bayes - Small Dataset,"{'vect__analyzer': 'char', 'vect__max_df': 1.0...",0.717,0.722333,[[ 909 397]\n [ 436 1258]],"[0.7223333333333334, 0.7426210153482881, 0.696..."
11,CNN - Small Dataset,-,0.992667,0.7064,[[ 682 368]\n [ 366 1084]],"[0.7064, 0.7475862068965518, 0.649523809523809..."
8,Boosted Tree - Lemma - Small Dataset,"{'boosted__learning_rate': 0.1, 'boosted__max_...",0.686955,0.701333,[[ 692 614]\n [ 282 1412]],"[0.7013333333333334, 0.833530106257379, 0.5298..."
5,Bayes - Lemma - Small Dataset,"{'vect__analyzer': 'word', 'vect__max_df': 0.5...",0.68667,0.690333,[[ 704 602]\n [ 327 1367]],"[0.6903333333333334, 0.806965761511216, 0.5390..."
9,SVM - Lemma - Small Dataset,"{'svm__C': 1.0, 'svm__gamma': 0.03162277660168...",0.665524,0.685,[[ 508 798]\n [ 147 1547]],"[0.685, 0.9132231404958677, 0.3889739663093415..."
13,RNN - Small Dataset,LSTM con Dropout,0.964667,0.6836,[[727 323]\n [468 982]],"[0.6836, 0.6772413793103448, 0.692380952380952..."
3,Random Forestyes - Small Dataset,"{'forest__max_depth': 23, 'vect__analyzer': 'c...",0.668857,0.665,[[ 630 676]\n [ 329 1365]],"[0.665, 0.8057851239669421, 0.4823889739663093..."


Viendo lo que ha pasado con la red recurrente, en la que algunas de las asunciones hechas mientras se limpiaba el dataset hacian que el el modelo más sencillo no se pudiese entrenar, mucho me temo que para obtener mejores resultados tendría que trabajar más en la limpieza del dataset, y una vez limpio volver a repetir todos los modelos para ver si los resultados se mantienen coherentes.

**¿Qué pasos podriamos usar para limpiar el dataset?**

Además de los ya realizados varios:

* Eliminar las menciones. 
* Los hashtags podriamos eliminarlos o simplemente quitarles el # para que sean una palabra
* Borrar los emojis o sustituirlos por: 😄 -> GrinningFaceEmoji...
* Eliminar algunas cosas típicas de tweets, como poner un punto al principio de una frase, escribir RT
* Sustituir los verbos conjugados por su forma simple, has, had -> have. Esto se puede hacer con Spacy
* sustituir siglas de interner (LOL, WTF, OMG) y abreviaturas (don't) por palabras completas

En definitiva, dedicarle más trabajo a el preprocesado y menos a la optimización de los modelos.