# Trabajo Final B.  De clasificación a NER

En este trabajo final utilizarán [este dataset](https://archive.ics.uci.edu/ml/datasets/Paper+Reviews) que consiste en evaluaciones de diferentes revisores sobre papers (405). Cada evaluación ha sido etiquetada con 5 clases (muy negativo, negativo, 0, neutral, positivo y muy positivo). Este proyecto consiste en realizar una clasificación de este dataset y además identificar que parte de los comentarios hacen referencia a las clases. 

## Parte 1. Clasificación sencilla de cada revisión

En esta parte tendrá que hacer un modelo de clasificación usando redes recurrentes (LSTM, GRU), para los cinco tipos de categorias.  Recuerde algunos pasos para realizar la clasificación:

1. Lectura de los datos (división en training/validation sets)
2. Preprocesamiento del texto (no es necesario ser tanto preprocesamiento como en word2vec, pero si eliminar algunos carácteres o incluso revisar si hay comentarios vacíos). 
3. Creación del vocabulario y transformación de palabras a índices (y viceversa)
4. Creación del "dataset" y "dataloader" involucrando los pasos 2 y 3.
5. Creación del modelo, involucrando embeddings.
6. Entrenar y validar (escoger optimizador Adam o AdamW, función de costo apropiada, loops de entrenamiento y validación).
7. Modelo listo para producción (modelo para predecir entrando un comentario)
8. Pequeña interfaz para predicción usando Gradio.

Realice diferentes configuraciones, tamaño del embedding, arquitecturas LSTM o GRU, varias capas, bidireccionalidad, etc. Escoja el mejor modelo. 

## Parte 2. Convirtiendo el texto a un problema de clasificación por palabras o frases (NER)

## Parte 2 A. Etiquetado 
Etiquetado de los comentarios frases a frases
Usando herramientas como [brat](https://brat.nlplab.org/), [docanno](https://doccano.herokuapp.com/) o [inception](https://inception-project.github.io/) (ver [este blog](https://dida.do/blog/the-best-free-labeling-tools-for-text-annotation-in-nlp) para un rápido resumen sobre estas aplicaciones), deberán etiquetar las frases en los comentarios con las etiquetas que correspondan a cada categoría. Un ejemplo para el primer comentario lo muestra la siguiente figura: 
![image](ejemploetiquetado.png)

Nota: El anterior ejemplo lo hice en la herramienta de inception (y exportando el archivo a WebAnno TSV v3.3).
Como pueden observar la mayoría de palabras no se etiquetarán (pertenecen a una categoría como "otros").

No deben etiquetar todo el dataset, pueden hacerlo con unas 100 (por grupo). Pero pueden intercambiarse (entre grupos que les haya tocado el mismo trabajo) los datasets etiquetados para incrementar el número de datos (para esto es recomendable usar la misma herramienta y el mismo tipo de archivo de exportación).

### Parte 2. Clasificación y localización de las frases
Cree un modelo de clasificación por palabra (es similar al punto 2 del taller 4), donde involucren redes recurrentes. Cuando varias palabras contiguas pertenezcan a la misma etiqueta deberan unirlas para etiquetarlas como frase.  Para este modelo deben seguir los mismos pasos de la parte 1, pero cambiando un poco el modelo. 

- Desarrolle un modelo inicializando los pesos de forma aleatoria (por defecto)
- Desarrolle un modelo partiendo de los pesos de la parte 1.
- Desarrolle un modelo word2vec y posteriormente cargue estos pesos en la capa de embedding para desarrollar el modelo recurrente.Les puede ser útil [esto](https://gist.github.com/dhruvdcoder/cbb8d7967a499ba85418c18414e2cdce).
- Compare los modelos anteriores.
- Visualice la clasificación de algunas frases del conjunto de validación usando spacy o la herramienta que usaron para etiquetar.

-----
Es importante que realicen gráficos y visualizaciones que ayuden a la interpretación. No olviden ir analizando y comentando los hallazgos, y sobretodo **concluir**. El entregable es un notebook de Jupyter, debidamente presentado y comentado.

- ¿Qué diferencian encuentran con un tipo de clasificación respecto al otro?
- ¿Los pesos de una tarea ayudan a la otra?
- ¿Es posible analizar o intuir a partir de pesos o activaciones, que parte del texto está ayudando en la parte 1 a clasificar?

### Tip de lectura de datos del archivo JSON

In [1]:
import pandas as pd

In [11]:
import json
# load data using Python JSON module
with open('reviews.json','r') as f:
    data = json.loads(f.read())

In [19]:
df = pd.json_normalize(data['paper'], record_path = ["review"])
df.head()

Unnamed: 0,confidence,evaluation,id,lan,orientation,remarks,text,timespan
0,4,1,1,es,0,,- El artículo aborda un problema contingente y...,2010-07-05
1,4,1,2,es,1,,El artículo presenta recomendaciones prácticas...,2010-07-05
2,5,1,3,es,1,,- El tema es muy interesante y puede ser de mu...,2010-07-05
3,4,2,1,es,1,,Se explica en forma ordenada y didáctica una e...,2010-07-05
4,4,2,2,es,0,,,2010-07-05
