# Cómo obtener datos de entrenamiento

Como seguramente habrás pensado al trabajar con el cuaderno anterior, **anotar las entidades contando los caracteres es muy tedioso y corremos el peligro de cometer mucho errores**. Si no encontramos ningún corpus anotado con el tipo de información que nos interesa para nuestro modelo, se presenta ante nosotros la ardua tarea de anotar.

Existen **herramientas profesionales** para ello, como **Prodigy** (https://prodi.gy/), que es de pago pero plantea la ventaja de una gran usabilidad e integración con SpaCy, **Universal Data Tool** (https://universaldatatool.com/) o **brat** (https://brat.nlplab.org/).

Lo que nos ocurrirá al utilizar cualquiera de ellas será que el **formato de salida de los datos** probablemente **no coincidirá con el formato esperado por el algoritmo de entrenamiento de nuestro modelo**.

Vamos a ver con un ejemplo práctico por qué esto no supone un gran problema: una vez que tenemos la información que necesitamos formalizada, **el cambio de formato es una tarea trivial**.

### Pongamos por caso que los ejemplos que nos interesa anotar son los mismo que en el cuaderno anterior:

*¿Cuánto cuesta un cubata?*

*¿Cuánto cuesta un vino?*

*¿Cuánto cuesta un rioja?*

*¿Cuánto cuesta un rueda?*

*¿Cuánto cuesta un blanco?*

*¿Cuánto cuesta un rosado?*

*¿Cuánto cuesta un agua?*

*¿Cuánto cuesta un tinto?*

*¿Cuánto cuesta un refresco?*

*¿Cuánto cuesta un tercio?*

*¿Cuánto cuesta una caña?*

*¿Cuánto cuesta una doble?*

*¿Cuánto cuesta una jarra?*

*¿Cuánto cuesta una sin?*

*¿Cuánto cuesta una clara?*

*¿Cuánto cuesta una sangría?*

### Vamos a utilizar una herramienta de código abierto que además está disponible como aplicación web:

El código está disponible en github (https://github.com/ManivannanMurugavel/spacy-ner-annotator) y el funcionamiento de la aplicación es muy sencillo: debes **subir el fichero de texto** que necesitas anotar a la web (https://manivannanmurugavel.github.io/annotating-tool/spacy-ner-annotator/), **anadir las clases** que te interesa añadir en la parte derecha (en este caso, la clase Bebida) e ir cambiando para cada oración al **modo editable** (pulsando el botón *Save* de la parte superior para que cambie *Edit*) para poder **seleccionar la porción de texto** que debemos anotar y pulsar en el botón con **la clase a la que pertenece**. Una vez anotada cada oración, debemos pulsar en *Next content* para poder anotar la siguiente oración. Cuando hayamos anotado todas las del corpus, una ventana de diálogo nos permitirá **elegir el nombre del fichero de anotaciones para descargar**.

### Si anotas las oraciones con las mismas entidades del cuaderno anterior, la salida de la aplicación será la siguiente:

`[{"content":"¿Cuánto cuesta un cubata?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un vino?","entities":[[18,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rioja?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rueda?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un blanco?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rosado?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un agua?","entities":[[18,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un tinto?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un refresco?","entities":[[18,26,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un tercio?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una caña?","entities":[[19,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una doble?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una jarra?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una sin?","entities":[[19,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una clara?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una sangría","entities":[[19,26,"Bebida",0,"rgb(62, 200, 169)"]]}]`

### Como podrás comprobar, el formato contiene toda la información que espera el algoritmo de entrenamiento de SpaCy, pero en un formato diferente.

Con el siguiente script (adaptado del repositorio de los mismo autores de la aplicación: https://github.com/ManivannanMurugavel/spacy-ner-annotator/blob/master/convert_spacy_train_data.py) podremos transformar el formato de datos al esperado para nuestro entrenamiento:

In [None]:
salida_app = '[{"content":"¿Cuánto cuesta un cubata?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un vino?","entities":[[18,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rioja?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rueda?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un blanco?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un rosado?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un agua?","entities":[[18,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un tinto?","entities":[[18,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un refresco?","entities":[[18,26,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta un tercio?","entities":[[18,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una caña?","entities":[[19,23,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una doble?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una jarra?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una sin?","entities":[[19,22,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una clara?","entities":[[19,24,"Bebida",0,"rgb(62, 200, 169)"]]},{"content":"¿Cuánto cuesta una sangría","entities":[[19,26,"Bebida",0,"rgb(62, 200, 169)"]]}]'

In [None]:
import json

def transformar(entrada):

  train = json.loads(entrada)

  TRAIN_DATA = []
  for data in train:
    ents = [tuple(entity[:3]) for entity in data['entities']]
    TRAIN_DATA.append((data['content'],{'entities':ents}))

  return TRAIN_DATA

In [None]:
entrada_spacy = transformar(salida_app)
print(entrada_spacy)

[('¿Cuánto cuesta un cubata?', {'entities': [(18, 24, 'Bebida')]}), ('¿Cuánto cuesta un vino?', {'entities': [(18, 22, 'Bebida')]}), ('¿Cuánto cuesta un rioja?', {'entities': [(18, 23, 'Bebida')]}), ('¿Cuánto cuesta un rueda?', {'entities': [(18, 23, 'Bebida')]}), ('¿Cuánto cuesta un blanco?', {'entities': [(18, 24, 'Bebida')]}), ('¿Cuánto cuesta un rosado?', {'entities': [(18, 24, 'Bebida')]}), ('¿Cuánto cuesta un agua?', {'entities': [(18, 22, 'Bebida')]}), ('¿Cuánto cuesta un tinto?', {'entities': [(18, 23, 'Bebida')]}), ('¿Cuánto cuesta un refresco?', {'entities': [(18, 26, 'Bebida')]}), ('¿Cuánto cuesta un tercio?', {'entities': [(18, 24, 'Bebida')]}), ('¿Cuánto cuesta una caña?', {'entities': [(19, 23, 'Bebida')]}), ('¿Cuánto cuesta una doble?', {'entities': [(19, 24, 'Bebida')]}), ('¿Cuánto cuesta una jarra?', {'entities': [(19, 24, 'Bebida')]}), ('¿Cuánto cuesta una sin?', {'entities': [(19, 22, 'Bebida')]}), ('¿Cuánto cuesta una clara?', {'entities': [(19, 24, 'Bebida')]}), ('

### **Ejercicio**: Anota algún tipo de entidad en un texto corto con la herramienta que acabamos de presentar. Transforma la salida de la herramienta al formato requerido por SpaCy, entrena un NER y comprueba la calidad del análisis automático. Comenta un par de errores del sistema y, opcionalmente, comprueba si incluyendo datos de entrenamiento con contextos similares a los de los errores es posible solventarlos.

In [1]:
salida_app = '[{"content":"Me gusta mucho tu bufanda.","entities":[[18,25,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"Con este frío siempre salgo con guantes.","entities":[[32,39,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"El abrigo de Lucía es muy largo.","entities":[[3,9,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"Si no me pongo un gorro, me muero de frío.","entities":[[18,23,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"Tengo que comprar una chaqueta nueva.","entities":[[22,30,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"En invierno no salgo de casa sin bufanda.","entities":[[33,40,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"Esta chaqueta combina muy bien con esos pantalones.","entities":[[40,50,"ropa",1,"rgb(184, 62, 119)"],[5,13,"ropa",0,"rgb(184, 62, 119)"]]},{"content":"No puedo salir a la calle sin mi bufanda y mis guantes.","entities":[[47,54,"ropa",1,"rgb(184, 62, 119)"],[33,40,"ropa",0,"rgb(184, 62, 119)"]]}]'

In [4]:
import json

def transformar(entrada):

  train = json.loads(entrada)

  TRAIN_DATA = []
  for data in train:
    ents = [tuple(entity[:3]) for entity in data['entities']]
    TRAIN_DATA.append((data['content'],{'entities':ents}))

  return TRAIN_DATA

datos_entrenamiento = transformar(salida_app)
print(datos_entrenamiento)

[('Me gusta mucho tu bufanda.', {'entities': [(18, 25, 'ropa')]}), ('Con este frío siempre salgo con guantes.', {'entities': [(32, 39, 'ropa')]}), ('El abrigo de Lucía es muy largo.', {'entities': [(3, 9, 'ropa')]}), ('Si no me pongo un gorro, me muero de frío.', {'entities': [(18, 23, 'ropa')]}), ('Tengo que comprar una chaqueta nueva.', {'entities': [(22, 30, 'ropa')]}), ('En invierno no salgo de casa sin bufanda.', {'entities': [(33, 40, 'ropa')]}), ('Esta chaqueta combina muy bien con esos pantalones.', {'entities': [(40, 50, 'ropa'), (5, 13, 'ropa')]}), ('No puedo salir a la calle sin mi bufanda y mis guantes.', {'entities': [(47, 54, 'ropa'), (33, 40, 'ropa')]})]


In [5]:
import spacy
import random
from spacy.training.example import Example

# Crear una función para entrenar un modelo NER
# Requiere dos argumentos:
  # Datos: lista de tuplas
    # Cada tupla consta de un texto y un diccionario de anotaciones
  # Iteraciones: el número de veces que itera para entrenar al modelo

def entrenar(datos,iteraciones):
  # Copia los datos del entrenamiento en una variable loca
    datos_gold = datos

    # crear un modelo spacy en blanco para el lenguaje que seleccionemos
    # en este caso en español ("es")
    # esta es la función gemela de spacy.load()
    nlp = spacy.blank('es')  # Códigos de lenguas: https://spacy.io/usage/models

    # comprueba si no hay un NER existente en el pipe del modelo
    # y si no lo hay, lo crea
    if 'ner' not in nlp.pipe_names:
        ner = nlp.create_pipe('ner')
        nlp.add_pipe("ner", last=True)

    # se añaden las etiquetas de entidades al componente NER del modelo
    for _, anns in datos_gold:
         for ent in anns.get('entities'):
            ner.add_label(ent[2])

    # genera una lista de todos los pipes en el modelo menos "ner"
    # es decir, elimina NER de la lista
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']

    # ahora desactiva todas las pipes de la lista que ha creado
    # y deja activo solo el pipe de NER
    # esto se hace para asegurarse de que solo se entrene el reconocedor de
    # entidades y no afecte a otras partes del modelo
    with nlp.select_pipes(disable=other_pipes):

      # se inicia el entrenamiento
        optimizer = nlp.begin_training()

        # ciclo de entrenamiento que se repetirá tantas veces como iteraciones hayamos especificado
        for n in range(iteraciones):
            print("Iteración número " + str(n))

            # introducimos un elemento de aleatoriedad
            random.shuffle(datos_gold)

            # creamos un diccionario vacío para hacer un seguimiento de las pérdidas
            losses = {}

            # un bucle que recorre todos los textos y anotaciones en
            # los datos que le hemos dado para el entrenamiento
            for texto, anns in datos_gold:
              doc = nlp.make_doc(texto)
              # crea un ejemplo de entrenamiento a partir del documento y las anotaciones
              ejemplo = Example.from_dict(doc, anns)

              # actualiza el modelo NER con el ejemplo, usando el optimizador y las pérdidas
              nlp.update(
                  [ejemplo],
                  drop=0.2,
                  sgd=optimizer,
                  losses=losses)

              # imprime las pérdidas al acabar cada iteración
            print(losses)

    # devuelve el modelo NER entrenado
    return nlp

In [6]:
ner_ropa = entrenar(datos_entrenamiento, 40)
ner_ropa.to_disk("probando")

Iteración número 0
{'ner': 51.000376015901566}
Iteración número 1
{'ner': 19.752797151828418}
Iteración número 2
{'ner': 13.491490576443312}
Iteración número 3
{'ner': 6.464178505144446}
Iteración número 4
{'ner': 1.541016983956162}
Iteración número 5
{'ner': 0.10950200767333826}
Iteración número 6
{'ner': 0.0008794799829719603}
Iteración número 7
{'ner': 8.90883384005944e-06}
Iteración número 8
{'ner': 7.651542434704615e-07}
Iteración número 9
{'ner': 4.337476710784907e-08}
Iteración número 10
{'ner': 3.0447202576304274e-05}
Iteración número 11
{'ner': 1.1447637941056512e-08}
Iteración número 12
{'ner': 8.938709044210813e-10}
Iteración número 13
{'ner': 4.470833714036566e-08}
Iteración número 14
{'ner': 4.222877649112439e-09}
Iteración número 15
{'ner': 1.3033847244099701e-07}
Iteración número 16
{'ner': 5.0946540860837406e-08}
Iteración número 17
{'ner': 1.8722313657457546e-09}
Iteración número 18
{'ner': 3.839144364405876e-08}
Iteración número 19
{'ner': 6.155015390949577e-10}
Itera

In [7]:
nlp = spacy.load('probando')

In [8]:
from spacy import displacy

In [17]:
doc = nlp(u'No sé si comprarme un gorro o una gorra. Necesito otra falda. Necesito otro abrigo. Fui a la tienda y no tenían los pantalones que quería. ¿Te gusta cómo me queda mi vestido nuevo? Me gusta mucho tu abrigo. Si no me pongo un gorro me muero de frío. Necesito comprarme una bufanda nueva. ¿De dónde es tu abrigo? ¿Cuánto cuesta este gorro? Tengo solo una bufanda pero tengo ocho pares de guantes.')
displacy.render(doc, style='ent', jupyter=True)

En general, me ha sorprendido lo bien que ha funcionado mi modelo entrenado. Las frases que he usado en el entrenamiento, aunque son solo ocho, he intentado que las entidades aparecieran en posiciones sintácticas diferentes. El único error que me ha dado es en la frase "Necesito otra falda". Para mejorar el modelo tendría que añadir más frases en las que aprenda muchos más tipos de prendas de vestir y así podría reconocerla. También esa frase en concreto no tiene nada de contexto, por lo que es normal que no la reconozca. De hecho, en la frase "Necesito otro abrigo" lo reconoce sin problemas ya que en las frases de entrenamiento aparece "abrigo".