# 4 - Clasificación de Tokens (NER)

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/ner.webp" style="width:400px;"/>


<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-clasificación-de-tokens-(NER)" data-toc-modified-id="1---Modelos-de-clasificación-de-tokens-(NER)-1">1 - Modelos de clasificación de tokens (NER)</a></span></li><li><span><a href="#2---Pipeline-de-Transformers-para-NER" data-toc-modified-id="2---Pipeline-de-Transformers-para-NER-2">2 - Pipeline de Transformers para NER</a></span></li><li><span><a href="#3---Usando-el-modelo-NER" data-toc-modified-id="3---Usando-el-modelo-NER-3">3 - Usando el modelo NER</a></span><ul class="toc-item"><li><span><a href="#3.1---Tokenizador" data-toc-modified-id="3.1---Tokenizador-3.1">3.1 - Tokenizador</a></span></li><li><span><a href="#3.2---Modelo-clasificador" data-toc-modified-id="3.2---Modelo-clasificador-3.2">3.2 - Modelo clasificador</a></span></li></ul></li><li><span><a href="#4---Combinando-pipeline-y-modelo" data-toc-modified-id="4---Combinando-pipeline-y-modelo-4">4 - Combinando pipeline y modelo</a></span></li><li><span><a href="#5---Visualización-de-entidades" data-toc-modified-id="5---Visualización-de-entidades-5">5 - Visualización de entidades</a></span></li><li><span><a href="#6---Más-modelos-NER" data-toc-modified-id="6---Más-modelos-NER-6">6 - Más modelos NER</a></span></li></ul></div>

## 1 - Modelos de clasificación de tokens (NER)

La clasificación de tokens o NER ("Named Entity Recognition") que significa Reconocimiento de Entidades Nombradas, es una tarea fundamental dentro del NLP. Consiste en la identificación automática de entidades nombradas en textos y la clasificación de estas entidades en categorías predefinidas tales como nombres de personas, organizaciones, localizaciones, expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc...

Algunas aplicaciones del NER son:

1. **Extracción de Información**:

NER es una herramienta crucial para la extracción de información estructurada de textos no estructurados, lo cual es útil en muchas aplicaciones como la generación de bases de datos a partir de texto y el enriquecimiento de sistemas de información.

2. **Mejora de Sistemas de Búsqueda**:

Al identificar entidades específicas en documentos, NER puede mejorar la precisión de los sistemas de búsqueda permitiendo búsquedas más precisas basadas en entidades específicas.

3. **Análisis de Sentimientos**:

NER puede ser utilizado para identificar entidades en opiniones y reseñas y asociar sentimientos específicos con esas entidades, lo que proporciona un análisis de sentimientos más detallado y orientado.

4. **Soporte para Traducción Automática**:

En la traducción automática, identificar las entidades puede ayudar a mejorar la precisión de la traducción, especialmente en el caso de nombres propios y términos técnicos que no deben traducirse.

5. **Cumplimiento y Monitoreo**:

En el contexto legal y de cumplimiento, NER puede ser utilizado para monitorear comunicaciones en busca de menciones de entidades sensibles como nombres de empresas, productos regulados o individuos.

En el hub de [modelos](https://huggingface.co/models?sort=trending) de Hugging Face podemos encontrar los modelos de [clasificación de tokens](https://huggingface.co/models?pipeline_tag=token-classification&sort=trending) o NER. Probaremos algunos de estos modelos, comenzando por `Babelscape/wikineural-multilingual-ner`, un modelo NER capaz de manejar 9 lenguajes distintos (español, alemán, inglés, francés, italiano, holandés, portugués, polaco y ruso), aqui el [link](https://huggingface.co/Babelscape/wikineural-multilingual-ner). Este modelo está entrenado en WikiNEuRal, un conjunto de datos usado para NER derivado de Wikipedia. Por lo tanto, podría no generalizar bien en otros tipos de texto, por ejemplo, noticias. Por otro lado, los modelos entrenados solo con artículos de noticias, por ejemplo con el dataset CoNLL03, han demostrado obtener puntuaciones mucho más bajas en artículos enciclopédicos. 

## 2 - Pipeline de Transformers para NER

Primero usaremos el pipeline de transformers para usar el modelo NER. Esta es una manera fácil y cómoda de usar los modelos del hub de Hugging Face para diversas tareas, como es la clasificación de tokens.

In [1]:
from transformers import pipeline

In [2]:
tarea = 'ner'

modelo = 'Babelscape/wikineural-multilingual-ner'

In [3]:
ner_pipe = pipeline(task=tarea, model=modelo)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [4]:
frase = 'Mi nombre es Juan, vivo en Madrid y trabajo en BBVA'

In [5]:
ner_pipe(frase)

[{'entity': 'B-PER',
  'score': 0.7862896,
  'index': 4,
  'word': 'Juan',
  'start': 13,
  'end': 17},
 {'entity': 'B-LOC',
  'score': 0.9997428,
  'index': 8,
  'word': 'Madrid',
  'start': 27,
  'end': 33},
 {'entity': 'B-ORG',
  'score': 0.8988159,
  'index': 12,
  'word': 'BB',
  'start': 47,
  'end': 49},
 {'entity': 'I-ORG',
  'score': 0.91551065,
  'index': 13,
  'word': '##VA',
  'start': 49,
  'end': 51}]

La respuesta del pipeline es una lista de diccionarios. Cada uno de ellos tiene por claves:

+ word: Palabra reconocida.
+ entity: Entidad a la que pertence la palabra.
+ score: Probabilidad de pertenencia a esa entidad.
+ index: Indice de la palabra reconocida dentro del texto.
+ start: Caracter de inicio de la palabra reconocida.
+ end: Caracter final de la palabra reconocida.


Las entidades que este modelo es capaz de reconocer son las siguientes:

+ 'O': Etiqueta que se pone para una palabra fuera de la entidad (Outside)
+ 'B-PER': Inicio de la entidad persona (Beginning Person)
+ 'I-PER': Dentro de la entidad persona (In/Inside Person)
+ 'B-ORG': Inicio de la entidad organización (Beginning Organization)
+ 'I-ORG': Dentro de la entidad organización (In/Inside Organization)
+ 'B-LOC': Inicio de la entidad localización (Beginning Location)
+ 'I-LOC': Dentro de la entidad localización (In/Inside Location)
+ 'B-MISC': Inicio de la entidad miscelánea (Beginning Miscelanea)
+ 'I-MISC': Dentro de la entidad miscelánea (In/Inside Miscelanea)


Como vemos, el pipeline separa el inicio y el interior de la entidad. Fijémosnos en la palabra BBVA. El pipeline separa la entidad nombrada "organización" en `B-ORG = BB` y `I-ORG = ##VA`. Este es el comportamiento que tiene por defecto el pipeline, pero lo podemos cambiar pidiéndole que agrupe las entidades con el parámetro `aggregation_strategy`. Veamos cómo:

In [7]:
ner_pipe = pipeline(task=tarea, model=modelo, aggregation_strategy='simple')

ner_pipe(frase)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'entity_group': 'PER',
  'score': 0.7862896,
  'word': 'Juan',
  'start': 13,
  'end': 17},
 {'entity_group': 'LOC',
  'score': 0.9997428,
  'word': 'Madrid',
  'start': 27,
  'end': 33},
 {'entity_group': 'ORG',
  'score': 0.90716326,
  'word': 'BBVA',
  'start': 47,
  'end': 51}]

Los cambios que hay en la respuesta del pipeline son que la key `entity` pasa a llamarse `entity_group` y desaparece la key `index`, que nos decía la posición de la palabra dentro de la frase. Aquí ya tendríamos reconocidas las entidades nombradas, el nombre de la persona, la localización y la organización.

Además de `simple`, existen otras maneras de agregar las entidades, aunque en este caso no existe diferencia. Esas otras maneras son: `first`, `average` y `max`. Véamos como se hace:

In [8]:
ner_pipe = pipeline(task=tarea, model=modelo, aggregation_strategy='first')

ner_pipe(frase)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'entity_group': 'PER',
  'score': 0.7862896,
  'word': 'Juan',
  'start': 13,
  'end': 17},
 {'entity_group': 'LOC',
  'score': 0.9997428,
  'word': 'Madrid',
  'start': 27,
  'end': 33},
 {'entity_group': 'ORG',
  'score': 0.8988159,
  'word': 'BBVA',
  'start': 47,
  'end': 51}]

In [9]:
ner_pipe = pipeline(task=tarea, model=modelo, aggregation_strategy='average')

ner_pipe(frase)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'entity_group': 'PER',
  'score': 0.7862896,
  'word': 'Juan',
  'start': 13,
  'end': 17},
 {'entity_group': 'LOC',
  'score': 0.9997428,
  'word': 'Madrid',
  'start': 27,
  'end': 33},
 {'entity_group': 'ORG',
  'score': 0.45795286,
  'word': 'BBVA',
  'start': 47,
  'end': 51}]

In [10]:
ner_pipe = pipeline(task=tarea, model=modelo, aggregation_strategy='max')

ner_pipe(frase)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'entity_group': 'PER',
  'score': 0.7862896,
  'word': 'Juan',
  'start': 13,
  'end': 17},
 {'entity_group': 'LOC',
  'score': 0.9997428,
  'word': 'Madrid',
  'start': 27,
  'end': 33},
 {'entity_group': 'ORG',
  'score': 0.91551065,
  'word': 'BBVA',
  'start': 47,
  'end': 51}]

## 3 - Usando el modelo NER

Ahora usaremos directamente el modelo y tokenizador desde transformers. Esta es una manera un poco más complicada de usar los modelos, pero nos permite construir la respuesta del modelo como a nosotros nos parezca. Veámoslo:

In [11]:
from transformers import AutoTokenizer, AutoModelForTokenClassification

### 3.1 - Tokenizador

Como vimos anteriormente, un tokenizador es una herramienta para dividir el texto en tokens. Básicamante nos permite convertir las palabras en una entrada entendible por el modelo, es decir, convierte la frase que le damos en un vector para que el modelo clasificador de tokens puede realizar la extracción de entidades nombradas. 

In [12]:
tokenizador = AutoTokenizer.from_pretrained(modelo)

In [13]:
tokenizador

BertTokenizerFast(name_or_path='Babelscape/wikineural-multilingual-ner', vocab_size=119547, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

Al igual que en el tokenizador de análisis de sentimiento, los tokens especiales son: [PAD], [UNK], [CLS], [SEP] y [MASK]. El tamaño del vocabulario de este tokenizador es mayor que del que usamos con el análisis de sentimiento, sin embargo funciona básicamente de la misma manera. Usemos ahora el tokenizador para generar el vector necesario para alimentar el modelo.

In [14]:
vector = tokenizador(frase, return_tensors='pt')

In [15]:
vector

{'input_ids': tensor([[  101, 19803, 11491, 10196, 11686,   117, 20886, 10110, 11727,   193,
         18100, 10110, 49622, 47172,   102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

El vector que hemos creado es un diccionario, cuyas keys son:

+ `input_ids`: Estos son los identificadores de los tokens que han sido convertidos del texto por un tokenizador, como tensor de pytorch.

+ `token_type_ids`: Estos son identificadores que indican a qué secuencia pertenece cada token. Son útiles especialmente en tareas que involucran pares de secuencias, como preguntas y respuestas, donde los tokens de la primera secuencia podrían tener un ID 0 y los de la segunda secuencia un ID 1.

+ `attention_mask`: La máscara de atención indica a BERT qué tokens deben ser procesados por los mecanismos de atención y cuáles no. Un valor de 1 significa que el token en esa posición debe ser considerado, mientras que un 0 indicaría que debe ser ignorado,.

En el tensor de salida del tokenizador, el primer número 101 y el último número 102 son especiales: 101 es el ID para el token especial [CLS], que se utiliza al principio de cada secuencia de entrada en BERT para tareas de clasificación; 102 es el ID para el token especial [SEP], que se utiliza para marcar el final de una secuencia o separar distintas frases. Veamos cuales son los tokens que ha generado el tokenizador.

In [16]:
tokens = vector.tokens()

In [18]:
len(tokens)

15

Como vemos, se generan 15 tokens, pero tanto el primero como el último son irrelevantes, son tokens para que el modelo entienda correctamente las secuencias y no tienen nada que ver con nuestra frase. 

### 3.2 - Modelo clasificador

El modelo que estamos usando es un `BertForTokenClassification`, una arquitectura diseñada específicamente para tareas de clasificación de tokens. Esta variante de BERT está adaptada para asignar una etiqueta a cada token individual en una secuencia de entrada, lo que es esencial en tareas donde se necesita identificar y clasificar partes específicas del texto.

Sus componentes principales son:

1. BERT Model: Utiliza la arquitectura de BERT, que es un modelo de transformers basado en la técnica de atención. BERT procesa la entrada completa en una sola vez (procesamiento paralelo) y es capaz de capturar el contexto de cada palabra desde ambas direcciones (bidireccional).
2. Capa de Clasificación: Sobre la salida de BERT, BertForTokenClassification añade una capa lineal que proyecta cada vector de características del token (típicamente de tamaño 768 en BERT base) a un espacio de características más pequeño que corresponde al número de etiquetas en el conjunto de datos de entrenamiento. Por ejemplo, si un modelo se entrena para reconocer entidades como personas, organizaciones y ubicaciones, la capa de clasificación mapeará la salida de BERT a estos tres tipos más una etiqueta adicional para tokens que no son parte de una entidad relevante.

Su funcionamiento es el siguiente:

+ Preparación de la Entrada: Los tokens de entrada se procesan con un tokenizador que los convierte en IDs de token, los cuales son interpretados por BERT.

+ Embeddings: BERT convierte los IDs de tokens en embeddings, añadiendo embeddings posicionales y, si es necesario, embeddings de segmento (para diferenciar entre diferentes secuencias de tokens).

+ Procesamiento por BERT: La secuencia de embeddings pasa a través de múltiples capas de transformers dentro de BERT, donde la atención auto-dirigida permite que el modelo evalúe el contexto de cada token.

+ Clasificación de Tokens: La salida de cada token desde la última capa de BERT se pasa a través de la capa de clasificación lineal que predice una etiqueta para cada token.

In [19]:
modelo_ner = AutoModelForTokenClassification.from_pretrained(modelo)

In [20]:
modelo_ner

BertForTokenClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, e

Veamos cuales son los componentes principales del modelo:

1. BertModel:
Este es el modelo base de BERT que contiene los componentes principales del modelo Transformer.

    + BertEmbeddings: Se encarga de convertir los tokens de entrada en vectores, que son representaciones densas y entrenables. Incluye:
        + word_embeddings: Transforma tokens en vectores de 768 dimensiones.
        + position_embeddings: Añade información de la posición de cada token dentro de la secuencia para mantener la noción del orden de las palabras.
        + token_type_embeddings: Se utiliza en tareas que tienen más de una secuencia para diferenciar entre, por ejemplo, la pregunta y la respuesta.
        + LayerNorm y Dropout: Estos son mecanismos para normalizar y evitar el sobreajuste durante el entrenamiento, respectivamente.


2. BertEncoder:
Contiene múltiples capas de atención y transformaciones lineales para procesar las embeddings.

    + BertLayer: Cada capa, 12 en total, realiza lo siguiente:
        + BertAttention: Maneja la atención auto-dirigida que permite al modelo prestar atención a diferentes partes de la entrada.
        + BertSelfAttention: Calcula la atención sobre todos los tokens. Usa tres transformaciones lineales (query, key, value) para generar las puntuaciones de atención y luego combina los resultados.
        + BertSelfOutput y BertOutput: Estas subunidades procesan la salida del mecanismo de atención y luego la combinan con la entrada original de la capa (residual connection), seguido de normalización y dropout.
        + BertIntermediate: Transforma la dimensión de la salida de la atención de 768 a 3072 y luego aplica una función de activación GELU.


3. Dropout:
Un dropout adicional para regularizar el modelo completo y evitar el sobreajuste (overfitting).


4. Classifier:
Una capa lineal que toma la salida de 768 dimensiones del último encoder de BERT y la proyecta a un espacio de 9 dimensiones, que corresponde al número de etiquetas de clasificación de tokens en este modelo específico.

In [21]:
modelo_ner(**vector)

TokenClassifierOutput(loss=None, logits=tensor([[[ 9.2208, -1.6785, -1.8515, -1.8754, -1.9307, -2.5917, -2.0250,
          -0.1462, -0.1130],
         [10.1709, -1.3370, -3.3993, -1.4356, -3.4063, -1.7803, -3.6719,
           1.7097, -1.2047],
         [10.6165, -2.7070, -1.9804, -3.0617, -1.8737, -3.8604, -2.2118,
          -0.2796,  0.9794],
         [10.6253, -2.1110, -2.3106, -3.0619, -1.8209, -3.8320, -1.9909,
          -0.8844,  1.3295],
         [ 2.2003,  5.1064, -2.7850, -0.9674, -4.6562,  0.5344, -4.4177,
           3.5070, -1.1431],
         [11.5247, -2.3492, -1.9350, -2.5357, -1.7421, -3.3117, -2.2463,
          -0.9168, -0.6484],
         [11.4987, -2.6115, -2.5543, -2.2295, -2.1211, -2.7356, -2.7921,
          -0.1304, -0.5786],
         [11.4484, -2.9085, -2.5226, -2.3606, -1.6497, -3.1620, -2.2045,
          -0.9238,  0.0577],
         [-0.4575, -3.0446, -2.7740, -0.0295, -0.6826,  9.4730, -1.5558,
          -0.3724, -1.4893],
         [11.5666, -2.7597, -2.2126, -2.37

In [22]:
tensor = modelo_ner(**vector).logits

In [23]:
tensor.shape

torch.Size([1, 15, 9])

Las dimensiones del tensor que nos devuelve el modelo BERT son [1,15,9], una capa, 15 filas y 9 columns. La capa se refiere a la secuencia completa, 15 filas se corresponden con los 15 tokens de salida del tokenizador, incluidos los dos tokens especiales, y 9 columnas se refieren a las 9 etiquetas que maneja el modelo. Veamos otra vez cuales son:

In [25]:
etiquetas = modelo_ner.config.id2label

etiquetas

{0: 'O',
 1: 'B-PER',
 2: 'I-PER',
 3: 'B-ORG',
 4: 'I-ORG',
 5: 'B-LOC',
 6: 'I-LOC',
 7: 'B-MISC',
 8: 'I-MISC'}

Ahora, para saber que etiqueta corresponde a cada token, debemos fijarnos en el argumento máximo en el tensor, puesto que para cada token tenemos 9 posibilidades. Calculemos los índices de los máximos de cada fila dentro del tensor:

In [28]:
indices = [int(e.argmax()) for e in tensor[0]]

indices

[0, 0, 0, 0, 1, 0, 0, 0, 5, 0, 0, 0, 3, 4, 0]

In [29]:
len(indices)

15

In [31]:
entidades = [etiquetas[e] for e in indices]

print(entidades)

['O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O']


In [33]:
print(tokens)

['[CLS]', 'Mi', 'nombre', 'es', 'Juan', ',', 'vivo', 'en', 'Madrid', 'y', 'trabajo', 'en', 'BB', '##VA', '[SEP]']


Para saber que entidad corresponde a cada token tan solo tenemos que juntarlos en un diccionario:

In [35]:
dict(zip(tokens, entidades))

{'[CLS]': 'O',
 'Mi': 'O',
 'nombre': 'O',
 'es': 'O',
 'Juan': 'B-PER',
 ',': 'O',
 'vivo': 'O',
 'en': 'O',
 'Madrid': 'B-LOC',
 'y': 'O',
 'trabajo': 'O',
 'BB': 'B-ORG',
 '##VA': 'I-ORG',
 '[SEP]': 'O'}

Este es el resultado final del modelo NER, cada token con su entidad. A partir de aquí, podríamos construir nuestra propia función para que nos devuelva la salida que necesitemos según la aplicación.

## 4 - Combinando pipeline y modelo

Existe otra manera de usar los modelos de tranformers, combinando el pipeline con el tokenizador y modelo preentrenado. El resultado será el mismo que usando solamente el pipeline, pero puede ser que nos encontremos con esta estructura en el hub de Hugging Face. Veamos como se hace:

In [36]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification


tarea = 'ner'

modelo = 'Babelscape/wikineural-multilingual-ner'


tokenizador = AutoTokenizer.from_pretrained(modelo)
modelo_ner = AutoModelForTokenClassification.from_pretrained(modelo)


ner_pipe = pipeline(task=tarea, model=modelo_ner, tokenizer=tokenizador, aggregation_strategy='simple')



frase = '''
        Mi nombre es Juan, vivo en Madrid,
        aunque a veces voy a Barcelona.
        Mi perro se llama Nerón.
        Trabajo en BBVA, pero mi ultimo puesto fue en Vodafone.
        '''



resultado = ner_pipe(frase)

resultado

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


[{'entity_group': 'PER',
  'score': 0.78810596,
  'word': 'Juan',
  'start': 22,
  'end': 26},
 {'entity_group': 'LOC',
  'score': 0.99981457,
  'word': 'Madrid',
  'start': 36,
  'end': 42},
 {'entity_group': 'LOC',
  'score': 0.9998276,
  'word': 'Barcelona',
  'start': 73,
  'end': 82},
 {'entity_group': 'PER',
  'score': 0.94034415,
  'word': 'Nerón',
  'start': 110,
  'end': 115},
 {'entity_group': 'ORG',
  'score': 0.9921303,
  'word': 'BBVA',
  'start': 136,
  'end': 140},
 {'entity_group': 'ORG',
  'score': 0.9946945,
  'word': 'Vodafone',
  'start': 171,
  'end': 179}]

## 5 - Visualización de entidades

Visualizar las entidades en formato diccionario no resulta muy cómodo. Sería mucho mejor poder visualizar directamente las entidades en el texto. Para ello tenemos disponible la herramienta [ipymarkup](https://github.com/natasha/ipymarkup?tab=readme-ov-file), una librería que colores las entidades e incluso nos permite crear el HTML necesario para incrustarlo en una aplicación web. Lo primero será instalar la librería ejecutando ell siguiente código en la terminal:

```bash
pip install ipymarkup
```

Siguiendo la [documentación](https://nbviewer.org/github/natasha/ipymarkup/blob/master/docs.ipynb) de la librería, vemos que en realidad necesitamos una lista de tuplas con el siguiente formato: 

`[(start, end, entidad), (start, end, entidad), ...]`

Cada tupla tiene 2 números enteros y una string con el nombre de la entidad. Necesitamos transformar la salida del pipeline a esta estructura para poder usar la librería. Además nos permite visualizarlo de varias maneras. Veamos cómo:


In [39]:
rangos_ents = [(e['start'], e['end'], e['entity_group']) for e in resultado]

rangos_ents

[(22, 26, 'PER'),
 (36, 42, 'LOC'),
 (73, 82, 'LOC'),
 (110, 115, 'PER'),
 (136, 140, 'ORG'),
 (171, 179, 'ORG')]

La función `show_span_ascii_markup` nos subraya las entidades con su nombre al pasarle la frase y los rangos de la entidades que acabamos de crear:

In [40]:
from ipymarkup import show_span_ascii_markup

In [41]:
show_span_ascii_markup(frase, rangos_ents)

        Mi nombre es Juan, vivo en Madrid,
                     PER─          LOC─── 
        aunque a veces voy a Barcelona.
                             LOC────── 
        Mi perro se llama Nerón.
                          PER── 
        Trabajo en BBVA, pero mi ultimo puesto fue en Vodafone.
                   ORG─                               ORG───── 
        


La función `show_span_line_markup` hace básicamente lo mismo que la anterior, pero formatea la fuente y colorea el subrayado:

In [42]:
from ipymarkup import show_span_line_markup

In [43]:
show_span_line_markup(frase, rangos_ents)

Podemos cambiar el color del subrayado con la paleta de colores que provee la propia librería:

In [44]:
from ipymarkup.palette import palette, BLUE, RED, GREEN, ORANGE

In [45]:
show_span_line_markup(frase, rangos_ents, palette=palette(BLUE))

La función `show_span_box_markup` es un poco más amigable, dibuja una caja de color alrededor de la entidad y le pone la etiqueta dentro de la misma:

In [46]:
from ipymarkup import show_span_box_markup

In [47]:
show_span_box_markup(frase, rangos_ents)

También podemos cambiar los colores de cada entidad con la paleta como hemos hecho antes:

In [48]:
show_span_box_markup(frase, rangos_ents, palette=palette(PER=ORANGE, ORG=BLUE, LOC=RED))

Cabe mencionar que estas funciones solo nos muestran en el notebook el texto formateado. Pero no guardan la información del formateo. Probémoslo:

In [49]:
texto = show_span_box_markup(frase, rangos_ents, palette=palette(PER=ORANGE, ORG=BLUE, LOC=RED))

In [50]:
print(texto)

None


Como vemos la variable que hemos creado no tiene valor, así que no hemos guardado el texto formateado como queríamos. Para hacerlo, ipymarkup nos proporciona otra función, `format_span_box_markup`, la cual nos permite guardar el texto coloreado directamente en formato HTML para ser incrustado en cualquier aplicación web:

In [51]:
from ipymarkup import format_span_box_markup

In [54]:
html = list(format_span_box_markup(frase, rangos_ents))

In [55]:
print(html)

['<div class="tex2jax_ignore" style="white-space: pre-wrap">', '\n        Mi nombre es ', '<span style="padding: 2px; border-radius: 4px; border: 1px solid #bbdefb; background: #e3f2fd">', 'Juan', '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #64b5f6;">', 'PER', '</span>', '</span>', ', vivo en ', '<span style="padding: 2px; border-radius: 4px; border: 1px solid #c8e6c9; background: #e8f5e9">', 'Madrid', '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #66bb6a;">', 'LOC', '</span>', '</span>', ',\n        aunque a veces voy a ', '<span style="padding: 2px; border-radius: 4px; border: 1px solid #c8e6c9; background: #e8f5e9">', 'Barcelona', '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #66bb6a;">', 'LOC', '</span>', '</span>', '.\n        Mi perro se llama ', '<span style="padding: 2px; border-radius: 4px; border: 1px solid #bbdefb; background: #e3f2fd">', 'Nerón', '<span style="vertical

## 6 - Más modelos NER

Existen más modelos de NER en el hub de Hugging Face. Algunos de ellos están especializados en diversos temas. Por ejemplo, el modelo `Clinical-AI-Apollo/Medical-NER`, aquí el [link](https://huggingface.co/Clinical-AI-Apollo/Medical-NER), es un modelo especializado en temática médica. Es una versión de DeBERTa entrenado con el dataset [PubMED](https://huggingface.co/datasets/pubmed). El modelo pesa unos 750Mb y puede reconocer 41 entidades médicas.

Vamos a cargar el modelo y le daremos el texto de una carta de un paciente a su doctor por síntomas gripales, escrita en inglés, puesto que normalmente estos modelos funcionan mejor en esa lengua. 

In [58]:
tarea = 'ner'

modelo = 'Clinical-AI-Apollo/Medical-NER'

tokenizador = AutoTokenizer.from_pretrained(modelo)
modelo_ner = AutoModelForTokenClassification.from_pretrained(modelo)


ner_pipe = pipeline(task=tarea, model=modelo_ner, tokenizer=tokenizador, aggregation_strategy='simple')


Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [59]:
print(modelo_ner.config.id2label)

{0: 'O', 1: 'B-ACTIVITY', 2: 'I-ACTIVITY', 3: 'I-ADMINISTRATION', 4: 'B-ADMINISTRATION', 5: 'B-AGE', 6: 'I-AGE', 7: 'I-AREA', 8: 'B-AREA', 9: 'B-BIOLOGICAL_ATTRIBUTE', 10: 'I-BIOLOGICAL_ATTRIBUTE', 11: 'I-BIOLOGICAL_STRUCTURE', 12: 'B-BIOLOGICAL_STRUCTURE', 13: 'B-CLINICAL_EVENT', 14: 'I-CLINICAL_EVENT', 15: 'B-COLOR', 16: 'I-COLOR', 17: 'I-COREFERENCE', 18: 'B-COREFERENCE', 19: 'B-DATE', 20: 'I-DATE', 21: 'I-DETAILED_DESCRIPTION', 22: 'B-DETAILED_DESCRIPTION', 23: 'I-DIAGNOSTIC_PROCEDURE', 24: 'B-DIAGNOSTIC_PROCEDURE', 25: 'I-DISEASE_DISORDER', 26: 'B-DISEASE_DISORDER', 27: 'B-DISTANCE', 28: 'I-DISTANCE', 29: 'B-DOSAGE', 30: 'I-DOSAGE', 31: 'I-DURATION', 32: 'B-DURATION', 33: 'I-FAMILY_HISTORY', 34: 'B-FAMILY_HISTORY', 35: 'B-FREQUENCY', 36: 'I-FREQUENCY', 37: 'I-HEIGHT', 38: 'B-HEIGHT', 39: 'B-HISTORY', 40: 'I-HISTORY', 41: 'I-LAB_VALUE', 42: 'B-LAB_VALUE', 43: 'I-MASS', 44: 'B-MASS', 45: 'I-MEDICATION', 46: 'B-MEDICATION', 47: 'I-NONBIOLOGICAL_LOCATION', 48: 'B-NONBIOLOGICAL_LOCATIO

In [60]:
# carta al doctor

texto = '''

Dear Doctor,

I am writing to inform you of my current health condition and the symptoms I have been experiencing, 
which I suspect may be due to the flu. I have been feeling unwell for the past few days and thought 
it prudent to document my symptoms and treatment actions for your review.
I am worried because I am 67 years old.

Symptoms:

High fever reaching up to 102°F (38.9°C), most noticeable in the evenings.
Severe muscle aches and chills, which have been persistent.
Congestion and a continuous cough, which has made it difficult to breathe easily.
Fatigue, making it hard to get out of bed or engage in usual activities.
Hospital:
I have been in contact with the healthcare providers at [Hospital Name], where I received initial screening. 
They advised me to monitor my symptoms closely and maintain fluid intake.

Pain Frequency:
The muscle aches and headaches are nearly constant throughout the day, with pain intensifying during the night, 
affecting my ability to sleep.

Medication:
I am currently taking the following medications as per the over-the-counter recommendations and previous prescriptions:

Ibuprofen 400 mg, every four to six hours as needed for fever and pain.
Theraflu, to manage the symptoms of congestion and cough, taken every six hours.
Ample fluids and rest have been recommended to facilitate recovery.
I am keeping a close watch on my symptoms and will seek further medical assistance should my condition 
worsen or not improve within the next 48 hours. Please advise if there are any additional measures I should consider or if a follow-up appointment is necessary.

Thank you for your attention to this matter. I look forward to your guidance and hope to recover swiftly 
with the appropriate care.

Warm regards.

'''

In [63]:
resultado = ner_pipe(texto)

rangos_ents = [(e['start'], e['end'], e['entity_group']) for e in resultado]

show_span_box_markup(texto, rangos_ents)