# POS y NER para NLP. Ulises Bértolo.

## 1. Part of Speech Tagging

### 1.1 ¿Qué es POS Tagging?

POS Tagging, conocido también como Part of Speech Tagging, es un método de preprocesamiento de texto en NLP. En resumen, consiste en etiquetar las partes importantes de un texto y así poder separarlas por clases de palabras.

Ejemplos de estas clases son los verbos, adverbios, sustantivos, etc.

### 1.2 ¿Por qué utilizar POS Tagging?

Identificar el significado de cada una de las palabras de un texto no es siempre algo trivial para una máquina. Para conseguir los mejores resultados es necesario utilizar métodos de pre procesamiento que le dejen las cosas más fáciles. Las ambiguedades de palabras que se escriben de la misma forma pero que significan dos cosas distintas pueden crear problemas para el modelo.

Cuando aplicamos etiquetas estamos diferenciando esos significados. En el ejemplo a continuación se puede vislumbrar mejor el caso de uso típico. Tenemos estos dos textos en inglés:

a. Give me an answer.
b. Answer me this question.

Como podemos ver, answer en la frase 'a' es un sustantivo, en cambio en la frase 'b' es un verbo. El etiquetado podría conduicir a los modelos a una mejor interpretación de esta diferencia de significado.

### 1.3 ¿Qué hay detrás del POS Tagging?

¿Y cómo es capaz una máquina de determinar qué tipo de palabra se encuentra?

Hay muchas respuestas a esta pregunta. Se puede utilizar un diccionario, en el cual nos podemos encontrar el problema de que las ambigüedades no se aclaren en la mayoría de los casos, o se pueden utilizar métodos más complejos.

Las cadenas de Markov son una muy buena manera de conseguir un acierto elevado en el etiquetado de palabras. En resumen, el modelo tiene en cuenta la etiqueta anterior para determinar la probabilidad de que la siguiente etiqueta dada una palabra X sea una en concreto.

Por ejemplo, si la primera palabra es un sustantivo, es probable que la siguiente palabra tenga una gran probabilidad de ser un verbo, dependiendo de qué palabra se encuentre el modelo se podrá aplicar una mayor precisión.

Con una matriz de transición se puede tener un entendimiento más visual.

In [1]:
import pandas as pd

values = {'NN': [0.2, 0.4, 0.2], 'VB': [0.2,0.3,0.3], 'O': [0.6,0.3,0.5]}

transition_matrix = pd.DataFrame(values, index=['NN (Noun)','VB (Verb)','O (Other)'])

transition_matrix

Unnamed: 0,NN,VB,O
NN (Noun),0.2,0.2,0.6
VB (Verb),0.4,0.3,0.3
O (Other),0.2,0.3,0.5


### 1.4 Ejemplo de implementación en Python

In [2]:
from nltk import pos_tag

text ="Come and learn to perform POS tagging for NLP preprocessing with me at Inetum".split()
print("After Split:",text)

tokens_tag = pos_tag(text) # Aplicamos el Tagging de NLTK
print("\nAfter Token:",tokens_tag)

After Split: ['Come', 'and', 'learn', 'to', 'perform', 'POS', 'tagging', 'for', 'NLP', 'preprocessing', 'with', 'me', 'at', 'Inetum']

After Token: [('Come', 'NNP'), ('and', 'CC'), ('learn', 'VB'), ('to', 'TO'), ('perform', 'VB'), ('POS', 'NNP'), ('tagging', 'VBG'), ('for', 'IN'), ('NLP', 'NNP'), ('preprocessing', 'VBG'), ('with', 'IN'), ('me', 'PRP'), ('at', 'IN'), ('Inetum', 'NNP')]


Como vemos tenemos varias etiquetas. La mayoría de las palabras están correctamente etiquetadas. Algunas no se etiquetaron correctamente, como el caso de Come, que debería ser 'VB'.

In [3]:
from collections import Counter

counts = Counter( tag for word, tag in tokens_tag)

print(counts)

Counter({'NNP': 4, 'IN': 3, 'VB': 2, 'VBG': 2, 'CC': 1, 'TO': 1, 'PRP': 1})


### 1.5 Limitaciones

El problema de la ambigüedad sigue presente aún utilizando estas técnicas. Puede haber fallos en el etiquetado de las entidades y llevar eso a problemas con el modelo.

## 2. Named Entity Recognition

### 2.1 ¿Qué es Named Entity Recognition?

En resumen, NER es el proceso por el cual se encuentran las entidades en NLP. A través de la identificación a la que una palabra se refiere, se clasifica esa palabra en una categoría predefinida.

Por ejemplo, un NER puede encontrar en un texto la palabra Inetum, a la cual le asignaría la categoría de "Compañía".

### 2.2 ¿Por qué utilizar NER en el preprocesamiento de textos?

Para visualizaciones de alto nivel de altas cantidades de texto, esta técnica puede ser muy útil para identificar los puntos claves y ahorrar recursos.

Se puede utilizar para encontrar esas palabras clave necesarias para un proyecto (p.e. la búsqueda de palabras clave en TEIS, que permitan categorizar una incidencia).

También sirve para encontrar puntos clave, por ejemplo, en un CV, que acelere el proceso de RRHH. Además, puede utilizarse en el ámbito académico o incluso en motores de búsqueda para encontrar los mejores resultados.

### 2.3 ¿Qué hay detrás del proceso NER?

Para cada proceso hay dos pasos claros:

1. Detectar una "Named Entity"
2. Categorizar la entidad

El paso 1 consiste en reconocer la entidad, ya sea una palabra o un conjunto de ellas. Una forma común de hacerlo es a través de lo que se conoce como "Inside-Outside-beginning tagging", que indica donde las entidades comienzan y terminan.

El paso 2 consiste en colocar esa entidad dentro de la categoría que le corresponde. Pueden ser categorías como Compañía, Persona, Ubicación, Tiempo, Obra de Arte, etc.

### 2.4 Ejemplo de implementación en Python

In [4]:
import spacy
from spacy import displacy

nlp=spacy.load('en_core_web_sm')
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

#### 2.4.1 Modelo preentrenado.

In [5]:
text_olympics = """ The 2020 Summer Olympics (Japanese: 2020年夏季オリンピック, Hepburn: Nisen Nijū-nen Kaki Orinpikku), officially the Games of the XXXII Olympiad (第三十二回オリンピック競技大会, Dai Sanjūni-kai Orinpikku Kyōgi Taikai) and branded as Tokyo 2020 (東京2020), was an international multi-sport event held from 23 July to 8 August 2021 in Tokyo, Japan, with some preliminary events that began on 21 July.
Tokyo was selected as the host city during the 125th IOC Session in Buenos Aires, Argentina, on 7 September 2013.[2] Originally scheduled to take place from 24 July to 9 August 2020, the event was postponed to 2021 in March 2020 as a result of the COVID-19 pandemic, the first such instance in the history of the Olympic Games."""

doc=nlp(text_olympics)

displacy.render(doc,style="ent",jupyter=True)

Como vemos, ha clasificado las entidades correctamente. Podemos obtener una explicación de cada una con el método explain.

In [6]:
spacy.explain('EVENT')

'Named hurricanes, battles, wars, sports events, etc.'

#### 2.4.2 Entrenando nuestro modelo para añadir nuestras propias categorías.

Ahora añadiremos otra categoría, llamada DISEASE, para detectar enfermedades. Para eso tendremos que entrenarlo con un dataset, primero probaremos que pasa si no entrenamos el modelo. Podremos ver que clasifica enfermedades como "Malaria" como si fueran organizaciones en vez de enfermedades.

In [7]:
text_disease = ''
with open('data/pos_ner/text_disease.txt') as file:
    text_disease= file.read()
    
doc=nlp(text_disease)

displacy.render(doc,style="ent",jupyter=True)

In [8]:
import re

ner=nlp.get_pipe("ner")

TRAIN_DATA = [(text_disease , {"entities": [(654,661, 'DISEASE'),(1890,1896, 'DISEASE'),(2311,2323, 'DISEASE'),
                                            (1382,1391, 'DISEASE'), (481,490, 'DISEASE'), (1943,1949, 'DISEASE'),
                                            (2539,2543, 'DISEASE'), (168,177, 'DISEASE'), (406,414,'DISEASE'),
                                           (2325,2327, 'DISEASE'), (518,524, 'DISEASE')]})]

string = text_disease
match = re.search("cancer", string) # Para buscar las enfermedades
print('%d,%d' % (match.start(), match.end()))

518,524


In [9]:
for _, annotations in TRAIN_DATA:
  for ent in annotations.get("entities"):
    ner.add_label(ent[2])
    
pipe_exceptions = ["ner", "trf_wordpiecer", "trf_tok2vec"]
unaffected_pipes = [pipe for pipe in nlp.pipe_names if pipe not in pipe_exceptions]

Ya tenemos los datos para el entrenamiento, ahora vamos a entrenar el modelo.

In [10]:
import random
from spacy.util import minibatch, compounding
from spacy.training import Example

with nlp.disable_pipes(*unaffected_pipes) :

  sizes = compounding(1.0, 4.0, 1.001)
  # Training for 30 iterations     
  for itn in range(100):
    # shuffle examples before training
    random.shuffle(TRAIN_DATA)
    # batch up the examples using spaCy's minibatch
    batches = minibatch(TRAIN_DATA, size=sizes)
    # ictionary to store losses
    losses = {}
    for batch in batches:
      for text, annotations in batch:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, annotations)
        nlp.update([example], drop=0.5, losses=losses)

Y ahora vamos a probar que el modelo funciona correctamente.

In [11]:
doc = nlp("Hepatitis is a disease which causes inflammation of the liver and it can also cause jaundice.Tuberculosis is caused by a bacterium called Mycobacterium tuberculosis.AIDS is the late stage of HIV infection that occurs when the body's immune system is badly damaged because of the virus.Typhoid is a bacterial infection that can lead to a high fever, diarrhea, and vomiting.Cancer is a disease in which some of the body's cells grow uncontrollably and spread to other parts of the body.Chikungunya is a viral disease transmitted to humans by infected mosquitoes.Pneumonia is an infection that inflames the air sacs in one or both lungs.Malaria is a disease caused by a parasite." )
displacy.render(doc,style="ent",jupyter=True)

# Refererencias

#### POS Tagging
https://towardsdatascience.com/part-of-speech-tagging-for-beginners-3a0754b2ebba#:~:text=Part-of-speech%20

https://www.guru99.com/pos-tagging-chunking-nltk.html#:~:text=POS%20Tagging%20in%20NLTK%20is,each%20word%20of%20the%20sentence.


#### NER
https://medium.com/analytics-vidhya/custom-ner-for-extracting-disease-entities-c620aca2e1bb

https://medium.com/mysuperai/what-is-named-entity-recognition-ner-and-how-can-i-use-it-2b68cf6f545d