# Named Entity Recognition (NER)

Como hemos visto, un NER se encarga de etiquetar palabras en un texto en un conjunto de categorías (nombres de persona, de localización, de entidades de tiempo...).

<img src=https://miro.medium.com/max/1400/1*8LOMipM-fmszClg-AwATkQ.png width=600px>

A diferencia de un problema de clasificación de documentos (en el que todo el documento es clasificado en una categoría), aquí cada palabra (o, más correctamente, cada token) es etiquetado secuencialmente.

Existen distintas aproximaciones para abordar este tipo de problemas:
- **_Clásicas_**: principalmente basados en reglas
- **Machine Learning**: se distinguen a su vez dos categorías aquí:
    - **Clasificación multi-clase**: se busca clasificar cada token entre un conjunto de categorías sin información del contexto del token
    - **CRF**: modelar el texto secuencialmente mediante un grafo probabilístico. En cada token se extraen features que tratan de representar su contexto. [Aquí](https://www.depends-on-the-definition.com/named-entity-recognition-conditional-random-fields-python/) lo explican muy bien.
- **Deep learning**: estado del arte (como en casi todas las áreas). Utilizar modelos como las Bi-LSTM permite inferir el contexto de un token de una manera más completa tanto de tokens anteriores a el, como posteriores.

**Nosotros vamos a implementar una solución basada en un CRF**.

<img src=https://i.imgur.com/ukAr3Uh.jpg width=700px>


## Pasos que seguiremos para entrenar un modelo de reconocimiento de entidades

Etapa de **entrenamiento**
1. Obtener un corpus de entrenamiento
2. Etiquetar todos los tokens. Aquellos que no correspondan con una categoría se les asocia el label 'O'
3. Definir qué features se extraerán
4. Entrenar un modelo de clasificación secuencial para predecir las etiquetas de los tokens

Etapa de **testeo**
1. Obtener un corpus de test etiquetado
2. Lanzar el modelo etiquetando los tokens
3. Analizar resultados


## IO / IOB Encoding

Existen dos maneras principales de etiquetas las etiquetas (IO e IOB).

- **IO** (inside-ouside): cada token tendrá una etiqueta, **no tiene en cuenta entidades compuestas por varios tokens**, o chunks, como, por ejemplo, 'Nueva York'.
- **IOB** (inside-outside-beginning): cada token tendrá una etiqueta. Si tiene en cuenta chunks. Para codificar el inicio y final de las entidades se incluyen los prefijos 'B-' ('Beginning') e 'I-' ('Inside') para indicar que un token es el inicio de una entidad o pertenece a la misma.

En ambos, la etiqueta **'O'** ('Outside') significa que el token no pertenece a ninguna entidad.

<img src=https://image.slidesharecdn.com/07lectiener-160215132149/95/ie-named-entity-recognition-ner-36-638.jpg>

> Debate: ¿cuál pensáis que arroja mejores resultados?


## Features

Algunas de las features que podemos extraer son:
- **Palabras**
    - El token actual e información sobre el mismo (mayúsculas, signos de puntuación, ...)
    - Tokens anteriores / posteriores e información sobre ellos
    - Substrings (word shapes)
- **Información lingüística**
    - PoS tags (del token, de los anteriores / consecutivos)
- **Otras labels**
    - NER labels (del token actual, de los anteriores)


## ¡Al lío!

Vamos a entrenar nuestro primer modelos de reconocimiento de entidades. Para ello, utilizaremos:
- Dataset CoNLL 2002, con PoS Tags
- Librería sklearn_crf suite

# CoNLL 2002 Shared Tasks con PoS Tags

La CoNLL (Conference on Computational Natural Language Learning) es una conferencia anual organizada por la SIGNLL (ACL's Special Interest Group of Natural Language Processing). Usaremos un corpus con **frases en castellano** con información tanto de los **PoS Tags** como de **entidades etiquetadas**.

Links:
- https://www.plantl.gob.es/tecnologias-lenguaje/catalogo-TL/campanas-evaluacion/Paginas/conll-2002.aspx

# sklearn_crfsuite

Instalación: `pip install sklearn-crfsuite`

Links:
- Tutorial: https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html
- API reference: https://sklearn-crfsuite.readthedocs.io/en/latest/api.html

In [None]:
!unzip CoNLL2002_NER.zip

Archive:  CoNLL2002_NER.zip
   creating: CoNLL2002_NER/
  inflating: __MACOSX/._CoNLL2002_NER  
  inflating: CoNLL2002_NER/esp.testa.gz  
  inflating: __MACOSX/CoNLL2002_NER/._esp.testa.gz  
  inflating: CoNLL2002_NER/esp.train.gz  
  inflating: __MACOSX/CoNLL2002_NER/._esp.train.gz  
  inflating: CoNLL2002_NER/esp.testa  
  inflating: __MACOSX/CoNLL2002_NER/._esp.testa  
  inflating: CoNLL2002_NER/esp.train  
  inflating: __MACOSX/CoNLL2002_NER/._esp.train  
  inflating: CoNLL2002_NER/README.txt  
  inflating: __MACOSX/CoNLL2002_NER/._README.txt  
  inflating: CoNLL2002_NER/esp.testb  
  inflating: __MACOSX/CoNLL2002_NER/._esp.testb  
  inflating: CoNLL2002_NER/esp.testb.gz  
  inflating: __MACOSX/CoNLL2002_NER/._esp.testb.gz  


In [None]:

!pip install unzip
!unzip CoNLL2002_NER.zip

Collecting unzip
  Downloading unzip-1.0.0.tar.gz (704 bytes)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: unzip
  Building wheel for unzip (setup.py) ... [?25l[?25hdone
  Created wheel for unzip: filename=unzip-1.0.0-py3-none-any.whl size=1283 sha256=de1668f12c0946b543fa5680bece9dba45169436c26084203f93f452f3e5a2b1
  Stored in directory: /root/.cache/pip/wheels/3c/4d/b3/ddd83a91322fba02a91898d3b006090d1df1d3b0ad61bd8b36
Successfully built unzip
Installing collected packages: unzip
Successfully installed unzip-1.0.0
Archive:  CoNLL2002_NER.zip
replace __MACOSX/._CoNLL2002_NER? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
  inflating: __MACOSX/._CoNLL2002_NER  
replace CoNLL2002_NER/esp.testa.gz? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
  inflating: CoNLL2002_NER/esp.testa.gz  
replace __MACOSX/CoNLL2002_NER/._esp.testa.gz? [y]es, [n]o, [A]ll, [N]one, [r]ename: y
  inflating: __MACOSX/CoNLL2002_NER/._esp.testa.gz  
replace CoNLL2002_NER/esp.tra

In [None]:
!pip install sklearn
#Modelo NER
!pip install sklearn-crfsuite

Collecting sklearn
  Downloading sklearn-0.0.post12.tar.gz (2.6 kB)
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.
Collecting sklearn-crfsuite
  Downloading sklearn_crfsuite-0.5.0-py2.py3-none-any.whl.metadata (4.9 kB)
Collecting python-crfsuite>=0.9.7 (from sklearn-crfsuite)
  Downloading python_crfsuite-0.9.11-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.3 kB)
Collecting tabulate>=0.

In [None]:
import os
import io

import pandas as pd

import sklearn_crfsuite
!pip install numpy --upgrade
from sklearn_crfsuite import scorers
#Para poder evaluar el modelo:
from sklearn_crfsuite import metrics

Collecting numpy
  Downloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-2.2.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m111.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
gensim 4.3.3 requires numpy<2.0,>=1.18.5, but you have numpy 2.2.4 which is incompatible.
tensorflow-tpu 2.18.0 requires numpy<2.1.0,>=1.26.0, but you have numpy 2.2.4 

# Funciones útiles

In [None]:
def load_data(filepath):
    with io.open(filepath, encoding='latin-1') as f:
        idsent = 0
        sentences = []
        for l in f:
            if not len(l.strip()):
                sentence = []
                idsent += 1
            else:
                word, pos, ner = l.strip().split(' ')
                sentences.append(['sentence#'+str(idsent), word, pos, ner])

        df = pd.DataFrame(sentences)
        df.columns = ['Sentence#','word','pos','ner']

        return df

In [None]:
def data_summary(data):
    print("Number of sentences: ", len(data.groupby(['Sentence#'])))

    words = list(set(data["word"].values))
    n_words = len(words)
    print("Number of words in the dataset: ", n_words)

    tags = list(set(data["ner"].values))
    print("NER Tags:", tags)
    n_tags = len(tags)
    print("Number of Labels: ", n_tags)

    print("What the dataset looks like:")
    display(data.head(10))
    return

In [None]:
def get_sentences(data):
    sentgroups = data.groupby('Sentence#')

    sentences = []
    for name, g in sentgroups:
        s = []
        for row in g.itertuples():
            s.append((row.word,row.pos,row.ner))
        sentences.append(s)

    return sentences

In [None]:
def get_labels(data):
    tags = list(set(data["ner"].values))
    return tags

# Carga de datos

In [None]:
datasets_path = './CoNLL2002_NER'
corpus_train_file = 'esp.train'
corpus_test_file = 'esp.testa'
corpus_val_file = 'esp.testb'

In [None]:
df_train = load_data(os.path.join(datasets_path, corpus_train_file))
df_test = load_data(os.path.join(datasets_path, corpus_test_file))
df_val = load_data(os.path.join(datasets_path, corpus_val_file))

In [None]:
sentences_train = get_sentences(df_train)
sentences_test = get_sentences(df_test)
sentences_val = get_sentences(df_val)

In [None]:
data_summary(df_train)

Number of sentences:  8323
Number of words in the dataset:  26099
NER Tags: ['B-PER', 'B-LOC', 'I-PER', 'I-LOC', 'B-MISC', 'I-MISC', 'B-ORG', 'I-ORG', 'O']
Number of Labels:  9
What the dataset looks like:


Unnamed: 0,Sentence#,word,pos,ner
0,sentence#0,Melbourne,NP,B-LOC
1,sentence#0,(,Fpa,O
2,sentence#0,Australia,NP,B-LOC
3,sentence#0,),Fpt,O
4,sentence#0,",",Fc,O
5,sentence#0,25,Z,O
6,sentence#0,may,NC,O
7,sentence#0,(,Fpa,O
8,sentence#0,EFE,NC,B-ORG
9,sentence#0,),Fpt,O


In [None]:
data_summary(df_test)

Number of sentences:  1915
Number of words in the dataset:  9646
NER Tags: ['B-PER', 'B-LOC', 'I-PER', 'I-LOC', 'B-MISC', 'I-MISC', 'B-ORG', 'I-ORG', 'O']
Number of Labels:  9
What the dataset looks like:


Unnamed: 0,Sentence#,word,pos,ner
0,sentence#0,Sao,NC,B-LOC
1,sentence#0,Paulo,VMI,I-LOC
2,sentence#0,(,Fpa,O
3,sentence#0,Brasil,NC,B-LOC
4,sentence#0,),Fpt,O
5,sentence#0,",",Fc,O
6,sentence#0,23,Z,O
7,sentence#0,may,NC,O
8,sentence#0,(,Fpa,O
9,sentence#0,EFECOM,NP,B-ORG


In [None]:
sentences_train[3]

[('Imagínense', 'VMM', 'O'),
 ('ustedes', 'PP', 'O'),
 ('que', 'CS', 'O'),
 ('entre', 'SP', 'O'),
 ('aquellos', 'DD', 'O'),
 ('españoles', 'NC', 'O'),
 (',', 'Fc', 'O'),
 ('que', 'PR', 'O'),
 ('fueron', 'VSI', 'O'),
 ('quienes', 'PR', 'O'),
 ('llevaron', 'VMI', 'O'),
 ('a', 'SP', 'O'),
 ('Europa', 'VMN', 'B-LOC'),
 ('esos', 'DD', 'O'),
 ('dones', 'NC', 'O'),
 ('americanos', 'AQ', 'O'),
 (',', 'Fc', 'O'),
 ('se', 'P0', 'O'),
 ('hubiera', 'VAS', 'O'),
 ('impuesto', 'VMP', 'O'),
 ('la', 'DA', 'O'),
 ('patriotería', 'NC', 'O'),
 ('gastronómica', 'AQ', 'O'),
 (':', 'Fd', 'O'),
 ('patatas', 'NC', 'O'),
 ('y', 'CC', 'O'),
 ('tomates', 'NC', 'O'),
 ('se', 'P0', 'O'),
 ('hubieran', 'VAS', 'O'),
 ('quedado', 'VMP', 'O'),
 ('en', 'SP', 'O'),
 ('curiosidades', 'NC', 'O'),
 ('botánicas', 'AQ', 'O'),
 ('.', 'Fp', 'O')]

In [None]:
sentences_test[0]

[('Sao', 'NC', 'B-LOC'),
 ('Paulo', 'VMI', 'I-LOC'),
 ('(', 'Fpa', 'O'),
 ('Brasil', 'NC', 'B-LOC'),
 (')', 'Fpt', 'O'),
 (',', 'Fc', 'O'),
 ('23', 'Z', 'O'),
 ('may', 'NC', 'O'),
 ('(', 'Fpa', 'O'),
 ('EFECOM', 'NP', 'B-ORG'),
 (')', 'Fpt', 'O'),
 ('.', 'Fp', 'O')]

# Extracción de features

Definimos las features que queremos usar.

In [None]:
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]

    features = {
        'word.lower()': word.lower(),
        'word[-3:]': word[-3:],
        'word[-2:]': word[-2:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2]
    }

    if i > 0:
        word_1 = sent[i-1][0]
        postag_1 = sent[i-1][1]

        features.update({
            '-1:word.lower()': word_1.lower(),
            '-1:word.istitle()': word_1.istitle(),
            '-1:word.isupper()': word_1.isupper(),
            '-1:postag': postag_1,
            '-1:postag[:2]': postag_1[:2]
        })
    else:
        features['BOS'] = True  # Beginning of sentence

    if i < len(sent)-1:
        word_1 = sent[i+1][0]
        postag_1 = sent[i+1][1]

        features.update({
            '+1:word.lower()': word_1.lower(),
            '+1:word.istitle()': word_1.istitle(),
            '+1:word.isupper()': word_1.isupper(),
            '+1:postag': postag_1,
            '+1:postag[:2]': postag_1[:2]
        })
    else:
        features['EOS'] = True  # End of sentence

    return features

In [None]:
def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

In [None]:
def sent2labels(sent):
    return [word[2] for word in sent]

# Datos para entrenamiento, validación y testeo

In [None]:
X_train = [sent2features(s) for s in sentences_train]
y_train = [sent2labels(s) for s in sentences_train]

X_test = [sent2features(s) for s in sentences_test]
y_test = [sent2labels(s) for s in sentences_test]

X_val = [sent2features(s) for s in sentences_val]
y_val = [sent2labels(s) for s in sentences_val]

In [None]:
df_train.iloc[0]

Unnamed: 0,0
Sentence#,sentence#0
word,Melbourne
pos,NP
ner,B-LOC


In [None]:
X_train[0][0]

{'word.lower()': 'melbourne',
 'word[-3:]': 'rne',
 'word[-2:]': 'ne',
 'word.isupper()': False,
 'word.istitle()': True,
 'word.isdigit()': False,
 'postag': 'NP',
 'postag[:2]': 'NP',
 'BOS': True,
 '+1:word.lower()': '(',
 '+1:word.istitle()': False,
 '+1:word.isupper()': False,
 '+1:postag': 'Fpa',
 '+1:postag[:2]': 'Fp'}

In [None]:
y_train[0][0]

'B-LOC'

# Entrenamiento

In [None]:
import sklearn_crfsuite
crf_ = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=100,
    all_possible_transitions=True,

)

try:
    crf_.fit(X_train, y_train)
except AttributeError:
    pass





In [None]:
X_train[1]

[{'word.lower()': '-',
  'word[-3:]': '-',
  'word[-2:]': '-',
  'word.isupper()': False,
  'word.istitle()': False,
  'word.isdigit()': False,
  'postag': 'Fg',
  'postag[:2]': 'Fg',
  'BOS': True,
  'EOS': True}]

# Evaluación

Emplear los datos de validación para _tunnear_ el modelo

In [None]:
def eval(X, y, removeO=True):
    y_pred = crf_.predict(X)
    labels = list(crf_.classes_)

    if removeO:
        labels.remove('O')

    f1_score_ = metrics.flat_f1_score(y, y_pred, average='weighted', labels=labels)
    print('F1 score: {0:.3f}'.format(f1_score_))

    # Group B and I results
    sorted_labels = sorted(
        labels,
        key=lambda name: (name[1:], name[0])
    )
    print(sorted_labels)




In [None]:
eval(X_val,y_val)

F1 score: 0.796
['B-LOC', 'I-LOC', 'B-MISC', 'I-MISC', 'B-ORG', 'I-ORG', 'B-PER', 'I-PER']


In [None]:
eval(X_test,y_test)

F1 score: 0.761
['B-LOC', 'I-LOC', 'B-MISC', 'I-MISC', 'B-ORG', 'I-ORG', 'B-PER', 'I-PER']


# Resultados finales

Una vez ajustado el modelo, usar el test set para evaluar el modelo final.

In [None]:
eval(X_test, y_test)

F1 score: 0.761
['B-LOC', 'I-LOC', 'B-MISC', 'I-MISC', 'B-ORG', 'I-ORG', 'B-PER', 'I-PER']


# Transiciones más probables / improbables

In [None]:
from collections import Counter

In [None]:
def print_transitions(transition_features):
    for (label_from, label_to), weight in transition_features:
        print('{0:10}->   {1:10}->   {2:10}'.format(label_from, label_to, weight))

In [None]:
common_transitions = Counter(crf_.transition_features_).most_common(10)

print('Transiciones más probables')
print_transitions(common_transitions)

Transiciones más probables
I-MISC    ->   I-MISC    ->     7.042636
B-MISC    ->   I-MISC    ->      6.85297
B-PER     ->   I-PER     ->     6.306684
B-LOC     ->   I-LOC     ->     5.998112
O         ->   O         ->     5.513007
B-ORG     ->   I-ORG     ->     5.291733
I-LOC     ->   I-LOC     ->     5.146069
I-ORG     ->   I-ORG     ->      5.08132
I-PER     ->   I-PER     ->     4.172083
O         ->   B-ORG     ->     2.703623


In [None]:
uncommon_transitions = Counter(crf_.transition_features_).most_common()[-10:]

print('Transiciones más improbables')
print_transitions(uncommon_transitions)

Transiciones más improbables
I-ORG     ->   B-MISC    ->    -3.258557
I-PER     ->   B-ORG     ->    -3.349464
B-ORG     ->   B-MISC    ->    -3.382446
B-MISC    ->   B-MISC    ->    -3.437329
I-ORG     ->   B-LOC     ->    -3.547463
I-PER     ->   B-MISC    ->    -3.578658
O         ->   I-MISC    ->    -4.732604
O         ->   I-PER     ->     -5.07133
O         ->   I-LOC     ->    -5.509748
O         ->   I-ORG     ->    -5.962368


# Características estado

In [None]:
def print_state_features(state_features):
    for (attr, label), weight in state_features:
        print('{0:10}->   {1:10}->   {2:10}'.format(weight, label, attr))

In [None]:
positive_state_features = Counter(crf_.state_features_).most_common(10)

print('Las más positivas')
print_state_features(positive_state_features)

Las más positivas
   9.78296->   B-ORG     ->   word.lower():efe-cantabria
  8.353841->   B-ORG     ->   word.lower():psoe-progresistas
  7.648093->   O         ->   BOS       
  6.360913->   I-ORG     ->   -1:word.lower():l
  4.978503->   B-ORG     ->   word.lower():xfera
  4.751749->   B-ORG     ->   word.lower():telefónica
  4.698594->   O         ->   word.lower():r.
  4.698594->   O         ->   word[-3:]:R.
  4.654081->   B-ORG     ->   word[-2:]:-e
   4.64318->   B-LOC     ->   -1:word.lower():cantabria


In [None]:
negative_state_features = Counter(crf_.state_features_).most_common()[-10:]

print('Las más negativas')
print_state_features(negative_state_features)

Las más negativas
 -2.426293->   B-PER     ->   word[-3:]:nes
 -2.763604->   O         ->   word[-3:]:LOS
 -2.851233->   O         ->   word.lower():mas
 -3.147827->   O         ->   -1:word.lower():españolas
 -3.162339->   I-PER     ->   -1:word.lower():san
  -3.50851->   B-PER     ->   -1:word.lower():del
 -4.110485->   O         ->   -1:word.lower():celebrarán
 -4.169095->   O         ->   word[-2:]:om
 -7.059675->   O         ->   word.isupper()
 -8.534745->   O         ->   word.istitle()
