# Reconocimiento de entidades nombradas (NER)

## Spacy

Importar librerías

In [1]:
import spacy
import spacy.cli
spacy.cli.download("es_core_news_sm")
import es_core_news_sm
from spacy import displacy # Para representar las entidades nombradas

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


In [2]:
NER = spacy.load("es_core_news_sm") # Cargamos el modelo en español

Capturar frase a procesar

In [3]:
texto_defecto = "La NASA es la agencia espacial de USA, su sede central esta en Wasington D.C. y fue fundada por Dwight D. Eisenhower y su presupuesto de 1 Billón de Dolares. Otras organizaciones interesantes en Estados Unidos son la CIA con sede en Langley, McLean, Virginia, por Harry S. Truman o el FBI, en Wasintong DC fundada por J. Edgar Hoover"
texto = input("Introduce una frase donde aparezcan entidades nombradas\n")
texto  = texto if texto is not "" else texto_defecto
print(texto)


Introduce una frase donde aparezcan entidades nombradas

La NASA es la agencia espacial de USA, su sede central esta en Wasington D.C. y fue fundada por Dwight D. Eisenhower y su presupuesto de 1 Billón de Dolares. Otras organizaciones interesantes en Estados Unidos son la CIA con sede en Langley, McLean, Virginia, por Harry S. Truman o el FBI, en Wasintong DC fundada por J. Edgar Hoover


Cargamos el texto en el modelo

In [4]:
documento = NER(texto)

Ahora usando el objeto **ents**, del modelo de spacy, podemos obtener las entidades nombradas

In [5]:
for word in documento.ents:
  print(f'{word.text} --> {word.label_} : {spacy.explain(word.label_)}')

NASA --> ORG : Companies, agencies, institutions, etc.
USA --> LOC : Non-GPE locations, mountain ranges, bodies of water
Wasington D.C. --> LOC : Non-GPE locations, mountain ranges, bodies of water
Dwight D. Eisenhower --> PER : Named person or family.
Billón de Dolares --> MISC : Miscellaneous entities, e.g. events, nationalities, products or works of art
en Estados Unidos --> LOC : Non-GPE locations, mountain ranges, bodies of water
CIA --> ORG : Companies, agencies, institutions, etc.
Langley --> LOC : Non-GPE locations, mountain ranges, bodies of water
McLean --> LOC : Non-GPE locations, mountain ranges, bodies of water
Virginia --> LOC : Non-GPE locations, mountain ranges, bodies of water
Harry S. Truman --> PER : Named person or family.
FBI --> ORG : Companies, agencies, institutions, etc.
Wasintong DC --> LOC : Non-GPE locations, mountain ranges, bodies of water
J. Edgar Hoover --> PER : Named person or family.


In [6]:
displacy.render(documento, style="ent",jupyter=True)

Como podemos ver, a parece que ha detectado correctamente entidadades de tipo localización, personas y 

# NLTK

Realizamos las importaciones

In [7]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

Vamos a procesar esta frase, sacada de un articulo del New York Times

In [8]:
frase = 'European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices'

Creamos una función para a partir de un texto, tokenizar en palabras, y obtener la etiqueta de cada palabra

In [9]:
def tagear_texto(frase):
    sent = nltk.word_tokenize(frase)
    sent = nltk.pos_tag(sent)
    return sent

Invocamos a la función para obtener el texto etiquetado

In [10]:
texto_tageado = tagear_texto(frase)
texto_tageado

[('European', 'JJ'),
 ('authorities', 'NNS'),
 ('fined', 'VBD'),
 ('Google', 'NNP'),
 ('a', 'DT'),
 ('record', 'NN'),
 ('$', '$'),
 ('5.1', 'CD'),
 ('billion', 'CD'),
 ('on', 'IN'),
 ('Wednesday', 'NNP'),
 ('for', 'IN'),
 ('abusing', 'VBG'),
 ('its', 'PRP$'),
 ('power', 'NN'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('mobile', 'JJ'),
 ('phone', 'NN'),
 ('market', 'NN'),
 ('and', 'CC'),
 ('ordered', 'VBD'),
 ('the', 'DT'),
 ('company', 'NN'),
 ('to', 'TO'),
 ('alter', 'VB'),
 ('its', 'PRP$'),
 ('practices', 'NNS')]

Creamos una expresión regular para detectar Nombres, que podrían ser entidades nombradas

In [11]:
pattern = 'NP: {<DT>?<JJ>*<NN>}'

Realizamos la descomposición del texto, usando la expresion regular

In [12]:
cp = nltk.RegexpParser(pattern)
cs = cp.parse(texto_tageado)
print(cs)

(S
  European/JJ
  authorities/NNS
  fined/VBD
  Google/NNP
  (NP a/DT record/NN)
  $/$
  5.1/CD
  billion/CD
  on/IN
  Wednesday/NNP
  for/IN
  abusing/VBG
  its/PRP$
  (NP power/NN)
  in/IN
  (NP the/DT mobile/JJ phone/NN)
  (NP market/NN)
  and/CC
  ordered/VBD
  (NP the/DT company/NN)
  to/TO
  alter/VB
  its/PRP$
  practices/NNS)


Entre parentesis, podemos var las coincidencias con la expresión regular. Tambien vemos como la frase ha sido analizada sintacticamente

![](https://miro.medium.com/max/1400/1*y9DvFxsu3pCecI46yDwMxA.png)

Si usamos la función **ne_chunk** a partir de el texto tageado, podemos obtener las entidades nombradas

In [17]:
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [18]:
ne_tree = nltk.ne_chunk(texto_tageado)
print(ne_tree)

(S
  (GPE European/JJ)
  authorities/NNS
  fined/VBD
  (PERSON Google/NNP)
  a/DT
  record/NN
  $/$
  5.1/CD
  billion/CD
  on/IN
  Wednesday/NNP
  for/IN
  abusing/VBG
  its/PRP$
  power/NN
  in/IN
  the/DT
  mobile/JJ
  phone/NN
  market/NN
  and/CC
  ordered/VBD
  the/DT
  company/NN
  to/TO
  alter/VB
  its/PRP$
  practices/NNS)


Ahora vamos a usar el modelo de Standford, que esta entrenado para varios idiomas

In [20]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd
PATH_STANFORD = '/content/drive/MyDrive/Colab Notebooks/nlp_introduction_course/models/stanford-ner-2020-11-17'
PATH_JAR = 'stanford-ner-4.2.0.jar'
PATH_MODEL = 'classifiers/english.all.3class.distsim.crf.ser.gz'

Mounted at /content/drive


In [21]:
# coding: utf-8

import nltk
from nltk.tag.stanford import StanfordNERTagger

sentence = u"Twenty miles east of Reno, Nev., " \
    "where packs of wild mustangs roam free through " \
    "the parched landscape, Tesla Gigafactory 1 " \
    "sprawls near Interstate 80."

jar = f'{PATH_STANFORD}/{PATH_JAR}'
model = f'{PATH_STANFORD}/{PATH_MODEL}'

# Prepare NER tagger with english model
ner_tagger = StanfordNERTagger(model, jar, encoding='utf8')

# Tokenize: Split sentence into words
words = nltk.word_tokenize(sentence)

# Run NER tagger on words
print(ner_tagger.tag(words))

The StanfordTokenizer will be deprecated in version 3.2.5.
Please use [91mnltk.tag.corenlp.CoreNLPPOSTagger[0m or [91mnltk.tag.corenlp.CoreNLPNERTagger[0m instead.
  super(StanfordNERTagger, self).__init__(*args, **kwargs)


[('Twenty', 'O'), ('miles', 'O'), ('east', 'O'), ('of', 'O'), ('Reno', 'LOCATION'), (',', 'O'), ('Nev.', 'LOCATION'), (',', 'O'), ('where', 'O'), ('packs', 'O'), ('of', 'O'), ('wild', 'O'), ('mustangs', 'O'), ('roam', 'O'), ('free', 'O'), ('through', 'O'), ('the', 'O'), ('parched', 'O'), ('landscape', 'O'), (',', 'O'), ('Tesla', 'ORGANIZATION'), ('Gigafactory', 'ORGANIZATION'), ('1', 'O'), ('sprawls', 'O'), ('near', 'O'), ('Interstate', 'LOCATION'), ('80', 'LOCATION'), ('.', 'O')]
