Named entity recognition es un método de NLP que nos permite identificar agentes y eventos dentro de un texto. En este caso, identificaremos los agentes dentro de la oración: 'European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices'

In [0]:
import nltk 
from nltk.tokenize import word_tokenize #Recuerda que tokenizar es dividir la oracion en una lista de palabras. 
from nltk.tag import pos_tag #Recuerda que Part of Speech nos va a devolver qué tipo de palabra estamos viendo.

In [7]:
 nltk.download('punkt')
 nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [0]:
exe = "European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices"

In [0]:
def preprocess(text):
  return nltk.pos_tag(nltk.word_tokenize(text))

In [10]:
#Acá vemos que cada uno tiene un tag asociado
sent = preprocess(exe)
sent

[('European', 'JJ'),
 ('authorities', 'NNS'),
 ('fined', 'VBD'),
 ('Google', 'NNP'),
 ('a', 'DT'),
 ('record', 'NN'),
 ('$', '$'),
 ('5.1', 'CD'),
 ('billion', 'CD'),
 ('on', 'IN'),
 ('Wednesday', 'NNP'),
 ('for', 'IN'),
 ('abusing', 'VBG'),
 ('its', 'PRP$'),
 ('power', 'NN'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('mobile', 'JJ'),
 ('phone', 'NN'),
 ('market', 'NN'),
 ('and', 'CC'),
 ('ordered', 'VBD'),
 ('the', 'DT'),
 ('company', 'NN'),
 ('to', 'TO'),
 ('alter', 'VB'),
 ('its', 'PRP$'),
 ('practices', 'NNS')]

Ahora, implementaremos algo llamado "Noun Phrase Chunking" para identificar named entities usando expresiones regulares, esto se debe hacer **definiendo reglas** que indiquen cómo las oraciones serán divididas (chunked). 


#### Nuestro chunker: 

Tenemos que identificar los "noun phrases" que en español serían los sintagmas nominales. Recuerda que los sintagmas nominales son partes de la oración que tienen un núcleo, modificadores directos e indirectos y adjetivos... Entonces, podemos estructurar el patrón de regex de la forma: 

Un determinante DT (opcional), un número X de adjetivos JJ con su respectivo sustantivo NN .


'NP: { < DT > ? < JJ >*< NN >}'

In [0]:
pattern = 'NP: {<DT>?<JJ>*<NN>}'
chunk_pattern = nltk.RegexpParser(pattern)
chunked_sentence = chunk_pattern.parse(sent)

In [19]:
print("Tenemos los Noun Phrase principalmente identificados")
print(chunked_sentence)

Tenemos los Noun Phrase principalmente identificados
(S
  European/JJ
  authorities/NNS
  fined/VBD
  Google/NNP
  (NP a/DT record/NN)
  $/$
  5.1/CD
  billion/CD
  on/IN
  Wednesday/NNP
  for/IN
  abusing/VBG
  its/PRP$
  (NP power/NN)
  in/IN
  (NP the/DT mobile/JJ phone/NN)
  (NP market/NN)
  and/CC
  ordered/VBD
  (NP the/DT company/NN)
  to/TO
  alter/VB
  its/PRP$
  practices/NNS)


### IOB Tags: 

Son una forma usual de representar las estructuras divididas (chunked) en filas. Se llaman Inside-Outside-Beggining (tagging) y podemos encontrar más información acá: https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)



In [20]:
from nltk.chunk import conlltags2tree, tree2conlltags
from pprint import pprint
iob_tagged = tree2conlltags(chunked_sentence)
pprint(iob_tagged)

[('European', 'JJ', 'O'),
 ('authorities', 'NNS', 'O'),
 ('fined', 'VBD', 'O'),
 ('Google', 'NNP', 'O'),
 ('a', 'DT', 'B-NP'),
 ('record', 'NN', 'I-NP'),
 ('$', '$', 'O'),
 ('5.1', 'CD', 'O'),
 ('billion', 'CD', 'O'),
 ('on', 'IN', 'O'),
 ('Wednesday', 'NNP', 'O'),
 ('for', 'IN', 'O'),
 ('abusing', 'VBG', 'O'),
 ('its', 'PRP$', 'O'),
 ('power', 'NN', 'B-NP'),
 ('in', 'IN', 'O'),
 ('the', 'DT', 'B-NP'),
 ('mobile', 'JJ', 'I-NP'),
 ('phone', 'NN', 'I-NP'),
 ('market', 'NN', 'B-NP'),
 ('and', 'CC', 'O'),
 ('ordered', 'VBD', 'O'),
 ('the', 'DT', 'B-NP'),
 ('company', 'NN', 'I-NP'),
 ('to', 'TO', 'O'),
 ('alter', 'VB', 'O'),
 ('its', 'PRP$', 'O'),
 ('practices', 'NNS', 'O')]


Ahora tenemos una lista de palabras, cada una con su respectivo PoS y Named Entity tag (en IOB). 

posdata: conlltags2tree es la abreviación de convert all tags to tree...