### Instalamos dependencias de NLTK

In [None]:
import nltk

nltk.download('punkt')

nltk.download('averaged_perceptron_tagger')

nltk.download('maxent_ne_chunker')

nltk.download('words')

from pprint import pprint

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


Definimos función

In [None]:
def get_pos(text):
  '''
  Devuelve las categorías morfológicas (Part-Of-Speech, POS)  de los tokens
  '''
  tokens = nltk.tokenize.word_tokenize(text)
  pos = nltk.tag.pos_tag(tokens)
  return pos

In [None]:
pprint(get_pos('Google is an American multinational technology company founded in '
 '1998 that specializes in Internet-related services and products.'))

[('Google', 'NNP'),
 ('is', 'VBZ'),
 ('an', 'DT'),
 ('American', 'JJ'),
 ('multinational', 'NN'),
 ('technology', 'NN'),
 ('company', 'NN'),
 ('founded', 'VBD'),
 ('in', 'IN'),
 ('1998', 'CD'),
 ('that', 'WDT'),
 ('specializes', 'VBZ'),
 ('in', 'IN'),
 ('Internet-related', 'NNP'),
 ('services', 'NNS'),
 ('and', 'CC'),
 ('products', 'NNS'),
 ('.', '.')]


Invocamos función de NER `ne_chunck`

In [None]:
print(nltk.ne_chunk(get_pos('Google is an American multinational technology company' 
                             'founded in 1998 that specializes in Internet-related '
                             'services and products.')))

(S
  (GPE Google/NNP)
  is/VBZ
  an/DT
  (GPE American/JJ)
  multinational/JJ
  technology/NN
  companyfounded/VBN
  in/IN
  1998/CD
  that/WDT
  specializes/VBZ
  in/IN
  Internet-related/NNP
  services/NNS
  and/CC
  products/NNS
  ./.)


Función para análisis sintáctico

In [None]:
def parse_groups(pos):
  pattern = 'NP: {(<N.+>|<DT>|<JJ>|<CC>)*<N.+>}'
  return nltk.RegexpParser(pattern).parse(pos)

print(parse_groups(get_pos('Google is an American multinational technology company'
        ' founded in 1998 that specializes in Internet-related services and products.')))

(S
  (NP Google/NNP)
  is/VBZ
  (NP an/DT American/JJ multinational/NN technology/NN company/NN)
  founded/VBD
  in/IN
  1998/CD
  that/WDT
  specializes/VBZ
  in/IN
  (NP Internet-related/NNP services/NNS and/CC products/NNS)
  ./.)


Obtiene el etiquetado en notación IOB

In [None]:
pprint(nltk.chunk.tree2conlltags(parse_groups(get_pos('Google is an American multinational technology '
'company founded in 1998 that specializes in Internet-related services and products.'))))

[('Google', 'NNP', 'B-NP'),
 ('is', 'VBZ', 'O'),
 ('an', 'DT', 'B-NP'),
 ('American', 'JJ', 'I-NP'),
 ('multinational', 'NN', 'I-NP'),
 ('technology', 'NN', 'I-NP'),
 ('company', 'NN', 'I-NP'),
 ('founded', 'VBD', 'O'),
 ('in', 'IN', 'O'),
 ('1998', 'CD', 'O'),
 ('that', 'WDT', 'O'),
 ('specializes', 'VBZ', 'O'),
 ('in', 'IN', 'O'),
 ('Internet-related', 'NNP', 'B-NP'),
 ('services', 'NNS', 'I-NP'),
 ('and', 'CC', 'I-NP'),
 ('products', 'NNS', 'I-NP'),
 ('.', '.', 'O')]


### Instalamos dependencias de SpaCy

In [None]:
import spacy
import en_core_web_sm

# Cargar segmentador, analizador y NER en inglés
nlp = en_core_web_sm.load()

Extracción de entidades de la frase con etiquetado IOB

In [None]:
doc = nlp('Google LLC is an American multinational technology company founded in 1998'
 ' that specializes in Internet-related services and products.')

pprint([(X, X.ent_iob_, X.ent_type_) for X in doc])

[(Google, 'B', 'ORG'),
 (LLC, 'I', 'ORG'),
 (is, 'O', ''),
 (an, 'O', ''),
 (American, 'B', 'NORP'),
 (multinational, 'O', ''),
 (technology, 'O', ''),
 (company, 'O', ''),
 (founded, 'O', ''),
 (in, 'O', ''),
 (1998, 'B', 'DATE'),
 (that, 'O', ''),
 (specializes, 'O', ''),
 (in, 'O', ''),
 (Internet, 'O', ''),
 (-, 'O', ''),
 (related, 'O', ''),
 (services, 'O', ''),
 (and, 'O', ''),
 (products, 'O', ''),
 (., 'O', '')]


Desplegar de manera visual las entidades reconocidas

In [None]:
spacy.displacy.render(nlp('Google is an American multinational technology company founded in'
 ' 1998 that specializes in Internet-related services and products.'), jupyter=True, style='ent')

Desplegar de manera visual las dependencias sintácticas de la frase

In [None]:
spacy.displacy.render(nlp('Google is an American multinational technology company founded in'
 ' 1998 that specializes in Internet-related services and products.'), jupyter=True, style='dep')

Modelo en español para prueba con frase en este idioma

In [None]:
!python -m spacy download es_core_news_sm

Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()

spacy.displacy.render(nlp('Google LLC es una compañía principal subsidiaria de la multinacional'
  ' estadounidense Alphabet Inc., cuya especialización son los productos y servicios relacionados '
  'con Internet, software, dispositivos electrónicos y otras tecnologías.'), jupyter=True, style='ent')

In [None]:
import spacy
import es_core_news_sm

nlp = es_core_news_sm.load()

textico = '''Tampoco se engañen los unos a los otros. Porque ustedes se despojaron del hombre viejo 
y de sus obras y se revistieron del hombre nuevo, aquel que avanza hacia el conocimiento perfecto, 
renovándose constantemente según la imagen de su Creador. Por eso, ya no hay pagano ni judío, circunciso 
ni incircunciso, bárbaro ni extranjero, esclavo ni hombre libre, sino sólo Cristo, que es todo y está 
en todos. Como elegidos de Dios, sus santos y amados, revístanse de sentimientos de profunda compasión. 
Practiquen la benevolencia, la humildad, la dulzura, la paciencia. Sopórtense los unos a los otros, y 
perdónense mutuamente siempre que alguien tenga motivo de queja contra otro. El Señor los ha perdonado: 
hagan ustedes lo mismo.Sobre todo, revístanse del amor, que es el vínculo de la perfección. Que la paz 
de Cristo reine en sus corazones: esa paz a la que han sido llamados, porque formamos un solo Cuerpo. 
Y vivan en la acción de gracias. Que la Palabra de Cristo resida en ustedes con toda su riqueza. 
Instrúyanse en la verdadera sabiduría, corrigiéndose los unos a los otros. Canten a Dios con gratitud 
y de todo corazón salmos, himnos y cantos inspirados.'''

doc= nlp(textico)

doc.ents

(Porque ustedes,
 Creador,
 Por eso,
 sólo Cristo,
 Como elegidos de Dios,
 Practiquen la benevolencia,
 Sopórtense,
 El Señor,
 Que la paz de Cristo reine,
 Cuerpo.,
 Que la Palabra de Cristo,
 Instrúyanse en la verdadera sabiduría,
 Canten,
 Dios)

In [None]:
for ent in doc.ents:
  print(ent.text, '|',ent.label_)

Porque ustedes | MISC
Creador | MISC
Por eso | MISC
sólo Cristo | PER
Como elegidos de Dios | MISC
Practiquen la benevolencia | MISC
Sopórtense | MISC
El Señor | LOC
Que la paz de Cristo reine | MISC
Cuerpo. | MISC
Que la Palabra de Cristo | MISC
Instrúyanse en la verdadera sabiduría | MISC
Canten | PER
Dios | MISC


In [None]:
type(doc.ents[0])

spacy.tokens.span.Span

In [None]:
print(doc.ents[0], doc.ents[0].start, doc.ents[0].end)

Porque ustedes 9 11


In [None]:
spacy.explain('MISC')

'Miscellaneous entities, e.g. events, nationalities, products or works of art'

In [None]:
spacy.explain('NORP')

'Nationalities or religious or political groups'

In [None]:
colores = {"MISC": "linear-gradient(90deg, #aa9cfc, #fc9ce7)"}
opciones = {"ents": ["MISC"], "colors": colores}
spacy.displacy.render(doc, jupyter=True, style='ent', options=opciones)

In [None]:
spacy.displacy.render(doc.sents, jupyter=True, style='dep')


Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
