In [None]:
# install the requirements
# !pip install flair

# `flair`: la librería NLP de Zalando Research

La compañia Zalando tiene necesidades de aplicar NLP en distintos ámbitos y su equipo de investigaación ha liberado recientemente [`flair`](https://github.com/zalandoresearch/flair), su librería de NLP.

`flair` permite acceder a funcionalidades muy interesantes para procesar lenguaje natural, algunas de ellas muy modernas como:

- [etiquetar morfo-sintácticamente](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md)
- extraer entidades
- clasificar automáticamente texto
- entrenar tus propios modelos para [construir otros clasificadores](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- [cargar vectores de palabras en decenas de lenguas](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md)
- [usar vectores contextuales como BERT, ELMo](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_4_ELMO_BERT_FLAIR_EMBEDDING.md)

Veamos cómo podemos acceder a algunas de sus funcionalidades.

## Análisis morfo-sintáctico

Para analizar sintácticamente un texto, necesitamos cargar un etiquetador con un modelo concreto de información morfo-sintáctica. Por ejemplo, uno capaz de analizar varias lenguas.


In [1]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el analizador multi-idioma
tagger = SequenceTagger.load("pos-multi-fast")

2021-01-30 11:29:27,888 https://nlp.informatik.hu-berlin.de/resources/models/multi-pos-fast/pos-multi-fast.pt not found in cache, downloading to /tmp/tmpqsoi16zv


100%|██████████| 72105507/72105507 [00:02<00:00, 33771966.34B/s]

2021-01-30 11:29:30,143 copying /tmp/tmpqsoi16zv to cache at /home/victor/.flair/models/pos-multi-fast.pt
2021-01-30 11:29:30,192 removing temp file /tmp/tmpqsoi16zv
2021-01-30 11:29:30,240 loading file /home/victor/.flair/models/pos-multi-fast.pt





In [2]:
sentence1 = Sentence(
    "Facebook nació hace década y media tras una noche de copas de Mark Zuckerberg. "
)
tagger.predict(sentence1)
# imprimimos el análisis
print(sentence1.to_tagged_string())

sentence2 = Sentence(
    "Grand débat national: suivez Emmanuel Macron en direct de Bordeaux. "
)
tagger.predict(sentence2)
# imprimimos el análisis
print(sentence2.to_tagged_string())

sentence3 = Sentence(
    "Hier an der Zufahrt zur Startrampe 39A, wo vor 50 Jahren die gigantischen Saturn-Raketen der Apollo-Mondmissionen im Schneckentempo vorbeigefahren sind, prangen nun die blauen Lettern des Raumfahrtunternehmens von Elon Musk an einem Hangar."
)
tagger.predict(sentence3)
# imprimimos el análisis
print(sentence3.to_tagged_string())

Facebook <PROPN> nació <VERB> hace <VERB> década <NOUN> y <CCONJ> media <NOUN> tras <ADP> una <DET> noche <NOUN> de <ADP> copas <NOUN> de <ADP> Mark <PROPN> Zuckerberg <PROPN> . <PUNCT>
Grand <ADJ> débat <NOUN> national <ADJ> : <PUNCT> suivez <VERB> Emmanuel <PROPN> Macron <PROPN> en <ADP> direct <NOUN> de <ADP> Bordeaux <PROPN> . <PUNCT>
Hier <ADV> an <ADP> der <DET> Zufahrt <NOUN> zur <ADP> Startrampe <NOUN> 39A <PROPN> , <PUNCT> wo <ADV> vor <ADP> 50 <NUM> Jahren <NOUN> die <DET> gigantischen <ADJ> Saturn-Raketen <NOUN> der <DET> Apollo-Mondmissionen <NOUN> im <ADJ> Schneckentempo <NOUN> vorbeigefahren <VERB> sind <AUX> , <PUNCT> prangen <VERB> nun <ADV> die <DET> blauen <ADJ> Lettern <NOUN> des <DET> Raumfahrtunternehmens <NOUN> von <ADP> Elon <PROPN> Musk <PROPN> an <ADP> einem <DET> Hangar <NOUN> . <PUNCT>


## Reconocimiento de entidades

Para el reconocimiento de entidades varios modelos en diferentes lenguas. Aquí probamos con uno entrenado solo para inglés.

In [3]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el reconocedor de entidades
tagger = SequenceTagger.load("ner-fast")

2021-01-30 11:32:19,284 https://nlp.informatik.hu-berlin.de/resources/models/ner-fast/en-ner-fast-conll03-v0.4.pt not found in cache, downloading to /tmp/tmp0xlm_pq6


100%|██████████| 256774339/256774339 [00:09<00:00, 28055507.64B/s]

2021-01-30 11:32:28,553 copying /tmp/tmp0xlm_pq6 to cache at /home/victor/.flair/models/en-ner-fast-conll03-v0.4.pt
2021-01-30 11:32:28,728 removing temp file /tmp/tmp0xlm_pq6





2021-01-30 11:32:28,754 loading file /home/victor/.flair/models/en-ner-fast-conll03-v0.4.pt


In [4]:
# analizamos una oración
sentence = Sentence(
    "Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election."
)
tagger.predict(sentence)

# imprimimos el análisis
print(sentence.to_tagged_string())

# iteramos por la entidades
for entity in sentence.get_spans("ner"):
    print(entity)

# o imprimimos la estructura de datos con el análisis completo
print(sentence.to_dict(tag_type="ner"))

Behind closed doors , freshman Rep <S-MISC> . Alexandria <B-PER> Ocasio-Cortez <E-PER> threatened to put those voting with Republicans <S-MISC> “ on a list ” for a primary challenge in the 2020 election .
Span [6]: "Rep"   [− Labels: MISC (0.9229)]
Span [8,9]: "Alexandria Ocasio-Cortez"   [− Labels: PER (0.9783)]
Span [16]: "Republicans"   [− Labels: MISC (0.9996)]
{'text': 'Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.', 'labels': [], 'entities': [{'text': 'Rep', 'start_pos': 30, 'end_pos': 33, 'labels': [MISC (0.9229)]}, {'text': 'Alexandria Ocasio-Cortez', 'start_pos': 35, 'end_pos': 59, 'labels': [PER (0.9783)]}, {'text': 'Republicans', 'start_pos': 96, 'end_pos': 107, 'labels': [MISC (0.9996)]}]}


In [None]:
entity.tag

## Análisis de Opinión

También podemos utilizar un clasificador de textos y cargar el modelo entrenado con sentimiento, para poder detectar opiniones positivas y negativas.

In [5]:
from flair.models import TextClassifier
from flair.data import Sentence

classifier = TextClassifier.load("en-sentiment")

2021-01-30 11:36:27,199 https://nlp.informatik.hu-berlin.de/resources/models/sentiment-curated-distilbert/sentiment-en-mix-distillbert_3.1.pt not found in cache, downloading to /tmp/tmpsmnk0z7o


100%|██████████| 266147697/266147697 [00:08<00:00, 30851520.20B/s]

2021-01-30 11:36:35,942 copying /tmp/tmpsmnk0z7o to cache at /home/victor/.flair/models/sentiment-en-mix-distillbert_3.1.pt
2021-01-30 11:36:36,115 removing temp file /tmp/tmpsmnk0z7o
2021-01-30 11:36:36,143 loading file /home/victor/.flair/models/sentiment-en-mix-distillbert_3.1.pt





HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=442.0), HTML(value='')))




HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=231508.0), HTML(value='')))




In [6]:
sentence1 = Sentence("I love ice-cream!")
classifier.predict(sentence1)
print("La frase '{}' es {}".format(sentence1.to_plain_string(), sentence1.labels))

sentence2 = Sentence("Don't ever go to this restaurant. The food was horrible :-(")
classifier.predict(sentence2)
print("La frase '{}' es {}".format(sentence2.to_plain_string(), sentence2.labels))

La frase 'I love ice-cream!' es [POSITIVE (0.9993)]
La frase 'Don't ever go to this restaurant. The food was horrible :-(' es [NEGATIVE (1.0)]


In [8]:
oraciones = """Sure, you're so smart I'm impressed""".split("\n")

for oracion in oraciones:
    s = Sentence(oracion)
    classifier.predict(s)
    print("La frase '{}' es {}".format(s.to_plain_string(), s.labels))

La frase 'Sure, you're so smart I'm impressed' es [POSITIVE (0.9993)]
