# `flair`: la librería NLP de Zalando Research

La compañia Zalando tiene necesidades de aplicar NLP en distintos ámbitos y su equipo de investigaación ha liberado recientemente [`flair`](https://github.com/zalandoresearch/flair), su librería de NLP.

`flair` permite acceder a funcionalidades muy interesantes para procesar lenguaje natural, algunas de ellas muy modernas como:

- [etiquetar morfo-sintácticamente](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md)
- extraer entidades
- clasificar automáticamente texto
- entrenar tus propios modelos para [construir otros clasificadores](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- [cargar vectores de palabras en decenas de lenguas](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md)
- [usar vectores contextuales como BERT, ELMo](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_4_ELMO_BERT_FLAIR_EMBEDDING.md)

Veamos cómo podemos acceder a algunas de sus funcionalidades.

## Análisis morfo-sintáctico

Para analizar sintácticamente un texto, necesitamos cargar un etiquetador con un modelo concreto de información morfo-sintáctica. Por ejemplo, uno capaz de analizar varias lenguas.


In [1]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el analizador multi-idioma
tagger = SequenceTagger.load("pos-multi-fast")

2019-09-07 10:36:51,457 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/UPOS-multi-fast/pos-multi-fast.pt not found in cache, downloading to /tmp/tmp46z9l60t


100%|██████████| 72105507/72105507 [00:05<00:00, 12618077.00B/s]

2019-09-07 10:36:57,850 copying /tmp/tmp46z9l60t to cache at /home/victor/.flair/models/pos-multi-fast.pt





2019-09-07 10:36:57,929 removing temp file /tmp/tmp46z9l60t
2019-09-07 10:36:58,070 loading file /home/victor/.flair/models/pos-multi-fast.pt


In [2]:
sentence1 = Sentence("Facebook nació hace década y media tras una noche de copas de Mark Zuckerberg. ")
tagger.predict(sentence1)
# imprimimos el análisis
print(sentence1.to_tagged_string())

sentence2 = Sentence("Grand débat national: suivez Emmanuel Macron en direct de Bordeaux. ")
tagger.predict(sentence2)
# imprimimos el análisis
print(sentence2.to_tagged_string())

sentence3 = Sentence("Hier an der Zufahrt zur Startrampe 39A, wo vor 50 Jahren die gigantischen Saturn-Raketen der Apollo-Mondmissionen im Schneckentempo vorbeigefahren sind, prangen nun die blauen Lettern des Raumfahrtunternehmens von Elon Musk an einem Hangar.")
tagger.predict(sentence3)
# imprimimos el análisis
print(sentence3.to_tagged_string())

Facebook <PROPN> nació <VERB> hace <VERB> década <NOUN> y <CCONJ> media <NOUN> tras <ADP> una <DET> noche <NOUN> de <ADP> copas <NOUN> de <ADP> Mark <PROPN> Zuckerberg. <PROPN>
Grand <ADJ> débat <NOUN> national: <ADJ> suivez <VERB> Emmanuel <PROPN> Macron <PROPN> en <ADP> direct <NOUN> de <ADP> Bordeaux. <PROPN>
Hier <ADV> an <ADP> der <DET> Zufahrt <NOUN> zur <ADP> Startrampe <NOUN> 39A, <PROPN> wo <ADV> vor <ADP> 50 <NUM> Jahren <NOUN> die <DET> gigantischen <ADJ> Saturn-Raketen <NOUN> der <DET> Apollo-Mondmissionen <NOUN> im <ADP> Schneckentempo <NOUN> vorbeigefahren <VERB> sind, <AUX> prangen <VERB> nun <ADV> die <DET> blauen <ADJ> Lettern <NOUN> des <DET> Raumfahrtunternehmens <NOUN> von <ADP> Elon <PROPN> Musk <PROPN> an <ADP> einem <DET> Hangar. <NOUN>


## Reconocimiento de entidades

Para el reconocimiento de entidades varios modelos en diferentes lenguas. Aquí probamos con uno entrenado solo para inglés.

In [4]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el reconocedor de entidades
tagger = SequenceTagger.load("ner-fast")

2019-09-07 10:41:01,544 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/NER-conll03--h256-l1-b32-p3-0.5-%2Bglove%2Bnews-forward-fast%2Bnews-backward-fast-normal-locked0.5-word0.05--release_4/en-ner-fast-conll03-v0.4.pt not found in cache, downloading to /tmp/tmpapmzh8ua


100%|██████████| 256774339/256774339 [03:10<00:00, 1350349.90B/s] 

2019-09-07 10:44:12,363 copying /tmp/tmpapmzh8ua to cache at /home/victor/.flair/models/en-ner-fast-conll03-v0.4.pt





2019-09-07 10:44:12,630 removing temp file /tmp/tmpapmzh8ua
2019-09-07 10:44:12,659 loading file /home/victor/.flair/models/en-ner-fast-conll03-v0.4.pt


In [5]:
# analizamos una oración
sentence = Sentence("Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.")
tagger.predict(sentence)

# imprimimos el análisis
print(sentence.to_tagged_string())

# iteramos por la entidades
for entity in sentence.get_spans("ner"):
    print(entity)
    
# o imprimimos la estructura de datos con el análisis completo
print(sentence.to_dict(tag_type="ner"))

Behind closed doors, freshman Rep. Alexandria <B-PER> Ocasio-Cortez <E-PER> threatened to put those voting with Republicans <S-MISC> “on a list” for a primary challenge in the 2020 election.
PER-span [6,7]: "Alexandria Ocasio-Cortez"
MISC-span [14]: "Republicans"
{'text': 'Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.', 'labels': [], 'entities': [{'text': 'Alexandria Ocasio-Cortez', 'start_pos': 35, 'end_pos': 59, 'type': 'PER', 'confidence': 0.9574476778507233}, {'text': 'Republicans', 'start_pos': 96, 'end_pos': 107, 'type': 'MISC', 'confidence': 0.9999041557312012}]}


In [None]:
entity.tag

## Análisis de Opinión

También podemos utilizar un clasificador de textos y cargar el modelo entrenado con sentimiento, para poder detectar opiniones positivas y negativas.

In [7]:
from flair.models import TextClassifier
from flair.data import Sentence

classifier = TextClassifier.load("en-sentiment")

2019-09-07 10:58:48,003 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/classy-imdb-en-rnn-cuda%3A0/imdb-v0.4.pt not found in cache, downloading to /tmp/tmp0d41v8be



  0%|          | 0/1501979561 [00:00<?, ?B/s][A
  0%|          | 16384/1501979561 [00:00<3:31:11, 118529.88B/s][A
  0%|          | 52224/1501979561 [00:00<2:57:19, 141171.18B/s][A
  0%|          | 121856/1501979561 [00:00<2:19:17, 179703.21B/s][A
  0%|          | 261120/1501979561 [00:00<1:45:05, 238169.10B/s][A
  0%|          | 557056/1501979561 [00:00<1:17:07, 324477.92B/s][A
  0%|          | 1027072/1501979561 [00:00<56:12, 444996.03B/s] [A
  0%|          | 1193984/1501979561 [00:00<45:46, 546413.86B/s][A
  0%|          | 1345536/1501979561 [00:01<39:08, 638970.03B/s][A
  0%|          | 1483776/1501979561 [00:01<34:54, 716372.40B/s][A
  0%|          | 1636352/1501979561 [00:01<31:13, 800867.24B/s][A
  0%|          | 1897472/1501979561 [00:01<25:53, 965402.94B/s][A
  0%|          | 2176000/1501979561 [00:01<21:54, 1140624.43B/s][A
  0%|          | 2453504/1501979561 [00:01<19:08, 1305733.77B/s][A
  0%|          | 2680832/1501979561 [00:01<18:02, 1385592.78B/s][A
  0%|

KeyboardInterrupt: 


 80%|███████▉  | 1200232448/1501979561 [05:04<00:15, 19858709.31B/s][A

In [None]:
sentence1 = Sentence("I love ice-cream!")
classifier.predict(sentence1)
print("La frase '{}' es {}".format(sentence1.to_plain_string(), sentence1.labels))

sentence2 = Sentence("Don't ever go to this restaurant. The food was horrible :-(")
classifier.predict(sentence2)
print("La frase '{}' es {}".format(sentence2.to_plain_string(), sentence2.labels))