# `flair`: la librería NLP de Zalando Research

La compañia Zalando tiene necesidades de aplicar NLP en distintos ámbitos y su equipo de investigaación ha liberado recientemente [`flair`](https://github.com/zalandoresearch/flair), su librería de NLP.

`flair` permite acceder a funcionalidades muy interesantes para procesar lenguaje natural, algunas de ellas muy modernas como:

- [etiquetar morfo-sintácticamente](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md)
- extraer entidades
- clasificar automáticamente texto
- entrenar tus propios modelos para [construir otros clasificadores](https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f)
- [cargar vectores de palabras en decenas de lenguas](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md)
- [usar vectores contextuales como BERT, ELMo](https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_4_ELMO_BERT_FLAIR_EMBEDDING.md)

Veamos cómo podemos acceder a algunas de sus funcionalidades.

## Análisis morfo-sintáctico

Para analizar sintácticamente un texto, necesitamos cargar un etiquetador con un modelo concreto de información morfo-sintáctica. Por ejemplo, uno capaz de analizar varias lenguas.


In [4]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el analizador multi-idioma. Hay más modelos...ver documentación pos-multi-fast (CPU)  pos-multi (GPU)
tagger = SequenceTagger.load("pos-multi")

2019-04-13 10:59:28,058 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/release-dodekapos-512-l2-multi/pos-multi-v0.1.pt not found in cache, downloading to /tmp/tmpu318isci


100%|██████████| 314055714/314055714 [00:13<00:00, 22955973.85B/s]

2019-04-13 10:59:42,015 copying /tmp/tmpu318isci to cache at /home/eduardo/.flair/models/pos-multi-v0.1.pt





2019-04-13 10:59:42,929 removing temp file /tmp/tmpu318isci
2019-04-13 10:59:42,930 loading file /home/eduardo/.flair/models/pos-multi-v0.1.pt


In [5]:
sentence1 = Sentence("Facebook nació hace década y media tras una noche de copas de Mark Zuckerberg. ")
tagger.predict(sentence1)
# imprimimos el análisis
print(sentence1.to_tagged_string())

sentence2 = Sentence("Grand débat national: suivez Emmanuel Macron en direct de Bordeaux. ")
tagger.predict(sentence2)
# imprimimos el análisis
print(sentence2.to_tagged_string())

sentence3 = Sentence("Hier an der Zufahrt zur Startrampe 39A, wo vor 50 Jahren die gigantischen Saturn-Raketen der Apollo-Mondmissionen im Schneckentempo vorbeigefahren sind, prangen nun die blauen Lettern des Raumfahrtunternehmens von Elon Musk an einem Hangar.")
tagger.predict(sentence3)
# imprimimos el análisis
print(sentence3.to_tagged_string())

Facebook <PROPN> nació <VERB> hace <VERB> década <NOUN> y <CCONJ> media <VERB> tras <ADP> una <DET> noche <NOUN> de <ADP> copas <NOUN> de <ADP> Mark <PROPN> Zuckerberg. <PROPN>
Grand <ADJ> débat <NOUN> national: <ADJ> suivez <VERB> Emmanuel <PROPN> Macron <PROPN> en <ADP> direct <NOUN> de <ADP> Bordeaux. <PROPN>
Hier <ADV> an <ADP> der <DET> Zufahrt <NOUN> zur <ADP> Startrampe <NOUN> 39A, <PUNCT> wo <ADV> vor <ADP> 50 <NUM> Jahren <NOUN> die <DET> gigantischen <ADJ> Saturn-Raketen <NOUN> der <DET> Apollo-Mondmissionen <NOUN> im <DET> Schneckentempo <NOUN> vorbeigefahren <VERB> sind, <AUX> prangen <VERB> nun <ADV> die <DET> blauen <ADJ> Lettern <NOUN> des <DET> Raumfahrtunternehmens <NOUN> von <ADP> Elon <PROPN> Musk <PROPN> an <ADP> einem <DET> Hangar. <NOUN>


## Reconocimiento de entidades

Para el reconocimiento de entidades varios modelos en diferentes lenguas. Aquí probamos con uno entrenado solo para inglés.

In [6]:
from flair.data import Sentence
from flair.models import SequenceTagger

# cargamos el reconocedor de entidades ner-fast(CPU) ner(GPU)
tagger = SequenceTagger.load("ner-fast")

2019-04-13 11:01:08,590 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.2/NER-conll03--h256-l1-b32-experimental--fast-v0.2/en-ner-fast-conll03-v0.2.pt not found in cache, downloading to /tmp/tmp2gx6pprh


100%|██████████| 258733963/258733963 [00:10<00:00, 23918492.65B/s]

2019-04-13 11:01:19,698 copying /tmp/tmp2gx6pprh to cache at /home/eduardo/.flair/models/en-ner-fast-conll03-v0.2.pt





2019-04-13 11:01:20,704 removing temp file /tmp/tmp2gx6pprh
2019-04-13 11:01:20,705 loading file /home/eduardo/.flair/models/en-ner-fast-conll03-v0.2.pt


In [7]:
# analizamos una oración
sentence = Sentence("Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.")
tagger.predict(sentence)

# imprimimos el análisis
print(sentence.to_tagged_string())

# iteramos por la entidades
for entity in sentence.get_spans("ner"):
    print(entity)
    
# o imprimimos la estructura de datos con el análisis completo
print(sentence.to_dict(tag_type="ner"))

Behind closed doors, freshman Rep. Alexandria <B-PER> Ocasio-Cortez <E-PER> threatened to put those voting with Republicans <S-MISC> “on a list” for a primary challenge in the 2020 election.
PER-span [6,7]: "Alexandria Ocasio-Cortez"
MISC-span [14]: "Republicans"
{'text': 'Behind closed doors, freshman Rep. Alexandria Ocasio-Cortez threatened to put those voting with Republicans “on a list” for a primary challenge in the 2020 election.', 'labels': [], 'entities': [{'text': 'Alexandria Ocasio-Cortez', 'start_pos': 35, 'end_pos': 59, 'type': 'PER', 'confidence': 0.998863160610199}, {'text': 'Republicans', 'start_pos': 96, 'end_pos': 107, 'type': 'MISC', 'confidence': 0.9999849796295166}]}


## Análisis de Opinión

También podemos utilizar un clasificador de textos y cargar el modelo entrenado con sentimiento, para poder detectar opiniones positivas y negativas.

In [None]:
from flair.models import TextClassifier
from flair.data import Sentence

classifier = TextClassifier.load("en-sentiment")

2019-04-13 11:03:37,862 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/models-v0.4/TEXT-CLASSIFICATION_imdb/imdb.pt not found in cache, downloading to /tmp/tmpwsow2l02


100%|██████████| 2794252905/2794252905 [01:59<00:00, 23340362.43B/s]

2019-04-13 11:05:37,860 copying /tmp/tmpwsow2l02 to cache at /home/eduardo/.flair/models/imdb.pt





2019-04-13 11:07:08,369 removing temp file /tmp/tmpwsow2l02
2019-04-13 11:07:08,370 loading file /home/eduardo/.flair/models/imdb.pt


In [None]:
sentence1 = Sentence("I love ice-cream!")
classifier.predict(sentence1)
print("La frase '{}' es {}".format(sentence1.to_plain_string(), sentence1.labels))

sentence2 = Sentence("Don't ever go to this restaurant. The food was horrible :-(")
classifier.predict(sentence2)
print("La frase '{}' es {}".format(sentence2.to_plain_string(), sentence2.labels))