# Flair Basics

## Tutorials und Dokumentation

https://github.com/flairNLP/flair

## Seite an der HU mit Referenzen und Paper

https://www.informatik.hu-berlin.de/de/forschung/gebiete/ml/Flair/flair

## Install flair

In [None]:
!pip install flair==0.10

## Imports

In [None]:
from flair.data import Sentence
from flair.models import SequenceTagger
from flair.models import MultiTagger
from flair.tokenization import SegtokSentenceSplitter

import torch
import flair

In [None]:
device = None
if torch.cuda.is_available():
    device = torch.device('cuda:0')
else:
    device = torch.device('cpu')

In [None]:
device

In [None]:
flair.device = torch.device('cuda:0')

## Tokenisierung

In [None]:
# create sentence
sentence = Sentence('Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein.')

In [None]:
type(sentence)

In [None]:
print(sentence)

In [None]:
# show all Tokens
sentence.tokens

In [None]:
print(sentence.language_code)

In [None]:
print(sentence.get_token(2))

In [None]:
for token in sentence:
    print(token.text, token.idx)    

## Tokens in einer Liste

In [None]:
token_list = [ token.text for token in sentence ]

In [None]:
token_list

## Sätze mit einem Label versehen

In [None]:
sentence.add_label('topic', 'Ukraine-Konflikt')

In [None]:
sentence.add_label('category', 'Kriegsgefahr')
sentence.add_label('language', 'German')

In [None]:
# sentence.remove_labels('language')

In [None]:
for label in sentence.labels:
    print(label)

In [None]:
print(sentence.to_plain_string())
for label in sentence.labels:
    print(f' - classified as "{label.value}" with score {label.score}')

In [None]:
for label in sentence.get_labels('topic'):
    print(label)

In [None]:
for label in sentence.get_labels('category'):
    print(label)

## Laden des NER-Taggers

In [None]:
# load the NER tagger
tagger = SequenceTagger.load('de-ner')

# run NER over sentence
tagger.predict(sentence)

In [None]:
print(sentence)

In [None]:
for token in sentence:
    print(token.text, token.get_tag('ner'))

In [None]:
print(sentence.to_tagged_string())

In [None]:
for entity in sentence.get_spans('ner'):
    print(entity)

In [None]:
sentence.to_dict(tag_type='ner')

## Multi-Tagging von NER und POS

[Liste von Pre-Trained Sequence Tagger Models](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md#list-of-pre-trained-sequence-tagger-models)

In [None]:
# create sentence
sentence_multi_tagged = Sentence('Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein.')

In [None]:
multi_tagger = MultiTagger.load(['de-pos', 'de-ner'])

In [None]:
multi_tagger.predict(sentence_multi_tagged)

In [None]:
print(sentence_multi_tagged)

In [None]:
sentence_multi_tagged.to_dict(tag_type='de-pos')

### Taggen eines arabischen Satzes

In [None]:
# load model
tagger_ar = SequenceTagger.load('ar-ner')

# make Arabic sentence
sentence_ar = Sentence("احب برلين")

# predict NER tags
tagger_ar.predict(sentence_ar)

# print sentence with predicted tags
for entity in sentence_ar.get_labels('ner'):
    print(entity)

## Tagging von Multilingualen Texten



In [None]:
sentence_multilingual = Sentence('''Die Gefahr eines russischen Einmarsches 
                                    in die Ukraine schätzt US-Präsident Biden 
                                    als "sehr hoch" ein.
                                    The danger of a Russian invasion Ukraine 
                                    is "very high" in the view of U.S. President Biden.''')

tagger_multilingual = SequenceTagger.load('pos-multi')

tagger_multilingual.predict(sentence_multilingual)

In [None]:
print(sentence_multilingual.to_tagged_string())

## Taggen einer Liste mit mehreren Sätzen


* Ist das überhaupt nötig? Oder kann ein Text mit mehreren Sätzen auch ein Sentence sein? >> Testen

In [None]:
text = '''Biden befürchtet Einmarsch "in den nächsten Tagen"
            Stand: 18.02.2022 06:01 Uhr
            Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein - schon in den kommenden Tagen könne es dazu kommen. Die russische Regierung wies den Vize-US-Botschafter in Moskau aus.
            US-Präsident Joe Biden befürchtet trotz aller Beteuerungen aus Moskau einen russischen Einmarsch in die Ukraine in den kommenden Tagen. Biden sagte, die Gefahr einer Invasion sei "sehr hoch". Nach seiner Einschätzung könne es "in den nächsten paar Tagen" dazu kommen. Es gebe keine Pläne dafür, dass er mit dem russischen Präsidenten Wladimir Putin telefonieren werde, fügte er hinzu.
            Der Kreml erklärte laut der russischen Agentur RIA, Bidens Warnung verstärke die Spannungen noch. Der stellvertretende Außenminister Sergej Werschinin wies vor dem UN-Sicherheitsrat die Befürchtungen des Westens vor einem bevorstehenden Einmarsch erneut zurück. "Ich denke, wir haben genug darüber spekuliert", sagte er. Eine Invasion sei entgegen der Warnungen ausgeblieben. In Richtung der USA und ihrer westlichen Verbündeten sagte Werschinin: "Mein Rat an Sie ist, sich nicht in eine unangenehme Situation zu begeben."
            Biden will am heutigen Freitag mit Verbündeten über das weitere Vorgehen beraten. Themen der Telefonschalte am Nachmittag (Ortszeit) sollten unter anderem die Aufstockung der russischen Truppen an der Grenze zur Ukraine und weitere diplomatische Bemühungen sein, hieß es aus dem Weißen Haus. Neben Kanadas Premierminister Justin Trudeau sollen führende Politiker aus Deutschland, Frankreich, Großbritannien, Italien, Polen und Rumänien an dem Gespräch teilnehmen, teilte Trudeaus Büro am Donnerstagabend (Ortszeit) mit. Auch die Europäische Union und die NATO seien vertreten.
            US-Außenminister Antony Blinken will sich nächste Woche mit seinem russischen Kollegen Sergej Lawrow treffen - solange Russland nicht in der Ukraine einmarschiert. Blinken habe vorgeschlagen, sich mit Lawrow "nächste Woche in Europa zu treffen. Die Russen haben mit Terminvorschlägen für Ende nächster Woche geantwortet, was wir unter der Bedingung akzeptiert haben, dass es keine russische Invasion der Ukraine gibt", erklärte der Sprecher des Außenministeriums, Ned Price, am Abend.
            Zuvor hatte Blinken vor dem UN-Sicherheitsrat ebenfalls gewarnt, Russland bereite sich auf einen Angriff in den kommenden Tagen vor. Russlands Plan sei, dafür einen Vorwand zu schaffen. "Dies könnte ein gewaltsames Ereignis sein, das Russland gegen die Ukraine vorbringen wird, oder eine unerhörte Anschuldigung, die Russland gegen die ukrainische Regierung erheben wird", sagte er. Möglich wären ihm zufolge ein vermeintlicher Terroranschlag in Russland, die "erfundene Entdeckung eines Massengrabes" und Vorwürfe eines Völkermordes, ein inszenierter Drohnenangriff auf Zivilisten oder ein vorgetäuschter oder echter Angriff mit Chemiewaffen.
            Russische Medien würden bereits "falsche Alarme" verbreiten, so Blinken. Ein russischer Angriff könne auch die ukrainische Hauptstadt Kiew einbeziehen. Der US-Außenminister betonte, Diplomatie sei weiter der wichtigste Weg zur Lösung der Krise. Er habe daher seinem russischen Amtskollegen Sergej Lawrow ein persönliches Treffen in der kommenden Woche vorgeschlagen. 
            '''

### Tokenisierung und Tagging

In [None]:
splitter = SegtokSentenceSplitter()

sentences = splitter.split(text)

multi_tagger = MultiTagger.load(['de-pos', 'de-ner'])

multi_tagger.predict(sentences)

### Ausgabe des Resultats

In [None]:
for sentence in sentences[:5]:
    print(sentence.to_tagged_string())

In [None]:
# results for first three sentences

for sentence in sentences[:3]:
    for token in sentence:
        print(token.text, token.get_tag('de-ner'), token.get_tag('de-pos'))

### Named Entities: Person

In [None]:
list_all_per = []

for sentence in sentences:
    
    list_per = [ token.text for token in sentence if str(token.get_tag('de-ner')).split(' ')[0][-3:] == 'PER' ]
    
    # or if **** == x-PER
    list_all_per.append(list_per)

In [None]:
list_all_per

### Named Entities

abgefragt über POS == NE

In [None]:
list_all_NE = []

for sentence in sentences:
    
    list_ne = [ (token.text, token.get_labels()) for token in sentence if str(token.get_tag('de-pos')).split(' ')[0] == 'NE' ]
    
    list_all_NE.append(list_ne)

In [None]:
list_all_NE