# Flair Basics

## Tutorials und Dokumentation

https://github.com/flairNLP/flair

## Seite an der HU mit Referenzen und Paper

https://www.informatik.hu-berlin.de/de/forschung/gebiete/ml/Flair/flair

## Installation

Funktioniert nur mit pip und damit muss auf dem Mac pip3 benutzt werden


In [5]:
#!pip3 install flair==0.10


Collecting flair==0.10
  Downloading flair-0.10-py3-none-any.whl (322 kB)
[K     |████████████████████████████████| 322 kB 199 kB/s eta 0:00:01
[?25hCollecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 13.7 MB/s eta 0:00:01
[?25hCollecting wikipedia-api
  Downloading Wikipedia-API-0.5.4.tar.gz (18 kB)
Collecting matplotlib>=2.2.3
  Downloading matplotlib-3.5.1-cp38-cp38-macosx_10_9_x86_64.whl (7.3 MB)
[K     |████████████████████████████████| 7.3 MB 1.7 MB/s eta 0:00:01
[?25hCollecting konoha<5.0.0,>=4.0.0
  Downloading konoha-4.6.5-py3-none-any.whl (20 kB)
Collecting gensim>=3.4.0
  Downloading gensim-4.1.2-cp38-cp38-macosx_10_9_x86_64.whl (24.0 MB)
[K     |████████████████████████████████| 24.0 MB 1.4 MB/s eta 0:00:01
[?25hCollecting segtok>=1.5.7
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting scikit-learn>=0.21.3
  Downloading scikit_learn-1.0.2-cp38-cp38-macosx_10_13_x86_64.whl (7.9 MB)
[K   

## Imports

In [2]:
from flair.data import Sentence
from flair.models import SequenceTagger
from flair.models import MultiTagger
from flair.tokenization import SegtokSentenceSplitter

## Tokenisierung

In [3]:
# create sentence
sentence = Sentence('Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein.')

In [4]:
type(sentence)

flair.data.Sentence

In [5]:
print(sentence)

Sentence: "Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als " sehr hoch " ein ."   [− Tokens: 18]


In [6]:
# show all Tokens
sentence.tokens

[Token: 1 Die,
 Token: 2 Gefahr,
 Token: 3 eines,
 Token: 4 russischen,
 Token: 5 Einmarsches,
 Token: 6 in,
 Token: 7 die,
 Token: 8 Ukraine,
 Token: 9 schätzt,
 Token: 10 US-Präsident,
 Token: 11 Biden,
 Token: 12 als,
 Token: 13 ",
 Token: 14 sehr,
 Token: 15 hoch,
 Token: 16 ",
 Token: 17 ein,
 Token: 18 .]

In [7]:
print(sentence.language_code) # doesn't work yet as the tokens have not been annotated yet

None


In [8]:
print(sentence.get_token(2))

Token: 2 Gefahr


In [9]:
for token in sentence:
    print(token.text, token.idx)    

Die 1
Gefahr 2
eines 3
russischen 4
Einmarsches 5
in 6
die 7
Ukraine 8
schätzt 9
US-Präsident 10
Biden 11
als 12
" 13
sehr 14
hoch 15
" 16
ein 17
. 18


In [10]:
#print(sentence.labels)

## Tokens in einer Liste

In [11]:
token_list = [ token.text for token in sentence ]

In [12]:
token_list

['Die',
 'Gefahr',
 'eines',
 'russischen',
 'Einmarsches',
 'in',
 'die',
 'Ukraine',
 'schätzt',
 'US-Präsident',
 'Biden',
 'als',
 '"',
 'sehr',
 'hoch',
 '"',
 'ein',
 '.']

## Sätze mit einem Label versehen

Das kann später für Klassifikationsaufgaben genutzt werden. Wenn Label manuell gesetzt werden, wird die certainty/ confidence mit `[1.0]` angegeben.

In [13]:
sentence.add_label('topic', 'Ukraine-Konflikt')

Sentence: "Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als " sehr hoch " ein ."   [− Tokens: 18  − Sentence-Labels: {'topic': [Ukraine-Konflikt (1.0)]}]

In [14]:
sentence.add_label('category', 'Kriegsgefahr')
sentence.add_label('language', 'German')

Sentence: "Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als " sehr hoch " ein ."   [− Tokens: 18  − Sentence-Labels: {'topic': [Ukraine-Konflikt (1.0)], 'category': [Kriegsgefahr (1.0)], 'language': [German (1.0)]}]

In [15]:
# sentence.remove_labels('language')

In [16]:
for label in sentence.labels:
    print(label)

Ukraine-Konflikt (1.0)
Kriegsgefahr (1.0)
German (1.0)


In [17]:
print(sentence.to_plain_string())
for label in sentence.labels:
    print(f' - classified as "{label.value}" with score {label.score}')

Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein.
 - classified as "Ukraine-Konflikt" with score 1.0
 - classified as "Kriegsgefahr" with score 1.0
 - classified as "German" with score 1.0


In [18]:
for label in sentence.get_labels('topic'):
    print(label)

Ukraine-Konflikt (1.0)


In [19]:
for label in sentence.get_labels('category'):
    print(label)

Kriegsgefahr (1.0)


## Laden des NER-Taggers

Die Modelle sind gigantisch groß!!! das NER Modell für Deutsch ist 1,5 GB groß. entsprechend lange dauert der Download
Flair hat arabische NER Modelle

In [21]:
# load the NER tagger
tagger = SequenceTagger.load('de-ner')

# run NER over sentence
tagger.predict(sentence)

2022-03-02 12:31:12,894 --------------------------------------------------------------------------------
2022-03-02 12:31:12,895 The model key 'de-ner' now maps to 'https://huggingface.co/flair/ner-german' on the HuggingFace ModelHub
2022-03-02 12:31:12,896  - The most current version of the model is automatically downloaded from there.
2022-03-02 12:31:12,896  - (you can alternatively manually download the original model at https://nlp.informatik.hu-berlin.de/resources/models/de-ner/de-ner-conll03-v0.4.pt)
2022-03-02 12:31:12,897 --------------------------------------------------------------------------------


Downloading:   0%|          | 0.00/1.51G [00:00<?, ?B/s]

ConnectionError: HTTPSConnectionPool(host='cdn-lfs.huggingface.co', port=443): Read timed out.

In [None]:
print(sentence)

In [None]:
for token in sentence:
    print(token.text, token.get_tag('ner'))

In [None]:
print(sentence.to_tagged_string())

In [None]:
for entity in sentence.get_spans('ner'):
    print(entity)

In [None]:
sentence.to_dict(tag_type='ner')

## Multi-Tagging von NER und POS

[Liste von Pre-Trained Sequence Tagger Models](https://github.com/flairNLP/flair/blob/master/resources/docs/TUTORIAL_2_TAGGING.md#list-of-pre-trained-sequence-tagger-models)

In [None]:
# create sentence
sentence_multi_tagged = Sentence('Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein.')

In [None]:
multi_tagger = MultiTagger.load(['de-pos', 'de-ner'])

In [None]:
multi_tagger.predict(sentence_multi_tagged)

In [None]:
print(sentence_multi_tagged)

In [None]:
sentence_multi_tagged.to_dict(tag_type='de-pos')

### Taggen eines arabischen Satzes

In [None]:
# load model
tagger_ar = SequenceTagger.load('ar-ner')

# make Arabic sentence
sentence_ar = Sentence("احب برلين")

# predict NER tags
tagger_ar.predict(sentence_ar)

# print sentence with predicted tags
for entity in sentence_ar.get_labels('ner'):
    print(entity)

## Tagging von Multilingualen Texten



In [None]:
sentence_multilingual = Sentence('''Die Gefahr eines russischen Einmarsches 
                                    in die Ukraine schätzt US-Präsident Biden 
                                    als "sehr hoch" ein.
                                    The danger of a Russian invasion Ukraine 
                                    is "very high" in the view of U.S. President Biden.''')

tagger_multilingual = SequenceTagger.load('pos-multi')

tagger_multilingual.predict(sentence_multilingual)

In [None]:
print(sentence_multilingual.to_tagged_string())

## Taggen einer Liste mit mehreren Sätzen


* Ist das überhaupt nötig? Oder kann ein Text mit mehreren Sätzen auch ein Sentence sein? >> Testen

In [None]:
text = '''Biden befürchtet Einmarsch "in den nächsten Tagen"
            Stand: 18.02.2022 06:01 Uhr
            Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein - schon in den kommenden Tagen könne es dazu kommen. Die russische Regierung wies den Vize-US-Botschafter in Moskau aus.
            US-Präsident Joe Biden befürchtet trotz aller Beteuerungen aus Moskau einen russischen Einmarsch in die Ukraine in den kommenden Tagen. Biden sagte, die Gefahr einer Invasion sei "sehr hoch". Nach seiner Einschätzung könne es "in den nächsten paar Tagen" dazu kommen. Es gebe keine Pläne dafür, dass er mit dem russischen Präsidenten Wladimir Putin telefonieren werde, fügte er hinzu.
            Der Kreml erklärte laut der russischen Agentur RIA, Bidens Warnung verstärke die Spannungen noch. Der stellvertretende Außenminister Sergej Werschinin wies vor dem UN-Sicherheitsrat die Befürchtungen des Westens vor einem bevorstehenden Einmarsch erneut zurück. "Ich denke, wir haben genug darüber spekuliert", sagte er. Eine Invasion sei entgegen der Warnungen ausgeblieben. In Richtung der USA und ihrer westlichen Verbündeten sagte Werschinin: "Mein Rat an Sie ist, sich nicht in eine unangenehme Situation zu begeben."
            Biden will am heutigen Freitag mit Verbündeten über das weitere Vorgehen beraten. Themen der Telefonschalte am Nachmittag (Ortszeit) sollten unter anderem die Aufstockung der russischen Truppen an der Grenze zur Ukraine und weitere diplomatische Bemühungen sein, hieß es aus dem Weißen Haus. Neben Kanadas Premierminister Justin Trudeau sollen führende Politiker aus Deutschland, Frankreich, Großbritannien, Italien, Polen und Rumänien an dem Gespräch teilnehmen, teilte Trudeaus Büro am Donnerstagabend (Ortszeit) mit. Auch die Europäische Union und die NATO seien vertreten.
            US-Außenminister Antony Blinken will sich nächste Woche mit seinem russischen Kollegen Sergej Lawrow treffen - solange Russland nicht in der Ukraine einmarschiert. Blinken habe vorgeschlagen, sich mit Lawrow "nächste Woche in Europa zu treffen. Die Russen haben mit Terminvorschlägen für Ende nächster Woche geantwortet, was wir unter der Bedingung akzeptiert haben, dass es keine russische Invasion der Ukraine gibt", erklärte der Sprecher des Außenministeriums, Ned Price, am Abend.
            Zuvor hatte Blinken vor dem UN-Sicherheitsrat ebenfalls gewarnt, Russland bereite sich auf einen Angriff in den kommenden Tagen vor. Russlands Plan sei, dafür einen Vorwand zu schaffen. "Dies könnte ein gewaltsames Ereignis sein, das Russland gegen die Ukraine vorbringen wird, oder eine unerhörte Anschuldigung, die Russland gegen die ukrainische Regierung erheben wird", sagte er. Möglich wären ihm zufolge ein vermeintlicher Terroranschlag in Russland, die "erfundene Entdeckung eines Massengrabes" und Vorwürfe eines Völkermordes, ein inszenierter Drohnenangriff auf Zivilisten oder ein vorgetäuschter oder echter Angriff mit Chemiewaffen.
            Russische Medien würden bereits "falsche Alarme" verbreiten, so Blinken. Ein russischer Angriff könne auch die ukrainische Hauptstadt Kiew einbeziehen. Der US-Außenminister betonte, Diplomatie sei weiter der wichtigste Weg zur Lösung der Krise. Er habe daher seinem russischen Amtskollegen Sergej Lawrow ein persönliches Treffen in der kommenden Woche vorgeschlagen. 
            '''

### Tokenisierung und Tagging

In [None]:
splitter = SegtokSentenceSplitter()

sentences = splitter.split(text)

multi_tagger = MultiTagger.load(['de-pos', 'de-ner'])

multi_tagger.predict(sentences)

### Ausgabe des Resultats

In [None]:
for sentence in sentences[:5]:
    print(sentence.to_tagged_string())

In [None]:
# results for first three sentences

for sentence in sentences[:3]:
    for token in sentence:
        print(token.text, token.get_tag('de-ner'), token.get_tag('de-pos'))

### Named Entities: Person

In [None]:
list_all_per = []

for sentence in sentences:
    
    list_per = [ token.text for token in sentence if str(token.get_tag('de-ner')).split(' ')[0][-3:] == 'PER' ]
    
    # or if **** == x-PER
    list_all_per.append(list_per)

In [None]:
list_all_per

### Named Entities

abgefragt über POS == NE

In [None]:
list_all_NE = []

for sentence in sentences:
    
    list_ne = [ (token.text, token.get_labels()) for token in sentence if str(token.get_tag('de-pos')).split(' ')[0] == 'NE' ]
    
    list_all_NE.append(list_ne)

In [None]:
list_all_NE

#### Test

In [None]:
biden = sentences[0].get_token(1)

In [None]:
biden.get_tag('de-ner')

In [None]:
biden.get_labels()

In [None]:
sentence.to_tagged_string('de-ner')