[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/floleuerer/ml-tutorials/blob/main/04_fastai_text.ipynb)

# Vorbereitung

Laufzeit-Typ ändern. Python-Pakete von fast.ai installieren und importieren.

In [None]:
!pip install -Uqq fastai

In [None]:
from fastai.text.all import *

Wichtig! Wenn die folgende Zelle "False" ausgibt, ist keine GPU vorhanden -> Bitte prüfe die o. g. Schritte noch einmal und starte ggf. das Notebook neu. Bei "True" hast du eine GPU-Instanz und kannst weiter machen.

In [None]:
torch.cuda.is_available()

# Daten laden

Für die Textklassifizierung nutzen wir den IMDb Datensatz aus dem Paper *Learning Word Vectors for Sentiment Analysis*, der ebenfalls in den Standard-Datensets von Fast.ai enthalten ist. Der Datensatz umfasst mehrere Tausend englischsprachige Filmrezensionen.

In [None]:
path = untar_data(URLs.IMDB)

Der Ordner mit den Trainingsdaten enthält zwei weitere Unterordner *pos* und *neg* für positive und negative Rezensionen.

In [None]:
(path/'train').ls()

`valid_name` gibt den Namen des Ordners an, in dem die Daten zur Validierung liegen

In [None]:
imdb = DataBlock(blocks=(TextBlock.from_folder(path), CategoryBlock),
                 get_items=get_text_files,
                 get_y=parent_label,
                 splitter=GrandparentSplitter(valid_name='test'))

In [None]:
dls = imdb.dataloaders(path)

In [None]:
dls.show_batch()

Die Texte wurden automatisch von Fast.ai in Tokens aufgeteilt und um einige spezielle Tokens ergänzt. 

`xxbos ` zeigt den Anfang eines Textes

`xxmaj` signalisiert, dass das nächste Wort mit einem Großbuchstaben anfängt.

# Model trainieren

In [None]:
learn = text_classifier_learner(dls, AWD_LSTM, drop_mult=0.5, metrics=accuracy)

In [None]:
learn.fine_tune(4, 1e-2)

In [None]:
learn.show_results()

# Predictions machen

In [None]:
learn.predict("The movie is really great")

Das Modell sagt über die Rezenssion, dass sie positiv ist. `tensor(1)` gibt den Index von *pos* im Vokabular an und der letzte Teil die Wahrscheinlichkeiten zu jeder Klasse. (99% *pos* und 0.9% *neg*)