# FARM

Welcome to the FARM tutorial! This notebook will guide you through the many ways to interact with this repository so you will be able to train a range of NLP models and harvest the rewards.

First, you will learn how to kick off an experiment with just a few lines of code and a config file.

Then we will dive deeper into the various tools that will help your models flourish. We'll also guide you through the steps to tailor the code to your data and tasks.

And finally, you will learn how to save, load and set up your models for inference so that you can share the fruits of your labour.

Happy FARMing!

## Experiment Mode

We refer to the processing of a particular dataset using a specific model as an Experiment. All the parameters of an Experiment can be found in a config file. By altering the fields in this file, you can choose what kind of task you want to do, point the model to the data source and define all the parameters needed for a successful run!

In [1]:
# Let's adjust the working directory so that it is the root of the repository
# This should be run just once

import os
os.chdir('../')
print("Current working directory is {}".format(os.getcwd()))

Current working directory is /Users/deepset/deepset/farm


Say something about Cuda GPU speedup?

In [2]:
from farm.experiment import run_experiment
from farm.file_utils import read_config, unnestConfig


# Can we just pass conf file to run experiment?
# How do I talk about what's in the config file in this tutorial?
conf_file = "experiments/text_classification/gnad_config.json"
args = read_config(conf_file, flattend=True)
run_experiment(args)

Apex not installed. If you use distributed training with local rank != -1 apex must be installed.
07/17/2019 19:25:28 - INFO - farm.utils -   device: cpu n_gpu: 0, distributed training: False, 16-bits training: False
07/17/2019 19:25:28 - INFO - botocore.credentials -   Found credentials in shared credentials file: ~/.aws/credentials
07/17/2019 19:25:28 - INFO - farm.modeling.tokenization -   loading vocabulary file s3://int-models-bert/bert-base-cased-de-2b-end/vocab.txt from cache at /Users/deepset/.cache/torch/farm/dbcdd76296532b59a97391ca2fb6d925db69c07b96088f816c4807e106cfa392.0d38f6c5b4c99fde3f12a423d4f9d37ab448d6458ce0788ac543b38ae8975572
07/17/2019 19:25:29 - INFO - farm.data_handler.data_silo -   Loading train set from: data/gnad/train.csv
07/17/2019 19:26:32 - INFO - farm.data_handler.processor -   *** Show 3 random examples ***
07/17/2019 19:26:32 - INFO - farm.data_handler.processor -   *** Example ***
ID: train-1824-0
Clear Text: 
 	label: Etat
 	text: FPÖ bemüht nach Weic

07/17/2019 19:26:32 - INFO - farm.data_handler.processor -   *** Example ***
ID: train-3657-0
Clear Text: 
 	label: Panorama
 	text: Zuvor war von zwei Getöteten berichtet worden – Nun wurden sechs weitere Leichen identifiziert. Mexiko-Stadt – Nach dem versehentlichen Beschuss einer Touristengruppe durch ägyptische Sicherheitskräfte ist die Zahl der dabei getöteten Mexikaner auf acht gestiegen. Das mexikanische Außenministerium erklärte am Dienstag, sechs weitere Leichen seien von Diplomaten vor Ort identifiziert worden. Zuvor war von zwei getöteten, sechs verletzten und sechs noch vermissten Landsleuten die Rede gewesen. Ägyptische Polizisten und Soldaten hatten am Sonntag bei der Verfolgung von islamistischen Kämpfern im Westen des Landes versehentlich einen Konvoi von mexikanischen Touristen beschossen, die in ägyptischer Begleitung waren. Insgesamt befanden sich 14 Mexikaner in der Touristengruppe. Die sechs bei dem Vorfall Verletzten wurden am Dienstag weiter im Krankenhaus behand

07/17/2019 19:26:39 - INFO - farm.data_handler.processor -   *** Example ***
ID: test-864-0
Clear Text: 
 	label: Inland
 	text: Wahl der neuen Landesregierung unter ÖVP-Chef Hermann Schützenhofer. Graz - Am Dienstag trat der neue steiermärkische Landtag zur konstituierenden Sitzung zusammen, um die neue Landesregierung und die Landtagspräsidenten zu wählen. Der scheidende Landeshauptmann Franz Voves (SPÖ) war nicht anwesend, dafür die früheren Landeschefs Josef Krainer und Waltraud Klasnic (beide ÖVP). Bei der Wahl der Landtagspräsidenten gab es keine Einstimmigkeit. Die Grünen verweigerten FPÖ-Chef Gerhard Kurzmann ihre Zustimmung zur Wahl zum Dritten Präsidenten: Wer einen derartig hetzerischen Wahlkampf gegen Minderheiten und Asylsuchende mitzuverantworten habe, dürfe dieses Amt nicht innehaben, so Grün-Abgeordneter Lambert Schönleitner. Die KPÖ erteilte nicht nur Kurzmann, sondern auch der Ersten Landtagspräsidentin Bettina Vollath eine Absage. Begründung des Landtagsabgeordneten 

07/17/2019 19:26:39 - INFO - farm.data_handler.data_silo -   Examples in train: 8320
07/17/2019 19:26:39 - INFO - farm.data_handler.data_silo -   Examples in dev  : 924
07/17/2019 19:26:39 - INFO - farm.data_handler.data_silo -   Examples in test : 1027
07/17/2019 19:26:40 - INFO - farm.data_handler.data_silo -   Using class weights: [0.6733025815327345, 0.9394760614272809, 0.7602339181286549, 0.6878306878306878, 1.966903073286052, 0.8080808080808081, 2.154882154882155, 1.7247097844112769, 1.121898597626753]
07/17/2019 19:26:40 - INFO - farm.modeling.language_model -   loading archive file s3://int-models-bert/bert-base-cased-de-2b-end/bert-base-cased-de-2b-end.tar.gz from cache at /Users/deepset/.cache/torch/farm/9c04dc7fe652b18e117a3bcfbbd50a46dd97dcce1b27f4689c47c52fbf0ebf77.5d8643be67c1cdea6a3daad77fcc21f22aaca376cc4bffa9152d4260c4285410
07/17/2019 19:26:40 - INFO - farm.modeling.language_model -   extracting archive file /Users/deepset/.cache/torch/farm/9c04dc7fe652b18e117a3bcfbbd

KeyboardInterrupt: 

Great! You just trained a text classification model! But maybe you want to tweak some parameters to improve the model. For this, you'll want to look into the config file we defined above. You might want to tweak the learning rate, batch size or the number of epochs.

With the default settings we managed to get X

See if you can beat this!

## Major Components (?)

So how does this all work under the hood? In the same directory as this notebook you will find a set of deconstructed examples which can be run as they are and highlight the main objects that handle the different aspects of cultivating a machine learning model. Below, you will find each element needed to run the same document classification task as shown above.

In [20]:
import torch
from farm.modeling.tokenization import BertTokenizer
from farm.data_handler.processor import GNADProcessor
from farm.data_handler.data_silo import DataSilo
from farm.modeling.language_model import Bert
from farm.modeling.prediction_head import TextClassificationHead

We need to fetch a device to support gpu

In [4]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Here we initialize a tokenizer that will be used for preprocessing text

In [5]:
tokenizer = BertTokenizer.from_pretrained(
    pretrained_model_name_or_path="bert-base-german-cased",
    do_lower_case=False)

07/17/2019 17:54:39 - INFO - farm.modeling.tokenization -   loading vocabulary file s3://int-models-bert/bert-base-cased-de-2b-end/vocab.txt from cache at /Users/deepset/.cache/torch/farm/dbcdd76296532b59a97391ca2fb6d925db69c07b96088f816c4807e106cfa392.0d38f6c5b4c99fde3f12a423d4f9d37ab448d6458ce0788ac543b38ae8975572


This is the BERT Tokenizer which uses the byte pair encoding method. It is loaded with the German model. We can test out how it will do on an example sentence

In [9]:
example_sentence = "This is a sentence that will serve as our example"
tokenizer.tokenize(example_sentence)

['Th',
 '##is',
 'is',
 'a',
 'sen',
 '##ten',
 '##ce',
 'that',
 'will',
 'serv',
 '##e',
 'as',
 'o',
 '##ur',
 'ex',
 '##amp',
 '##le']

In order to prepare the data for the model, we need a set of functions to transform data contained in files into PyTorch Dataset objects. These are contained within Processor objects which are specific to each dataset. The abstract class can be found in farm.data_handling.processor.Processor

In [13]:
processor = GNADProcessor(tokenizer=tokenizer,
                          max_seq_len=128,
                          data_dir="../data/gnad")

The functions of the processor are called by the DataSilo object which stores the data and enforces the train, dev, test split and contains statistics about the datasets

In [17]:
# Pipeline should also contain metric
data_silo = DataSilo(
    processor=processor,
    batch_size=32,
    distributed=False)

07/17/2019 18:14:19 - INFO - farm.data_handler.data_silo -   Loading train set from: ../data/gnad/train.csv
07/17/2019 18:14:19 - INFO - farm.data_handler.utils -   downloading and extracting file gnad to dir /Users/deepset/deepset/data
100%|██████████| 10753295/10753295 [00:00<00:00, 27661712.52B/s]
07/17/2019 18:15:27 - INFO - farm.data_handler.processor -   *** Show 3 random examples ***
07/17/2019 18:15:27 - INFO - farm.data_handler.processor -   *** Example ***
ID: train-1824-0
Clear Text: 
 	label: Etat
 	text: FPÖ bemüht nach Weichselbraun-Spitze gegen Stenzel den ORF-Publikumsrat – Für ORF "spielerisch-ironischer Grundton". Wien – Krönchen, Promis, Alles Walzer und ein Mini-Eklat – wie jedes Jahr verfolgte ein Millionenpublikum die ORF-Übertragung des Wiener Opernballs: 2,429 Millionen Zuschauer bzw. ein Drittel der TV-Bevölkerung verfolgten am Donnerstag den Opernball-Abend in ORF 2. Die Eröffnung um 21.40 Uhr sahen bis zu 1,562 Millionen, im Schnitt waren es 1,456 Millionen. 

07/17/2019 18:15:27 - INFO - farm.data_handler.processor -   *** Example ***
ID: train-3657-0
Clear Text: 
 	label: Panorama
 	text: Zuvor war von zwei Getöteten berichtet worden – Nun wurden sechs weitere Leichen identifiziert. Mexiko-Stadt – Nach dem versehentlichen Beschuss einer Touristengruppe durch ägyptische Sicherheitskräfte ist die Zahl der dabei getöteten Mexikaner auf acht gestiegen. Das mexikanische Außenministerium erklärte am Dienstag, sechs weitere Leichen seien von Diplomaten vor Ort identifiziert worden. Zuvor war von zwei getöteten, sechs verletzten und sechs noch vermissten Landsleuten die Rede gewesen. Ägyptische Polizisten und Soldaten hatten am Sonntag bei der Verfolgung von islamistischen Kämpfern im Westen des Landes versehentlich einen Konvoi von mexikanischen Touristen beschossen, die in ägyptischer Begleitung waren. Insgesamt befanden sich 14 Mexikaner in der Touristengruppe. Die sechs bei dem Vorfall Verletzten wurden am Dienstag weiter im Krankenhaus behand

07/17/2019 18:15:35 - INFO - farm.data_handler.processor -   *** Example ***
ID: test-61-0
Clear Text: 
 	label: Web
 	text: Name des Nachfolgers von "sanft & sorgfältig" wird noch nicht verraten, auch nichts zu den Inhalten. Jan Böhmermann und Olli Schulz starten an diesem Sonntag bei Spotify. Nur drei Tage, nachdem Böhmermanns TV-Show Neo Magazin Royal bei ZDFneo am Donnerstag, 12. Mai, wieder zu sehen ist, soll das erste neue Podcast des Duos zu hören sein. Das teilte der Streamingdienst am Montag in seinem Blog mit. Zum Namen der neuen Show nach dem Ende der bisherigen Show sanft & sorgfältig hieß es lapidar: Das dürfen wir Euch noch nicht verraten. Auch zu Inhalten sei noch nichts mitzuteilen, sagte eine Sprecherin. Spotify ist weltweiter Marktführer unter den Streamingdiensten. Beim Streaming werden Musikstücke oder andere Audiobeiträge direkt aus dem Netz abgespielt. Olli Schulz und Jan Böhmermann hatten ihre Sonntagsshow sanft & sorgfältig beim RBB-Sender Radioeins. Ende April 

Make a distinction between prediction head and language model. Here we initialize. TextClassifiction head is deep FF network

BERT is Google's model. Can based on HuggingFace. Can load from dir or download.

Explain params

In [21]:
prediction_head = TextClassificationHead(layer_dims=[768, 9])
language_model = Bert.load("bert-base-german-cased")

07/17/2019 18:19:13 - INFO - farm.modeling.language_model -   loading archive file s3://int-models-bert/bert-base-cased-de-2b-end/bert-base-cased-de-2b-end.tar.gz from cache at /Users/deepset/.cache/torch/farm/9c04dc7fe652b18e117a3bcfbbd50a46dd97dcce1b27f4689c47c52fbf0ebf77.5d8643be67c1cdea6a3daad77fcc21f22aaca376cc4bffa9152d4260c4285410
07/17/2019 18:19:13 - INFO - farm.modeling.language_model -   extracting archive file /Users/deepset/.cache/torch/farm/9c04dc7fe652b18e117a3bcfbbd50a46dd97dcce1b27f4689c47c52fbf0ebf77.5d8643be67c1cdea6a3daad77fcc21f22aaca376cc4bffa9152d4260c4285410 to temp dir /var/folders/9y/kg7mpp0947l5n87j11ff64200000gp/T/tmp793j2knm
07/17/2019 18:19:19 - INFO - farm.modeling.language_model -   Model config {
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12

Core feature of this framework is the ability to mix and match language models and prediction heads. Allows for handling different tasks with the one language model. Language model adaptation for better downstream task performance. Even can do joint training using multiple prediction heads.

language model and prediction heads are combined in the AdaptiveModel

Explain a few params

## HAVE DIAGRAM??

In [22]:
# TODO where are balance class weights?
model = AdaptiveModel(
    language_model=language_model,
    prediction_heads=[prediction_head],
    embeds_dropout_prob=0.1,
    lm_output_types=["per_sequence"],
    device=device)

NameError: name 'AdaptiveModel' is not defined

We can initialize a Bert Adam (?) optimizer using the following. Here you can set learning rate
Dependency on n_examples, batch_size, n_epochs? Are these defined elsewhere?

In [23]:
# Init optimizer
optimizer, warmup_linear = initialize_optimizer(
    model=model,
    learning_rate=2e-5,
    warmup_proportion=0.1,
    n_examples=data_silo.n_samples("train"),
    batch_size=16,
    n_epochs=1)

NameError: name 'initialize_optimizer' is not defined

Training loop handled by this. Will also deal evaluating during training and also evaluating on test set so long as these files are defined in Processor


In [None]:
trainer = Trainer(
    optimizer=optimizer,
    data_silo=data_silo,
    epochs=10,
    n_gpu=1,
    warmup_linear=warmup_linear,
    evaluate_every=100,
    device=device,
)

# Switch to NER

How do we do this? Get them to go into code? Or just mix components?

See the power of transfer learning

Perform new task
Use same language model
but different prediction head
also different data processing

In [None]:
from farm.data_handler.processor import CONLLProcessor
from farm.modeling.prediction_head import TokenClassificationHead

In [None]:
processor = CONLLProcessor(tokenizer=tokenizer,
                           max_seq_len=128,
                           data_dir="../data/conll03")

In [None]:
prediction_head = TokenClassificationHead(layer_dims=[768, 9])

We need to integrate these into the other components

New datasilo

new adaptive model

This code is exactly the same as above

In [None]:
data_silo = DataSilo(
    processor=processor,
    batch_size=32,
    distributed=False)

In [None]:
# TODO where are balance class weights?
model = AdaptiveModel(
    language_model=language_model,
    prediction_heads=[prediction_head],
    embeds_dropout_prob=0.1,
    lm_output_types=["per_sequence"],
    device=device)

In [None]:
optimizer, warmup_linear = initialize_optimizer(
    model=model,
    learning_rate=2e-5,
    warmup_proportion=0.1,
    n_examples=data_silo.n_samples("train"),
    batch_size=16,
    n_epochs=1)

In [None]:
trainer = Trainer(
    optimizer=optimizer,
    data_silo=data_silo,
    epochs=10,
    n_gpu=1,
    warmup_linear=warmup_linear,
    evaluate_every=100,
    device=device,
)

Is this too confusing? Hard to keep track of what's persisting in notebook

Maybe we should have a fn that takes these components as args. Can then just feed new dataprocessor and prediction head and it will initialize a new experiment

Say how processor can be totally over written

# Save and load