# BERTSUM Durchführung
In diesem Notebook geht es darum das BertSum-Modell zu Trainieren und zu Testen. Hierfür werden die Befehle des BertSum-Git benutzt. https://github.com/nlpyang/BertSum

## Verbindung zum Google Drive Konto herstellen
Google Colab speichert alle Dokumente auf dem Google Drive ab. Um nun mittels Konsolenbefehle auf die Dateien zu zugreifen muss eine Verbindung mit dem Drive hergestellt werden. Dies wird mit dem Folgenden Code gemacht:





In [1]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Mittels %cd kann zu einen bestimmten Dateipfad gewechselt werden. 



In [2]:
%cd gdrive/My Drive/BertSum

/content/gdrive/My Drive/BertSum


## Verbindung zu Git Repository in dem der BertSum Code steht 
Hierzu habe ich das original Repository geklont und in mein eigenes Repository geladen. Dadurch habe ich Zugriff auf den Gesamten Code, den ich geschrieben habe und kann den originalen Code von BertSum einfach anpassen.


In [None]:
import os
from getpass import getpass
import urllib

user = input('Username: ')
password = getpass('Password: ')
password = urllib.parse.quote(password) # convert password into url format
group_name = 'fiedlerda67807'
repo_name = 'automatische-generierung-von-titeln-und-abstracts' #input('Repo name: ')

cmd_string = 'git clone https://{0}:{1}@git.informatik.fh-nuernberg.de/{3}/{2}.git'.format(user, password, repo_name, group_name)

os.system(cmd_string)
cmd_string, password = "", "" # removing the password from the variable

## Nötige Installationen

Hier stehen alle Installationen die notwendig sind um BERTSUM Auszuführen.


In [6]:
!pip install jiwer
!pip install torch
!pip install pytorch-pretrained-bert
!pip install tensorboardX

#!pip install pyrouge
!git clone https://github.com/bheinzerling/pyrouge
#!python pyrouge/setup.py install
!pip install -e pyrouge/.
!pyrouge_set_rouge_path ROUGE-1.5.5
!chmod 777 ROUGE-1.5.5/ROUGE-1.5.5.pl
!pip install fastparquet

Collecting jiwer
  Downloading https://files.pythonhosted.org/packages/d7/2a/266d3b1e41cb9f4981f386a07a54b49070c3b0b72e21caae4cca2317ae02/jiwer-2.1.0-py3-none-any.whl
Collecting python-Levenshtein
[?25l  Downloading https://files.pythonhosted.org/packages/42/a9/d1785c85ebf9b7dfacd08938dd028209c34a0ea3b1bcdb895208bd40a67d/python-Levenshtein-0.12.0.tar.gz (48kB)
[K     |████████████████████████████████| 51kB 4.9MB/s 
Building wheels for collected packages: python-Levenshtein
  Building wheel for python-Levenshtein (setup.py) ... [?25l[?25hdone
  Created wheel for python-Levenshtein: filename=python_Levenshtein-0.12.0-cp36-cp36m-linux_x86_64.whl size=144798 sha256=0e6929f89b03335382758959f539f0ea84888e026dc2c8d1923a68f9b9d24746
  Stored in directory: /root/.cache/pip/wheels/de/c2/93/660fd5f7559049268ad2dc6d81c4e39e9e36518766eaf7e342
Successfully built python-Levenshtein
Installing collected packages: python-Levenshtein, jiwer
Successfully installed jiwer-2.1.0 python-Levenshtein-0.12.

In [None]:
!sudo apt-get install libxml-parser-perl

In [None]:
!chmod 777 ROUGE-1.5.5/data/WordNet-2.0-Exceptions/buildExeptionDB.pl
!rm ROUGE-1.5.5/data/WordNet-2.0.exc.db
!ROUGE-1.5.5/data/WordNet-2.0-Exceptions/buildExeptionDB.pl ROUGE-1.5.5/data/WordNet-2.0-Exceptions ROUGE-1.5.5/data/smart_common_words.txt ROUGE-1.5.5/data/WordNet-2.0.exc.db

## Umwandeln der Daten in ein für BERT lesbares Format

Damit BERT die Werte aus der JSON Datei verarbeiten kann, müssen diesen in ein passendes Format umgewandelt werden. Das geschieht mit einem Kommando, das von BERTSUM komme. Dazu muss in den folgenden Kommandos die Pfade angepasst werden. Nach der Anpassung kann das Kommando ausgeführt werden.


### englische Daten
Das ist das Angepasste Kommando für den englischen Datensatz.

In [None]:
!python automatische-generierung-von-titeln-und-abstracts/BertSum/src/preprocess.py -mode format_to_bert -raw_path automatische-generierung-von-titeln-und-abstracts/BertSum/json_data/english -save_path automatische-generierung-von-titeln-und-abstracts/BertSum/bert_data/test -oracle_mode greedy -n_cpus 4 -log_file automatische-generierung-von-titeln-und-abstracts/BertSum/logs/preprocess.log

### deutsche Daten

Das ist das Angepasste Kommando für den deutschen Datensatz.

In [None]:
!python automatische-generierung-von-titeln-und-abstracts/BertSum/src/preprocess.py -mode format_to_bert -raw_path automatische-generierung-von-titeln-und-abstracts/BertSum/json_data/german/ -save_path automatische-generierung-von-titeln-und-abstracts/BertSum/bert_data/german -oracle_mode greedy -n_cpus 4 -log_file automatische-generierung-von-titeln-und-abstracts/BertSum/logs/preprocess.log

## Trainieren

In diesen Abschnitt wird das BERTSUM-Modell trainiert.



#### englisch


In [None]:
!python automatische-generierung-von-titeln-und-abstracts/BertSum/src/train.py -mode train -encoder transformer -dropout 0.1 -bert_data_path automatische-generierung-von-titeln-und-abstracts/BertSum/bert_data/english/english -model_path automatische-generierung-von-titeln-und-abstracts/BertSum/models/bert_transformer -lr 2e-3 -visible_gpus 0  -gpu_ranks 0 -world_size 1 -report_every 50 -save_checkpoint_steps 1000 -batch_size 3000 -decay_method noam -train_steps 50000 -accum_count 2 -log_file automatische-generierung-von-titeln-und-abstracts/BertSum/logs/bert_transformer -use_interval true -warmup_steps 10000 -ff_size 2048 -inter_layers 2 -heads 8

[2020-09-07 22:48:22,665 INFO] Device ID 0
[2020-09-07 22:48:22,667 INFO] Device cuda
[2020-09-07 22:48:23,076 INFO] loading archive file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased.tar.gz from cache at ../temp/9c41111e2de84547a463fd39217199738d1e3deb72d4fec4399e6e241983c6f0.ae3cef932725ca7a30cdcb93fc6e09150a55e2a130ec7af63975a16c153ae2ba
[2020-09-07 22:48:23,077 INFO] extracting archive file ../temp/9c41111e2de84547a463fd39217199738d1e3deb72d4fec4399e6e241983c6f0.ae3cef932725ca7a30cdcb93fc6e09150a55e2a130ec7af63975a16c153ae2ba to temp dir /tmp/tmpwk142xgh
[2020-09-07 22:48:29,835 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

[2020-09-07 22:48:42,554 INFO] Summarizer(
  (bert): 

#### deutsch


In [None]:
!python automatische-generierung-von-titeln-und-abstracts/BertSum/src/train.py -mode train -encoder transformer -dropout 0.1 -bert_data_path automatische-generierung-von-titeln-und-abstracts/BertSum/bert_data/german/german -model_path automatische-generierung-von-titeln-und-abstracts/BertSum/models/german_bert_transformer -lr 2e-3 -visible_gpus 0  -gpu_ranks 0 -world_size 1 -report_every 50 -save_checkpoint_steps 1000 -batch_size 3000 -decay_method noam -train_steps 50000 -accum_count 2 -log_file automatische-generierung-von-titeln-und-abstracts/BertSum/logs/bert_transformer -use_interval true -warmup_steps 10000 -ff_size 2048 -inter_layers 2 -heads 8

[2020-09-16 17:14:02,008 INFO] Device ID 0
[2020-09-16 17:14:02,009 INFO] Device cuda
[2020-09-16 17:14:02,419 INFO] loading archive file https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased.tar.gz from cache at ../temp/9c41111e2de84547a463fd39217199738d1e3deb72d4fec4399e6e241983c6f0.ae3cef932725ca7a30cdcb93fc6e09150a55e2a130ec7af63975a16c153ae2ba
[2020-09-16 17:14:02,420 INFO] extracting archive file ../temp/9c41111e2de84547a463fd39217199738d1e3deb72d4fec4399e6e241983c6f0.ae3cef932725ca7a30cdcb93fc6e09150a55e2a130ec7af63975a16c153ae2ba to temp dir /tmp/tmpzuzcly9e
[2020-09-16 17:14:06,521 INFO] Model config {
  "attention_probs_dropout_prob": 0.1,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "max_position_embeddings": 512,
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "type_vocab_size": 2,
  "vocab_size": 30522
}

[2020-09-16 17:14:13,055 INFO] Summarizer(
  (bert): 