<a href="https://colab.research.google.com/github/nicolaiberk/bild/blob/main/code/content_analysis/bert/crime/bert/crime_annotator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.18.0-py3-none-any.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 34.6 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 66.0 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 66.3 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 68.7 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.5.1-py3-none-any.whl (77 kB)
[K     |████████████████████████████████| 77 kB 8.3 MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacr

In [None]:
import os
import pandas as pd
import csv
import sys
import numpy as np


# parameters
clsfr_path = "drive/MyDrive/Bild/crime_clsfr_BERT_torch"
input_path = "https://www.dropbox.com/s/ousyjlju18fopny/_migration_articles_BERT.csv?dl=1"
output_path = "drive/MyDrive/Bild/crime_annotations.csv"
batch_size = 16

# load classifier and tokenizer
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
model = AutoModelForSequenceClassification.from_pretrained(clsfr_path)
tokenizer = AutoTokenizer.from_pretrained('distilbert-base-german-cased', model_max_length = 512)
classifier = pipeline('text-classification', model=model, tokenizer=tokenizer, device = 0, padding='max_length', truncation=True)

Sanity Check:

In [None]:
# Test model
text = "Die Polizei hat gestern zwei Flüchtige nach einem Bankraub festgenommen. Nach einem kurzen Schusswechsel konnten die mutmaßlichen Täter überwältigt und festegnommen werden. Die Staatsanwaltschaft ermittelt."
classifier(text)

[{'label': 'LABEL_1', 'score': 0.9991445541381836}]

In [None]:
text = "Schleswig-Holstein hat einen neuen Landtag gewählt. Mit dem vorläufigen Endergebnis kommt die CDU als stärkste Kraft auf 43,4 Prozent der Stimmen, die SPD erreicht 16 Prozent, die Grünen sind zweitstärkste Kraft mit 18,3 Prozent."
classifier(text)

[{'label': 'LABEL_0', 'score': 0.9996545314788818}]

Looking good.

In [None]:
# check if output file exists and count lines
try:
  temp = pd.read_csv(output_path)
  skip = pd.shape[0]
  del temp
except:
  skip = 0

In [None]:
mig_articles = pd.read_csv(input_path)

In [None]:
mig_articles.head(1)

Unnamed: 0,date,paper,title,url,text
0,15707,taz,Ländle ärgert sich über Lästerei,https://taz.de/Archiv-Suche/!527952&s=&SuchRah...,BERLIN | Nach den Lästereien von Bundestagsviz...


In [None]:
mig_articles["crime"] = classifier([article for article in mig_articles.text])

In [None]:
import re
int(re.match('LABEL_(\d)', 'LABEL_0').group(1))


0

In [None]:
# clean
labels = []
prob = []
for dt in mig_articles.crime:
  labels.append(int(re.match('LABEL_(\d)', dt['label']).group(1)))
  prob.append(float(dt['score']))

mig_articles['crime_label'] = labels
mig_articles['crime_prob'] = prob

In [None]:
mig_articles.to_csv(output_path)

In [None]:
mig_articles.head()

Unnamed: 0,date,paper,title,url,text,crime,crime_label,crime_prob
0,15707,taz,Ländle ärgert sich über Lästerei,https://taz.de/Archiv-Suche/!527952&s=&SuchRah...,BERLIN | Nach den Lästereien von Bundestagsviz...,"{'label': 'LABEL_0', 'score': 0.9999115467071533}",0,0.999912
1,15707,taz,Die Kinder bleiben unter sich,https://taz.de/Archiv-Suche/!5076321&s=/,QABB ELIAS taz | Der elfjährige Firas wird vie...,"{'label': 'LABEL_0', 'score': 0.9999068975448608}",0,0.999907
2,15707,taz,Auf der Suche nach Vorbildern,https://taz.de/Archiv-Suche/!528028&s=&SuchRah...,Als „sehr positiv“ bewertet der Senat die Erfa...,"{'label': 'LABEL_0', 'score': 0.9999082088470459}",0,0.999908
3,15707,taz,Wenig arbeitslose Jugendliche,https://taz.de/Archiv-Suche/!528056&s=&SuchRah...,Die Jugendarbeitslosigkeit scheint in Niedersa...,"{'label': 'LABEL_0', 'score': 0.9998371601104736}",0,0.999837
4,15706,taz,„Jesus setzte sich für Fremde ein“,https://taz.de/Archiv-Suche/!5076305&s=/,Mehrere Dutzend Personen eines Kollektivs zur ...,"{'label': 'LABEL_0', 'score': 0.9998641014099121}",0,0.999864
