1. Überprüfen ob "Description" und "Text" der Artikel deckungsgleich sind und gegebenenfalls die betroffenen Artikel entfernen.
2. Nicht-lateinische Schrift entfernen und prüfen ob Heuristiken zur gezielten Entfernung von nicht-deutscher Sprache gefunden werden können (z.B. Originaltitel von Filmen in Klammern hinter dem Artikelnamen)
3. Mindestlänge von Artikeln auf 100 Wörter und Maximallänge auf 2000 Wörter festlegen. Artikel die weniger als 100 Wörter enthalten, werden entfernt und durch längere ersetzt. Artikel mit mehr als 2000 Wörtern werden an der Obergrenze abgeschnitten.
4. Überlappungen zwischen den verschiedenen Datensätzen vor dem Merge prüfen.

In [1]:
import pandas as pd
import regex

%matplotlib inline

In [2]:
categories = pd.read_csv("../data/kategorien.csv")

In [3]:
categories

Unnamed: 0,category,description,text
0,Herrscher,"Adaloald (auch Adalwald, Adulubaldus; * 602 in...","Adaloald (auch Adalwald, Adulubaldus; * 602 in..."
1,Herrscher,"Ælfwine (auch Aelfwine, Elfwine, Aelfuini, Ael...","Ælfwine (auch Aelfwine, Elfwine, Aelfuini, Ael..."
2,Herrscher,Æscwine (auch: Aescwine; Escuuine) († 676) war...,Æscwine (auch: Aescwine; Escuuine) († 676) war...
3,Herrscher,"Æthelberht I. (auch Æþelbryht, Æþelbyrht, Aedi...","Æthelberht I. (auch Æþelbryht, Æþelbyrht, Aedi..."
4,Herrscher,"Æthelburg (auch Æthelburh, Ethelburga, Æthelbu...","Æthelburg (auch Æthelburh, Ethelburga, Æthelbu..."
5,Herrscher,"Æthelburg, auch Æthelburh, Ethelburga, (* um 6...","Æthelburg, auch Æthelburh, Ethelburga, (* um 6..."
6,Herrscher,"Æthelhere (auch Aedilheri, Æðelhere und Aethel...","Æthelhere (auch Aedilheri, Æðelhere und Aethel..."
7,Herrscher,Agilulf (auch Ago und Turingus (der Thüringer ...,Agilulf (auch Ago und Turingus (der Thüringer ...
8,Herrscher,"Anafestus Paulucius, in den zeitlich näheren Q...","Anafestus Paulucius, in den zeitlich näheren Q..."
9,Herrscher,Alexander der Große (altgriechisch Ἀλέξανδρος ...,Alexander der Große (altgriechisch Ἀλέξανδρος ...


### 1. description == text

In [5]:
categories = categories[categories["description"] != categories["text"]].reset_index(drop=True)

### 2. Nicht-lateinische Schrift

In [6]:
token_pattern = regex.compile(r"\p{Latin}+\p{Connector_Punctuation}?\p{Latin}+|\p{Number}+")

In [7]:
example = """Deutsch: lateinisches Alphabet, 
             Amharisch: የላቲን አልፋቤት,
             Bengalisch: লাতিন বর্ণমালা,
             Arabisch: اَللُّغَةُ اَلْعَرَبِيَّة,
             Chinesisch: 漢字,
             Japanisch: 日本語"""
token_pattern.findall(example)

['Deutsch',
 'lateinisches',
 'Alphabet',
 'Amharisch',
 'Bengalisch',
 'Arabisch',
 'Chinesisch',
 'Japanisch']

In [8]:
def drop_nonlatin(articles):
    return articles.apply(lambda article: " ".join(token_pattern.findall(str(article))))

In [9]:
categories["description"] = drop_nonlatin(categories["description"])
categories["text"] = drop_nonlatin(categories["text"])

### 3. Mindest- bzw. Maximallänge

In [10]:
minimum = 100
maximum = 2000

In [11]:
length = list()

for article in categories["text"]:
    tokens = token_pattern.findall(article)
    length.append(len(tokens))

categories["length"] = length

In [12]:
categories.head(5)

Unnamed: 0,category,description,text,length
0,Herrscher,Adaloald auch Adalwald Adulubaldus 602 in Monz...,Adaloald auch Adalwald Adulubaldus 602 in Monz...,236
1,Herrscher,Ælfwine auch Aelfwine Elfwine Aelfuini Aelfwin...,Ælfwine auch Aelfwine Elfwine Aelfuini Aelfwin...,279
2,Herrscher,Æscwine auch Aescwine Escuuine 676 war von 674...,Æscwine auch Aescwine Escuuine 676 war von 674...,135
3,Herrscher,Æthelberht auch Æþelbryht Æþelbyrht Aedilberct...,Æthelberht auch Æþelbryht Æþelbyrht Aedilberct...,841
4,Herrscher,Æthelburg auch Æthelburh Ethelburga Æthelburga...,Æthelburg auch Æthelburh Ethelburga Æthelburga...,303


In [13]:
categories = categories[categories["length"] >= minimum].reset_index(drop=True)

In [14]:
cut = categories[categories["length"] > maximum]

In [15]:
for row, article in cut.iterrows():
    tokens = token_pattern.findall(article["text"])
    categories.iloc[row, 2] = " ".join(tokens[:maximum])

In [16]:
length = list()

for article in categories["text"]:
    tokens = token_pattern.findall(article)
    length.append(len(tokens))

categories["length"] = length

In [17]:
categories = categories.drop_duplicates("description")

In [22]:
categories.to_csv("testing.csv", index=False)

In [32]:
categories["category"].value_counts()

Literatur         200
Film              200
Herrscher         200
Kriege            200
Krankheit         200
Burgen            200
Musik             200
Computerspiele    200
Fernsehserien     200
Soziologie        200
Name: category, dtype: int64

# auf 200 artikel minimieren

In [30]:
krankheit = categories[categories["category"] == "Krankheit"][:200]
soziologie = categories[categories["category"] == "Soziologie"][:200]
musik = categories[categories["category"] == "Musik"][:200]

In [31]:
categories = categories[categories["category"] != "Krankheit"]
categories = categories[categories["category"] != "Soziologie"]
categories = categories[categories["category"] != "Musik"]
categories = categories.append(krankheit).append(soziologie).append(musik)