In [1]:
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd
import os
import json
import urllib
import unicodedata
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

#General stuff

In [2]:
CACHE_FOLDER = "cache"
PLAIN_TEXT_FOLDER = "plain_text"

In [3]:
def load_content(page, params=None):
    if not os.path.exists(CACHE_FOLDER):
        os.makedirs(CACHE_FOLDER)

    # Create a session with connection pooling
    session = requests.Session()

    # Define the number of retries and backoff factor
    retries = Retry(total=5, backoff_factor=0.1, status_forcelist=[500, 502, 503, 504])

    # Mount the HTTPAdapter with the Retry settings to the session
    session.mount('http://', HTTPAdapter(max_retries=retries))
    session.mount('https://', HTTPAdapter(max_retries=retries))

    #load content
    content = ""
    cache_location = os.path.join(CACHE_FOLDER,page.split('/')[-1].replace('/', '_'))
    if params is not None:
        params_hash = hash(frozenset(params.items()))
        cache_location += "_" + str(params_hash)
    if not os.path.exists(cache_location):
        result = session.get(page, allow_redirects=True, params=params)
        content = result.text
        with open(cache_location, 'w') as f:
            f.write(content)
    else:
        with open(cache_location) as f:
            content = f.read()
    return content

In [4]:
def slugify(value, allow_unicode=False):
    """
    Taken from https://github.com/django/django/blob/master/django/utils/text.py
    Convert to ASCII if 'allow_unicode' is False. Convert spaces or repeated
    dashes to single dashes. Remove characters that aren't alphanumerics,
    underscores, or hyphens. Convert to lowercase. Also strip leading and
    trailing whitespace, dashes, and underscores.
    """
    value = str(value)
    if allow_unicode:
        value = unicodedata.normalize('NFKC', value)
    else:
        value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore').decode('ascii')
    value = re.sub(r'[^\w\s-]', '', value.lower())
    return re.sub(r'[-\s]+', '-', value).strip('-_')

#Scrape all hurraki data

In [5]:
URL_ALL_PAGES = "https://hurraki.de/w/api.php?action=query&format=json&list=allpages&aplimit=500&apfilterredir=nonredirects&apfrom={}"
URL_GET_PAGE = "https://hurraki.de/w/api.php?action=parse&prop=categories|text&format=json&page={}"

In [6]:
def get_all_titles():

  apfrom = "A"
  all_pages = []

  #iterate over all pages (max. 500 entries per page)
  while apfrom is not None:

    #load data
    print(load_content(URL_ALL_PAGES.format(apfrom)))
    data = json.loads(load_content(URL_ALL_PAGES.format(apfrom)))
    pages = data["query"]["allpages"]

    for page in pages:
      if page["title"].startswith("Hurraki:"):
        continue
      all_pages.append(page["title"])

    if "continue" in data.keys():
      apfrom = data['continue']['apcontinue']
    else:
      apfrom = None

  return all_pages

all_titles = get_all_titles()

{"batchcomplete":"","continue":{"apcontinue":"Bollenhut","continue":"-||"},"query":{"allpages":[{"pageid":11053,"ns":0,"title":"ABBA"},{"pageid":3744,"ns":0,"title":"ADAC"},{"pageid":3122,"ns":0,"title":"ADHS"},{"pageid":2665,"ns":0,"title":"AFAIK"},{"pageid":3141,"ns":0,"title":"AFK"},{"pageid":7747,"ns":0,"title":"AN-12 Unfall in Juba"},{"pageid":10221,"ns":0,"title":"Aarhus-Konvention"},{"pageid":1202,"ns":0,"title":"Aaron Fotheringham"},{"pageid":5975,"ns":0,"title":"Abbruchkante"},{"pageid":10136,"ns":0,"title":"Abendland"},{"pageid":4811,"ns":0,"title":"Abendrot"},{"pageid":8278,"ns":0,"title":"Abfall"},{"pageid":8275,"ns":0,"title":"Abfalltrennung"},{"pageid":10856,"ns":0,"title":"Abfindung"},{"pageid":10691,"ns":0,"title":"Abf\u00fchren"},{"pageid":10690,"ns":0,"title":"Abf\u00fcllen"},{"pageid":929,"ns":0,"title":"Abgeordnete"},{"pageid":1713,"ns":0,"title":"Abgeordnetengesetz"},{"pageid":11942,"ns":0,"title":"Abhol\u00b7zeit"},{"pageid":7424,"ns":0,"title":"Abh\u00f6ren"},{"p

In [7]:
full_links = [URL_GET_PAGE.format(urllib.parse.quote(sub)) for sub in all_titles]

slugified_titles = [slugify(title) for title in all_titles]
link_dataframe = pd.DataFrame(data={'title':slugified_titles,'link':full_links})
link_dataframe.to_csv('meta.csv', index=False)

In [8]:
#skip previous cells if you allready scraped the links
link_dataframe = pd.read_csv('meta.csv', keep_default_na=False)

In [50]:
#Define specific processing

IMAGE_CAPTION = re.compile(r"Auf dem Bild ist *? zu sehen")
DUPLICATED_NEW_LINES = re.compile(r"(?<=\n\n)\s*\n")
UNIFORM_BULLET_POINTS = re.compile(r"(?<=\n)\s*- *")

REMOVE = {
  IMAGE_CAPTION:'',
  DUPLICATED_NEW_LINES:'',
  UNIFORM_BULLET_POINTS:'• ',
}

def process_text(text):
    for remove_item, replacement in REMOVE.items():
        text = remove_item.sub(replacement, text)

    return text.strip()

In [59]:
def to_plain_text(html):
    #print(html)
    LONG_DESCRIPTION_SEPARATOR = """<span class="mw-headline" id="Genaue_Erklärung">Genaue Erklärung</span>"""

    #split sections
    splitted = html.split("<span class=\"mw-headline\"")
    #reconstruct sections
    for i in range(1,len(splitted)):
        splitted[i] = "<span class=\"mw-headline\"" + splitted[i]

    long_description_html = ""
    short_description_html = splitted[0]
    
    for section in splitted:
        if LONG_DESCRIPTION_SEPARATOR in section:
            long_description_html = section
            break

    text = short_description_html #+ "\n" + long_description_html
    soup = BeautifulSoup(text, "html.parser")

    #format lists to recognize them with regex
    for ul_list in soup.find_all('ul') + soup.find_all('ol'):

        for item in ul_list.find_all('li'):
            if item.text.strip() != "":
                item.string = "• " + item.text.strip()

    for span in soup.find_all('span', class_='mw-editsection'):
        span.clear()
        
    for table in soup.find_all("table"):
        table.clear()
        
    # Extract text without HTML tags
    plain_text = soup.get_text(separator=' ', strip=True)
    
    plain_text = process_text(plain_text)
    
    def get_first_two_sentences(text):
        sentences = re.split(r"(?<!\w\.\w.)(?<![0-9]\.)(?<![0-9][0-9]\.)(?<![A-Z]\.)(?<![A-Z][a-z]\.)(?<=\.|\?|\!)\s", text)
        sentences = [s for s in sentences if s]

        if len(sentences) >= 2:
            return ' '.join(sentences[:2])
        elif len(sentences) == 1:
            return sentences[0]
        else:
            return ""
    
    final_text = get_first_two_sentences(plain_text)
    print(final_text)

    return final_text

In [60]:
def load_and_save_plain_text(link, name=None):

    result = json.loads(load_content(link))
    if 'parse' not in result:
        print(link)
        categories = []
        return
    content = result['parse']['text']['*']
    categories = []
    for item in result['parse']['categories']:
        categories.append(item['*'])
    category = "|".join(categories)

    if name is None:
        name = link.split('/')[-1]

    name = name.replace('/','_') + '.txt'

    #process article
    plain_text = to_plain_text(content)

    if not os.path.exists(PLAIN_TEXT_FOLDER):
        os.makedirs(PLAIN_TEXT_FOLDER)

    #save plain text
    with open(os.path.join(PLAIN_TEXT_FOLDER , name), 'w+') as f:
        f.write(plain_text)

    return {'genre': category}

In [61]:
#load and parse all pages

exclude_pages = ['Übung: Demoversion',
                 'Übung: jaki',
                 'Übung: jan poka',
                 'Übung: kala 🐟',
                 'Übung: kili 🍎',
                 'Übung: kulupu tomo','Übung: ma Apika',
                 'Übung: ma Elopa',
                 'Übung: ma Italija',
                 'Übung: pali',
                 'Übung: toki mama',
                 'Ubung: kon tawa 🌬️',
                 'Grundrechenart',
                 'Mom',
                 'Jaki',
                 'Konsonant',
                 'Alice Salomon',
                 'Unterstützte Kommunikation']

exclude_pages = [slugify(item) for item in exclude_pages]

missing = 0
total_length = len(link_dataframe.index)
for index, row in link_dataframe.iterrows():
    link = row['link']
    title = row['title']

    if title in exclude_pages:
        continue
  
    info = load_and_save_plain_text(link, name=title)

    #add additional information to meta file
    if info:
        for key, value in info.items():
            link_dataframe.at[index,key] = value
    else:
        missing+=1

    print(f"Loaded ({index}/{total_length})")

print(f"Missing pages: {missing}")

ABBA ist eine schwedische Musikgruppe. Sie machen Pop·musik .
Loaded (0/4175)
ADAC ist eine Abkürzung. ADAC steht für: A llgemeiner D eutscher A utomobil- C lub e.
Loaded (1/4175)
ADHS ist eine Abkürzung. Die Abkürzung steht für: A ufmerksamkeits d efizit- H yperaktivitäts s törung
Loaded (2/4175)
AFAIK ist ein Ausdruck im Internet. AFAIK bedeutet soweit ich weiß .
Loaded (3/4175)
AFK ist eine englische Abkürzung. Die Abkürzung bedeutet: "Nicht an der Tastatur"
Loaded (4/4175)
Der AN-12 Unfall in Juba ist am 4. November 2015 gewesen. Das Flugzeug (mit dem Namen Antonow An-12) ist abgestürzt.
Loaded (5/4175)
Die Aarhus-Konvention ist ein Vertrag . In dem Vertrag geht es um den Umwelt·schutz .
Loaded (6/4175)
Aaron Fotheringham ist ein Roll·stuhl·sportler. Er ist sehr bekannt.
Loaded (7/4175)
Eine Ab·bruch·kante ist das Ende von einem Hügel. Das heißt, an diesem Ende geht es berg·ab.
Loaded (8/4175)
Abend·land nennt man einen Teil von der Welt. Und zwar die Länder im Westen von Europa .


Loaded (147/4175)
Eine Anlauttabelle wird zum Lernen benutzt. Darauf sind Buchstaben und Bilder.
Loaded (148/4175)
Anna Faris ist eine amerikanische Schauspielerin . Und eine Sängerin.
Loaded (149/4175)
Annalena Baerbock ist eine Politikerin . Sie ist in der Partei die Grünen .
Loaded (150/4175)
Eine Person ist anonym. Also weiß niemand: Wer ist diese Person?
Loaded (151/4175)
anonym bedeutet namenlos. Anonymität ist das dazugehörige Hauptwort .
Loaded (152/4175)
Die Anonymous-Gruppe sind verschiedene Menschen, die zusammen gegen bestimmte Sachen protestieren . Zum Beispiel gegen Zensur .
Loaded (153/4175)
Bei einer Anorexie hat man keine Lust etwas zu essen. Wenn die Anorexie länger geht, verschwindet auch der Hunger .
Loaded (154/4175)
Ein Anrainer ist ein Nachbar. Das heißt: jemand wohnt neben dran
Loaded (155/4175)
Der Anschlag in Istanbul ist am 1. Januar 2017 gewesen. Dabei sind 37 Menschen getötet.
Loaded (156/4175)
Der Anschlag in Istanbul ist am 10. Dezember 2016 gewesen. Dabe

Loaded (286/4175)
Das Außen·ohr ist ein Teil vom Ohr . Zum Außen·ohr gehört die Ohr·muschel der Gehör·gang .
Loaded (287/4175)
Außenpolitik ist eine bestimmte Art von Politik . Bei der Außenpolitik geht es um die Beziehung zwischen dem eigenen Land und anderen Ländern.
Loaded (288/4175)
Das Wort Avatar kann verschiedenen Bedeutungen haben. Zum Beispiel: • Ein Avatar ist ein Bild von einer Person - Avatar (Bild) • Avatar ist ein Film Avatar (Film) • Avatar ist ein Kurs - Avatar (Kurs) • Avatar ist ein Zeichen·trick·film - Avatar (Trick·film) • Avatar ist ein Computer·spiel - Avatar (Spiel) • Avatar ist eine Musik·gruppe Avatar (Band)
Loaded (289/4175)
Ein Avatar ist ein Bild. Auf dem Bild sieht man eine Person.
Loaded (290/4175)
Aya Iwamoto ist eine Übersetzerin Aya Iwamoto ist eine der ersten Menschen mit Trisomie 21, die einen Universitätsabschluß haben.
Loaded (291/4175)
Aylan Kurdi ist ein Kind . Er war ein Flüchtling und ist 3 Jahre alt geworden.
Loaded (292/4175)
B2K ist eine Abkü

Bigotterie ist, wenn man etwas vorspielt. Wenn man so macht, als ob man an etwas glaubt.
Loaded (428/4175)
Ein Bikini ist ein Badeanzug für Frauen und Mädchen. Auf dem Bild ist eine Frau.
Loaded (429/4175)
Bi·lateralität bedeutet 2·seitig. 2 Sachen machen etwas zusammen.
Loaded (430/4175)
Die Bilderberg-Konferenz ist ein Treffen. Es treffen sich Menschen die Macht haben.
Loaded (431/4175)
Beim Bilderbuch-Kino werden Bilder in einem Buch angeschaut. Gleichzeitig liest jemand anderes aus dem Buch vor.
Loaded (432/4175)
Das Wort Bild-lauf-leiste kommt aus der Computer-welt. Eine Bild-lauf-leiste ist zum steuern da.
Loaded (433/4175)
Ein Bildschirmschoner ist ein Computerprogramm .
Loaded (434/4175)
Auf einer Bildtafel sind viele Bilder. Alle Bilder sind auf 1 Seite.
Loaded (435/4175)
Das Wort Bildung kann verschiedene Bedeutungen haben. • Bildung heißt meistens: Wissen und Lernen: Bildung (Wissen) • Wenn man etwas baut.
Loaded (436/4175)
Bildung heißt Lernen. Und Bildung heißt Wissen.
Loa

Der Bundes·präsident ist das Ober·haupt von Deutschland . Er ist ein Mann oder eine Frau aus Deutschland.
Loaded (573/4175)
Die Bundespräsidentenwahl 2017 ist eine Wahl . Bei der Wahl wird der Bundes·präsident gewählt.
Loaded (574/4175)
Der Bundesrat hat nicht die gleichen Funktionen in der Schweiz und in Deutschland. Wir erklären zuerst, was der Bundesrat in Deutschland macht.
Loaded (575/4175)
Erklärung in Leichter Sprache Bild gesucht
Loaded (576/4175)
Der Bundesrat hat Mitglieder aus den Landtagen der Bundesländer. Er ist die Vertretung der Bundesländer in Berlin.
Loaded (577/4175)
Die Bundesregierung von Deutschland besteht aus dem Bundeskanzler . Und seinen Bundesministern .
Loaded (578/4175)
Die Bundes·tags·fraktion ist eine Gruppe von Politiker . Es ist eine Fraktion .
Loaded (579/4175)
Der Bundes·tags·präsident arbeitet im Deutschen Bundes·tag . Er achtet darauf, dass sich alle im Bundestag an die Regeln halten.
Loaded (580/4175)
Die Bundes·tags·wahl ist eine Wahl in Deutschla

Loaded (715/4175)
Eine Curry·wurst ist eine Brat·wurst . Oder sie ist eine Brüh·wurst.
Loaded (716/4175)
CyanogenMod ist ein Betriebs-system für das Smart-phone .
Loaded (717/4175)
Cyber Monday ist ein Internet·einkaufs·tag. Er ist jedes Jahr im November.
Loaded (718/4175)
D-A-CH ist ein kurzes Wort für diese 3 Länder: Deutschland , Österreich , Schweiz
Loaded (719/4175)
DAU ist eine Abkürzung. Die Abkürzung steht für: D ümmster a nzunehmender U ser
Loaded (720/4175)
DBT ist ein Therapieverfahren. Damit hilft man Menschen mit Borderline-Persönlichkeits-störung .
Loaded (721/4175)
DE-CIX ist der Name von einem Internet·knoten . Auf dem Bild ist _____________ zu sehen
Loaded (722/4175)
DFB ist das kurze Wort für: D eutscher- F ußball- B . DFB ist eine Abkürzung .
Loaded (723/4175)
DLRG ist eine Abkürzung. Die Abkürzung steht für: D eutsche L ebens- R ettungs- G esellschaft e.
Loaded (724/4175)
Mit DSL kann man seinen Computer mit dem Internet verbinden. Man braucht dazu ein DSL-Modem .
L

Loaded (856/4175)
Do not feed the trolls sagt man im Internet. Do not feet the trolls bedeutet, " Trolle nicht beachten".
Loaded (857/4175)
Ein Doktor ist jemand, der sich gut auskennt. Die meisten Ärzte sind Doktoren.
Loaded (858/4175)
Ein Dokument ist ein wichtiges Schriftstück. Zum Beispiel ein Vertrag.
Loaded (859/4175)
Das Dolby Theatre ist ein großer Saal. Das Dolby Theatre ist in der Stadt Los Angeles .
Loaded (860/4175)
Der Dollar ist eine Währung . Währung ist Geld das man in einem Land benutzt um zu bezahlen.
Loaded (861/4175)
Dolmetscher ist ein Beruf. Dolmetscher können mehrere Sprachen.
Loaded (862/4175)
Das D omain N ame S ystem ist ein Dienst. Das kurze Wort dafür ist DNS .
Loaded (863/4175)
Dompteur ist ein französisches Wort. Es heißt "zähmen".
Loaded (864/4175)
https://hurraki.de/w/api.php?action=parse&prop=categories|text&format=json&page=Donald%20Duck
Loaded (865/4175)
Donald Trump ist ein Geschäfts·mann. Und er ist ein amerikanischer Politiker .
Loaded (866/4175)
D

Loaded (994/4175)
Das Wort Empfang kann verschiedenen Bedeutungen haben. Zum Beispiel: • Jemand macht ein Fest
Sekt·empfang - Apéro (Anlass)
Cocktail·party
Neujahrs·empfang • Ein Handy hat Empfang: Funk·empfang • In einem Hotel gibt es einen Empfang.
Loaded (995/4175)
Empirie ist eine Wissen·schaft. Empirie sammelt Informationen .
Loaded (996/4175)
sich empören bedeutet, dass man sich über etwas ärgert.
Loaded (997/4175)
Endal war ein sehr bekannter Hund. Er war sehr schlau.
Loaded (998/4175)
Endlagerung ist ein Ort für Abfall . Abfall der un·brauchbar ist.
Loaded (999/4175)
Die Endlösung der Judenfrage war ein Plan der Nationalsozialisten . Das Ziel war alle Juden zu ermorden.
Loaded (1000/4175)
Der Endspurt ist das Ende eines Rennens. Die Sportler werden beim Endspurt schneller.
Loaded (1001/4175)
Energie ist Arbeit. Durch Arbeit entsteht Kraft.
Loaded (1002/4175)
Die Energie·pauschale ist Geld. Man bekommt das Geld vom Staat.
Loaded (1003/4175)
Die Energie·wende ist eine Änderung fü

Loaded (1141/4175)
Bei einer Fata Morgana sieht man Sachen die es gar nicht gibt. Weil sich die Sachen spiegeln.
Loaded (1142/4175)
Fatah ist der Name einer Partei . Die Partei gibt es in den Palästinensischen Autonomiegebieten .
Loaded (1143/4175)
Fatal ist ein ein anderes Wort für schlimm .
Loaded (1144/4175)
Eine Faustregel sagt etwas voraus. Eine Faus·regel erklärt was passiert.
Loaded (1145/4175)
Eine Favela ist ein Teil von einer Stadt, in der sehr viele Arme Menschen wohnen.
Loaded (1146/4175)
Faye Dunaway ist eine amerikanische Schauspielerin . Auf dem Foto ist Faye Dunaway.
Loaded (1147/4175)
Federn wachsen aus der Haut von Vögeln . Federn sind wie Haare .
Loaded (1148/4175)
Fehlbar bedeutet Fehler machen.
Loaded (1149/4175)
Ein Feiertag ist ein besondere Tag . Es ist ein festlicher Tag.
Loaded (1150/4175)
Beim Feilschen verhandeln Personen miteinander. Sie verhandeln darüber was etwas kosten soll.
Loaded (1151/4175)
Feindschaft gibt es zwischen Menschen. Manche Menschen mögen

Loaded (1284/4175)
Warum heißt das Spiel Fußball? Meistens spielt man den Ball mit dem Fuß.
Loaded (1285/4175)
Ein Futterdummy ist ein kleiner Sack für einen Hund. In dem Sack ist Hunde-futter.
Loaded (1286/4175)
Das Wort Fußball kann 3 verschiedene Bedeutungen haben. • Fußball - die Ball-sport-art • Fußball - eine Zeitung • Fußball - das Sport-Gerät
Loaded (1287/4175)
Die Fußball-Europa-Meisterschaft 2016 ist ein Fußball -Wettkampf. Der Fußball-Wettkampf ist im Land: Frankreich .
Loaded (1288/4175)
Die Fußball-Europa-Meisterschaft 2020 ist ein Fußball -Wettkampf. Die Meisterschaft war für den 17. März 2020 geplant.
Loaded (1289/4175)
Die Fußball·welt·meisterschaft der Frauen ist ein großes Turnier . Bei diesem Turnier spielen die besten Frauen-Fußball·mannschaften der Welt gegeneinander.
Loaded (1290/4175)
Fußball ist ein Spiel . Beim Fußball muss man mit dem Fuß einen Ball schießen.
Loaded (1291/4175)
Die Fußball Weltmeisterschaft 2014 ist ein Fußball -Wettkampf. Der Fußball-Wettkamp

Loaded (1410/4175)
Gewissen ist im Bewusst·sein . Das Gewissen ist wie eine innere Stimme.
Loaded (1411/4175)
Ein Gewitter ist eine luft·elektrische Entladung. Meistens regnet es bei einem Gewitter.
Loaded (1412/4175)
Ein Gewohnheitsrecht sind Regeln und Abmachungen. Sie gelten zwischen den Menschen.
Loaded (1413/4175)
Ein Gewächs·haus ist ein Haus oder eine Halle. Das Haus ist meistens aus Glas.
Loaded (1414/4175)
Der Gewöhnliche Feld·salat ist eine Pflanze . Die Pflanze gehört zur Gruppe Feld·salat.
Loaded (1415/4175)
Ein Geysir ist ein Natur·phänomen. Ein Geysir ist eine heiße Quelle.
Loaded (1416/4175)
Ein Ghostwriter ist eine bestimmte Art von Autor . Dieser Autor schreibt Texte für andere.
Loaded (1417/4175)
Giftgas ist giftige Luft. Diese giftige Luft darf man nicht einatmen.
Loaded (1418/4175)
Giorgio Chiellini ist ein Fuß·ball·spieler . Er spielt bei der National·mannschaft in Italien .
Loaded (1419/4175)
Ein Gipfel·treffen ist ein Treffen. Bei dem Treffen sprechen Politiker ü

Hedonismus ist eine Art zu Leben. Alles was glücklich macht ist gut.
Loaded (1549/4175)
Hefe ist ein Pilz . Hefe·pilze nimmt man zum Beispiel zum Backen.
Loaded (1550/4175)
Heiko Maas ist ein deutscher Politiker . Er ist in der Partei SPD .
Loaded (1551/4175)
Heil·erziehungs·pfleger ist ein Beruf . Heil·erziehungs·pfleger unterstützen Menschen mit Behinderung.
Loaded (1552/4175)
Heilige Drei Könige ist der Name von einem Feier·tag. Den Feier·tag gibt es bei den Christen .
Loaded (1553/4175)
Heimat ist ein Ort wo man sich wohl fühlt. Meistens ist damit ein Land gemeint.
Loaded (1554/4175)
Heimbeiräte sind Personen, die die Bewohner von Wohnheimen vertreten. Die Heimbeiräte werden von den Bewohnern gewählt .
Loaded (1555/4175)
Heim·erziehung ist eine Wohnform. Dort leben Kinder und Jugendliche.
Loaded (1556/4175)
In der Heim-Mit-Wirkungs-Verordnung steht, was der Heimbeirat darf.
Loaded (1557/4175)
Der Heimvertrag ist ein Vertrag zwischen Bewohner und Einrichtung. In diesem Vertrag steht

Die Industrielle Revolution ist ein Zeit·raum gewesen. Sie hat im Jahr 1700 angefangen.
Loaded (1689/4175)
infantil ist ein anderes Wort für kindisch . Es bedeutet sich wie ein kleines Kind verhalten .
Loaded (1690/4175)
Infektion ist ein Wort aus der Medizin. Es bedeutet, dass Bakterien oder Viren in einen Körper gekommen sind.
Loaded (1691/4175)
Inflation heißt: Alle Sachen kosten auf einmal mehr Geld . Zum Beispiel: Wenn man für Milch und Butter mehr Geld zahlen muss als letztes Jahr.
Loaded (1692/4175)
Ein Influencer ist eine Person. Ein Influencer ist sehr bekannt.
Loaded (1693/4175)
Informatik ist bestimmte Wissenschaft. Bei der Informatik geht es um elektronischen Daten·verarbeitungs·anlagen.
Loaded (1694/4175)
Informationen ist Wissen . Wenn man sich informiert, dann macht man sich schlau.
Loaded (1695/4175)
Das Informationsfreiheitsgesetz ist ein Gesetz in Deutschland. Durch das Informations·freiheits·gesetz kann jeder Mensch Informationen vom Staat bekommen.
Loaded (1696/4175

Kalaschnikow ist der Name einer bestimmten Waffe. Damit ist meistens das Sturm-gewehr AK-47 gemeint.
Loaded (1825/4175)
Ein Kalauer ist ein Witz. Meistens ist der Kalauer kurz.
Loaded (1826/4175)
Das Kallikratis-Programm ist eine Reform im Land Griechenland . Die Reform hat im Jahr 2010 angefangen.
Loaded (1827/4175)
Eine Kalorie ist eine Maßeinheit . Das heißt: Mit einer Kalorie kann man Messen, wie viel Energie im Essen ist.
Loaded (1828/4175)
In der Kalten Küche bietet man nur Kalt·speisen an. Es gibt keine Warm·speisen.
Loaded (1829/4175)
Kalte Progression sind heimliche Steuer ·erhöhungen. Das heißt, obwohl man mehr Geld verdient, kann man sich nicht mehr Sachen kaufen.
Loaded (1830/4175)
Der Kalte Krieg ist ein großer Streit gewesen. Dieser Streit ist zwischen USA und Sowjetunion gewesen.
Loaded (1831/4175)
Bei der Kalt·miete bezahlt man Geld . Geld um etwas benutzen zu dürfen.
Loaded (1832/4175)
Kamelle ist in Köln ein Wort für Bonbon. Auf dem Bild ist eine Person.
Loaded (1833/

Loaded (1976/4175)
Bei der Koprolalie spricht jemand Wörter aus. Die Wörter werden hintereinander ausgesprochen.
Loaded (1977/4175)
Der Koran ist die heilige Schrift im Islam . Dinge, die in einer Religion wichtig sind, nennt man heilig.
Loaded (1978/4175)
Der Korea-Konflikt ist ein großer Streit zwischen zwei (2) Ländern. Der Streit ist zwischen dem Land Nord·korea und dem Land Süd·korea .
Loaded (1979/4175)
Korruption ist ein lateinisches Wort. Es heisst übersetzt "Bestechlichkeit".
Loaded (1980/4175)
Viele Menschen sagen: Es gibt Korruption in der FIFA . Das heißt: die FIFA macht Sachen die verboten sind.
Loaded (1981/4175)
Ein Korsett ist ein Kleidungsstück. Ein Korsett ist sehr eng, und gibt dem Körper eine andere Form.
Loaded (1982/4175)
Eine Koryphäe ist eine Person, die sich besonders gut in etwas auskennt. Es ist ein anderes Wort für "Experte".
Loaded (1983/4175)
Ein Kosewort ist ein Kurz-wort für einen Namen.
Loaded (1984/4175)
Kosmopolitismus ist wenn man die ganze Welt als 

Loaded (2107/4175)
Lemmy Kilmister war ein Sänger , Bassist und Lieder·macher . Er war in der Musik·gruppe Motörhead .
Loaded (2108/4175)
Leo Tolstoi war  ein Schrift·steller . Bild gesucht
Loaded (2109/4175)
Leonard Nimoy war ein Schauspieler . Die meisten kennen ihn in der Rolle als Mister Spock .
Loaded (2110/4175)
Beim Lernen speichert man neue Sachen. Man speichert neue Sachen im Gehirn .
Loaded (2111/4175)
Eine Lernkartei ist ein Kasten. Darin sind einzelne Karten.
Loaded (2112/4175)
Lesbisch sagt man zu homosexuellen Frauen. Lesbische Frauen lieben Frauen.
Loaded (2113/4175)
Ein Leseexemplar ist ein Buch. Das Leseexemplar gibt es noch nicht für alle.
Loaded (2114/4175)
Ein Lesekasten ist ein Kasten. Darin sind einzelne Buchstaben.
Loaded (2115/4175)
Mit Lesen kann man Wörter verstehen. Und man kann Zahlen verstehen.
Loaded (2116/4175)
Eine Leseratte ist eine Person. • Leseratten lesen sehr gerne.
Loaded (2117/4175)
Menschen mit Lese·rechtschreib·störung haben Probleme beim Lesen

Loaded (2250/4175)
Die Medizin ist eine Wissenschaft . In der Medizin geht es darum wie man kranke oder verletzte Menschen oder Tiere wieder gesund machen kann.
Loaded (2251/4175)
Eine Meer·jung·frau ist ein Fabelwesen . Die Meer·jung·frau ist auch eine Art Mischwesen .
Loaded (2252/4175)
Mehl ist ein feines Pulver. Mehl macht man aus Getreide·körnern .
Loaded (2253/4175)
Mehrarbeit ist wenn man mehr arbeitet als im Arbeitsvertrag steht. Im Arbeitsvertrag steht wie lange man am Tag oder in der Woche arbeiten muss.
Loaded (2254/4175)
So wird das Geld genannt, das man dazu verdienen darf, wenn man in
Deutschland arbeitslos ist.
Loaded (2255/4175)
Mehrdeutigkeit ist etwas das mehrere Bedeutungen hat. Mehr·deutigkeit gibt es in der Sprache.
Loaded (2256/4175)
Mehr-Generationen-Häuser sind Treff·punkte. Für Menschen in jedem Alter.
Loaded (2257/4175)
Mehr·menge ist was zu·viel ist. Ein Behälter hat innen einen bestimmten Platz.
Loaded (2258/4175)
Mehr·sprachigkeit ist eine Fähigkeit. Manche

Loaded (2398/4175)
Das Wort Nachrichten kann verschiedene Bedeutungen haben. • Nachrichtensendung im Fernsehen: Es gibt zwei sehr bekannte Fernseh-Sendungen mit den Neuigkeiten von diesem Tag: die Tagesschau (um 20 Uhr) und Heute (19 Uhr).
Loaded (2399/4175)
Das Wort Nachrichtendienst kann verschiedene Bedeutungen haben. • Es gibt den Geheimdienst.
Loaded (2400/4175)
Nachrichten·dienst ist ein anderes Wort für Geheim·dienst. Die Mitarbeiter des Geheim·dienstes sammeln Informationen.
Loaded (2401/4175)
Ein Nachruf ist ein Lob. Und eine Bewunderung für jemand der gestorben ist.
Loaded (2402/4175)
Ein Nackt·scanner ist ein Gerät. Das Gerät kann Fotos von Menschen machen.
Loaded (2403/4175)
Nadeschda Tolokonnikowa ist eine russische Performance-künstlerin . Sie macht bei Pussy Riot mit.
Loaded (2404/4175)
Der Nahostkonflikt ist ein sehr großer Streit. Der Streit ist zwischen verschiedenen Gruppen.
Loaded (2405/4175)
Nahrung sind Sachen die man Essen und Trinken kann. Zum Beispiel: Gemüse .

Der Orkan Niklas ist ein Sturm·tief. Der Orkan war vom 30. März bis 1. April 2015. Der Orkan war in Europa .
Loaded (2538/4175)
Orthodox bedeutet, dass man sehr streng an etwas glaubt.
Loaded (2539/4175)
Orthographie sind Regeln für Schrift·sprache. In den Regeln steht: wie Wörter richtig zu schreiben sind.
Loaded (2540/4175)
Der Oscar ist ein Film·preis. Das heißt: ein sehr guter Film bekommt einen Preis.
Loaded (2541/4175)
Oscar Wilde war ein irischer Schriftsteller . Oscar Wilde war auch ein • Lyriker • Roman·autor • Dramatiker • Kritiker Auf dem Foto ist Oscar Wilde.
Loaded (2542/4175)
Oskar Schindler war ein Unternehmer. Er lebte vomJahr 1908 bis Jahr 1974. Er hat über 1200 Juden vor dem Tod gerettet.
Loaded (2543/4175)
Ostern ist ein ein Fest im Christentum . Die Römer haben Jesus getötet.
Loaded (2544/4175)
Die Osternacht ist ein Abend an Ostern . Dieser Abend fängt meistens mit einem Gottesdienst an.
Loaded (2545/4175)
Der Oster·sonntag ist der Sonntag an Ostern . Christen denk

Loaded (2678/4175)
Ein Pin-up ist ein Foto auf der eine Frau ist. Die Frau sieht auf dem Foto erotisch aus.
Loaded (2679/4175)
Pink Tax ist extra Geld für manche Sachen. Das heißt: Ein Produkt für Frauen kostet mehr Geld.
Loaded (2680/4175)
Pinsa ist ein italienisches Essen. Eine Pinsa ist eine Art flaches Fladen·brot .
Loaded (2681/4175)
Die Piratenpartei Deutschland ist eine deutsche Partei . Die Partei-farbe ist orange.
Loaded (2682/4175)
Eine Pirouette ist, wenn man auf einem Bein steht und sich dreht.
Loaded (2683/4175)
Pizza ist ein italienisches Essen. Eine Pizza ist eine Art flaches Fladen·brot .
Loaded (2684/4175)
Pizza·gate ist eine Falsch·meldung . Und es ist eine Verschwörungs·theorie .
Loaded (2685/4175)
Ein Placebo-Medikament ist eine bestimmte Art von Medikament . Beispiel: Ein Placebo-medikament sieht aus wie eine normale Tablette.
Loaded (2686/4175)
Plagiat ist ein Fremdwort. Es bedeutet Diebstahl oder Fälschung .
Loaded (2687/4175)
Ein Plakatreiter ist eine Tafel. Dar

Loaded (2841/4175)
Radwandern ist Fahrrad fahren . Man fährt mit dem Fahrrad durch die Landschaft.
Loaded (2842/4175)
Ein Rainbow Loom ist ein Brett. Damit kann man Armbänder selber machen.
Loaded (2843/4175)
Ramadan ist eine besondere Zeit für Muslime . In dieser Zeit fasten sie.
Loaded (2844/4175)
Eine Rampensau ist ein Schauspieler, der gerne im Mittelpunkt steht.
Loaded (2845/4175)
Ramsch sagt man zu manchen Sachen. Ramsch will niemand mehr haben.
Loaded (2846/4175)
Ranklotzen ist ein anderes Wort für viel und schnell arbeiten .
Loaded (2847/4175)
Rapunzel ist ein Märchen . Man glaubt: Das Märchen ist aus Neapel in Italien .
Loaded (2848/4175)
Das Wort Rassismus kommt von dem Wort Rasse. Wer an Rassismus glaubt, zu dem sagt man Rassist.
Loaded (2849/4175)
Rastalocken sind kleine Zöpfchen in den Haaren.
Loaded (2850/4175)
Bei einer Rasur werden Haare geschnitten. Meistens werden dabei die Haare im Gesicht geschnitten.
Loaded (2851/4175)
Das Rat·haus ist ein Haus . Das Haus ist in ei

Loaded (2988/4175)
SWIFT-Abkommen ist der Name von einer Art Vertrag. Der Vertrag ist zwischen der Europäischen Union und der USA .
Loaded (2989/4175)
Sabbatical ist eine Zeit ohne (im festen Beruf) zu arbeiten. Das heißt: • Zeit für etwas anderes zu haben Zum Beispiel: • eine Reise zu machen • neue Sprachen zu lernen • Forschung zu machen • um mehr Zeit mit der Familie zu haben
Loaded (2990/4175)
Sabine Lisicki ist eine deutsche Tennis-Spielerin . Auf dem Bild ist Sabine Lisicki.
Loaded (2991/4175)
Ein Sachkundenachweis für Hunde ist ein Sach·kunde·nachweis . Ein Sach·kunde·nachweis für Hunde ist eine Hunde·prüfung.
Loaded (2992/4175)
Ein Sach·walter hilft beim Thema Recht . Sach·walter werden von einem Gericht gestellt.
Loaded (2993/4175)
Safer Internet Day ist der Name eines Aktions·tages. Der Tag soll helfen, gefährliche Sachen im Internet zu erkennen.
Loaded (2994/4175)
Eine Sage ist eine bestimmte Art Geschichte. So ähnlich wie zum Beispiel ein Märchen .
Loaded (2995/4175)
Sahra 

Loaded (3141/4175)
Shire Horse ist eine Pferde·art. Es ist das größte Pferd der Welt.
Loaded (3142/4175)
Eine Shisha ist eine Wasser-pfeife. Damit wird Tabak geraucht.
Loaded (3143/4175)
Bei einem Shitstorm werden andere Leute beleidigt.
Loaded (3144/4175)
Beim Showrooming schaut man sich Sachen in einem Laden an. Danach kauft man aber nicht im Laden.
Loaded (3145/4175)
Sich an die eigene Nase fassen ist eine Rede·wendung . Es bedeutet: Wenn man andere Menschen beurteilen will, dann soll man vorher "über sich selber nachdenken".
Loaded (3146/4175)
Ein Sicherer Herkunftsstaat ist ein Land. So ein Land ist sicher.
Loaded (3147/4175)
Beim Sichtflug muß ein Pilot sich auf seine Sicht verlassen. Das heißt, Fliegen nach Sicht.
Loaded (3148/4175)
Siehe kommt von sehen. Siehe ist ein Hinweis auf mehr Infor·mationen.
Loaded (3149/4175)
Sigmar Gabriel ist ein deutscher Politiker . Er ist in der Partei SPD .
Loaded (3150/4175)
Sigmatismus ist eine Art von Aussprache·störung . Bild gesucht
Loaded 

Loaded (3286/4175)
In einem Staat leben mehrere Menschen zusammen. Das sind wir.
Loaded (3287/4175)
Staaten·los ist ein Mensch der nicht zu einem Land gehört. Staaten·los kann ein Mensch sein wenn: • das eigene Land aufgelöst wird • die eigene Staats·bürger·schaft weg genommen wird • ein Mensch vom eigenen Land für immer weg geschickt wird • ein Mensch aus dem eigenen Land vertrieben wird Datei:Staatenlos.jpg Auf dem Bild ist ein Ausweis mit dem Stempel: Ungültig.
Loaded (3288/4175)
Die Staatliche Kunsthalle Karlsruhe ist ein Gebäude. In dem Gebäude kann man viele Gemälde anschauen.
Loaded (3289/4175)
In der Majolika Manufaktur wird Keramik hergestellt. Sie ist in Karlsruhe .
Loaded (3290/4175)
Ein Staats·anwalt ist eine Person. Die Person arbeitet bei einem Gericht .
Loaded (3291/4175)
Ein Staatsbesuch ist ein Besuch in einem anderen Land. Ein Staats·besuch macht der Chef von einem Staat .
Loaded (3292/4175)
Eine Staats·bürgerschaft ist eine Verbindung. Eine Verbindung zwischen einer 

Loaded (3432/4175)
Tantieme ist Geld . Man bekommt es zum Arbeits·lohn dazu.
Loaded (3433/4175)
Bei einem Tanzverbot ist es verboten zu tanzen . Tanz·verbote gibt es zu manchen Zeiten oder an manchen Tagen.
Loaded (3434/4175)
Tarif ist ein arabisches Wort. Auf deutsch heißt das Wort: Preis·liste
Loaded (3435/4175)
Tarif ist ein arabisches Wort. Auf deutsch heißt das Wort: Preisliste
Loaded (3436/4175)
Eine Taschen·lampe ist eine kleine und tragbare Lampe . Sie heißt Taschen·lampe weil sie in die Tasche passt.
Loaded (3437/4175)
Eine Tastatur ist ein Gerät zum schreiben. Eine Tastatur wird benutzt: • um am Computer etwas zu schreiben • um auf einer Schreibmaschine zu schreiben
Loaded (3438/4175)
Eine Tatsache ist etwas das echt ist. Und etwas das wahr ist.
Loaded (3439/4175)
Manche Menschen sehen und hören sehr schlecht. Oder sie sehen und hören gar nichts.
Loaded (3440/4175)
Ein Tausendsassa ist eine Person die sehr viel kann.
Loaded (3441/4175)
Tausend·und·eine Nacht ist eine Geschich

Die UN-Antifolterkonvention ist eine Abmachung. Viele Länder haben diese Abmachung unterschrieben.
Loaded (3576/4175)
Eine Konvention ist eine Übereinkunft. Die UNO hat einen Vertrag gemacht.
Loaded (3577/4175)
Bei der UN-Klima·konferenz treffen sich Politiker . Die Politiker kommen aus verschiedenen Ländern.
Loaded (3578/4175)
Die UN-Klima·konferenz in Paris 2015 ist ein Treffen. Es treffen sich Vertreter von 195 Länder.
Loaded (3579/4175)
UNESCO ist der Name von einer Organisation. Auf deutsch heißt die Organisation: Organisation der Vereinten Nationen für Erziehung, Wissenschaft und Kultur.
Loaded (3580/4175)
Der US-Dollar ist eine Währung . Währung ist Geld, das man in einem Land benutzt um zu bezahlen.
Loaded (3581/4175)
Die USA sind ein Land in Nord·amerika . Auf dem Bild ist eine Welt·karte.
Loaded (3582/4175)
Ein USB-Stick ist ein kleines Speicher·gerät für den Computer . Auf dem Bild ist ein gelber USB-Stick.
Loaded (3583/4175)
Ubuntu Linux ist ein Betriebs·system . Mit Ubuntu

Vonnöten bedeutet dass etwas "nötig" ist.
Loaded (3730/4175)
Eine Vorankündigung ist eine frühe Nachricht.
Loaded (3731/4175)
Ein Vorarbeiter ist der Chef von Arbeitern. Er steht zwischen den Arbeitern und anderen Chefs.
Loaded (3732/4175)
Der Vorfall im Thalys-Zug 9364 war am 21. August 2015. Der Vorfall ist während einer Zug·fahrt passiert. Ein Mann hat im Zug auf andere Menschen geschossen.
Loaded (3733/4175)
Ein Vorkoster probiert Essen und Trinken. Das macht der Vorkoster bevor es jemand anderes macht.
Loaded (3734/4175)
Ein Vorort ist ein Ort vor einer Stadt. Es gibt Häuser und Wohnungen.
Loaded (3735/4175)
Mit Vorrats·daten·speicherung ist ein Gesetz gemeint. Das Gesetz ist für Telefon·firmen und Internet·firmen.
Loaded (3736/4175)
Ein Vorreiter ist jemand, der etwas Neues als erstes macht.
Loaded (3737/4175)
Vorschrift-Zeichen sind Verkehrs-Schilder . Alle Vorschrift-Zeichen haben eine Nummer.
Loaded (3738/4175)
Eine Vorsorge·vollmacht ist ein Schriftstück. Da steht drauf, dass

Loaded (3872/4175)
Ein Winkeladvokat ist eine Person. Diese Person arbeitet ähnlich wie ein Anwalt.
Loaded (3873/4175)
Wenn es plötzlich kalt wird. Und plötzlich Schnee fällt, nennt man das Winter-einbruch .
Loaded (3874/4175)
Wenn man im Winter dicker wird ist das der Winterspeck . Das heißt: Winterspeck ist mehr Körper-gewicht .
Loaded (3875/4175)
Bei der Winterzeit wird die Uhr 1 Stunde zurück gestellt. Das bedeutet: dass diese Nacht 1 Stunde länger ist, als die anderen Nächte.
Loaded (3876/4175)
Wirtschaft ist alles was Menschen mit Geld machen. Damit es den Menschen gut geht.
Loaded (3877/4175)
Das Wort Wirtschaft kann verschiedenen Bedeutungen haben. Zum Beispiel: • Ökonomie ist ein anderes Wort für Wirtschaft.
Loaded (3878/4175)
Beim Wirtschafts·kreislauf gibt es den Staat . Und es gibt Unternehmen .
Loaded (3879/4175)
Wissen sind Informationen. Alles was man genau kennt, ist Wissen.
Loaded (3880/4175)
Wladimir Klitschko ist ein ehemaliger Boxer. Er war mehrfacher Welt·meister i

Ein Aspirational Spender ist eine Person, die sich etwas kauft. Weil sie damit später etwas machen will.
Loaded (4016/4175)
Ein Auto·didakt ist eine Person. Sie bringt sich selbst etwas bei.
Loaded (4017/4175)
Ein Avatar ist ein Bild. Auf dem Bild sieht man eine Person.
Loaded (4018/4175)
Basale Stimulation soll den ganzen Körper anregen. Basale Stimulation ist für Menschen mit einer schweren Behinderung.
Loaded (4019/4175)
Betreuungsgeld ist Geld . Das Geld bekommt eine Familie für ihre Kinder.
Loaded (4020/4175)
Beim Bierbrauen stellt man Bier her. Bier·brauen macht man in einer Brauerei .
Loaded (4021/4175)
Binge Watching ist sehr langes Fernseh·schauen. Zum Beispiel einen ganzen Tag lang nur Fernseh schauen.
Loaded (4022/4175)
Biografie-arbeit ist ein Weg dazu: Sich selber besser kennen zu lernen. Eine Rückschau auf sein eigenes Leben dient dazu: Sich seines vergangenem Lebens bewusst zu werden.
Loaded (4023/4175)
Die Bundestagswahl 2021 ist eine Bundes·tags·wahl . Die Bundes·tags·

Termin·absage heißt: Ein Mensch sagt einen Termin ab. Bild gesucht
Loaded (4134/4175)
Erklärung in Leichter Sprache Bewerbung um einen Ausbildungsplatz als Mechatroniker
Sehr geehrter Herr Schmeckenbecher,
mein Berufswunsch ist Mechatroniker.                                                                                                            Ich möchte Mechatroniker werden, weil mich die Kombination von Mechanik und Elektronik anspricht und weil ich überzeugt bin, nach der Ausbildung eine abwechslungsreiche und spannende Tätigkeit zu finden.
Loaded (4135/4175)
Therapie·tiere sind Tiere . Therapie·tiere helfen Menschen.
Loaded (4136/4175)
Tonies ist der Name von einer Firma. Die Firma baut Tonie·boxen.
Loaded (4137/4175)
Menschen die transsexuell sind empfinden so: Sie sind mit dem falschen Geschlecht geboren. Sie gehören eigentlich dem anderen Geschlecht an.
Loaded (4138/4175)
Die Treuhandanstalt war eine Anstalt . Sie soll sich um Firmen in der DDR kümmern.
Loaded (4139/4175)
Ei

#Save scraped data

In [62]:
!zip -r corpus.zip plain_text -j
link_dataframe.to_csv('meta.csv', index=False)

updating: aids.txt (deflated 18%)
updating: totensonntag.txt (deflated 29%)
updating: david-bowie.txt (deflated 12%)
updating: idee.txt (deflated 9%)
updating: unter-einer-decke-stecken.txt (deflated 27%)
updating: imho.txt (deflated 17%)
updating: echelon.txt (deflated 15%)
updating: lobby-politik.txt (deflated 9%)
updating: striptease.txt (deflated 2%)
updating: platzverweis.txt (deflated 17%)
updating: big-mac.txt (deflated 5%)
updating: sergey-brin.txt (deflated 11%)
updating: tora.txt (deflated 11%)
updating: patio.txt (stored 0%)
updating: patzer.txt (deflated 21%)
updating: ubung-institut.txt (deflated 25%)
updating: botanischer-garten-karlsruhe.txt (deflated 16%)
updating: gesetz.txt (deflated 13%)
updating: growetterlage.txt (deflated 26%)
updating: welttag-des-schneemanns.txt (deflated 10%)
updating: leistungskurs.txt (deflated 20%)
updating: inas-fuballweltmeisterschaft-2014.txt (deflated 20%)
updating: tag-gegen-rassismus.txt (deflated 27%)
updating: 

updating: roofer.txt (deflated 14%)
updating: lesen.txt (deflated 19%)
updating: hot-swap.txt (deflated 13%)
updating: rikscha.txt (stored 0%)
updating: monarchie.txt (stored 0%)
updating: schneewittchen.txt (deflated 1%)
updating: arecibo-botschaft.txt (deflated 3%)
updating: bratwurst.txt (deflated 25%)
updating: konjunktiv.txt (deflated 29%)
updating: shitstorm.txt (stored 0%)
updating: ubungverkehrsstau.txt (deflated 8%)
updating: selbstbestimmung.txt (deflated 2%)
updating: bibliophilie.txt (deflated 13%)
updating: restaurationsbrot.txt (deflated 11%)
updating: ariana-grande.txt (deflated 2%)
updating: gated-community.txt (deflated 13%)
updating: festbeleuchtung.txt (deflated 7%)
updating: semantisch-lexikalische-storung.txt (deflated 14%)
updating: leo-tolstoi.txt (stored 0%)
updating: konigsteiner-schlussel.txt (deflated 16%)
updating: anschlag-in-stockholm-2017.txt (deflated 24%)
updating: blindganger.txt (deflated 4%)
updating: attentat.txt (deflated 9%)

updating: abendland.txt (deflated 7%)
updating: biologie.txt (deflated 13%)
updating: weltnichtrauchertag.txt (deflated 17%)
updating: ubung-new-work.txt (deflated 2%)
updating: ross-und-reiter-nennen.txt (deflated 20%)
updating: berufsgenossenschaft.txt (deflated 29%)
updating: chanukka.txt (stored 0%)
updating: csu.txt (deflated 11%)
updating: gaokao.txt (deflated 4%)
updating: audiodeskription.txt (deflated 23%)
updating: hagia-sophia.txt (deflated 9%)
updating: hochwasser.txt (deflated 20%)
updating: squash.txt (stored 0%)
updating: behindertengleichstellungsgesetz.txt (deflated 16%)
updating: dornroschen.txt (deflated 6%)
updating: elbphilharmonie.txt (deflated 5%)
updating: termin.txt (deflated 4%)
updating: naturgesetz.txt (deflated 13%)
updating: retour.txt (stored 0%)
updating: grammatische-storung.txt (deflated 16%)
updating: hefe.txt (deflated 8%)
updating: tween.txt (deflated 13%)
updating: leitartikel.txt (deflated 15%)
updating: konflikt.txt (deflat

updating: raumfahrer.txt (deflated 18%)
updating: internationale-standardbuchnummer.txt (deflated 14%)
updating: paralympics-rudern.txt (stored 0%)
updating: moonalphabet.txt (deflated 15%)
updating: ebook-reader.txt (deflated 4%)
updating: europaisches-parlament.txt (deflated 33%)
updating: ramsch.txt (deflated 14%)
updating: konzentrationslager.txt (stored 0%)
updating: staat.txt (stored 0%)
updating: transgender.txt (stored 0%)
updating: dbt.txt (deflated 8%)
updating: nurnberger-gesetze.txt (stored 0%)
updating: visegrad-gruppe.txt (deflated 21%)
updating: digital-subscriber-line.txt (deflated 27%)
updating: pompon.txt (deflated 9%)
updating: ubung-soziale-schicht.txt (deflated 13%)
updating: zweiter-arbeitsmarkt.txt (deflated 17%)
updating: holzmedien.txt (deflated 8%)
updating: deutsche-dogge.txt (deflated 9%)
updating: thora-heilige-schrift.txt (deflated 15%)
updating: abrollschuh.txt (deflated 13%)
updating: redestab.txt (deflated 21%)
updating: rentner.tx

In [63]:
import os
import csv

# Dictionary to store name-content pairs
name_content_dict = {}

# Path to the directory containing the text files
files_directory = 'plain_text/'

# Path to the CSV file containing the names
csv_file_path = 'meta.csv'

# Read names from the CSV file
with open(csv_file_path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file)
    
    next(csv_reader)
    
    # Assuming names are in the first column
    name_list = [row[0] for row in csv_reader]

# Iterate through the list of names
for name in name_list:
    # Construct the file path for each name
    file_path = os.path.join(files_directory, f'{name}.txt')

    # Check if the file exists
    if os.path.exists(file_path):
        # Read the content of the file
        with open(file_path, 'r') as file:
            content = file.read()

        # Add the name-content pair to the dictionary
        name_content_dict[name] = content
    else:
        # If the file doesn't exist, set the value to None or handle accordingly
        name_content_dict[name] = None

# Print the resulting dictionary
print(name_content_dict)

{'abba': 'ABBA ist eine schwedische Musikgruppe. Sie machen Pop·musik .', 'adac': 'ADAC ist eine Abkürzung. ADAC steht für: A llgemeiner D eutscher A utomobil- C lub e.', 'adhs': 'ADHS ist eine Abkürzung. Die Abkürzung steht für: A ufmerksamkeits d efizit- H yperaktivitäts s törung', 'afaik': 'AFAIK ist ein Ausdruck im Internet. AFAIK bedeutet soweit ich weiß .', 'afk': 'AFK ist eine englische Abkürzung. Die Abkürzung bedeutet: "Nicht an der Tastatur"', 'an-12-unfall-in-juba': 'Der AN-12 Unfall in Juba ist am 4. November 2015 gewesen. Das Flugzeug (mit dem Namen Antonow An-12) ist abgestürzt.', 'aarhus-konvention': 'Die Aarhus-Konvention ist ein Vertrag . In dem Vertrag geht es um den Umwelt·schutz .', 'aaron-fotheringham': 'Aaron Fotheringham ist ein Roll·stuhl·sportler. Er ist sehr bekannt.', 'abbruchkante': 'Eine Ab·bruch·kante ist das Ende von einem Hügel. Das heißt, an diesem Ende geht es berg·ab.', 'abendland': 'Abend·land nennt man einen Teil von der Welt. Und zwar die Länder im

In [64]:
import json

# Path to the new CSV file
output_json_path = 'dict.json'

#Write the dictionary to a new JSON file
with open(output_json_path, 'w') as json_file:
    json.dump(name_content_dict, json_file, indent=2)

print(f'The JSON file has been created at: {output_json_path}')

The JSON file has been created at: dict.json
