# 4e. Daten beschaffen

In diesem Notebook setzen wir die Datenbeschaffung fort, indem wir ein Korpus für die Text-Analyse mit NLTK erzeugen.

## Inhalte
- Wir laden die zuvor erzeugte TSV-Datei
- Wir erstellen ein Verzeichnis für das gewünschte Korpus
- Wir erstellen pro Märchentitel eine Schreibweise ohne Leer- und Sonderzeichen ("Slug") für den Dateinamen
- Wir erstellen pro Märchen eine Textdatei deren Inhalt der Volltext ist
- Wir testen, ob der nltk.PlaintextCorpusReader diese Textdateien erkennt

In [1]:
import pathlib

import pandas as pd
from nltk.corpus import PlaintextCorpusReader
from slugify import slugify

DATA_DIR = pathlib.Path().cwd().parent.joinpath("data")
PROC_DATA_DIR = DATA_DIR.joinpath("processed")
CORPUS_BASE_DIR = DATA_DIR.joinpath("corpus")

In [2]:
wanted_creator = "Brüder Grimm"
wanted_creator_slug = slugify(wanted_creator)
wanted_year = 1857

In [3]:
dir_name = f"{wanted_creator_slug}_{wanted_year}"
CORPUS_DIR = CORPUS_BASE_DIR.joinpath(dir_name)
CORPUS_DIR

PosixPath('/home/afuetterer/workspace/2021-10-28_Textarbeit-mit-Python/data/corpus/bruder-grimm_1857')

In [4]:
# create directory, if it does not exist already
CORPUS_DIR.mkdir(exist_ok=True)

In [5]:
filename = PROC_DATA_DIR.joinpath(f"fairytales_{slugify(wanted_creator)}_{wanted_year}.tsv")
fairytales = pd.read_csv(filename, sep="\t")
fairytales.head()

Unnamed: 0,url,title,creator,date,place,edition,publisher,source,text
0,https://de.wikisource.org/wiki/Allerleirauh_(1...,Allerleirauh,Brüder Grimm,1857,Göttingen,7. Auflage (Ausgabe letzter Hand),Dieterich,"Kinder- und Haus-Märchen Band 1, Große Ausgabe...","Es war einmal ein König, der hatte eine Frau m..."
1,https://de.wikisource.org/wiki/Armuth_und_Demu...,Armuth und Demuth führen zum Himmel,Brüder Grimm,1857,Göttingen,7. Auflage (Ausgabe letzter Hand),Dieterich,"Kinder- und Haus-Märchen Band 2, Große Ausgabe...","Es war einmal ein Königssohn, der gieng hinaus..."
2,https://de.wikisource.org/wiki/Aschenputtel_(1...,Aschenbuttel,Brüder Grimm,1857,Göttingen,7. Auflage (Ausgabe letzter Hand),Dieterich,"Kinder- und Haus-Märchen Band 1, Große Ausgabe...",Einem reichen Manne dem wurde seine Frau krank...
3,https://de.wikisource.org/wiki/Bruder_Lustig_(...,Bruder Lustig,Brüder Grimm,1857,Göttingen,7. Auflage (Ausgabe letzter Hand),Dieterich,"Kinder- und Haus-Märchen Band 1, Große Ausgabe...","Es war einmal ein großer Krieg, und als der Kr..."
4,https://de.wikisource.org/wiki/Br%C3%BCderchen...,Brüderchen und Schwesterchen,Brüder Grimm,1857,Göttingen,7. Auflage (Ausgabe letzter Hand),Dieterich,"Kinder- und Haus-Märchen Band 1, Große Ausgabe...",Brüderchen nahm sein Schwesterchen an der Hand...


In [6]:
fairytales["title_slug"] = fairytales["title"].apply(slugify)
fairytales[["title", "title_slug"]].head()

Unnamed: 0,title,title_slug
0,Allerleirauh,allerleirauh
1,Armuth und Demuth führen zum Himmel,armuth-und-demuth-fuhren-zum-himmel
2,Aschenbuttel,aschenbuttel
3,Bruder Lustig,bruder-lustig
4,Brüderchen und Schwesterchen,bruderchen-und-schwesterchen


In [7]:
# create a new plaintext file for each fairytale
# the name of the text file corresponds to the 'slugified' fairytale's title
# the contents of the text file is the fairytale's text

for row_id, row in fairytales.iterrows():
    title_slug = row["title_slug"]
    text = row["text"]
    filename = CORPUS_DIR.joinpath(title_slug).with_suffix(".txt")
    with open(filename, "w") as f:
        f.write(text)

In [8]:
# regex pattern for fileids \w and -
reader = PlaintextCorpusReader(str(CORPUS_DIR), "[\w+-]*\.txt")
reader.fileids()[:10]

['allerleirauh.txt',
 'armuth-und-demuth-fuhren-zum-himmel.txt',
 'aschenbuttel.txt',
 'bruder-lustig.txt',
 'bruderchen-und-schwesterchen.txt',
 'das-alte-mutterchen.txt',
 'das-blaue-licht.txt',
 'das-burle-im-himmel.txt',
 'das-burle.txt',
 'das-dietmarsische-lugenmarchen.txt']

In [9]:
reader.words()

['Es', 'war', 'einmal', 'ein', 'König', ',', 'der', ...]

In [10]:
import session_info

session_info.show()