In [68]:
import glob

raw_files = glob.glob('GermInnC/**/*.txt')

In [77]:
import os
import codecs
import magic

data = []
error = 0
for file in raw_files:
    genre, period, region, year, title = os.path.basename(file).split('_')[:5]
    with open(file, 'rb') as f:
        raw_data = f.read()
    m = magic.Magic(mime_encoding=True)
    encoding = m.from_buffer(raw_data)
    if encoding != 'unknown-8bit':
        text = raw_data.decode(encoding=encoding).encode('UTF-8').decode('UTF-8')
    else:
        error += 1
        continue
    data.append({
        'text': text,
        'title':title,
        'genre': genre,
        'period': period,
        'region': region,
        'year': year
    })
print(f'Failed to read {error} files')

Failed to read 42 files


In [78]:
print(data[1])

{'text': '\ufeffAus Dresdens Zigaretten Industrie\r\n\tDresden hat sich den Rang als Hochburg der deutschen Zigarettenindustrie niemals streitig machen lassen. Waren es vielleicht Zufälle, die vor Jahrzehnten zur Niederlassung einiger Zigarettenfabrikanten in Dresden geführt haben, so hat später die günstige geographische Lage an der Elbe und im Herzen Deutschlands dazu beigetragen, daß eine Industrie hier heimisch wurde, die für die Entwicklung der Stadt von großer Bedeutung ist. In den verschiedensten Stadtteilen liegen die Fabriken verteilt. Am konzentriertesten sind die Betriebe in Striesen, wo sich verschiedene bedeutende Zigarettenwerke befinden, unter denen am hervorstechendsten der Betrieb der Bulgaria=Zigarettenfabrik ist, deren Neubau vor kurzem seiner Bestimmung übergeben wurde. Es ist eine der modernsten Fabriken Dresdens, in der die Erfahrungen, die seit 50 Jahren in Dresden in fabrikatorischer Beziehung gesammelt sind, verwertet wurden. \r\n\tInteressant ist ein Rundgang 

In [81]:
tagged_files = glob.glob('GermInnC Tagged/**/*.txt')

In [125]:
import os

tagged_data = []
for file in tagged_files:
    genre, period, region, year, title = os.path.basename(file).split('_')[:5]
    tokens = []
    pos_tags = []
    lemmas = []
    with open(file, 'r', encoding='UTF-8') as f:
        for line in f:
            line = line.rstrip()
            try:
                token, pos_tag, lemma = line.split('\t')
            except ValueError:
                continue
            tokens.append(token)
            pos_tags.append(pos_tag)
            lemmas.append(lemma)
        
    tagged_data.append({
        'tokens': " ".join(tokens),
        'pos_tags': " ".join(pos_tags),
        'lemmas': " ".join(lemmas),
        'title': title,
        'genre': genre,
        'period': period,
        'region': region,
        'year': year
    })

In [126]:
tagged_data[0]

{'tokens': 'Lokales und Vermischtes . Der Kaiser in Breslau . Der Kaiser , der bekanntlich heute den Feierlichkeiten anläßlich der Vermählung der Gräfin Armgard zu Stolberg = Wernigerode mit dem Grafen Platen zu Hallermund in Landeshut beiwohnen wird , begibt sich gleich nach der Trauung nach Breslau , wo er heute Abend eintrifft . Der Kaiser wird sich , wie uns ein Privat = Telegramm aus Breslau meldet , sofort nach dem fürstbischhöflichen Palais begeben , um beim Kardinal Kopp das Souper einzunehmen . Die Rückreise des Kaisers nach Berlin erfolgt am Dienstag Nachmittag . – Die Kaiserin hat ihre Teilnahme an der Hochzeitsfeierlichkeit wegen leichter Unpäßlichkeit abgesagt . Gestern Vormittag wohnte der Kaiser dem Gottesdienst zu Potsdam bei und empfing um 12 ¾ Uhr den Staatsminister Budde . – Gestern Abend begab sich der Kaiser nach dem königlichen Schauspielhaus , um der Vorstellung von Blumenthals „ Mann wir altern “ und Rofstands „ Die Romantischen “ beizuwohnen . Im Schauspielhaus

In [127]:
import pandas as pd

df = pd.DataFrame.from_dict(tagged_data)
df.to_csv('tagged_dataset.csv', encoding='UTF-8')