In [1]:
import json

Daten sind als Dictionaries gespeichert und sind mit built-in package json leicht zu lesen/schreiben (oder, in diesem Fall genauer gesagt, _serialize_ und _deserialize_). Beispiel:

In [2]:
data = {'Name': 'Otto Normalverbraucher', 
        'Alter': 50, 
        'Stimmung': 'Im Weihnachtsstress'}

In [7]:
# write dict as json file
with open('file.txt', 'w') as outfile:
    json.dump(data, outfile)
    
# read json file
with open('file.txt') as json_file:
    data = json.load(json_file)

In [4]:
data['Stimmung']

'Im Weihnachtsstress'

Jeder Artikel ist in seiner eigenen Datei im Ordner `corpus` gespeichert. 
Das Dictionary-Objekt enthält folgende Felder (dictionary keys):
* 'headline' - der Titel
* 'headline_intro' - noch zusätzliche Info zum Titel
* 'date' - das Datum
* 'time' - die Uhrzeit 
* 'intro' - kurzer Text, der wahrscheinlich das Thema des Artikels in einigen Worten erläutert
* 'text' - der ganze Text des Artikels
* 'thread' - Kommentare (als list-Objekt)

In [9]:
with open('article_example_1.txt') as json_file:
    article = json.load(json_file)

In [11]:
# article date
article['date']

'Sonntag, 15.12.2019 '

In [15]:
# first 5 comments
article['thread'][:5]

[['1.Ein Klima-Gipfel der Unfähigkeit   und der peinlichen Pannen. Dieser Aufwand war echt für die Katz. Das ganze Desaster hat hoffentlich noch ein Nachspiel.'],
 ['2.Boykott Nun wird es Zeit, Produkte aus Australien, Brasilien, USA, China etc zu boykottieren. Die EU ist ein großer Markt und hat daher Macht.'],
 ['3.CO2-Bilanz Für diesen "Klima-Gipfel" wurde vermutlich mehr CO2 produziert als die Beschlüsse insgesamt an Einsparungen mit sich bringen. Das Ganze wird langsam immer lächerlicher.'],
 ['4 Keine Sorge, das Nachspiel wird kommen.Wir als Spezies haben es uns redlich verdient.'],
 ['5 Wie wäre denn ein entsprechend angepasster Konsum? Produkte vermeiden, die aus ignoranten Ländern wie China, Indien und den USA kommen (ausser, sie sind gezielt besonders nachhaltig produziert). Also z. B. kein Huawei Handy, sondern ein Sony oder Samsung. Die Liste kann man auf viele alltäglichen Entscheidungen ausdehnen. Politisch muss man sich die Frage stellen, ob man mit diesen Staaten die Wi

In [16]:
# headline
article['headline']

'Das Desaster von Madrid'

Es kommt vor, dass nicht alle Eigenschaften, die das Dictionary-Objekt beinhaltet, auch tatsächlich für den Artikel verfügbar sind - z.B., Kommentare können fehlen. In diesem Fall wird als `value` für den entsprechenden `key` None oder NaN gespeichert (kommt leider beides vor, weil nicht ganz sauber geschrieben - deal with it... NaN können allerdings nur in `headline`, `headline_intro`, `intro` auftauchen).

Ein Beispiel vom Artikel mit fehlender Diskussion:

In [17]:
with open('article_example_2.txt') as json_file:
    article_no_thread = json.load(json_file)

In [23]:
article_no_thread['thread'] == None

True

Einige Links führen offenbar zu Seiten, die eine andere Struktur (html) haben als die, an die ich Funktionen angepasst habe. In diesem Fall werden logischerweise keine Attribute gefunden und das sieht so aus:

In [24]:
with open('article_example_3.txt') as json_file:
    article_empty = json.load(json_file)

In [25]:
article_empty

{'headline': nan,
 'headline_intro': nan,
 'date': None,
 'time': None,
 'intro': nan,
 'text': None,
 'thread': None}

Solche Dateien sollten natürlich einfach ignoriert werden.