# Komplexe Datenformate & große Datensätze

Man kann sich leicht vorstellen, dass man in der »echten Welt« mit unserem Datenmodell für einen bibliographischen Zettelkasten nicht sehr weit kommt. Ein Bibliotheksdatensatz würde viel mehr Informationen, also Datenfelder, enthalten und der Zettelkasten würde schnell etliche Tausend Karten enthalten. Würde man diese Daten weiterhin in Pythons grundlegenden Datenformaten speichern, wäre das sehr unübersichtlich und man müsste viele Funktionen für den Umgang mit den Daten manuell programmieren.

Für Python gibt es ein Werkzeug, das genau auf diese Aufgaben spezialisiert ist, und das uns viel unangenehme Arbeit abnehmen kann.

Das Werkzeug heißt __Pandas__ 🐼 und ist eine Python-Bibliothek.

Pandas ist Teil von Anaconda und kann deshalb meistens sofort genutzt werden. (Wenn es doch nicht installiert sein sollte, gibt es auf der [Pandas-Homepage](https://pandas.pydata.org/pandas-docs/stable/index.html) eine Anleitung zur Installation.)

Zunächst müssen wir Python sagen, dass wir pandas in diesem Skript bzw. diesem Notebook verwenden wollen.

In [1]:
import pandas as pd


Der Zusatz `as pd` bedeutet, dass wir Pandas jetzt über das Kürzel `pd` aufrufen können, statt es jedes Mal ausschreiben zu müssen. Man kann hier auch jedes andere Kürzel verwenden. Es hat sich allerdings unter den Pandas-Anwender\*innen eingebürgert, `pd` zu verwenden. So wird man es in Hilfeforen oder Tutorials im Internet auch meistens lesen. Wir werden uns hier an diese Konvention halten.

Wir wollen unseren Zettelkasten aus dem letzten Notebook noch einmal verwenden und ihn in Pandas importieren. Dazu legen wir ihn noch einmal neu an, denn wir können in diesem Notebook nicht auf die Daten aus einem anderen Notebook zugreifen.

In [3]:
zettel1 = {"autor": "Guido van Rossum", "titel": "De Serpenti Libri", "jahr": 1455}
zettel2 = {"autor": "Monty Python", "titel": "Flying Circus", "jahr": 1969}
zettel3 = {"autor": "Umberto Eco", "titel": "Il nome della rosa", "jahr": 1982}
zettel4 = {"autor": "Goethe", "titel": "Wahlverwandtschaften", "jahr": 1809}
           
kasten = [zettel1, zettel2, zettel3, zettel4]
kasten

[{'autor': 'Guido van Rossum', 'titel': 'De Serpenti Libri', 'jahr': 1455},
 {'autor': 'Monty Python', 'titel': 'Flying Circus', 'jahr': 1969},
 {'autor': 'Umberto Eco', 'titel': 'Il nome della rosa', 'jahr': 1982},
 {'autor': 'Goethe', 'titel': 'Wahlverwandtschaften', 'jahr': 1809}]

Pandas ist sehr gut darin, alle möglichen Datenformate, die man ihm gibt, zu analysieren und korrekt zu importieren. Wir können also versuchen, unseren Kasten direkt an Pandas zu übergeben.

In [6]:
df = pd.DataFrame(kasten)
df

Unnamed: 0,autor,titel,jahr
0,Guido van Rossum,De Serpenti Libri,1455
1,Monty Python,Flying Circus,1969
2,Umberto Eco,Il nome della rosa,1982
3,Goethe,Wahlverwandtschaften,1809


Das Datenobjekte in Pandas nennt man __Dataframe__. Deshalb hat sich als Variablenname `df` etabliert. Man kann ein Dataframe aber beliebig anders nennen. So ist aber auf den ersten Blick klar: das hier ist ein Dataframe.

Dataframes kann man sich wie __Tabellen__ einer Tabellenkalkulation vorstellen. Sie haben vertikale __Spalten__ mit einem Namen und horizontale __Zeilen__ mit einem Index. Wenn man in einem Jupyter Notebook ein Dataframe aufruft, indem man einfach seinen Namen eingibt, werden die Daten sehr übersichtlich formatiert und man kann sich einen guten Überblick über sie verschaffen.

Wir wollen nun einen größeren und etwas komplexeren Datensatz importieren, um zu sehen, wie nützlich Pandas für solche Daten ist.

In [2]:
df = pd.read_csv('dbsm-inkunabeln.csv')
df

Unnamed: 0,autor,jahr,ort,titel,umfang
0,Antonin,1487,Speyer,Summa theologica P. 1-4,P. 1: 274 Bl. - P. 2: 358 Bl. - P. 3: 490 Bl. ...
1,,1486-1487,Nürnberg,"Biblia, lat.",P. 1: 468. - P. 2: 370. - P. 3: 348. - P. 4: 3...
2,Johannes,21.08.1486,Nürnberg,Catholicon,328 Bl.
3,"Bolognino, Lodovico",10.01.1486,Bologna,Collectio florum Decretorum,152 Bll.
4,"Ptolemaeus, Claudius",21.07.1486,Ulm,Cosmographia,"140 Bl., 32 Kt. (je 1 Doppelbl.)"
...,...,...,...,...,...
1041,,[ca. 1490],Erfurt,Modus veniendi ad amorem b. Mariae virginis,1 Bl.
1042,"Lactantius, Lucius Caecilius Firmianus",21.04.1490,Venedig,Opera,148 Bl.
1043,Aristoteles,1490,[Leipzig],Parva naturalia,34 Bl.
1044,Albertus,1490,Brescia,Philosophia pauperum sive Isagoge in libros Ar...,54 Bl.


Wir haben Daten zu etwas mehr als 1.000 Inkunabeln aus dem Deutschen Buch- und Schriftmuseums der Deutschen Nationalbibliothek in Leipzig aus der Datei `dbsm-inkunabeln.csv` geladen. Pandas kann aber z.B. auch Excel-Tabellen, SQL-Datenbanken oder JSON lesen. Mehr Informationen dazu gibt es [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).