# ZBIW-Zertifikatskurs "Data Librarian"
# Modul 2.1: Strukturierte Daten und Metadaten – Pandas Tutorial
Pandas ist ein flexibles und einfach zu bedienendes Open-Source Werkzeug zur Datenanalyse und -manipulation, das auf der Programmiersprache Python aufbaut.
Es vereinfacht das Arbeiten mit tabellarischen Daten, vor allem durch Methoden zum Import und Export einer Reihe von Dateiformaten, Übersichtlichkeit und integrierte Funktionalitäten zur Datenvisualisierung.

## Import von Pandas

In [41]:
# Pandas wird meist unter dem alias "pd" importiert
import pandas as pd

In [42]:
# Wenn pandas nicht installiert ist, kann es mit pip bzw. conda installiert werden
!pip install pandas

# Abhängig vom verwendeten Betriebssystem muss pip3 spezifiziert oder eine andere Formulierung genutz werden. 
# Mehr Informationen zur Installation unter https://pandas.pydata.org/docs/getting_started/install.html. 



## Dateiformate in Pandas – Series und DataFrame Objekte
Pandas verfügt über zwei grundlegende Objekttypen. Das erste ist das Series Objekt, das im Grunde wie eine Liste (Eselsbrücke: "Eine Serie von Einträgen") mit Indices funktioniert. Ein DataFrame aggregiert eine beliebige Anzahl von Series Objekten zu einer tabellarischen Struktur. Die Series Objekte stellen dabei die Spalten der Tabelle da.

### Series Objekte

In [43]:
list_of_strings = ["Value 1", "Value 2", "Value 3", "Value 4"]
list_of_integers = [1, 3, 6, 7]

In [44]:
series_of_strings = pd.Series(list_of_strings)

In [45]:
print(series_of_strings)

0    Value 1
1    Value 2
2    Value 3
3    Value 4
dtype: object


Ein Series Objekt kann, im Gegensatz zu einer einfachen Liste, auch labels haben:

In [46]:
labeled_series = pd.Series(list_of_integers, index = list_of_strings)

In [47]:
print(labeled_series)

Value 1    1
Value 2    3
Value 3    6
Value 4    7
dtype: int64


Entsprechend kann auch über ein dictionary ein Series Objekt erzeugt werden:

In [48]:
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250, "Tag 4": 270}

series_verkäufe = pd.Series(verkaeufe)

print(series_verkäufe)

Tag 1    120
Tag 2    330
Tag 3    250
Tag 4    270
dtype: int64


In [49]:
# Zugriff auf Values über index Name
series_verkäufe["Tag 2"]

330

In [50]:
# Zugriff auf Values über index Position
series_verkäufe[1]

330

In [51]:
# Unterschied zu Dictionary: Ordered List
verkaeufe[1]

KeyError: 1

Auf die Werte eines Series Objektes kann auf verschiedene Weisen zugegriffen werden:

In [52]:
# die "to_list()" Funktion liefert die Elemente eines Series Objektes als Liste:
series_verkäufe.to_list()

[120, 330, 250, 270]

In [53]:
# Series Objekte sind iterierbar
for value in series_verkäufe:
    print(value)

120
330
250
270


### DataFrame Objekte 

#### Erstellung aus Listen

In [54]:
data1 = {
  "list1": [420, 380, 390],
  "list2": [50, 40, 45]
}

df_1 = pd.DataFrame(data1)


df_1

Unnamed: 0,list1,list2
0,420,50
1,380,40
2,390,45


Listen müssen die selbe Länge haben! (Arrays sind eine besondere Form von Listen, die das NumPy Modul nutzt, das von Pandas genutzt wird)

In [55]:
data2 = {
  "list1": [420, 380, 390],
  "list2": [50, 40, 45],
  "list3": [1, 2, 3, 4, 5 , 6, 7]
}

df_2 = pd.DataFrame(data2)


df_2

ValueError: All arrays must be of the same length

#### Erstellung aus Dictionaries

Listen müssen von selber länge sein, Einzelwerte werden für alle Einträge des Dictionaries eingetragen.

In [56]:
data_dict = {
 "date" : "31.01.2022",
 "time" : ["08:22", "08:55", "09:21", "10:40", "11:30"],
 "value" : [12, 23, 3, 12, 3]    
}

df_3 = pd.DataFrame(data_dict)

In [57]:
df_3

Unnamed: 0,date,time,value
0,31.01.2022,08:22,12
1,31.01.2022,08:55,23
2,31.01.2022,09:21,3
3,31.01.2022,10:40,12
4,31.01.2022,11:30,3


DataFrames können auch aus mehreren Dictionaries erstellt werden. Dann ist es auch möglich, Dictionaries unterschiedlicher Längen zusammenzuführen.

In [58]:
merlin = {"Name": "Merlin", "Tierart": "Katze", "Alter" : 3, "Farbe": "schwarz"}
otto = {"Name": "Otto", "Tierart": "Hund", "Alter" : 5, "Farbe": "braun"}
renate = {"Name": "Renate", "Tierart": "Fisch", "Alter" : 2, "Farbe": "rot"}

In [59]:
df_tiere = pd.DataFrame([merlin, otto, renate])

In [60]:
df_tiere

Unnamed: 0,Name,Tierart,Alter,Farbe
0,Merlin,Katze,3,schwarz
1,Otto,Hund,5,braun
2,Renate,Fisch,2,rot


In [61]:
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250, "Tag 4": 270}
einnahmen = {"Tag 1": 450, "Tag 2": 1210, "Tag 3": 760, "Tag 4": 950, "Tag 5": 350}

# erstellen aus Liste von dictionaries:
df_4 = pd.DataFrame([verkaeufe, einnahmen], index = ["verkäufe", "einnahmen"])

In [62]:
df_4

Unnamed: 0,Tag 1,Tag 2,Tag 3,Tag 4,Tag 5
verkäufe,120,330,250,270,
einnahmen,450,1210,760,950,350.0


Das DataFrame wird mit "NaN", not a number aufgefüllt. Dieser wert ist ein float, also eine Kommazahl.

In [63]:
# mit ".T" kann ein Dataframe transponiert werden, wir tauschen also Zeilen und Spalten
df_4_transposed = df_4.T

In [64]:
df_4_transposed

Unnamed: 0,verkäufe,einnahmen
Tag 1,120.0,450.0
Tag 2,330.0,1210.0
Tag 3,250.0,760.0
Tag 4,270.0,950.0
Tag 5,,350.0


Über .info() und .describe() lassen sich einfach Informationen über DataFrames abrufen:

In [65]:
df_4_transposed.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Tag 1 to Tag 5
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   verkäufe   4 non-null      float64
 1   einnahmen  5 non-null      float64
dtypes: float64(2)
memory usage: 292.0+ bytes


In [66]:
df_4_transposed.describe()

Unnamed: 0,verkäufe,einnahmen
count,4.0,5.0
mean,242.5,744.0
std,88.45903,354.090384
min,120.0,350.0
25%,217.5,450.0
50%,260.0,760.0
75%,285.0,950.0
max,330.0,1210.0


### Wie DataFrames und Series Objekte zusammenhängen
Wie schon erwähnt, sind Dataframes "zusammengefügte" Series Objekte. Auf diese kann über den Namen der Spalte zugegriffen werden.

In [67]:
df_4_transposed.verkäufe

Tag 1    120.0
Tag 2    330.0
Tag 3    250.0
Tag 4    270.0
Tag 5      NaN
Name: verkäufe, dtype: float64

In [68]:
df_4_transposed["verkäufe"]

Tag 1    120.0
Tag 2    330.0
Tag 3    250.0
Tag 4    270.0
Tag 5      NaN
Name: verkäufe, dtype: float64

Die Spalten sind Series Objekte:

In [69]:
type(df_4_transposed.verkäufe)

pandas.core.series.Series

In [70]:
type(df_4_transposed["verkäufe"])

pandas.core.series.Series

#### Zugriff auf Spalten- und Zeilennamen (Indices) eines Dataframes

In [71]:
# Zugriff auf die Namen aller Spalten:
df_4_transposed.columns

Index(['verkäufe', 'einnahmen'], dtype='object')

In [72]:
# auch hier lässt sich "to_list()" verwenden: 
df_4_transposed.columns.to_list()

['verkäufe', 'einnahmen']

In [73]:
# Ähnlich lassen sich die Indices abrufen:
df_4_transposed.index

Index(['Tag 1', 'Tag 2', 'Tag 3', 'Tag 4', 'Tag 5'], dtype='object')

In [74]:
df_4_transposed.index.to_list()

['Tag 1', 'Tag 2', 'Tag 3', 'Tag 4', 'Tag 5']

## Einlesen von Dateien mit "read"
Pandas stellt eine Reihe von Methoden zur Verfügung, mit denen ohne Probleme eine Vielzahl verschiedener Datentypen eingelesen werden können. 

### CSV einlesen

In [75]:
df = pd.read_csv("data/nyt_bestsellers.csv")

In [76]:
df[:10]

Unnamed: 0,1,I Love Dad with The Very Hungry Caterpillar,children
0,2,The Wonderful Things You Will Be,children
1,3,Dr. Seuss's I Love Pop!: A Celebration of Dads,children
2,4,Dragons Love Tacos,children
3,5,How to Babysit a Grandpa,children
4,6,I Wish You More,children
5,7,Grumpy Monkey,children
6,8,The Day the Crayons Quit,children
7,9,"Dear Girl,",children
8,10,"Rosie Revere, Engineer (Questioneers Collectio...",children
9,11,Brawl of the Wild (Dog Man Series #6),children


#### Spaltennamen und Indexspalte
In der [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) ist nachlesbar, welche Optionen es beim Einlesen gibt.

In [77]:
# names und index_col nutzen
df = pd.read_csv("data/nyt_bestsellers.csv", names = ["index_number", "title", "category"], index_col=0)
df

Unnamed: 0_level_0,title,category
index_number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,I Love Dad with The Very Hungry Caterpillar,children
2,The Wonderful Things You Will Be,children
3,Dr. Seuss's I Love Pop!: A Celebration of Dads,children
4,Dragons Love Tacos,children
5,How to Babysit a Grandpa,children
...,...,...
96,Everything Is F*cked: A Book about Hope,misc
97,"Girl, Stop Apologizing: A Shame-Free Plan for ...",misc
98,You Are a Badass: How to Stop Doubting Your Gr...,misc
99,Dare to Lead: Brave Work. Tough Conversations....,misc


In [78]:
!head -1 data/search_Bibliothek.csv

BibliographyType,ISBN,Identifier,Author,Title,Journal,Volume,Number,Month,Pages,Year,Address,Note,URL,Booktitle,Chapter,Edition,Series,Editor,Publisher,ReportType,Howpublished,Institution,Organizations,School,Annote,Custom1,Custom2,Custom3,Custom4,Custom5


Vorsicht mit Separatoren: Pandas ist oft, vor allem wenn Kommata als Trennzeichen genutzt werden, nicht in der Lage, CSV Dateien korrekt einzulesen:

In [79]:
path = 'data/search_Bibliothek.csv'
df = pd.read_csv(path)

ParserError: Error tokenizing data. C error: Expected 31 fields in line 21, saw 34


In Zeile 21 sind im Text Kommata enthalten, was zu einer falschen Anzal erkannter Spalten führt.

In [80]:
!head -20 data/search_Bibliothek.csv | tail +20

7,"","ernst_unwahrscheinlichkeit_2018","Ernst, Wolfgang","Die Unwahrscheinlichkeit von Wissenstradition und die Beharrlichkeit der Bibliothek","Bibliothek Forschung und Praxis",42,2,"","379--386",2018,"","","https://www.degruyter.com/view/j/bfup.2018.42.issue-2/bfp-2018-0038/bfp-2018-0038.xml","","","","","","","","","","","","","Mit dem Wandel der Leitmedien von der Buchform zur Zeitform ändert sich der Auftrag der Bibliothek oder lässt diesen zumindest deutlicher erscheinen: Sie hat ihre Rolle im kybernetischen Denken der Wissenszirkulation zu aktualisieren als Zeitkanal zwischen materieller Entropie und ordnungsbewahrender Negentropie. Zwar ist der Hypertext eine aktuelle Alternative zum raumbezogenen Gedächtnis und eröffnet neue Optionen der Wissensnavigation, doch angesichts der Zerstreuung in Netzarchitekturen bedarf es der Bibliothek, um dem Verlust der Nachhaltigkeit von Online-Wissen katechontisch (verzögernd) entgegenzuwirken.","","bibliotheken","",""


In [81]:
# Kommas als Seperatoren schwierig wenn Zellen Kommas enthalten
!head -20 data/search_Bibliothek.csv | tail +20 | tr -cd ',' | wc -c

33


Es gibt zwar Möglichkeiten, das Problem zu umgehen (z.B. über die Verwendung von "quotechar"), jedoch bietet es sich an, auf hierarchische Dateiformate wie JSON zurückzugreifen, wenn diese Verfügbar sind.

### JSON einlesen

In [82]:
# Einlesen einer JSON datei:
df_nyt = pd.read_json("data/nyt_bestseller.json")

In [83]:
df_nyt

Unnamed: 0,_id,bestsellers_date,published_date,amazon_product_url,author,description,price,publisher,title,rank,rank_last_week,weeks_on_list
0,{'$oid': '5b4aa4ead3089013507db18b'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Odd-Hours-Dean-Koontz/dp...,Dean R Koontz,"Odd Thomas, who can communicate with the dead,...",{'$numberInt': '27'},Bantam,ODD HOURS,{'$numberInt': '1'},{'$numberInt': '0'},{'$numberInt': '1'}
1,{'$oid': '5b4aa4ead3089013507db18c'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,{'$numberDouble': '25.99'},"Little, Brown",THE HOST,{'$numberInt': '2'},{'$numberInt': '1'},{'$numberInt': '3'}
2,{'$oid': '5b4aa4ead3089013507db18d'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,{'$numberDouble': '24.95'},St. Martin's,LOVE THE ONE YOU'RE WITH,{'$numberInt': '3'},{'$numberInt': '2'},{'$numberInt': '2'}
3,{'$oid': '5b4aa4ead3089013507db18e'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,{'$numberDouble': '22.95'},Putnam,THE FRONT,{'$numberInt': '4'},{'$numberInt': '0'},{'$numberInt': '1'}
4,{'$oid': '5b4aa4ead3089013507db18f'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,{'$numberDouble': '24.95'},Doubleday,SNUFF,{'$numberInt': '5'},{'$numberInt': '0'},{'$numberInt': '1'}
...,...,...,...,...,...,...,...,...,...,...,...,...
95,{'$oid': '5b4aa4ead3089013507db1ea'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Blood-Anita-Blake-Vampir...,Laurell K Hamilton,The vampire hunter Anita Blake is involved in ...,{'$numberDouble': '25.95'},Berkley,BLOOD NOIR,{'$numberInt': '16'},{'$numberInt': '12'},{'$numberInt': '4'}
96,{'$oid': '5b4aa4ead3089013507db1eb'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,{'$numberInt': '0'},Doubleday,SNUFF,{'$numberInt': '17'},{'$numberInt': '0'},{'$numberInt': '0'}
97,{'$oid': '5b4aa4ead3089013507db1ec'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Death-Honor-Bound-Book/d...,W E B Griffin and William E Butterworth IV,A Marine pilot spies in Argentina in 1943; th...,{'$numberInt': '0'},Putnam,DEATH AND HONOR,{'$numberInt': '18'},{'$numberInt': '0'},{'$numberInt': '0'}
98,{'$oid': '5b4aa4ead3089013507db1ed'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/The-Spies-Warsaw-A-Novel...,Alan Furst,Intrigue in Poland just before World War II.,{'$numberInt': '0'},Random House,THE SPIES OF WARSAW,{'$numberInt': '19'},{'$numberInt': '0'},{'$numberInt': '0'}


In [None]:
df_nyt.info()

Wir können noch keine Aussage über Datentypen treffen.

In [None]:
df_nyt.bestsellers_date[3]

In [None]:
type(df_nyt.bestsellers_date[3])

#### Bibliografische Informationen von Bibsonomy 
Als nächstes betrachten wir einen typischen Fall für den Import von bibliografischen Informationen. Wir lesen das Ergebnis einer Literatursuche bei Bibsonomy über das requests Modul ein.

In [None]:
# einlesen von Daten aus Bibsonomy
import requests
url = "https://www.bibsonomy.org/json/search/Bibliothek?items=1000"
result = requests.get(url) # result ist ein requests.models.Response Objekt
data = result.json() # das Response-Objekt bietet diese nützliche Methode an

Wie zuvor haben wir hier ein Dictionary, das drei Listen von Dictionaries enthält. Wir interessieren uns für den Wert des Keys "items", der die Suchergebnisse enthält:

In [None]:
data.keys()

In [None]:
type(data["items"])

In [None]:
# Hier zum Beispiel der 6. Eintrag: 
data["items"][5]

Da es sich hier um eine Liste von Dictionaries handelt, können wir diese ganz einfach direkt mit Pandas als DataFrame einlesen.

In [None]:
df_bibsonomy = pd.DataFrame(data["items"])

In [None]:
df_bibsonomy

### Andere Dateiformate

Beispielsweise mit read_excel() und read_xml() lassen sich noch andere Dateiformate als DataFrame lesen. Eine vollständige Übersicht findet sich [hier](https://pandas.pydata.org/docs/reference/io.html).

## Daten mit Pandas Auswählen und Bereinigen
Im folgenden betrachten wir einige Möglichkeiten, Daten Auszuwählen und zu Filtern.

### Spalten auswählen

In [None]:
# Wir betrachten die Spaltennamen:
df_bibsonomy.columns

In [None]:
# Die Spalte "author" enthält anscheinend in vielen Zeilen keine Angabe:
df_bibsonomy.author

In [None]:
# Ebenso die Spalte "year":
df_bibsonomy.year

In [None]:
# Die Spalte Label enthält die Titel der Veröffentlichungen:
df_bibsonomy.label

Über das Format  
```
DataFrame[["v1", "v2", "v3", "v4"]]
```
Lässt sich eine Ansicht, also eine art Kopie des DataFrames ausgeben, das nur die angegebenen Spalten enthält.

In [None]:
df_bibsonomy[["label", "author", "year", "type"]]

Dabei wird aber NICHT das ursprüngliche DataFrame überschrieben:

In [None]:
df_bibsonomy

Im folgenden überschreiben wir df_bibsonomy_selection mit der erzeugten Ansicht: 

In [None]:
df_bibsonomy_selection = df_bibsonomy[["label", "author", "year", "type"]]

In [None]:
df_bibsonomy_selection

### Daten Filtern

Unser DataFrame enthält noch viele Zeilen, die wir herausfiltern möchten. .loc (locate) hilft, das DataFrame nach Kriterien zu Filtern.

In [None]:
# Daten auswählen, wo in Spalte "author" ein Wert eingetragen ist
df_bibsonomy_selection = df_bibsonomy_selection.loc[df_bibsonomy_selection["author"].isnull() == False]

In [None]:
df_bibsonomy_selection

In [None]:
# Daten auswählen, wo in Spalte "type" der Wert "Publication" ist
df_bibsonomy_selection.loc[df_bibsonomy_selection.type == "Publication"]

Über ".drop_duplicates" lassen sich doppelte Einträge entfernen. [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

```
keep = "first"
```
lässt uns jeweils die erste Zeile der Zeilen, die mehrfach vorkommen behalten.

In [None]:
# Entfernen von allen Duplikaten in der Spalte "label". 
df_bibsonomy_selection = df_bibsonomy_selection.drop_duplicates(subset = "label", keep = "first")

In [None]:
df_bibsonomy_selection

### Daten säubern

Im Folgenden sehen wir ein Beispiel dafür, wie wir mit Problemen umgehen können, die auf unsaubere Daten zurückzuführen sind: 

In [None]:
# Filtern nach einem bestimmten Wert in der Spalte "year"
df_bibsonomy_selection.loc[df_bibsonomy_selection["year"] > 2010]

Problem: Der Datentyp ist nicht wie erwartet numerisch, sonder hier hier: String!

In [None]:
# .unique() gibt alle paarweise verschiedenen Werte (alle Werte) eines Series Objektes aus
df_bibsonomy_selection["year"].unique()

Wir sehen, dass hier nicht nur Zahlen als String enthalten sind, sondern mit z.B. '1997 (EA 1655)' oder 'March 2010' auch ganze Strings enthalten sind.

Über .apply kann eine Funktion auf jeden Wert einer Spalte angewendet werden. "axis=1" beschreibt, dass Zeilenweise vorgegangen werden soll und "lambda row:", dass row hier jede iteration, in diesem Fall jede Zeile beschreibt.

Wir schreiben eine neue Spalte "year_correct", in der über row.year.isdigit() überprüft wird, ob es der eintrag in "year" Zahl ist bzw. in eine Ganzzahl umgewandelt werden kann.

In [None]:
df_bibsonomy_selection["year_correct"] = df_bibsonomy_selection.apply(lambda row: row.year.isdigit(), axis=1)

Die Warnung kann an dieser stelle ignoriert werden.

über "axis=1" sagen wir hier, dass wir über Zeilen gehen müchten und mit "lambda row:" sagen wir, dass wir diese als "row" bezeichnen.

Jetzt schmeißen wir alle Zeilen aus dem Datensatz, deren "year" Eintrag keine Zahl ist:

In [None]:
df_bibsonomy_selection.loc[df_bibsonomy_selection.year_correct == False]

In [None]:
df_bibsonomy_selection = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_correct == True]

In [None]:
df_bibsonomy_selection

Wir können jetzt auch die Zahl in in der Spalte "year" über "astype" in einen Integer, einen Ganzzahlenwertt umwandel und in "year_number" speichern.

In [None]:
df_bibsonomy_selection["year_number"] = df_bibsonomy_selection["year"].astype(int)

In [None]:
# die Neue Spalte besteht aus Integer Werten
df_bibsonomy_selection.info()

Jetzt können wir nach Publikationen Filtern, die nach 2010 erschienen sind:

In [None]:
df_bibsonomy_selection_recent = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_number >=2010]

In [None]:
df_bibsonomy_selection_recent

BONUS:

Einfache Möglichkeit, alle Zeilen mit NaN Einträgen zu löschen:

In [None]:
df_bibsonomy_selection_no_nan = df_bibsonomy_selection.dropna()

In [None]:
df_bibsonomy_selection_no_nan

### Daten Verändern und Hinzufügen
Neben der gerade kennengelernten Methode zum schreiben einer Spalte gibt es noch andere Möglichkeiten, wie Daten in ein DataFrame geschrieben werden können.

In [None]:
# Spalten umbenennen 
df_bibsonomy_selection = df_bibsonomy_selection.rename(columns={"label": "title", "author": "authors"})
df_bibsonomy_selection

In [None]:
# Schreiben einen Wertes in alle Zeilen einer Spalte
df_bibsonomy_selection["collected_by"] = "Fabian"
df_bibsonomy_selection

In [None]:
# Spalten löschen
df_bibsonomy_selection = df_bibsonomy_selection.drop(columns=['year'])
df_bibsonomy_selection

Wir ermitteln mit apply, wie viele Autoren in "authors" eingetragen sind:

In [None]:
# Benutzen von .apply() um eine Funktion auf Teile der Daten anzuwenden (und hier, um das Ergebnis in einer neuen Spalte einzutragen)
df_bibsonomy_selection["number_authors"] = df_bibsonomy_selection.apply( lambda row: len(row.authors), axis=1)
df_bibsonomy_selection

### Daten Analysieren

In [None]:
# groupby() nutzen, um Zeilen zu gruppieren und Methoden darauf anzuwenden
# count zählt Anzahl der Zeilen pro gruppe
df_bibsonomy_selection_recent.groupby("year_number").count().label

der Wert "19971998" wurde in eine Zahl umgewandelt, ist hier aber sicher falsch. Wir möchten diesen Eintrag jetzt entfernen. 

TIPP:
Man könnte in etwa so vorgehen, wie wir nach Veröffentlichungen nach 2010 gefiltert haben:
```
df_bibsonomy_selection_recent = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_number >=2010]
```

### Daten Zusammenführen
Wir können mit Pandas auch relativ leicht mehrere Datensätze zusammenführen.

In [None]:
import json
# (Bibsonomy) JSON Daten einlesen
data1 = json.load(open("data/search_Cologne.json"))
data2 = json.load(open("data/search_Media_Bias.json"))

In [None]:
# Unsere Daten liegen wieder in "items"
data1.keys()

In [None]:
# Erstellen der DataFrames aus den Listen der Dictionaries, die die Dateneinträge der Bibsonomy Suche darstellen
df_search1 = pd.DataFrame(data1["items"])
df_search2 = pd.DataFrame(data2["items"])

In [None]:
df_search1

In [None]:
df_search2

Es gibt zwar verschienene Möglichkeiten, DataFrames zusammenzuführen, in diesem Fall funktioniert .concat am besten, das eine Liste von Dictionaries als Argument nimmt:

In [None]:
# Mit .concat(Liste von DataFrames) lassen sich DataFrames miteinander kombinieren. 
df_both = pd.concat([df_search1, df_search2])

Das entstandene DataFrame hat alle Zeilen der beiden DataFrames:

In [None]:
df_both

BONUS INFO: Der resultierende DataFrame hat mehr Spalten als die beiden DataFrames, die wir verbunden haben, weil es exklusive Spalten gibt, die nur in jeweils einem der beiden DataFrames erscheinen. Wir können das mit List Comprehension überprüfen:

In [None]:
# Spalten, die in beiden DataFrames sind:
[a for a in df_search1.columns.to_list() if a in df_search2.columns.to_list()]

In [None]:
# Spalten, die nur im ersten DataFrame sind:
[a for a in df_search1.columns.to_list() if a not in df_search2.columns.to_list()]

In [None]:
# Spalten, die nur im zweiten DataFrame sind:
[a for a in df_search2.columns.to_list() if a not in df_search1.columns.to_list()]

## Daten Exportieren
es gibt eine Reihe von Möglichkeiten, Daten mit Pandas zu exportieren. Im folgenden zeigen wir, wie wir unseren Datensatz als CSV und JSON Datei exportieren können.

### Export als CSV
Zum Exportieren der Daten als als CSV Datei kann die .to_csv() Methode verwendet werden. Es muss ein Name für die Ausgabedatei angegeben werden. Um Probleme mit den Kommata beim Einlesen zu vermeiden, kann über sep= ein anderer Seperator angegeben werden, der nicht oder weniger Wahrscheinlich in den Daten vorkommt (oft bietet sich hier ein Semikolon oder ein anderes, noch seltener genutzes Sonderzeichen an). Pandas nutzt aber in der Regel alle Möglichkeiten, die Seperatoren in Daten zu "Escapen", sodass diese beim Einlesen nicht als Seperatoren Genutzt werden.

In [None]:
df_bibsonomy_selection.to_csv("data/output.csv", sep=";")

In [None]:
pd.read_csv("data/output.csv", sep=";")

In [None]:
df_bibsonomy_selection.to_csv("data/output.csv")

In [None]:
pd.read_csv("data/output.csv")

### Export als JSON
Zum Exportieren der Daten als als JSON file kann die .to_json() Methode verwendet werden. Es muss ein Name für die Ausgabedatei angegeben werden. Zusätzlich kann es sein, dass mit orient="records" eine eintragsorientierte ausgabe spezifiziert werden muss.   

In [None]:
df_bibsonomy_selection.to_json("data/output.json", orient="records")

In [None]:
# check, if it look correct
with open("data/output.json", "r") as f:
    j_load = json.load(f)
    print(json.dumps(j_load, indent=2))

### Weitere Dateiformate
Pandas ist in der Lage, noch eine Vielzahl anderer Dateiformate zu erzeugen (und einzulesen). Dazu gehören: [Excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html#pandas.DataFrame.to_excel), [XML](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_xml.html) und viele weitere. Eine vollständige Übersicht findet sich [hier](https://pandas.pydata.org/docs/reference/io.html).

## Ressourcen zu Pandas
- [offizieller User Guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
- [offizielle API](https://pandas.pydata.org/docs/reference/index.html#api) mit detaillierten Informationen zu allen Mothoden
- [W3 Schools Pandas Tutorial](https://www.w3schools.com/python/pandas/default.asp) mit vielen Übungen und Quizes, sowie detaillierten Erläuterungen und Beispielen
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) – eine kompakte Übersicht vieler oft genutzter Funktionen
