# ZBIW-Zertifikatskurs "Data Librarian"
# Modul 2.1: Strukturierte Daten und Metadaten – Pandas Tutorial
Pandas ist ein flexibles und einfach zu bedienendes Open-Source Werkzeug zur Datenanalyse und -manipulation, das auf der Programmiersprache Python aufbaut.
Es vereinfacht das Arbeiten mit tabellarischen Daten, vor allem durch Methoden zum Import und Export einer Reihe von Dateiformaten, Übersichtlichkeit und integrierte Funktionalitäten zur Datenvisualisierung.

## Import von Pandas

In [1]:
# Pandas wird meist unter dem alias "pd" importiert
import pandas as pd

In [2]:
# Wenn pandas nicht installiert ist, kann es mit pip bzw. conda installiert werden
!pip install pandas

# Abhängig vom verwendeten Betriebssystem muss pip3 spezifiziert oder eine andere Formulierung genutz werden. 
# Mehr Informationen zur Installation unter https://pandas.pydata.org/docs/getting_started/install.html. 



## Dateiformate in Pandas – Series und DataFrame Objekte
Pandas verfügt über zwei grundlegende Objekttypen. Das erste ist das Series Objekt, das im Grunde wie eine Liste (Eselsbrücke: "Eine Serie von Einträgen") mit Indices funktioniert. Ein DataFrame aggregiert eine beliebige Anzahl von Series Objekten zu einer tabellarischen Struktur. Die Series Objekte stellen dabei die Spalten der Tabelle da.

### Series Objekte

In [3]:
list_of_strings = ["Value 1", "Value 2", "Value 3", "Value 4"]
list_of_integers = [1, 3, 6, 7]

In [4]:
series_of_strings = pd.Series(list_of_strings)

In [5]:
print(series_of_strings)

0    Value 1
1    Value 2
2    Value 3
3    Value 4
dtype: object


Ein Series Objekt kann, im Gegensatz zu einer einfachen Liste, auch labels haben:

In [6]:
labeled_series = pd.Series(list_of_integers, index = list_of_strings)

In [7]:
print(labeled_series)

Value 1    1
Value 2    3
Value 3    6
Value 4    7
dtype: int64


Entsprechend kann auch über ein dictionary ein Series Objekt erzeugt werden:

In [8]:
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250, "Tag 4": 270}

series_verkäufe = pd.Series(verkaeufe)

print(series_verkäufe)

Tag 1    120
Tag 2    330
Tag 3    250
Tag 4    270
dtype: int64


In [9]:
# Zugriff auf Values über index Name
series_verkäufe["Tag 2"]

330

In [10]:
# Zugriff auf Values über index Position
series_verkäufe[1]

330

In [11]:
# Unterschied zu Dictionary: Ordered List
verkaeufe[1]

KeyError: 1

Auf die Werte eines Series Objektes kann auf verschiedene Weisen zugegriffen werden:

In [12]:
# die "to_list()" Funktion liefert die Elemente eines Series Objektes als Liste:
series_verkäufe.to_list()

[120, 330, 250, 270]

In [13]:
# Series Objekte sind iterierbar
for value in series_verkäufe:
    print(value)

120
330
250
270


### DataFrame Objekte 

#### Erstellung aus Listen

In [14]:
data1 = {
  "list1": [420, 380, 390],
  "list2": [50, 40, 45]
}

df_1 = pd.DataFrame(data1)


df_1

Unnamed: 0,list1,list2
0,420,50
1,380,40
2,390,45


Listen müssen die selbe Länge haben! (Arrays sind eine besondere Form von Listen, die das NumPy Modul nutzt, das von Pandas genutzt wird)

In [15]:
data2 = {
  "list1": [420, 380, 390],
  "list2": [50, 40, 45],
  "list3": [1, 2, 3, 4, 5 , 6, 7]
}

df_2 = pd.DataFrame(data2)


df_2

ValueError: All arrays must be of the same length

#### Erstellung aus Dictionaries

Listen müssen von selber länge sein, Einzelwerte werden für alle Einträge des Dictionaries eingetragen.

In [16]:
data_dict = {
 "date" : "31.01.2022",
 "time" : ["08:22", "08:55", "09:21", "10:40", "11:30"],
 "value" : [12, 23, 3, 12, 3]    
}

df_3 = pd.DataFrame(data_dict)

In [17]:
df_3

Unnamed: 0,date,time,value
0,31.01.2022,08:22,12
1,31.01.2022,08:55,23
2,31.01.2022,09:21,3
3,31.01.2022,10:40,12
4,31.01.2022,11:30,3


DataFrames können auch aus mehreren Dictionaries erstellt werden. Dann ist es auch möglich, Dictionaries unterschiedlicher Längen zusammenzuführen.

In [18]:
merlin = {"Name": "Merlin", "Tierart": "Katze", "Alter" : 3, "Farbe": "schwarz"}
otto = {"Name": "Otto", "Tierart": "Hund", "Alter" : 5, "Farbe": "braun"}
renate = {"Name": "Renate", "Tierart": "Fisch", "Alter" : 2, "Farbe": "rot"}

In [19]:
df_tiere = pd.DataFrame([merlin, otto, renate])

In [20]:
df_tiere

Unnamed: 0,Name,Tierart,Alter,Farbe
0,Merlin,Katze,3,schwarz
1,Otto,Hund,5,braun
2,Renate,Fisch,2,rot


In [21]:
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250, "Tag 4": 270}
einnahmen = {"Tag 1": 450, "Tag 2": 1210, "Tag 3": 760, "Tag 4": 950, "Tag 5": 350}

# erstellen aus Liste von dictionaries:
df_4 = pd.DataFrame([verkaeufe, einnahmen], index = ["verkäufe", "einnahmen"])

In [22]:
df_4

Unnamed: 0,Tag 1,Tag 2,Tag 3,Tag 4,Tag 5
verkäufe,120,330,250,270,
einnahmen,450,1210,760,950,350.0


Das DataFrame wird mit "NaN", not a number aufgefüllt. Dieser wert ist ein float, also eine Kommazahl.

In [23]:
df_4_transposed = df_4.T

In [24]:
df_4_transposed

Unnamed: 0,verkäufe,einnahmen
Tag 1,120.0,450.0
Tag 2,330.0,1210.0
Tag 3,250.0,760.0
Tag 4,270.0,950.0
Tag 5,,350.0


Über .info() und .describe() lassen sich einfach Informationen über DataFrames abrufen:

In [25]:
df_4_transposed.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Tag 1 to Tag 5
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   verkäufe   4 non-null      float64
 1   einnahmen  5 non-null      float64
dtypes: float64(2)
memory usage: 292.0+ bytes


In [26]:
df_4_transposed.describe()

Unnamed: 0,verkäufe,einnahmen
count,4.0,5.0
mean,242.5,744.0
std,88.45903,354.090384
min,120.0,350.0
25%,217.5,450.0
50%,260.0,760.0
75%,285.0,950.0
max,330.0,1210.0


### Wie DataFrames und Series Objekte zusammenhängen
Wie schon erwähnt, sind Dataframes "zusammengefügte" Series Objekte. Auf diese kann über den Namen der Spalte zugegriffen werden.

In [27]:
df_4_transposed.verkäufe

Tag 1    120.0
Tag 2    330.0
Tag 3    250.0
Tag 4    270.0
Tag 5      NaN
Name: verkäufe, dtype: float64

In [28]:
df_4_transposed["verkäufe"]

Tag 1    120.0
Tag 2    330.0
Tag 3    250.0
Tag 4    270.0
Tag 5      NaN
Name: verkäufe, dtype: float64

Die Spalten sind Series Objekte:

In [29]:
type(df_4_transposed.verkäufe)

pandas.core.series.Series

In [30]:
type(df_4_transposed["verkäufe"])

pandas.core.series.Series

#### Zugriff auf Spalten- und Zeilennamen (Indices) eines Dataframes

In [31]:
# Zugriff auf die Namen aller Spalten:
df_4_transposed.columns

Index(['verkäufe', 'einnahmen'], dtype='object')

In [32]:
# auch hier lässt sich "to_list()" verwenden: 
df_4_transposed.columns.to_list()

['verkäufe', 'einnahmen']

In [33]:
# Ähnlich lassen sich die Indices abrufen:
df_4_transposed.index

Index(['Tag 1', 'Tag 2', 'Tag 3', 'Tag 4', 'Tag 5'], dtype='object')

In [34]:
df_4_transposed.index.to_list()

['Tag 1', 'Tag 2', 'Tag 3', 'Tag 4', 'Tag 5']

## Einlesen von Dateien mit "read"
Pandas stellt eine Reihe von Methoden zur Verfügung, mit denen ohne Probleme eine Vielzahl verschiedener Datentypen eingelesen werden können. 

### CSV einlesen

In [35]:
df = pd.read_csv("data/nyt_bestsellers.csv")

In [36]:
df[:10]

Unnamed: 0,1,I Love Dad with The Very Hungry Caterpillar,children
0,2,The Wonderful Things You Will Be,children
1,3,Dr. Seuss's I Love Pop!: A Celebration of Dads,children
2,4,Dragons Love Tacos,children
3,5,How to Babysit a Grandpa,children
4,6,I Wish You More,children
5,7,Grumpy Monkey,children
6,8,The Day the Crayons Quit,children
7,9,"Dear Girl,",children
8,10,"Rosie Revere, Engineer (Questioneers Collectio...",children
9,11,Brawl of the Wild (Dog Man Series #6),children


#### Spaltennamen und Indexspalte
In der [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) ist nachlesbar, welche Optionen es beim Einlesen gibt.

In [37]:
# names und index_col nutzen
df = pd.read_csv("data/nyt_bestsellers.csv", names = ["index_number", "title", "category"], index_col=0)
df

Unnamed: 0_level_0,title,category
index_number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,I Love Dad with The Very Hungry Caterpillar,children
2,The Wonderful Things You Will Be,children
3,Dr. Seuss's I Love Pop!: A Celebration of Dads,children
4,Dragons Love Tacos,children
5,How to Babysit a Grandpa,children
...,...,...
96,Everything Is F*cked: A Book about Hope,misc
97,"Girl, Stop Apologizing: A Shame-Free Plan for ...",misc
98,You Are a Badass: How to Stop Doubting Your Gr...,misc
99,Dare to Lead: Brave Work. Tough Conversations....,misc


In [38]:
!head -1 data/search_Bibliothek.csv

BibliographyType,ISBN,Identifier,Author,Title,Journal,Volume,Number,Month,Pages,Year,Address,Note,URL,Booktitle,Chapter,Edition,Series,Editor,Publisher,ReportType,Howpublished,Institution,Organizations,School,Annote,Custom1,Custom2,Custom3,Custom4,Custom5


Vorsicht mit Separatoren: Pandas ist oft, vor allem wenn Kommata als Trennzeichen genutzt werden, nicht in der Lage, CSV Dateien korrekt einzulesen:

In [39]:
path = 'data/search_Bibliothek.csv'
df = pd.read_csv(path)

ParserError: Error tokenizing data. C error: Expected 31 fields in line 21, saw 34


In Zeile 21 sind im Text Kommata enthalten, was zu einer falschen Anzal erkannter Spalten führt.

In [40]:
!head -20 data/search_Bibliothek.csv | tail +20

7,"","ernst_unwahrscheinlichkeit_2018","Ernst, Wolfgang","Die Unwahrscheinlichkeit von Wissenstradition und die Beharrlichkeit der Bibliothek","Bibliothek Forschung und Praxis",42,2,"","379--386",2018,"","","https://www.degruyter.com/view/j/bfup.2018.42.issue-2/bfp-2018-0038/bfp-2018-0038.xml","","","","","","","","","","","","","Mit dem Wandel der Leitmedien von der Buchform zur Zeitform ändert sich der Auftrag der Bibliothek oder lässt diesen zumindest deutlicher erscheinen: Sie hat ihre Rolle im kybernetischen Denken der Wissenszirkulation zu aktualisieren als Zeitkanal zwischen materieller Entropie und ordnungsbewahrender Negentropie. Zwar ist der Hypertext eine aktuelle Alternative zum raumbezogenen Gedächtnis und eröffnet neue Optionen der Wissensnavigation, doch angesichts der Zerstreuung in Netzarchitekturen bedarf es der Bibliothek, um dem Verlust der Nachhaltigkeit von Online-Wissen katechontisch (verzögernd) entgegenzuwirken.","","bibliotheken","",""


In [41]:
# Kommas als Seperatoren schwierig wenn Zellen Kommas enthalten
!head -20 data/search_Bibliothek.csv | tail +20 | tr -cd ',' | wc -c

      33


Es gibt zwar Möglichkeiten, das Problem zu umgehen (z.B. über die Verwendung von "quotechar"), jedoch bietet es sich an, auf hierarchische Dateiformate wie JSON zurückzugreifen, wenn diese Verfügbar sind.

### JSON einlesen

In [42]:
# Einlesen einer JSON datei:
df_nyt = pd.read_json("data/nyt_bestseller.json")

In [43]:
df_nyt

Unnamed: 0,_id,bestsellers_date,published_date,amazon_product_url,author,description,price,publisher,title,rank,rank_last_week,weeks_on_list
0,{'$oid': '5b4aa4ead3089013507db18b'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Odd-Hours-Dean-Koontz/dp...,Dean R Koontz,"Odd Thomas, who can communicate with the dead,...",{'$numberInt': '27'},Bantam,ODD HOURS,{'$numberInt': '1'},{'$numberInt': '0'},{'$numberInt': '1'}
1,{'$oid': '5b4aa4ead3089013507db18c'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/The-Host-Novel-Stephenie...,Stephenie Meyer,Aliens have taken control of the minds and bod...,{'$numberDouble': '25.99'},"Little, Brown",THE HOST,{'$numberInt': '2'},{'$numberInt': '1'},{'$numberInt': '3'}
2,{'$oid': '5b4aa4ead3089013507db18d'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Love-Youre-With-Emily-Gi...,Emily Giffin,A woman's happy marriage is shaken when she en...,{'$numberDouble': '24.95'},St. Martin's,LOVE THE ONE YOU'RE WITH,{'$numberInt': '3'},{'$numberInt': '2'},{'$numberInt': '2'}
3,{'$oid': '5b4aa4ead3089013507db18e'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/The-Front-Garano-Patrici...,Patricia Cornwell,A Massachusetts state investigator and his tea...,{'$numberDouble': '22.95'},Putnam,THE FRONT,{'$numberInt': '4'},{'$numberInt': '0'},{'$numberInt': '1'}
4,{'$oid': '5b4aa4ead3089013507db18f'},{'$date': {'$numberLong': '1211587200000'}},{'$date': {'$numberLong': '1212883200000'}},http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,{'$numberDouble': '24.95'},Doubleday,SNUFF,{'$numberInt': '5'},{'$numberInt': '0'},{'$numberInt': '1'}
...,...,...,...,...,...,...,...,...,...,...,...,...
95,{'$oid': '5b4aa4ead3089013507db1ea'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Blood-Anita-Blake-Vampir...,Laurell K Hamilton,The vampire hunter Anita Blake is involved in ...,{'$numberDouble': '25.95'},Berkley,BLOOD NOIR,{'$numberInt': '16'},{'$numberInt': '12'},{'$numberInt': '4'}
96,{'$oid': '5b4aa4ead3089013507db1eb'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Snuff-Chuck-Palahniuk/dp...,Chuck Palahniuk,An aging porn queens aims to cap her career by...,{'$numberInt': '0'},Doubleday,SNUFF,{'$numberInt': '17'},{'$numberInt': '0'},{'$numberInt': '0'}
97,{'$oid': '5b4aa4ead3089013507db1ec'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/Death-Honor-Bound-Book/d...,W E B Griffin and William E Butterworth IV,A Marine pilot spies in Argentina in 1943; th...,{'$numberInt': '0'},Putnam,DEATH AND HONOR,{'$numberInt': '18'},{'$numberInt': '0'},{'$numberInt': '0'}
98,{'$oid': '5b4aa4ead3089013507db1ed'},{'$date': {'$numberLong': '1214006400000'}},{'$date': {'$numberLong': '1215302400000'}},http://www.amazon.com/The-Spies-Warsaw-A-Novel...,Alan Furst,Intrigue in Poland just before World War II.,{'$numberInt': '0'},Random House,THE SPIES OF WARSAW,{'$numberInt': '19'},{'$numberInt': '0'},{'$numberInt': '0'}


In [44]:
df_nyt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   _id                 100 non-null    object
 1   bestsellers_date    100 non-null    object
 2   published_date      100 non-null    object
 3   amazon_product_url  100 non-null    object
 4   author              100 non-null    object
 5   description         100 non-null    object
 6   price               100 non-null    object
 7   publisher           100 non-null    object
 8   title               100 non-null    object
 9   rank                100 non-null    object
 10  rank_last_week      100 non-null    object
 11  weeks_on_list       100 non-null    object
dtypes: object(12)
memory usage: 9.5+ KB


Wir können noch keine Aussage über Datentypen treffen.

In [45]:
df_nyt.bestsellers_date[3]

{'$date': {'$numberLong': '1211587200000'}}

In [46]:
type(df_nyt.bestsellers_date[3])

dict

#### Bibliografische Informationen von Bibsonomy 
Als nächstes betrachten wir einen typischen Fall für den Import von bibliografischen Informationen. Wir lesen das Ergebnis einer Literatursuche bei Bibsonomy über das requests Modul ein.

In [47]:
# einlesen von Daten aus Bibsonomy
import requests
url = "https://www.bibsonomy.org/json/search/Bibliothek?items=1000"
result = requests.get(url) # result ist ein requests.models.Response Objekt
data = result.json() # das Response-Objekt bietet diese nützliche Methode an

Wie zuvor haben wir hier ein Dictionary, das drei Listen von Dictionaries enthält. Wir interessieren uns für den Wert des Keys "items", der die Suchergebnisse enthält:

In [48]:
data.keys()

dict_keys(['types', 'properties', 'items'])

In [49]:
type(data["items"])

list

In [50]:
# Hier zum Beispiel der 6. Eintrag: 
data["items"][5]

{'type': 'Bookmark',
 'id': 'https://www.bibsonomy.org/url/57a6c84d63a662d6fdda4b1b1155d68f/schneeschmelze',
 'tags': ['bibliothek'],
 'intraHash': '57a6c84d63a662d6fdda4b1b1155d68f',
 'label': 'Oodi-Bibliothek in Helsinki: Bollwerk gegen Populismus - taz.de',
 'user': 'schneeschmelze',
 'description': 'Der Common Ground in der modernen demokratischen Stadtgesellschaft: Die Finnen bauen die Bibliothek der Zukunft, digital und analog zugleich.',
 'date': '2018-12-17 21:06:43',
 'changeDate': '2018-12-17 21:06:43',
 'count': 1,
 'url': 'https://www.taz.de/Oodi-Bibliothek-in-Helsinki/!5556260/'}

Da es sich hier um eine Liste von Dictionaries handelt, können wir diese ganz einfach direkt mit Pandas als DataFrame einlesen.

In [51]:
df_bibsonomy = pd.DataFrame(data["items"])

In [52]:
df_bibsonomy

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,imtm-signatur,imtm-inventarnummer,eventtitle,venue,hdsurl,originalyear,booktitleaddon,origdate,gender,titleaddon
0,Bookmark,https://www.bibsonomy.org/url/8dccb0fb43c1baa0...,"[bibliothek, treffpunkt]",8dccb0fb43c1baa049c04533af10c807,Bibliothek: Treffpunkt Bibliothek,hotho,Treffpunkt Bibliothek 24. - 31. Oktober 2010,2010-07-18 21:30:25,2010-07-18 21:30:25,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/6e4d27522857a23d...,[Bibliothek],6e4d27522857a23d27d0fc781601e288,Bibliothek,stadlmairma,,2020-09-22 15:08:13,2020-10-04 17:04:00,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/74a579dd9b58dd57...,"[bibliothek, library, lang:de, referendariat]",74a579dd9b58dd57e61cbc58f2b354f2,Bibliothek,lambert,,2005-06-22 15:33:30,2007-04-17 15:07:27,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/561cc0370c975e9d...,"[bibliothek, wirtschaftswissenschaften, inform...",561cc0370c975e9d9143e81e9d901138,Bibliothek - Fit4Research,wdees,,2016-05-09 12:23:32,2016-05-09 12:23:32,2,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/d062f38f9cf0a22e...,"[Bibliothek, BibNZZ]",d062f38f9cf0a22e25bffb32fb25e4ad,Die dritte Bibliothek,szylla,Bibliothek von Mircea Cartarescu,2007-12-03 10:43:42,2010-08-01 10:23:57,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,Publication,https://www.bibsonomy.org/bibtex/2dfcd29f356bf...,[Nationalismus;Geschichte],dfcd29f356bf6b6ed4d63a8553b5673f,Die Erfindung der Nation: zur Karriere eines f...,giedenbacher,,2014-08-12 16:44:19,2014-08-12 16:44:19,1,...,,,,,,,,,,
1996,Publication,https://www.bibsonomy.org/bibtex/256297a0508dc...,[Islam],56297a0508dc447f9a634e9d5b74cfca,Der Islam: Eine Einführung,antenor,,2016-01-03 20:36:07,2016-01-03 20:36:07,1,...,,,,,,,,,,
1997,Publication,https://www.bibsonomy.org/bibtex/29dc9c4198441...,"[Clausewitz, Krieg, Politik, Strategie, Frieden]",9dc9c41984410298c1dcab55604df800,Vom Kriege: Auswahl,antenor,,2016-01-03 20:36:07,2016-01-03 20:36:07,1,...,,,,,,,,,,
1998,Publication,https://www.bibsonomy.org/bibtex/211e72bc7f6ca...,"[Philosophie,, Essay]",11e72bc7f6ca799639e10ba422bb87c3,Minima Moralia. Reflexionen aus dem beschädigt...,toss,,2009-09-06 22:34:56,2015-11-06 19:12:37,1,...,,,,,,,,,,


### Andere Dateiformate

Beispielsweise mit read_excel() und read_xml() lassen sich noch andere Dateiformate als DataFrame lesen. Eine vollständige Übersicht findet sich [hier](https://pandas.pydata.org/docs/reference/io.html).

## Daten mit Pandas Auswählen und Bereinigen
Im folgenden betrachten wir einige Möglichkeiten, Daten Auszuwählen und zu Filtern.

### Spalten auswählen

In [53]:
# Wir betrachten die Spaltennamen:
df_bibsonomy.columns

Index(['type', 'id', 'tags', 'intraHash', 'label', 'user', 'description',
       'date', 'changeDate', 'count', 'url', 'interHash', 'pub-type', 'year',
       'author', 'authors', 'note', 'language', 'bibtexKey', 'publisher',
       'address', 'shorttitle', 'lccn', 'journal', 'volume', 'number', 'pages',
       'abstract', 'booktitle', 'series', 'editor', 'editors', 'doi', 'issn',
       'isbn', 'refid', 'file', 'urldate', 'eissn', 'subtitle', 'pagetotal',
       'ppn_gvk', 'location', 'ee', 'library', 'citeulike-article-id',
       'priority', 'comment', 'copyright', 'dnbtitleid', 'posted-at', 'tech',
       'ty', 'date-added', 'date-modified', 'title1', 'totalpages', 'ISBN',
       'pubs', 'hyphenation', 'booksubtitle', 'vgwortseiten', 'owner',
       'timestamp', 'username', 'intrahash', 'interhash', 'groups', 'price',
       'collaborator', 'size', 'holdings', 'collection', 'bdsk-url-1',
       'partauthors', 'uniqueid', 'shortsubtitle', 'format', 'titlestatement',
       'citeulik

In [54]:
# Die Spalte "author" enthält anscheinend in vielen Zeilen keine Angabe:
df_bibsonomy.author

0                                NaN
1                                NaN
2                                NaN
3                                NaN
4                                NaN
                    ...             
1995     [Benedict R. O'G. Anderson]
1996            [Annemarie Schimmel]
1997           [Carl von Clausewitz]
1998    [Theodor Wiesengrund Adorno]
1999                 [Immanuel Kant]
Name: author, Length: 2000, dtype: object

In [55]:
# Ebenso die Spalte "year":
df_bibsonomy.year

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
        ... 
1995    2005
1996    1997
1997    1995
1998    1951
1999    1992
Name: year, Length: 2000, dtype: object

In [56]:
# Die Spalte Label enthält die Titel der Veröffentlichungen:
df_bibsonomy.label

0                       Bibliothek: Treffpunkt Bibliothek
1                                              Bibliothek
2                                              Bibliothek
3                               Bibliothek - Fit4Research
4                                   Die dritte Bibliothek
                              ...                        
1995    Die Erfindung der Nation: zur Karriere eines f...
1996                           Der Islam: Eine Einführung
1997                                  Vom Kriege: Auswahl
1998    Minima Moralia. Reflexionen aus dem beschädigt...
1999                                   Zum ewigen Frieden
Name: label, Length: 2000, dtype: object

Über das Format  
```
DataFrame[["v1", "v2", "v3", "v4"]]
```
Lässt sich eine Ansicht, also eine art Kopie des DataFrames ausgeben, das nur die angegebenen Spalten enthält.

In [57]:
df_bibsonomy[["label", "author", "year", "type"]]

Unnamed: 0,label,author,year,type
0,Bibliothek: Treffpunkt Bibliothek,,,Bookmark
1,Bibliothek,,,Bookmark
2,Bibliothek,,,Bookmark
3,Bibliothek - Fit4Research,,,Bookmark
4,Die dritte Bibliothek,,,Bookmark
...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication


Dabei wird aber NICHT das ursprüngliche DataFrame überschrieben:

In [58]:
df_bibsonomy

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,imtm-signatur,imtm-inventarnummer,eventtitle,venue,hdsurl,originalyear,booktitleaddon,origdate,gender,titleaddon
0,Bookmark,https://www.bibsonomy.org/url/8dccb0fb43c1baa0...,"[bibliothek, treffpunkt]",8dccb0fb43c1baa049c04533af10c807,Bibliothek: Treffpunkt Bibliothek,hotho,Treffpunkt Bibliothek 24. - 31. Oktober 2010,2010-07-18 21:30:25,2010-07-18 21:30:25,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/6e4d27522857a23d...,[Bibliothek],6e4d27522857a23d27d0fc781601e288,Bibliothek,stadlmairma,,2020-09-22 15:08:13,2020-10-04 17:04:00,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/74a579dd9b58dd57...,"[bibliothek, library, lang:de, referendariat]",74a579dd9b58dd57e61cbc58f2b354f2,Bibliothek,lambert,,2005-06-22 15:33:30,2007-04-17 15:07:27,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/561cc0370c975e9d...,"[bibliothek, wirtschaftswissenschaften, inform...",561cc0370c975e9d9143e81e9d901138,Bibliothek - Fit4Research,wdees,,2016-05-09 12:23:32,2016-05-09 12:23:32,2,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/d062f38f9cf0a22e...,"[Bibliothek, BibNZZ]",d062f38f9cf0a22e25bffb32fb25e4ad,Die dritte Bibliothek,szylla,Bibliothek von Mircea Cartarescu,2007-12-03 10:43:42,2010-08-01 10:23:57,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,Publication,https://www.bibsonomy.org/bibtex/2dfcd29f356bf...,[Nationalismus;Geschichte],dfcd29f356bf6b6ed4d63a8553b5673f,Die Erfindung der Nation: zur Karriere eines f...,giedenbacher,,2014-08-12 16:44:19,2014-08-12 16:44:19,1,...,,,,,,,,,,
1996,Publication,https://www.bibsonomy.org/bibtex/256297a0508dc...,[Islam],56297a0508dc447f9a634e9d5b74cfca,Der Islam: Eine Einführung,antenor,,2016-01-03 20:36:07,2016-01-03 20:36:07,1,...,,,,,,,,,,
1997,Publication,https://www.bibsonomy.org/bibtex/29dc9c4198441...,"[Clausewitz, Krieg, Politik, Strategie, Frieden]",9dc9c41984410298c1dcab55604df800,Vom Kriege: Auswahl,antenor,,2016-01-03 20:36:07,2016-01-03 20:36:07,1,...,,,,,,,,,,
1998,Publication,https://www.bibsonomy.org/bibtex/211e72bc7f6ca...,"[Philosophie,, Essay]",11e72bc7f6ca799639e10ba422bb87c3,Minima Moralia. Reflexionen aus dem beschädigt...,toss,,2009-09-06 22:34:56,2015-11-06 19:12:37,1,...,,,,,,,,,,


Im folgenden überschreiben wir df_bibsonomy_selection mit der erzeugten Ansicht: 

In [59]:
df_bibsonomy_selection = df_bibsonomy[["label", "author", "year", "type"]]

In [60]:
df_bibsonomy_selection

Unnamed: 0,label,author,year,type
0,Bibliothek: Treffpunkt Bibliothek,,,Bookmark
1,Bibliothek,,,Bookmark
2,Bibliothek,,,Bookmark
3,Bibliothek - Fit4Research,,,Bookmark
4,Die dritte Bibliothek,,,Bookmark
...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication


### Daten Filtern

Unser DataFrame enthält noch viele Zeilen, die wir herausfiltern möchten. .loc (locate) hilft, das DataFrame nach Kriterien zu Filtern.

In [61]:
# Daten auswählen, wo in Spalte "author" ein Wert eingetragen ist
df_bibsonomy_selection = df_bibsonomy_selection.loc[df_bibsonomy_selection["author"].isnull() == False]

In [62]:
df_bibsonomy_selection

Unnamed: 0,label,author,year,type
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication
...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication


In [63]:
# Daten auswählen, wo in Spalte "type" der Wert "Publication" ist
df_bibsonomy_selection.loc[df_bibsonomy_selection.type == "Publication"]

Unnamed: 0,label,author,year,type
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication
...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication


Über ".drop_duplicates" lassen sich doppelte Einträge entfernen. [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

```
keep = "first"
```
lässt uns jeweils die erste Zeile der Zeilen, die mehrfach vorkommen behalten.

In [64]:
# Entfernen von allen Duplikaten in der Spalte "label". 
df_bibsonomy_selection = df_bibsonomy_selection.drop_duplicates(subset = "label", keep = "first")

In [65]:
df_bibsonomy_selection

Unnamed: 0,label,author,year,type
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication
...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication


### Daten säubern

Im Folgenden sehen wir ein Beispiel dafür, wie wir mit Problemen umgehen können, die auf unsaubere Daten zurückzuführen sind: 

In [66]:
# Filtern nach einem bestimmten Wert in der Spalte "year"
df_bibsonomy_selection.loc[df_bibsonomy_selection["year"] > 2010]

TypeError: '>' not supported between instances of 'str' and 'int'

Problem: Datentyp falsch erkannt: hier: String!

In [67]:
# .unique() gibt alle paarweise verschiedenen Werte (alle Werte) eines Series Objektes aus
df_bibsonomy_selection["year"].unique()

array(['2021', '2007', '2010', '2000', '2006', '2019', '2018', '2015',
       '2020', '2013', '2008', '2011', '2022', '2005', '2016', '1988',
       '1995', '2009', '1990', '2002', '1983', '1996', ' 2006 ', '1974',
       '2003', '2014', '2001', '2012', '2017', '1981', '1989', '1780',
       '1997', '1987', '1994', '1999', '1953', '1991', '1998', '1973',
       '1993', '1992', '1966', '1964', '1978', '2004', '1931', '1939',
       '1928', '1829', '1808', '1975', '1963', '1895', '1930', 'n/a',
       '1984', '1979', '1926', '1922', '1935', '1986', '1933', '1961',
       '1937', '1927', '1783', '1914', 'March 2010', '1925', '1959',
       '1941', '2015 ', '1924', '1967', '1969', '1970', '1980', '1982',
       '1612', '1913', '1952', '1550', '1976', '1918', '1965', '1972',
       '1977', '1971', '1968', '19971998', '1957', '1929', '1985', '1910',
       '1955', '1958', '1943', '1954', '1960', '1947 [EA 1785]', '1956',
       '1909', '1923', '1997 (EA 1655)', '24.04.2005', '1950', '1962',


Wir sehen, dass hier nicht nur Zahlen als String enthalten sind, sondern mit z.B. '1997 (EA 1655)' oder 'March 2010' auch ganze Strings enthalten sind.

Über .apply kann eine Funktion auf jeden Wert einer Spalte angewendet werden. "axis=1" beschreibt, dass Zeilenweise vorgegangen werden soll und "lambda row:", dass row hier jede iteration, in diesem Fall jede Zeile beschreibt.

Wir schreiben eine neue Spalte "year_correct", in der über row.year.isdigit() überprüft wird, ob es der eintrag in "year" Zahl ist bzw. in eine Ganzzahl umgewandelt werden kann.

In [68]:
df_bibsonomy_selection["year_correct"] = df_bibsonomy_selection.apply(lambda row: row.year.isdigit(), axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_bibsonomy_selection["year_correct"] = df_bibsonomy_selection.apply(lambda row: row.year.isdigit(), axis=1)


Die Warnung kann an dieser stelle ignoriert werden.

über "axis=1" sagen wir hier, dass wir über Zeilen gehen müchten und mit "lambda row:" sagen wir, dass wir diese als "row" bezeichnen.

Jetzt schmeißen wir alle Zeilen aus dem Datensatz, deren "year" Eintrag keine Zahl ist:

In [69]:
df_bibsonomy_selection.loc[df_bibsonomy_selection.year_correct == False]

Unnamed: 0,label,author,year,type,year_correct
1085,"Googles Herausforderung, für eine europäische ...",[Jean-Noël Jeanneney],2006,Publication,False
1337,Die spezifischen Probleme einer kleinen Biblio...,[Antonius Gusik],,Publication,False
1428,Der Standort des elektronischen Leseplatzes un...,[Eric W. Steinhauer],March 2010,Publication,False
1495,Library Life: Werkstätten kulturwissenschaftli...,"[Friedolin Krentel, Katja Barthel, Sebastian B...",2015,Publication,False
1924,Grundlegung zur Metaphysik der Sitten,[Immanuel Kant],1947 [EA 1785],Publication,False
1959,Elemente der Philosophie I: Der Körper,[Thomas Hobbes],1997 (EA 1655),Publication,False
1962,ULB Bonn - AG Informationskompetenz - Schulung...,[ Arbeitsgemeinschaft Informationskompetenz NRW],24.04.2005,Publication,False


In [70]:
df_bibsonomy_selection = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_correct == True]

In [71]:
df_bibsonomy_selection

Unnamed: 0,label,author,year,type,year_correct
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication,True
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication,True
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication,True
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication,True
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication,True
...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication,True
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication,True
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication,True
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication,True


Wir können jetzt auch die Zahl in in der Spalte "year" über "astype" in einen Integer, einen Ganzzahlenwertt umwandel und in "year_number" speichern.

In [72]:
df_bibsonomy_selection["year_number"] = df_bibsonomy_selection["year"].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_bibsonomy_selection["year_number"] = df_bibsonomy_selection["year"].astype(int)


In [73]:
# die Neue Spalte besteht aus Integer Werten
df_bibsonomy_selection.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 834 entries, 1000 to 1999
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   label         834 non-null    object
 1   author        834 non-null    object
 2   year          834 non-null    object
 3   type          834 non-null    object
 4   year_correct  834 non-null    bool  
 5   year_number   834 non-null    int64 
dtypes: bool(1), int64(1), object(4)
memory usage: 39.9+ KB


Jetzt können wir nach Publikationen Filtern, die nach 2010 erschienen sind:

In [74]:
df_bibsonomy_selection_recent = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_number >=2010]

In [75]:
df_bibsonomy_selection_recent

Unnamed: 0,label,author,year,type,year_correct,year_number
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication,True,2021
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication,True,2010
1011,Akademische Soziale Netzwerke und ihre Auswirk...,[Thomas Nachreiner],2019,Publication,True,2019
1012,Netzwerk „Grüne Bibliothek“ gegründet,[Berthold Schmitt],2018,Publication,True,2018
1013,Und wo sind hier die Bücher? Bibliothek der Zu...,[Simon Strauss],2015,Publication,True,2015
...,...,...,...,...,...,...
1823,Das Leitbild der Zentralbibliothek der Sportwi...,"[Rudolf Brockhaus, Sebastian Lange]",2013,Publication,True,2013
1832,allegro-C : eine Software im Epochenwandel,[Bernhard Eversberg],2012,Publication,True,2012
1833,Pro smartphone cross-platform development - iP...,"[Lee Lundrigan, Vidal Graupera, Sarah Allen]",2010,Publication,True,2010
1862,Der Beschäftigungszuschuss. Quantitative und q...,[Philipp Fuchs],2013,Publication,True,2013


BONUS:

Einfache Möglichkeit, alle Zeilen mit NaN Einträgen zu löschen:

In [76]:
df_bibsonomy_selection_no_nan = df_bibsonomy_selection.dropna()

In [77]:
df_bibsonomy_selection_no_nan

Unnamed: 0,label,author,year,type,year_correct,year_number
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication,True,2021
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication,True,2007
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication,True,2010
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication,True,2000
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication,True,2007
...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication,True,2005
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication,True,1997
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication,True,1995
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication,True,1951


### Daten Verändern und Hinzufügen
Neben der gerade kennengelernten Methode zum schreiben einer Spalte gibt es noch andere Möglichkeiten, wie Daten in ein DataFrame geschrieben werden können.

In [78]:
# Spalten umbenennen 
df_bibsonomy_selection = df_bibsonomy_selection.rename(columns={"label": "title", "author": "authors"})
df_bibsonomy_selection

Unnamed: 0,title,authors,year,type,year_correct,year_number
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication,True,2021
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication,True,2007
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication,True,2010
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication,True,2000
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication,True,2007
...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication,True,2005
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication,True,1997
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication,True,1995
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication,True,1951


In [79]:
# Schreiben einen Wertes in alle Zeilen einer Spalte
df_bibsonomy_selection["collected_by"] = "Fabian"
df_bibsonomy_selection

Unnamed: 0,title,authors,year,type,year_correct,year_number,collected_by
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],2021,Publication,True,2021,Fabian
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",2007,Publication,True,2007,Fabian
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],2010,Publication,True,2010,Fabian
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],2000,Publication,True,2000,Fabian
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",2007,Publication,True,2007,Fabian
...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],2005,Publication,True,2005,Fabian
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],1997,Publication,True,1997,Fabian
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],1995,Publication,True,1995,Fabian
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],1951,Publication,True,1951,Fabian


In [80]:
# Spalten löschen
df_bibsonomy_selection = df_bibsonomy_selection.drop(columns=['year'])
df_bibsonomy_selection

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian
...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian


Wir ermitteln mit apply, wie viele Autoren in "authors" eingetragen sind:

In [81]:
# Benutzen von .apply() um eine Funktion auf Teile der Daten anzuwenden (und hier, um das Ergebnis in einer neuen Spalte einzutragen)
df_bibsonomy_selection["number_authors"] = df_bibsonomy_selection.apply( lambda row: len(row.authors), axis=1)
df_bibsonomy_selection

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2
...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1


### Daten Analysieren

In [82]:
# groupby() nutzen, um Zeilen zu gruppieren und Methoden darauf anzuwenden
# count zählt Anzahl der Zeilen pro gruppe
df_bibsonomy_selection_recent.groupby("year_number").count().label

year_number
2010        22
2011        12
2012        14
2013        29
2014        14
2015        23
2016        16
2017        10
2018         8
2019        18
2020        15
2021        17
2022        11
19971998     1
Name: label, dtype: int64

der Wert "19971998" wurde in eine Zahl umgewandelt, ist hier aber sicher falsch. Wir möchten diesen Eintrag jetzt entfernen. 
TIPP:
Man könnte in etwa so vorgehen, wie wir nach Veröffentlichungen nach 2010 gefiltert haben:
```
df_bibsonomy_selection_recent = df_bibsonomy_selection.loc[df_bibsonomy_selection.year_number >=2010]
```

### Daten Zusammenführen
Wir können mit Pandas auch relativ leicht mehrere Datensätze zusammenführen.

In [83]:
import json
# (Bibsonomy) JSON Daten einlesen
data1 = json.load(open("data/search_Cologne.json"))
data2 = json.load(open("data/search_Media_Bias.json"))

In [84]:
# Wieder das Problem, dass unsere Daten in "items" liegen
data1.keys()

dict_keys(['types', 'properties', 'items'])

In [85]:
# Erstellen der DataFrames aus den Listen der Dictionaries, die die Dateneinträge der Bibsonomy Suche darstellen
df_search1 = pd.DataFrame(data1["items"])
df_search2 = pd.DataFrame(data2["items"])

In [86]:
df_search1

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,unique-id,doi,date-modified,date-added,numpages,language,citeulike-article-id,priority,posted-at,bibsource
0,Bookmark,https://www.bibsonomy.org/url/9a261c8872ecb14c...,"[cologne, theater, cinema]",9a261c8872ecb14c92fbe783c8e13710,Choices cologne,sorkin,cologne Cinema and Theater program,2006-06-27 14:13:55,2006-06-27 14:13:55,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/a16672be36fd00b3...,"[de, jobs, cologne, selbstaendig]",a16672be36fd00b3dadb76f773711961,coLabor Cologne,fsteeg,coLabor is a coworking space to be set up some...,2007-03-28 00:22:19,2009-04-30 14:23:47,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/b0b96f3140af77e8...,"[coworking, cologne]",b0b96f3140af77e8a421023136c35a65,Coworking Cologne,fsteeg,Coworking Cologne. Kleines Coworking Space in ...,2013-09-15 15:39:14,2013-09-15 15:39:14,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/a16f6b2e28923bb4...,"[GErmany, Dom, Kirche, landmark, church, yovis...",a16f6b2e28923bb455110f4945815381,The Cologne Cathedral - More than 600 Years of...,lysander07,"On August 14, 1880, after more than 600 years ...",2013-08-14 19:43:10,2013-08-14 19:43:10,1,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/46c0d406f2483fe1...,"[schmap, julianausserhofer, photo]",46c0d406f2483fe1cc89b8ef61c31798,Cologne - Schmap Travel Guide,julianausserhofer,I was delighted to hear that two of my photos ...,2007-12-02 23:10:39,2008-04-16 18:56:44,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,Publication,https://www.bibsonomy.org/bibtex/20b19659687c1...,[oldsaxon],0b19659687c14feede575239005667b3,Altsächsisches Wörterbuch,searocraeft,,2012-12-25 04:17:33,2015-03-07 02:59:43,1,...,,,,,,,,,,
196,Publication,https://www.bibsonomy.org/bibtex/2e2b970a28b61...,[dblp],e2b970a28b61dda9ce5920e0da7f00f7,Proceedings of the 8th International Workshop ...,dblp,,2020-02-12 00:00:00,2020-02-13 12:19:10,1,...,,,,,,,,,,
197,Publication,https://www.bibsonomy.org/bibtex/2b27d82a4a7ba...,"[fragrances, beauty, cologne, cosmetics, perfu...",b27d82a4a7bad66dae4a16e4272269a6,Best Baby Perfumes For Your New Born,colognelove,,2022-02-28 12:29:34,2022-02-28 12:29:34,1,...,,,,,,,,,,
198,Publication,https://www.bibsonomy.org/bibtex/255d71a5590ef...,"[fragrances, fashion, beauty, cologne, cosmeti...",55d71a5590ef68a8c46242690efd83df,Our Latest Collection Of Best Smelling YSL Col...,colognelove,,2022-02-28 10:36:38,2022-02-28 10:36:38,1,...,,,,,,,,,,


In [87]:
df_search2

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,pages,isbn,numpages,location,abstractnote,editor,editors,ee,language,mendeley-tags
0,Bookmark,https://www.bibsonomy.org/url/bf08e62b2ae96961...,"[politics, culture, media]",bf08e62b2ae96961b03e948b7b1cf010,MediaBite / A Shot at Bias in the media,georgeroberts,,2007-10-18 19:06:13,2013-09-12 08:18:16,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/252294047b101bdb...,"[news, bias, metric, home]",252294047b101bdb695790f5bf0f4142,Breaking News Headlines and Media Bias | Groun...,bshanks,,2022-04-28 20:20:48,2022-04-28 20:20:55,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/27d2cf6d927e3c14...,"[web, bias, media, vote]",27d2cf6d927e3c1472656f41a38e9d80,Skewz.com - Media Bias - All sides of the story,bshanks,,2016-12-12 10:00:54,2020-06-15 21:39:35,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/24a281d4e8e33f81...,"[fact, check]",24a281d4e8e33f81b68912946cd84f8e,AllSides | Balanced news via media bias rating...,heluking,,2020-04-30 16:29:51,2020-05-10 17:45:19,1,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/0734714d0d35f8a0...,[Diigo_-_Jem_Fleming's_Bookmarks],0734714d0d35f8a0d70882d1e2215666,Unfiltered News,jemfleming,"""The primary media outlets in every country ar...",2012-10-09 01:05:21,2012-10-09 01:23:45,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101,Publication,https://www.bibsonomy.org/bibtex/257415091921f...,[dblp],57415091921ff4f533289739183fb742,Tracking Bias in News Sources Using Social Med...,dblp,,2020-01-28 00:00:00,2020-01-29 11:50:14,1,...,13-18,978-1-945626-88-3,,,,"[Octavian Popescu, Carlo Strapparava]","[{'first': 'Octavian', 'last': 'Popescu'}, {'f...",https://www.aclweb.org/anthology/W17-4203/,,
102,Publication,https://www.bibsonomy.org/bibtex/271d33d933ed6...,[dblp],71d33d933ed6799821397aa8c94ae608,Promoting users' intention to share online hea...,dblp,,2020-11-07 00:00:00,2020-11-09 11:35:00,1,...,102354,,,,,,,https://doi.org/10.1016/j.ipm.2020.102354,,
103,Publication,https://www.bibsonomy.org/bibtex/2a7189be7a33c...,[dblp],a7189be7a33c43a0027b1d2793e322ab,Topic bias in the social media - The represent...,dblp,,2020-02-06 00:00:00,2020-07-24 01:07:23,1,...,1791-1803,978-3-88579-248-2,,,,"[Stefan Fischer, Erik Maehle, Rüdiger Reischuk]","[{'first': 'Stefan', 'last': 'Fischer'}, {'fir...",http://subs.emis.de/LNI/Proceedings/Proceeding...,,
104,Publication,https://www.bibsonomy.org/bibtex/2b2f7171a0bb3...,[dblp],b2f7171a0bb346b7b8fab3c214fb2022,Gender Bias in Sharenting: Both Men and Women ...,dblp,,2018-08-13 00:00:00,2018-08-14 12:08:43,1,...,,,,,,,,http://arxiv.org/abs/1803.10329,,


Es gibt zwar verschienene Möglichkeiten, DataFrames zusammenzuführen, in diesem Fall funktioniert .concat am besten, das eine Liste von Dictionaries als Argument nimmt:

In [88]:
# Mit .concat(Liste von DataFrames) lassen sich DataFrames miteinander kombinieren. 
df_both = pd.concat([df_search1, df_search2])

Das entstandene DataFrame hat alle Zeilen der beiden DataFrames:

In [89]:
df_both

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,language,citeulike-article-id,priority,posted-at,bibsource,citeulike-linkout-1,citeulike-linkout-0,location,abstractnote,mendeley-tags
0,Bookmark,https://www.bibsonomy.org/url/9a261c8872ecb14c...,"[cologne, theater, cinema]",9a261c8872ecb14c92fbe783c8e13710,Choices cologne,sorkin,cologne Cinema and Theater program,2006-06-27 14:13:55,2006-06-27 14:13:55,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/a16672be36fd00b3...,"[de, jobs, cologne, selbstaendig]",a16672be36fd00b3dadb76f773711961,coLabor Cologne,fsteeg,coLabor is a coworking space to be set up some...,2007-03-28 00:22:19,2009-04-30 14:23:47,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/b0b96f3140af77e8...,"[coworking, cologne]",b0b96f3140af77e8a421023136c35a65,Coworking Cologne,fsteeg,Coworking Cologne. Kleines Coworking Space in ...,2013-09-15 15:39:14,2013-09-15 15:39:14,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/a16f6b2e28923bb4...,"[GErmany, Dom, Kirche, landmark, church, yovis...",a16f6b2e28923bb455110f4945815381,The Cologne Cathedral - More than 600 Years of...,lysander07,"On August 14, 1880, after more than 600 years ...",2013-08-14 19:43:10,2013-08-14 19:43:10,1,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/46c0d406f2483fe1...,"[schmap, julianausserhofer, photo]",46c0d406f2483fe1cc89b8ef61c31798,Cologne - Schmap Travel Guide,julianausserhofer,I was delighted to hear that two of my photos ...,2007-12-02 23:10:39,2008-04-16 18:56:44,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
101,Publication,https://www.bibsonomy.org/bibtex/257415091921f...,[dblp],57415091921ff4f533289739183fb742,Tracking Bias in News Sources Using Social Med...,dblp,,2020-01-28 00:00:00,2020-01-29 11:50:14,1,...,,,,,,,,,,
102,Publication,https://www.bibsonomy.org/bibtex/271d33d933ed6...,[dblp],71d33d933ed6799821397aa8c94ae608,Promoting users' intention to share online hea...,dblp,,2020-11-07 00:00:00,2020-11-09 11:35:00,1,...,,,,,,,,,,
103,Publication,https://www.bibsonomy.org/bibtex/2a7189be7a33c...,[dblp],a7189be7a33c43a0027b1d2793e322ab,Topic bias in the social media - The represent...,dblp,,2020-02-06 00:00:00,2020-07-24 01:07:23,1,...,,,,,,,,,,
104,Publication,https://www.bibsonomy.org/bibtex/2b2f7171a0bb3...,[dblp],b2f7171a0bb346b7b8fab3c214fb2022,Gender Bias in Sharenting: Both Men and Women ...,dblp,,2018-08-13 00:00:00,2018-08-14 12:08:43,1,...,,,,,,,,,,


BONUS INFO: Der resultierende DataFrame hat mehr Spalten als die beiden DataFrames, die wir verbunden haben, weil es exklusive Spalten gibt, die nur in jeweils einem der beiden DataFrames erscheinen. Wir können das mit List Comprehension überprüfen:

In [90]:
# Spalten, die in beiden DataFrames sind:
[a for a in df_search1.columns.to_list() if a in df_search2.columns.to_list()]

['type',
 'id',
 'tags',
 'intraHash',
 'label',
 'user',
 'description',
 'date',
 'changeDate',
 'count',
 'url',
 'interHash',
 'pub-type',
 'booktitle',
 'address',
 'year',
 'author',
 'authors',
 'editor',
 'editors',
 'bibtexKey',
 'series',
 'publisher',
 'number',
 'volume',
 'ee',
 'journal',
 'pages',
 'note',
 'abstract',
 'isbn',
 'issn',
 'doi',
 'numpages',
 'language',
 'citeulike-article-id',
 'priority',
 'posted-at']

In [91]:
# Spalten, die nur im ersten DataFrame sind:
[a for a in df_search1.columns.to_list() if a not in df_search2.columns.to_list()]

['shortauthor',
 'urldate',
 'pdf',
 'eventtitle',
 'venue',
 'eventdate',
 'dnbtitleid',
 'eissn',
 'orcid-numbers',
 'article-number',
 'unique-id',
 'date-modified',
 'date-added',
 'bibsource']

In [92]:
# Spalten, die nur im zweiten DataFrame sind:
[a for a in df_search2.columns.to_list() if a not in df_search1.columns.to_list()]

['citeulike-linkout-1',
 'citeulike-linkout-0',
 'location',
 'abstractnote',
 'mendeley-tags']

## Daten Exportieren
es gibt eine Reihe von Möglichkeiten, Daten mit Pandas zu exportieren. Im folgenden zeigen wir, wie wir unseren Datensatz als CSV und JSON Datei exportieren können.

### Export als CSV
Zum Exportieren der Daten als als CSV Datei kann die .to_csv() Methode verwendet werden. Es muss ein Name für die Ausgabedatei angegeben werden. Um Probleme mit den Kommata beim Einlesen zu vermeiden, kann über sep= ein anderer Seperator angegeben werden, der nicht oder weniger Wahrscheinlich in den Daten vorkommt (oft bietet sich hier ein Semikolon oder ein anderes, noch seltener genutzes Sonderzeichen an). Pandas nutzt aber in der Regel alle Möglichkeiten, die Seperatoren in Daten zu "Escapen", sodass diese beim Einlesen nicht als Seperatoren Genutzt werden.

In [93]:
df_bibsonomy_selection.to_csv("data/output.csv", sep=";")

In [94]:
pd.read_csv("data/output.csv", sep=";")

Unnamed: 0.1,Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
0,1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[' Berufsverband Information Bibliothek e.V.'],Publication,True,2021,Fabian,1
1,1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"['Michaela Selbach', 'Bibliothek der Fachhochs...",Publication,True,2007,Fabian,2
2,1002,Service vor Ort? Die Bibliothek geht zum Nutzer,['Manuela Schulz'],Publication,True,2010,Fabian,1
3,1003,Wissenschaft online. Elektronisches Publiziere...,['Beate Tröger'],Publication,True,2000,Fabian,1
4,1004,Bibliothek 2.0 -- Wird alles anders?,"['Patrick Danowski', 'Lambert Heller']",Publication,True,2007,Fabian,2
...,...,...,...,...,...,...,...,...
829,1995,Die Erfindung der Nation: zur Karriere eines f...,"[""Benedict R. O'G. Anderson""]",Publication,True,2005,Fabian,1
830,1996,Der Islam: Eine Einführung,['Annemarie Schimmel'],Publication,True,1997,Fabian,1
831,1997,Vom Kriege: Auswahl,['Carl von Clausewitz'],Publication,True,1995,Fabian,1
832,1998,Minima Moralia. Reflexionen aus dem beschädigt...,['Theodor Wiesengrund Adorno'],Publication,True,1951,Fabian,1


In [95]:
df_bibsonomy_selection.to_csv("data/output.csv")

In [96]:
pd.read_csv("data/output.csv")

Unnamed: 0.1,Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
0,1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[' Berufsverband Information Bibliothek e.V.'],Publication,True,2021,Fabian,1
1,1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"['Michaela Selbach', 'Bibliothek der Fachhochs...",Publication,True,2007,Fabian,2
2,1002,Service vor Ort? Die Bibliothek geht zum Nutzer,['Manuela Schulz'],Publication,True,2010,Fabian,1
3,1003,Wissenschaft online. Elektronisches Publiziere...,['Beate Tröger'],Publication,True,2000,Fabian,1
4,1004,Bibliothek 2.0 -- Wird alles anders?,"['Patrick Danowski', 'Lambert Heller']",Publication,True,2007,Fabian,2
...,...,...,...,...,...,...,...,...
829,1995,Die Erfindung der Nation: zur Karriere eines f...,"[""Benedict R. O'G. Anderson""]",Publication,True,2005,Fabian,1
830,1996,Der Islam: Eine Einführung,['Annemarie Schimmel'],Publication,True,1997,Fabian,1
831,1997,Vom Kriege: Auswahl,['Carl von Clausewitz'],Publication,True,1995,Fabian,1
832,1998,Minima Moralia. Reflexionen aus dem beschädigt...,['Theodor Wiesengrund Adorno'],Publication,True,1951,Fabian,1


### Export als JSON
Zum Exportieren der Daten als als JSON file kann die .to_json() Methode verwendet werden. Es muss ein Name für die Ausgabedatei angegeben werden. Zusätzlich kann es sein (beispielsweise für den Export für die Verwendung in SOLR!), dass mit orient="records" eine eintragsorientierte ausgabe spezifiziert werden muss.   

In [97]:
df_bibsonomy_selection.to_json("data/output.json", orient="records")

In [98]:
# check, if it look correct
with open("data/output.json", "r") as f:
    j_load = json.load(f)
    print(json.dumps(j_load, indent=2))

[
  {
    "title": "BIB Fundgrube Fachinformation Gr\u00fcne Bibliothek. BibInfo",
    "authors": [
      " Berufsverband Information Bibliothek e.V."
    ],
    "type": "Publication",
    "year_correct": true,
    "year_number": 2021,
    "collected_by": "Fabian",
    "number_authors": 1
  },
  {
    "title": "Bibliothek 2.0 : neue Perspektiven und Einsatzm\u00f6glichkeiten f\u00fcr wissenschaftliche Bibliotheken",
    "authors": [
      "Michaela Selbach",
      "Bibliothek der Fachhochsch."
    ],
    "type": "Publication",
    "year_correct": true,
    "year_number": 2007,
    "collected_by": "Fabian",
    "number_authors": 2
  },
  {
    "title": "Service vor Ort? Die Bibliothek geht zum Nutzer",
    "authors": [
      "Manuela Schulz"
    ],
    "type": "Publication",
    "year_correct": true,
    "year_number": 2010,
    "collected_by": "Fabian",
    "number_authors": 1
  },
  {
    "title": "Wissenschaft online. Elektronisches Publizieren in Bibliothek und Hochschule",
    "aut

## Fragestunde 23.01.

#### wie kann man sich mehr als die ersten und die letzten 5 Einträge/Zeilen anzeigen lassen?

In [155]:
df_bibsonomy_selection.head(20)

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,Manuela Schulz
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski
...,...,...,...,...,...,...,...,...
1021,"Bibliothek 2.0 - Perspektiven, Probleme, Handl...",[Lambert Heller],Publication,True,2008,Fabian,1,Lambert Heller
1022,Open-Air-Bibliothek kam schon im Corona-Sommer...,[Horst Fröhling],Publication,True,2021,Fabian,1,Horst Fröhling
1024,Zeusch für Eusch: Die Bibliothek der Dinge,[ Stadtbücherei Frankfurt am Main],Publication,True,2021,Fabian,1,Stadtbücherei Frankfurt am Main
1025,Die Unwahrscheinlichkeit von Wissenstradition ...,[Wolfgang Ernst],Publication,True,2018,Fabian,1,Wolfgang Ernst


In [156]:
# maximale anzahl angezeigter reihen
pd.set_option('display.max_rows', 50)

In [157]:
df_bibsonomy_selection.head(25)

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,Manuela Schulz
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski
1005,Bibliothek 2. 0: Die Zukunft der Bibliothek?,"[Patrick Danowski, Lambert Heller]",Publication,True,2006,Fabian,2,Patrick Danowski
1011,Akademische Soziale Netzwerke und ihre Auswirk...,[Thomas Nachreiner],Publication,True,2019,Fabian,1,Thomas Nachreiner
1012,Netzwerk „Grüne Bibliothek“ gegründet,[Berthold Schmitt],Publication,True,2018,Fabian,1,Berthold Schmitt
1013,Und wo sind hier die Bücher? Bibliothek der Zu...,[Simon Strauss],Publication,True,2015,Fabian,1,Simon Strauss
1014,"Bibliothek - Mythos, Metapher, Maschine oder: ...",[Hans-Christoph Hobohm],Publication,True,2000,Fabian,1,Hans-Christoph Hobohm


In [112]:
df_bibsonomy_selection.iloc[20:50]

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
1029,Bibliothek 2.0 - Die Zukunft der Bibliothek?,"[Patrick Danowski, Lambert Heller]",Publication,True,2006,Fabian,2
1032,Kleidertausch in der Bibliothek,[ Shochzwei],Publication,True,2019,Fabian,1
1035,Die Bibliothek bei Nacht,[Alberto Manguel],Publication,True,2007,Fabian,1
1036,Bewegung am Lernort: Ein stromerzeugendes Fahr...,[Janet Wagner],Publication,True,2019,Fabian,1
1037,Basiskenntnis Bibliothek: eine Fachkunde für F...,[Klaus-Peter Böttger],Publication,True,2011,Fabian,1
1038,Warum es nicht funktioniert: Klimaanpassung un...,[Sonja Schillings],Publication,True,2022,Fabian,1
1039,Was ist eine Grüne Bibliothek?,"[ IFLA Section Environment, Sustainability_and...",Publication,True,2022,Fabian,1
1040,Handelsblatt Management Bibliothek. Bd. 5: Die...,[Handelsblatt Management Bibliothek],Publication,True,2005,Fabian,1
1041,Moderne Bibliothek,[ ?],Publication,True,2008,Fabian,1
1042,Grobkonzept Deutsche Digitale Bibliothek,"[Kai Stalmann, Reinhard Budde.]",Publication,True,2010,Fabian,2


#### Wie kann man aus einem df mehrere Spalten löschen, ohne alle einzeln eingeben zu müssen?

In [158]:
df_bibsonomy_selection

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,Manuela Schulz
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski
...,...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,Benedict R. O'G. Anderson
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,Annemarie Schimmel
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,Carl von Clausewitz
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,Theodor Wiesengrund Adorno


In [120]:
df_bibsonomy_selection.drop(columns=['type', 'collected_by'])

Unnamed: 0,title,authors,year_correct,year_number,number_authors
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],True,2021,1
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",True,2007,2
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],True,2010,1
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],True,2000,1
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",True,2007,2
...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],True,2005,1
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],True,1997,1
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],True,1995,1
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],True,1951,1


In [149]:
df_bibsonomy_selection[['type', 'collected_by']]

Unnamed: 0,type,collected_by
1000,Publication,Fabian
1001,Publication,Fabian
1002,Publication,Fabian
1003,Publication,Fabian
1004,Publication,Fabian
...,...,...
1995,Publication,Fabian
1996,Publication,Fabian
1997,Publication,Fabian
1998,Publication,Fabian


In [161]:
df_bibsonomy_selection.drop([1000,1001, 1002], axis="index")

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski
1005,Bibliothek 2. 0: Die Zukunft der Bibliothek?,"[Patrick Danowski, Lambert Heller]",Publication,True,2006,Fabian,2,Patrick Danowski
1011,Akademische Soziale Netzwerke und ihre Auswirk...,[Thomas Nachreiner],Publication,True,2019,Fabian,1,Thomas Nachreiner
1012,Netzwerk „Grüne Bibliothek“ gegründet,[Berthold Schmitt],Publication,True,2018,Fabian,1,Berthold Schmitt
...,...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,Benedict R. O'G. Anderson
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,Annemarie Schimmel
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,Carl von Clausewitz
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,Theodor Wiesengrund Adorno


In [128]:
df_bibsonomy_selection.drop(index=[1000,1001,1002])

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2
1005,Bibliothek 2. 0: Die Zukunft der Bibliothek?,"[Patrick Danowski, Lambert Heller]",Publication,True,2006,Fabian,2
1011,Akademische Soziale Netzwerke und ihre Auswirk...,[Thomas Nachreiner],Publication,True,2019,Fabian,1
1012,Netzwerk „Grüne Bibliothek“ gegründet,[Berthold Schmitt],Publication,True,2018,Fabian,1
...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1


In [165]:
df_bibsonomy_selection.drop(index=range(1002,1005))

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach
1005,Bibliothek 2. 0: Die Zukunft der Bibliothek?,"[Patrick Danowski, Lambert Heller]",Publication,True,2006,Fabian,2,Patrick Danowski
1011,Akademische Soziale Netzwerke und ihre Auswirk...,[Thomas Nachreiner],Publication,True,2019,Fabian,1,Thomas Nachreiner
1012,Netzwerk „Grüne Bibliothek“ gegründet,[Berthold Schmitt],Publication,True,2018,Fabian,1,Berthold Schmitt
...,...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,Benedict R. O'G. Anderson
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,Annemarie Schimmel
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,Carl von Clausewitz
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,Theodor Wiesengrund Adorno


#### auf das Feld author kann ich kein unique() anwenden ---> weil es vom Typ Liste ist??

In [141]:
df_bibsonomy_selection["authors"].unique()

TypeError: unhashable type: 'list'

In [166]:
df_bibsonomy_selection["authors"].to_list()

[[' Berufsverband Information Bibliothek e.V.'],
 ['Michaela Selbach', 'Bibliothek der Fachhochsch.'],
 ['Manuela Schulz'],
 ['Beate Tröger'],
 ['Patrick Danowski', 'Lambert Heller'],
 ['Patrick Danowski', 'Lambert Heller'],
 ['Thomas Nachreiner'],
 ['Berthold Schmitt'],
 ['Simon Strauss'],
 ['Hans-Christoph Hobohm'],
 ['Redaktion Kärnten ORF'],
 ['Gabriele Koll'],
 ['Haruki Murakami', 'Kat Menschik'],
 ['Wielkopolska Biblioteka Cyfrowa (Großpolnische Digitale Bibliothek)'],
 ['Christine Gläser'],
 ['Lambert Heller'],
 ['Horst Fröhling'],
 [' Stadtbücherei Frankfurt am Main'],
 ['Wolfgang Ernst'],
 [' Goethe-Institut Rumänien'],
 ['Patrick Danowski', 'Lambert Heller'],
 [' Shochzwei'],
 ['Alberto Manguel'],
 ['Janet Wagner'],
 ['Klaus-Peter Böttger'],
 ['Sonja Schillings'],
 [' IFLA Section Environment, Sustainability_and_Libraries'],
 ['Handelsblatt Management Bibliothek'],
 [' ?'],
 ['Kai Stalmann', 'Reinhard Budde.'],
 ['Bastian Drees'],
 ['Janet Wagner'],
 [' x'],
 ['_ Goethe-Insti

In [142]:
len(df_bibsonomy_selection["authors"].to_list())

834

In [168]:
df_bibsonomy_selection["authors"].drop_duplicates()

1000       [ Berufsverband Information Bibliothek e.V.]
1001    [Michaela Selbach, Bibliothek der Fachhochsch.]
1002                                   [Manuela Schulz]
1003                                     [Beate Tröger]
1004                 [Patrick Danowski, Lambert Heller]
                             ...                       
1992                                    [J. B. Hofmann]
1995                        [Benedict R. O'G. Anderson]
1996                               [Annemarie Schimmel]
1997                              [Carl von Clausewitz]
1998                       [Theodor Wiesengrund Adorno]
Name: authors, Length: 695, dtype: object

####  Gibt es eine Möglichkeit, dass man den Index der verbliebenen Zeilen dann wieder ab 1 starten lässt? Die type="Publication" starten glauben so ab Index 1000

In [117]:
# copy of dataframe 
df_bibsonomy_selection_new_index = df_bibsonomy_selection
# Series object als neuen index 
s = pd.Series(range(0,len(df_bibsonomy_selection_new_index)))
df_bibsonomy_selection_new_index.set_index(s)

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
0,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1
1,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2
2,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1
3,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1
4,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2
...,...,...,...,...,...,...,...
829,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1
830,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1
831,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1
832,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1


In [119]:
# Anfangen mit 1
df_bibsonomy_selection_new_index2 = df_bibsonomy_selection
# Series object als neuen index 
# jetzt: wir müssen mit len()+1 arbeiten!
s = pd.Series(range(1,len(df_bibsonomy_selection_new_index)+1))
df_bibsonomy_selection_new_index2.set_index(s)

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors
1,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1
2,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2
3,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1
4,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1
5,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2
...,...,...,...,...,...,...,...
830,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1
831,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1
832,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1
833,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1


In [175]:
df_bibsonomy_selection_new_index2 = df_bibsonomy_selection
df_bibsonomy_selection_new_index2 = df_bibsonomy_selection_new_index2.reset_index()
df_bibsonomy_selection_new_index2

Unnamed: 0,index,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
0,1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.
1,1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach
2,1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,Manuela Schulz
3,1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger
4,1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski
...,...,...,...,...,...,...,...,...,...
829,1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,Benedict R. O'G. Anderson
830,1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,Annemarie Schimmel
831,1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,Carl von Clausewitz
832,1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,Theodor Wiesengrund Adorno


#### könntet ihr Bitte nochmal die Funktion .apply (lambda ... ) erklären. Was passiert da genau?

In [144]:
df_bibsonomy_selection_test = df_bibsonomy_selection

In [176]:
df_bibsonomy_selection_test["Erstautor"] = "text"

In [177]:
df_bibsonomy_selection_test

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,text
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,text
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,text
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,text
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,text
...,...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,text
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,text
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,text
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,text


In [178]:
def count_authors(in_list):
    return len(in_list)

In [181]:
df_bibsonomy_selection_test["Erstautor"] = df_bibsonomy_selection_test.apply(lambda row: row["authors"][0], axis=1) 

In [182]:
df_bibsonomy_selection_test

Unnamed: 0,title,authors,type,year_correct,year_number,collected_by,number_authors,Erstautor,num_auth
1000,BIB Fundgrube Fachinformation Grüne Bibliothek...,[ Berufsverband Information Bibliothek e.V.],Publication,True,2021,Fabian,1,Berufsverband Information Bibliothek e.V.,1
1001,Bibliothek 2.0 : neue Perspektiven und Einsatz...,"[Michaela Selbach, Bibliothek der Fachhochsch.]",Publication,True,2007,Fabian,2,Michaela Selbach,2
1002,Service vor Ort? Die Bibliothek geht zum Nutzer,[Manuela Schulz],Publication,True,2010,Fabian,1,Manuela Schulz,1
1003,Wissenschaft online. Elektronisches Publiziere...,[Beate Tröger],Publication,True,2000,Fabian,1,Beate Tröger,1
1004,Bibliothek 2.0 -- Wird alles anders?,"[Patrick Danowski, Lambert Heller]",Publication,True,2007,Fabian,2,Patrick Danowski,2
...,...,...,...,...,...,...,...,...,...
1995,Die Erfindung der Nation: zur Karriere eines f...,[Benedict R. O'G. Anderson],Publication,True,2005,Fabian,1,Benedict R. O'G. Anderson,1
1996,Der Islam: Eine Einführung,[Annemarie Schimmel],Publication,True,1997,Fabian,1,Annemarie Schimmel,1
1997,Vom Kriege: Auswahl,[Carl von Clausewitz],Publication,True,1995,Fabian,1,Carl von Clausewitz,1
1998,Minima Moralia. Reflexionen aus dem beschädigt...,[Theodor Wiesengrund Adorno],Publication,True,1951,Fabian,1,Theodor Wiesengrund Adorno,1


#### Wie kann ich das überprüfen, dass die JSON Datei auch die richtige Form hat? -> Ihr habt im Notebook unter Export JSON einene Abschnitt mit #check if it looks correct. -> könntet ihr bitte darauf eingehen was genau da passiert und warum man davon ableitet dass die JSON korrekt aussieht?

In [183]:
df_bibsonomy_selection.to_json("data/output_no-orient.json")

In [184]:
# check, if it look correct
with open("data/output_no-orient.json", "r") as f:
    j_load = json.load(f)
    print(json.dumps(j_load, indent=2))

{
  "title": {
    "1000": "BIB Fundgrube Fachinformation Gr\u00fcne Bibliothek. BibInfo",
    "1001": "Bibliothek 2.0 : neue Perspektiven und Einsatzm\u00f6glichkeiten f\u00fcr wissenschaftliche Bibliotheken",
    "1002": "Service vor Ort? Die Bibliothek geht zum Nutzer",
    "1003": "Wissenschaft online. Elektronisches Publizieren in Bibliothek und Hochschule",
    "1004": "Bibliothek 2.0 -- Wird alles anders?",
    "1005": "Bibliothek 2. 0: Die Zukunft der Bibliothek?",
    "1011": "Akademische Soziale Netzwerke und ihre Auswirkungen auf wissenschaftliche Bibliotheken",
    "1012": "Netzwerk \u201eGr\u00fcne Bibliothek\u201c gegr\u00fcndet",
    "1013": "Und wo sind hier die B\u00fccher? Bibliothek der Zukunft",
    "1014": "Bibliothek - Mythos, Metapher, Maschine oder: Der ort der Bibliothek in der Lebenswelt der Stadt",
    "1015": "Telefonzelle wird zu Bibliothek",
    "1017": "Die Gr\u00fcne Bibliothek der Nachbarschaft",
    "1018": "Die unheimliche Bibliothek : Erz\u00e4hlung"

#### Ich hatte in Fabians Repositorium das Problem, dass ich das Notebook zbiw-data-librarian-module2-1.ipynb nicht direkt aufrufen konnte. Über den Download ging es. Die beiden anderen Notebooks konnte ich problemlos direkt öffnen. Soll das so sein? Woran liegt das?

Antwort: ganz einfach, die Datei ist zu groß um von GitHub dargestellt zu werden! 

### Weitere Dateiformate
Pandas ist in der Lage, noch eine Vielzahl anderer Dateiformate zu erzeugen (und einzulesen). Dazu gehören: [Excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html#pandas.DataFrame.to_excel), [XML](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_xml.html) und viele weitere. Eine vollständige Übersicht findet sich [hier](https://pandas.pydata.org/docs/reference/io.html).

## Ressourcen zu Pandas
- [offizieller User Guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
- [offizielle API](https://pandas.pydata.org/docs/reference/index.html#api) mit detaillierten Informationen zu allen Mothoden
- [W3 Schools Pandas Tutorial](https://www.w3schools.com/python/pandas/default.asp) mit vielen Übungen und Quizes, sowie detaillierten Erläuterungen und Beispielen
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) – eine kompakte Übersicht vieler oft genutzter Funktionen
