## Modul 2_1: Daten einlesen und als dataframe speichern

### Methode 1: Paket json

In [2]:
import json
import urllib.request
import urllib.parse
import pandas as pd

In [10]:
url = "https://www.bibsonomy.org/json/search/unternehmen?items=1000&duplicates=merged"

In [11]:
f = urllib.request.urlopen(url) #f ist eine HTTP Response durch öffnen der definierten URL
result = f.read().decode('utf-8') # utf-8 meist das richtige Format

In [18]:
type(result) # Ergebnis ist str, muss als JSON verarbeitet werden (Ergebnis = dict)

<class 'requests.models.Response'>


In [13]:
data = json.loads(result) # json.loads() lädt JSON Daten aus einem String
type(data)

<class 'dict'>


### Methode 2: Paket requests (third-party library)

In [2]:
import requests

In [3]:
url = "https://www.bibsonomy.org/json/search/unternehmen?items=1000&duplicates=merged"

In [4]:
result = requests.get(url) # result ist ein requests.models.Response Objekt

In [5]:
data = result.json() #response Obejkt bietet diese Mehode an
type (data)

dict

### Daten lesen und bearbeiten

In [19]:
print(data) #sehr unübersichtlich ohne Einrückungen

{'types': {'Bookmark': {'pluralLabel': 'Bookmarks'}, 'Publication': {'pluralLabel': 'Publications'}, 'GoldStandardPublication': {'pluralLabel': 'GoldStandardPublications'}, 'GoldStandardBookmark': {'pluralLabel': 'GoldStandardBookmarks'}, 'Tag': {'pluralLabel': 'Tags'}, 'User': {'pluralLabel': 'Users'}, 'Group': {'pluralLabel': 'Groups'}, 'Sphere': {'pluralLabel': 'Spheres'}}, 'properties': {'count': {'valueType': 'number'}, 'date': {'valueType': 'date'}, 'changeDate': {'valueType': 'date'}, 'url': {'valueType': 'url'}, 'id': {'valueType': 'url'}, 'tags': {'valueType': 'item'}, 'user': {'valueType': 'item'}}, 'items': [{'type': 'Bookmark', 'id': 'https://www.bibsonomy.org/url/4fc050ac134e9cb060539542888f5dea/meneteqel', 'tags': ['unternehmen', 'betrvg119', 'betriebsrat', 'mobbing', 'privatisierung'], 'intraHash': '4fc050ac134e9cb060539542888f5dea', 'label': 'Staatliche Unternehmen: Betriebsräte im Schlussverkauf (Spiegel Online 07.02.2011)', 'user': 'meneteqel', 'description': 'Der Vor

In [8]:
print(json.dumps(data, indent = 2)) # besser lesbare Ausgabe
# gleiches wird durch Nutzung von pprint (pretty print) erreicht 
# from pprint import pprint
# pprint(data)

{
  "types": {
    "Bookmark": {
      "pluralLabel": "Bookmarks"
    },
    "Publication": {
      "pluralLabel": "Publications"
    },
    "GoldStandardPublication": {
      "pluralLabel": "GoldStandardPublications"
    },
    "GoldStandardBookmark": {
      "pluralLabel": "GoldStandardBookmarks"
    },
    "Tag": {
      "pluralLabel": "Tags"
    },
    "User": {
      "pluralLabel": "Users"
    },
    "Group": {
      "pluralLabel": "Groups"
    },
    "Sphere": {
      "pluralLabel": "Spheres"
    }
  },
  "properties": {
    "count": {
      "valueType": "number"
    },
    "date": {
      "valueType": "date"
    },
    "changeDate": {
      "valueType": "date"
    },
    "url": {
      "valueType": "url"
    },
    "id": {
      "valueType": "url"
    },
    "tags": {
      "valueType": "item"
    },
    "user": {
      "valueType": "item"
    }
  },
  "items": [
    {
      "type": "Bookmark",
      "id": "https://www.bibsonomy.org/url/4fc050ac134e9cb060539542888f5dea/meneteqel

In [9]:
print(data.keys()) #Anzeige der vorhandenen Keys

dict_keys(['types', 'properties', 'items'])


In [12]:
eintraege = data['items']
print(type(eintraege))
print(len(eintraege))

<class 'list'>
2000


In [14]:
pubs = [i for i in eintraege if i['type'] == 'Publication'] # gibt alle einträge aus die Pub. sind
print(len(pubs))


1000


In [17]:
# andere mögliche Schreibweise, weniger verschachtelt, mit for Schleife
pubs = []
for i in eintraege:
    if i['type'] == 'Publication': pubs.append(i)
print(len(pubs))

1000


In [16]:
pubs_with_abstract = [i for i in pubs if 'abstract' in i] # zeigt alle Pubs. mit abstract
print(len(pubs_with_abstract))

120


### Sprache in Dokumenten überprüfen

In [18]:
from langdetect import detect # einfache, aber nicht komplett fehlerfreie Methode um Sprache in Textdaten zu prüfen

ModuleNotFoundError: No module named 'langdetect'

In [20]:
bsp1 = "Ein Beispieltstring auf Deutsch."
detect(bsp1)

In [None]:
bsp2 = "Some sample text in English."
detect(bsp2)

In [None]:
pubs_german = [i for i in pubs if detect(i['label']) == 'de']
len(pubs_german)

### JSON Dateien schreiben

JSON Objekte können zur Persistierung als textdatei gespeichert werden. Dafür gibt es die Funktion json.dump mit den Parametern Daten(Dictionary oder List), Objekt und Anzahl der Leerezichen für Einrückungen.

In [23]:
with open('pubs_abstract.json', 'w') as outfile:
    json.dump(pubs_with_abstract, outfile, indent=2)

weitere Funktion ist json.dumps. Diese gibt JSON-String zurück, wie er in die Datei geschrieben würde, ohne dies tatsächlich zu tun (dumps == dump as string). So kann man das Ausgabe Ergebnis vorher überprüfen.

In [24]:
print(json.dumps(pubs_with_abstract, indent = 2))

[
  {
    "type": "Publication",
    "id": "https://www.bibsonomy.org/bibtex/2a2d84ae6df6af9f121b8f9dedd19843f/meneteqel",
    "tags": [
      "hrm",
      "management",
      "digitalisierung",
      "demokratie",
      "partizipationsrecht",
      "demokratisches_unternehmen",
      "mitbestimmung"
    ],
    "intraHash": "a2d84ae6df6af9f121b8f9dedd19843f",
    "interHash": "c069931b0e5c2b85671c698b82ba8689",
    "label": "Das demokratische Unternehmen : Neue Arbeits- und F\u00fchrungskulturen im Zeitalter digitaler Wirtschaft",
    "user": "meneteqel",
    "description": "",
    "date": "2015-10-21 09:23:34",
    "changeDate": "2015-10-21 09:24:49",
    "count": 2,
    "pub-type": "book",
    "series": "Haufe Fachbuch",
    "publisher": "Haufe-Lexware",
    "address": "Freiburg im Breisgau",
    "year": "2015",
    "url": "http://shop.haufe.de/das-demokratische-unternehmen?adword=google/A_A_001_Allg_Buecher_Autoren_01429721/001_Thomas_Sattelberger_pool_Demokratische-Unternehmen/das%

## Dateiformate in Pandas - series und dataframes

Es gibt zwei grundlegende Objekttypen. Series: funktioniert wie eine Liste mit Indices. Dataframe: aggregiert Series Obejkte zu einer tabellarischen Struktur. Series Obejkte stellen die Spalten einer Tabelle dar. 

In [25]:
list_of_strings = ["Value 1", "Value 2", "Value 3"]
list_of_integers = [3, 6, 8]

In [26]:
series = pd.Series(list_of_integers, index = list_of_strings) # series objekt kann im gegensatz zu einfacher Liste auch labels haben
print(series)

Value 1    3
Value 2    6
Value 3    8
dtype: int64


In [27]:
# auch über dictionary kann ein series objekt erzeugt werden
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250}
series_verkaeufe = pd.Series(verkaeufe)
print(series_verkaeufe)

Tag 1    120
Tag 2    330
Tag 3    250
dtype: int64


In [30]:
# Zugriff auf Values kann erfolge über 1) index Name oder 2) index Position
# bei dictionarys geht das nicht, da sie unsortiert sind
series_verkaeufe["Tag 2"]
series_verkaeufe[1] # Achtung! Zeile ist ist Position 0, daher hier 2x der gleiche Wert 330
# Außerdem gibt es eine Warnmeldung "Treating keys as positions is deprecated."

  series_verkaeufe[1] # Achtung! Zeile ist ist Position 0, daher hier 2x der gleiche Wert 330


330

In [31]:
series_verkaeufe.to_list() #liefert die Elemente eines series objektes als Liste

[120, 330, 250]

In [32]:
for i in series_verkaeufe: # series objekte sind iterierbar
    print(i)

120
330
250


In [33]:
# Erstellung von dataframes aus Listen
data1 = {
  "list1": [420, 380, 390],
  "list2": [50, 40, 45] # Achtung! Listen müssen dieselbe Länge haben
}

df_1 = pd.DataFrame(data1)
df_1

Unnamed: 0,list1,list2
0,420,50
1,380,40
2,390,45


In [35]:
# erstellung von dataframes aus dictionaries
# Einzelwerte werden für alle Einträge des dictionary eingetragen
data_dict = {
 "date" : "31.01.2022",
 "time" : ["08:22", "08:55", "09:21", "10:40", "11:30"],
 "value" : [12, 23, 3, 12, 3]    
}

df_2 = pd.DataFrame(data_dict)
df_2

Unnamed: 0,date,time,value
0,31.01.2022,08:22,12
1,31.01.2022,08:55,23
2,31.01.2022,09:21,3
3,31.01.2022,10:40,12
4,31.01.2022,11:30,3


In [3]:
# dataframes können aus mehreren dictionaries erstellt werden
# so können auch dictionaries unterschiedlicher Länge zusammengeführt werden
verkaeufe = {"Tag 1": 120, "Tag 2": 330, "Tag 3": 250, "Tag 4": 270}
einnahmen = {"Tag 1": 450, "Tag 2": 1210, "Tag 3": 760, "Tag 4": 950, "Tag 5": 350}

# erstellen aus Liste von dictionaries:
df_3 = pd.DataFrame([verkaeufe, einnahmen], index = ["verkäufe", "einnahmen"])
df_3

Unnamed: 0,Tag 1,Tag 2,Tag 3,Tag 4,Tag 5
verkäufe,120,330,250,270,
einnahmen,450,1210,760,950,350.0


In [4]:
# mit ".T" kann ein Dataframe transponiert werden, wir tauschen also Zeilen und Spalten
df_3transposed = df_3.T
df_3transposed

Unnamed: 0,verkäufe,einnahmen
Tag 1,120.0,450.0
Tag 2,330.0,1210.0
Tag 3,250.0,760.0
Tag 4,270.0,950.0
Tag 5,,350.0


In [40]:
# Über .info() und .describe() lassen sich einfach Informationen über DataFrames abrufen:
df_3transposed.info()
df_3transposed.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Tag 1 to Tag 5
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   verkäufe   4 non-null      float64
 1   einnahmen  5 non-null      float64
dtypes: float64(2)
memory usage: 292.0+ bytes


Unnamed: 0,verkäufe,einnahmen
count,4.0,5.0
mean,242.5,744.0
std,88.45903,354.090384
min,120.0,350.0
25%,217.5,450.0
50%,260.0,760.0
75%,285.0,950.0
max,330.0,1210.0


In [5]:
# Zugriff auf Spalten eines Dataframes (Spalte = series objekt)
df_3transposed["verkäufe"] 
# oder df_3transposed.verkäufe

Tag 1    120.0
Tag 2    330.0
Tag 3    250.0
Tag 4    270.0
Tag 5      NaN
Name: verkäufe, dtype: float64

In [7]:
# Zugriff auf Spalten und Zeilennamen (indices) eines Dataframes
df_3transposed.columns
df_3transposed.columns.to_list() # auch hier to_list möglich
df_3transposed.index.to_list()

['Tag 1', 'Tag 2', 'Tag 3', 'Tag 4', 'Tag 5']

## JSON Datei mit Pandas einlesen und bearbeiten

In [8]:
# einlesen von abgespeicherten Datensätzen
df_unt = pd.read_json("pubs_abstract.json")
df_unt

In [10]:
# einlesen von Daten aus Bibsonomy
import requests
url = "https://www.bibsonomy.org/json/search/unternehmen?items=1000&duplicates=merged"
result = requests.get(url) # result ist ein requests.models.Response Objekt
data = result.json() # das Response-Objekt bietet diese nützliche Methode an

In [11]:
data.keys()

dict_keys(['types', 'properties', 'items'])

In [12]:
# Hier zum Beispiel der 6. Eintrag von items
data["items"][5]

{'type': 'Bookmark',
 'id': 'https://www.bibsonomy.org/url/d301c284fd05570eb355d8f6f008ed2e/zwobot',
 'tags': ['Podcast'],
 'intraHash': 'd301c284fd05570eb355d8f6f008ed2e',
 'label': "podpimp's poodel wiki / Podcasts von Unternehmen und Marken",
 'user': 'zwobot',
 'description': 'Podcasts von Unternehmen, Marken und Institutionen und Deutschland',
 'date': '2008-01-10 19:57:14',
 'changeDate': '2008-01-11 17:31:16',
 'count': 2,
 'url': 'http://podpimp.pbwiki.com/Podcasts+von+Unternehmen+und+Marken'}

In [13]:
# Da 'items' eiNE Liste von dictionaries, können sie als dataframe mit pandas eingelesen werden
df_unt = pd.DataFrame(data["items"])

In [14]:
df_unt

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,citeulike-linkout-4,imtm-standort,issn,dewey,review,dnbtitleid,date-added,date-modified,groupsearch,entrytype
0,Bookmark,https://www.bibsonomy.org/url/4fc050ac134e9cb0...,"[unternehmen, betrvg119, betriebsrat, mobbing,...",4fc050ac134e9cb060539542888f5dea,Staatliche Unternehmen: Betriebsräte im Schlus...,meneteqel,Der Vorwurf der Gewerkschaften ist pikant. Unt...,2012-01-18 16:59:42,2012-01-19 20:02:26,1,...,,,,,,,,,,
1,Bookmark,https://www.bibsonomy.org/url/1239428ed6d8a97d...,"[cafe, alternativ, unternehmen, basel, kaffee,...",1239428ed6d8a97d43392c014f3edd6f,unternehmen mitte basel,tobidiplom,,2008-07-31 15:18:43,2008-07-31 15:18:43,1,...,,,,,,,,,,
2,Bookmark,https://www.bibsonomy.org/url/83a50f1e9feb2c64...,"[unternehmen, socialmedia, importmw]",83a50f1e9feb2c64ac529fa8d27729cc,Unternehmen fehlen die Strukturen fr Social Me...,textundblog,Soziale Medien sind in vielen Unternehmen ein ...,2013-06-28 16:41:36,2013-06-28 16:41:36,1,...,,,,,,,,,,
3,Bookmark,https://www.bibsonomy.org/url/133fef01d7a4636e...,"[Unternehmenskommunikation, Twitter]",133fef01d7a4636ee9557e4b92eb2000,Twitternde Unternehmen - Kategorie - Twittwoch...,zwobot,"Twitternde Unternehmen (28): @internet_world, ...",2009-09-21 12:39:28,2009-09-21 12:39:28,1,...,,,,,,,,,,
4,Bookmark,https://www.bibsonomy.org/url/b6fe240cad5d58ab...,"[Facebook, Unternehmen]",b6fe240cad5d58abff4b4f838d7648cd,Unternehmen: Was mit Facebook anstellen?,kooptech,ein paar Ideen,2007-12-03 09:52:01,2008-02-26 14:50:23,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,Publication,https://www.bibsonomy.org/bibtex/26560917779ff...,"[Multinationales_Unternehmen, Strategisches_Ma...",6560917779ffe8130d134e2d6b046005,Strategische Führung internationaler Unternehmen,fbw_hannover,,2009-08-21 10:31:17,2009-08-21 10:32:01,1,...,,,,,,,,,,
1996,Publication,https://www.bibsonomy.org/bibtex/28c8c3467a174...,"[Einflussgröße, Deutschland, Verarbeitendes_Ge...",8c8c3467a1741eb1e3748bb5d2c0aafc,Das Innovationsverhalten von Unternehmen,fbw_hannover,,2009-08-21 10:31:17,2009-08-21 10:31:53,1,...,,,,,,,,,,
1997,Publication,https://www.bibsonomy.org/bibtex/224c11bd07e66...,"[Finanzierung, Investition, Finanzmanagement, ...",24c11bd07e6664c2a0b63695830e8baf,Neue Finanzierungsinstrumente für Unternehmen,fbw_hannover,,2009-08-21 10:31:17,2009-08-21 10:31:38,1,...,,,,,,,,,,
1998,Publication,https://www.bibsonomy.org/bibtex/21d34bfc17f87...,[imported],1d34bfc17f8786555a815a8eca902ac8,Einschätzung durch hessische Unternehmen,fbw_hannover,,2009-08-21 09:55:59,2009-08-21 09:57:56,1,...,,,,,,,,,,


### Daten mit Pandas auswählen und bereinigen

In [15]:
df_unt.columns # Spalten anzeigen lassen

Index(['type', 'id', 'tags', 'intraHash', 'label', 'user', 'description',
       'date', 'changeDate', 'count', 'url', 'interHash', 'pub-type', 'series',
       'publisher', 'address', 'year', 'author', 'authors', 'abstract', 'isbn',
       'bibtexKey', 'booktitle', 'editor', 'editors', 'pages', 'journal',
       'language', 'refid', 'shorttitle', 'urldate', 'pagetotal', 'ppn_gvk',
       'subtitle', 'note', 'mendeley-tags', 'number', 'titel_uebersetzt',
       'sprache', 'beigaben', 'asin', 'typesource', 'ean', 'file', 'volume',
       '0', 'priority', 'at', 'posted-at', 'citeulike-article-id',
       'citeulike-linkout-1', 'citeulike-linkout-0', 'timestamp', 'owner',
       'location', 'tech', 'username', 'groups', 'ee', 'imtm-signatur',
       'imtm-fullref', 'imtm-code', 'imtm-inventarnummer', 'price', 'holdings',
       'doi', 'abtract', 'coverage', 'publisherplace', 'intrahash',
       'interhash', 'citeulike-linkout-5', 'citeulike-linkout-6',
       'citeulike-linkout-2', 'citeu

In [16]:
df_unt.author # Autor in vielen Fällen leer

0                                                 NaN
1                                                 NaN
2                                                 NaN
3                                                 NaN
4                                                 NaN
                            ...                      
1995                                              NaN
1996                                 [Horst Rottmann]
1997                                              NaN
1998                                [Vera Gretz-Roth]
1999    [Notker Küng, Siegfried Neumann, Karin Rögge]
Name: author, Length: 2000, dtype: object

In [17]:
df_unt.year # Jahr in vielen Fällen leer

0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
        ... 
1995    1996
1996    1995
1997    1996
1998    1991
1999    1987
Name: year, Length: 2000, dtype: object

In [18]:
# Über das Format DataFrame[["v1", "v2", "v3", "v4"]] lässt sich eine Ansicht ausgeben, das nur die angegebenen Spalten enthält
# ursprüngliches dataframe wird nicht überschrieben
df_unt[["label", "author", "year"]]

Unnamed: 0,label,author,year
0,Staatliche Unternehmen: Betriebsräte im Schlus...,,
1,unternehmen mitte basel,,
2,Unternehmen fehlen die Strukturen fr Social Me...,,
3,Twitternde Unternehmen - Kategorie - Twittwoch...,,
4,Unternehmen: Was mit Facebook anstellen?,,
...,...,...,...
1995,Strategische Führung internationaler Unternehmen,,1996
1996,Das Innovationsverhalten von Unternehmen,[Horst Rottmann],1995
1997,Neue Finanzierungsinstrumente für Unternehmen,,1996
1998,Einschätzung durch hessische Unternehmen,[Vera Gretz-Roth],1991


In [19]:
# Zeilen im dataframe filtern nach Kriterien mit .loc (locate)
# Daten auswählen, wo in Spalte "author" ein Wert eingetragen ist
df_unt_select = df_unt.loc[df_unt["author"].isnull() == False]
df_unt_select

Unnamed: 0,type,id,tags,intraHash,label,user,description,date,changeDate,count,...,citeulike-linkout-4,imtm-standort,issn,dewey,review,dnbtitleid,date-added,date-modified,groupsearch,entrytype
1000,Publication,https://www.bibsonomy.org/bibtex/2a2d84ae6df6a...,"[hrm, management, digitalisierung, demokratie,...",a2d84ae6df6af9f121b8f9dedd19843f,Das demokratische Unternehmen : Neue Arbeits- ...,meneteqel,,2015-10-21 09:23:34,2015-10-21 09:24:49,2,...,,,,,,,,,,
1001,Publication,https://www.bibsonomy.org/bibtex/2f66273523087...,"[_todo, elearning, enterprise, 2011, L3T]",f66273523087131974a96d8ccf3904c8,Technologieeinsatz beim Lernen in Unternehmen,trude,,2010-10-20 10:33:49,2010-10-20 10:33:49,1,...,,,,,,,,,,
1002,Publication,https://www.bibsonomy.org/bibtex/28d0e4ed632df...,"[Beschaffungswesen, Exporte, Studienkritik, Ze...",8d0e4ed632df9b6fc5b3f6904f2012d9,Studie: Was bedeutet TTIP für kleinere und mit...,ttip-attac,Vorläuferstudie für die Arbeit zu kleinen und ...,2016-03-23 15:51:23,2016-03-23 15:51:23,1,...,,,,,,,,,,
1004,Publication,https://www.bibsonomy.org/bibtex/252a1f1ba8715...,[myown],52a1f1ba87158591e9c71207ec1b5af3,Wie Unternehmen KI-Datenmanagementprojekte erf...,bluedolphin,,2020-12-23 23:18:41,2020-12-23 23:18:41,1,...,,,,,,,,,,
1005,Publication,https://www.bibsonomy.org/bibtex/2a79ebe33c737...,"[Arbeitswelt, Demokratisierung, Digitalisierung]",a79ebe33c737583dbbf5b8c0c204d42f,Das demokratische Unternehmen : neue Arbeits- ...,meneteqel,,2017-07-28 13:11:53,2017-07-28 13:11:53,2,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1992,Publication,https://www.bibsonomy.org/bibtex/28525f58f541c...,"[collective_intelligence, social_tagging, ente...",8525f58f541c41edf5dcb1d79a45b63b,Social software in Unternehmen,cirrus,,2009-07-19 18:52:48,2009-07-19 18:52:48,1,...,,,,,,,,,,
1994,Publication,https://www.bibsonomy.org/bibtex/267cbef74acbb...,"[Finanzierung, Investition, Klein-_und_Mittelb...",67cbef74acbba87a7c72ef39e5777159,Exklusive Finanzierung mittelständischer Unter...,fbw_hannover,,2009-08-21 09:59:23,2009-08-21 10:01:34,1,...,,,,,,,,,,
1996,Publication,https://www.bibsonomy.org/bibtex/28c8c3467a174...,"[Einflussgröße, Deutschland, Verarbeitendes_Ge...",8c8c3467a1741eb1e3748bb5d2c0aafc,Das Innovationsverhalten von Unternehmen,fbw_hannover,,2009-08-21 10:31:17,2009-08-21 10:31:53,1,...,,,,,,,,,,
1998,Publication,https://www.bibsonomy.org/bibtex/21d34bfc17f87...,[imported],1d34bfc17f8786555a815a8eca902ac8,Einschätzung durch hessische Unternehmen,fbw_hannover,,2009-08-21 09:55:59,2009-08-21 09:57:56,1,...,,,,,,,,,,


In [20]:
# Daten auswählen, wo in Spalte "type" der Wert "Publication" ist
df_unt_select = df_unt_select.loc[df_unt_select.type == "Publication"]

In [21]:
# Über ".drop_duplicates" lassen sich doppelte Einträge entfernen
# keep = "first" lässt uns jeweils die erste Zeile der Zeilen, die mehrfach vorkommen behalten
df_unt_select = df_unt_select.drop_duplicates(subset = "label", keep = "first")

In [None]:
# Filtern nach einem bestimmten Wert in der Spalte "year" nicht möglich, da Daten nicht numerisch
df_unt_select = df_unt_select.loc[df_unt_select["year"] > 2010]

In [22]:
# .unique() gibt alle Werte eines Series Objektes aus
df_unt["year"].unique()

array([nan, '2015', '2011', '2016', '2020', '2017', '2018', '2013',
       '2014', '2003', '1997', '1986', '2007', '2002', '2001', '1991',
       '2005', '2009', '1971', '2006', '1999', '2012', '1995', '2008',
       '1998', '2023', '1979', '1992', '1993', '1994', '1977', '1989',
       '2004', '1976', '1996', '2000', '1980', '2010', '1983', '1987',
       '1988', '1984', '1978', '1975', '1985', '1990', 'Februar 2018',
       '1981', '2019', '1982', 'September 2019', '-', '2021', 'März 2022',
       '2006?', 'Januar 2018', '2024', '1969', 'Januar 2020', '1972',
       '1974', 'März 2020', '1978 (EA 1961)', 'Oktober 2019', '1955',
       '1973', '1970', '1968', '1952', '1967', '1924', '1936', '1964',
       '1929', 'September 2020', '1949', '1963', '1948', '24.August 2009',
       '1937', '7/2006', '2004/november', '1966'], dtype=object)

In [23]:
# Über .apply kann eine Funktion auf jeden Wert einer Spalte angewendet werden
# "axis=1" beschreibt, dass Zeilenweise vorgegangen werden soll
# "lambda row:" beschreibt, dass row hier jede iteration, in diesem Fall jede Zeile beschreibt

# Wir schreiben eine neue Spalte "year_correct", in der über row.year.isdigit() überprüft wird,
# ob es der eintrag in "year" Zahl ist bzw. in eine Ganzzahl umgewandelt werden kann
df_unt["year_correct"] = df_unt.apply(lambda row: row.year.isdigit(), axis=1)

AttributeError: 'float' object has no attribute 'isdigit'

In [25]:
# es sollen nur zeile im dataframe bleiben mit einem echten jahreseintrag
df_unt = df_unt.loc[df_unt.year_correct == True]

AttributeError: 'DataFrame' object has no attribute 'year_correct'

In [None]:
f_bibsonomy_selection["year_number"] = df_bibsonomy_selection["year"].astype(int)