# Wie viele einzigartige Klassifaktionen werden genutzt?
## Welche kommt am häufigsten vor?
---

In diesem Notebook wurde sich mit der Verteilung der Klasifikationen beschäftigt. Wie viele verschiedene Klassifikationen wurden im Dataset vergeben? Welche Klassifikation kommt am häufigsten vor?  

Bei der beantwortung der ersten Frage wurde aus dem Datenset die Spalte "Dewey classification" angesprochen, diese sortiert und Dubletten beseitigt, weil herausgefunden werden sollte welche *verschiedenen* Klassifikationen vergeben wurden. Nach dieser Filterung werden die Daten nach Klassifikation angezeigt und in einer Variablen abgelegt. Über die ".count" Operation kann hier ausgegeben werden wie viele Zeilen es gibt = wie viele Klassifikationen wurden verwendet. Über die ".max" Operation konnte ausgegeben werden wie oft die meistverwendete Klassifikation genutzt wurde, jedoch noch nicht welche das war.  

Bei der Frage nach der häufigsten gab es zunächst schweirigkeiten, das Ergebnis auszugeben, da das zugreifen auf einen nicht definierten Index nicht möglich schien.  
Über eine neue PythonLibrary konnte hier das Ergebnis dann ausgegeben werden.

In [1]:
import pandas as pd

In [2]:
titles_datei = pd.read_csv("data/titles.csv")
# Einlesen der CSV Datei

In [3]:
titles_datei["Dewey classification"].sort_values().unique()
# Das Datenset nach den Dewey classifications filtern und Dubletten rausnehmen. Aufsteigend sortiert.

array(['016.8218', '016.8238', '016.828809', '018.2', '100', '121',
       '160.924', '203.50942574', '294.3927', '328.3347', '372.60440941',
       '378.42574 ; 378.4257409', '395', '421.1', '428.13', '428.6',
       '428.64', '510', '511.3', '511.3071', '513.211', '516', '526.9',
       '613.25', '614.47', '616.8', '641.5', '658.4012', '701',
       '704.9498238', '740', '741', '741.018', '741.5', '741.5941',
       '741.5942', '741.5946', '741.597', '741.5973', '741.64',
       '741.64092', '741.642', '741.642092', '741.6420924', '741.6420947',
       '741.942', '745.5924', '745.61', '745.7', '746.434043', '769.92',
       '770.92', '770.924', '779.092', '779.20922', '779.20924',
       '779.240924', '780', '782.1', '782.14', '782.140268', '782.14083',
       '782.542', '782.543', '782.642', '782.65542', '782.7542',
       '783.1242', '783.242', '783.342', '783.3542', '783.4542', '783.96',
       '784.22184', '784.7083', '784.8156', '785.24195', '785.8361931858',
       '786.2', '78

In [4]:
titles_by_classification = titles_datei.groupby("Dewey classification").count()

In [5]:
titles_by_classification
# Ansicht der Liste nach der Klassifikationen sortiert

Unnamed: 0_level_0,Title,Other titles,BL record ID,Type of resource,Content type,Material type,BNB number,Archival Resource Key,ISBN,Name,...,Publisher,Date of creation/publication,Edition,Physical description,BL shelfmark,Topics,Genre,Languages,Notes,Provenance
Dewey classification,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
016.8218,2,0,2,2,2,2,2,0,2,2,...,1,2,0,2,1,2,2,2,1,0
016.8238,2,2,2,2,2,2,2,0,0,0,...,2,2,0,2,2,2,2,2,2,0
016.828809,8,2,8,8,8,8,6,0,8,7,...,8,8,3,8,8,8,4,8,5,0
018.2,2,0,2,2,2,2,0,0,2,0,...,2,2,0,1,2,2,0,2,0,0
100,1,0,1,1,1,1,1,0,1,1,...,1,1,0,1,1,1,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
920,1,0,1,1,1,1,0,0,0,1,...,0,1,0,0,1,0,0,1,0,0
929.20942,1,0,1,1,1,1,1,0,1,1,...,1,1,0,1,1,1,0,1,1,0
942.718,2,0,2,2,2,2,2,0,2,1,...,2,2,0,2,2,2,0,2,1,0
942.871,1,0,1,1,1,1,1,0,1,1,...,1,1,0,1,1,1,0,1,0,0


In [6]:
titles_by_classification.count()

Title                           164
Other titles                    164
BL record ID                    164
Type of resource                164
Content type                    164
Material type                   164
BNB number                      164
Archival Resource Key           164
ISBN                            164
Name                            164
Dates associated with name      164
Type of name                    164
Role                            164
All names                       164
Series title                    164
Number within series            164
Country of publication          164
Place of publication            164
Publisher                       164
Date of creation/publication    164
Edition                         164
Physical description            164
BL shelfmark                    164
Topics                          164
Genre                           164
Languages                       164
Notes                           164
Provenance                  

In [7]:
titles_by_classification["Title"].count()
# Wie viele Klassifikationen werden insgesamt genutzt?
# Statt einer Liste als Ergebnis zu haben, wird nur eine Spalte zum zählen der Anzahl der Klassifikationen benutzt.

164

In [8]:
titles_by_classification["Title"].max()
# Welche Klassifikatioen am meisten Verwendung findet?

1198

---
# Test, ob wir ausgeben können, welche der klassifikationen am meisten verwendet wird.

In [9]:
titles_by_classification
pd.options.display.max_rows = 200

In [10]:
titles_by_classification

Unnamed: 0_level_0,Title,Other titles,BL record ID,Type of resource,Content type,Material type,BNB number,Archival Resource Key,ISBN,Name,...,Publisher,Date of creation/publication,Edition,Physical description,BL shelfmark,Topics,Genre,Languages,Notes,Provenance
Dewey classification,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
016.8218,2,0,2,2,2,2,2,0,2,2,...,1,2,0,2,1,2,2,2,1,0
016.8238,2,2,2,2,2,2,2,0,0,0,...,2,2,0,2,2,2,2,2,2,0
016.828809,8,2,8,8,8,8,6,0,8,7,...,8,8,3,8,8,8,4,8,5,0
018.2,2,0,2,2,2,2,0,0,2,0,...,2,2,0,1,2,2,0,2,0,0
100,1,0,1,1,1,1,1,0,1,1,...,1,1,0,1,1,1,0,1,0,0
121,2,2,2,2,2,2,0,0,2,2,...,2,2,0,2,2,2,0,2,2,0
160.924,1,0,1,1,1,1,1,0,0,1,...,0,1,0,1,1,1,0,1,1,0
203.50942574,2,2,2,2,2,2,2,0,2,2,...,2,2,0,2,2,2,0,2,2,0
294.3927,2,2,2,2,2,2,2,0,2,2,...,2,2,0,2,2,2,0,2,0,0
328.3347,2,2,2,2,2,2,2,0,2,2,...,2,2,0,2,2,2,0,2,0,0


In [11]:
vier = titles_by_classification["Title"].max()

In [12]:
vier

1198

In [13]:
type(titles_by_classification)

pandas.core.frame.DataFrame

In [14]:
titles_by_classification.index

Index(['016.8218', '016.8238', '016.828809', '018.2', '100', '121', '160.924',
       '203.50942574', '294.3927', '328.3347',
       ...
       '894.533', '895.636', '914.25740486', '914.2847', '914.7048', '920',
       '929.20942', '942.718', '942.871', '942.921'],
      dtype='object', name='Dewey classification', length=164)

In [15]:
fünf = titles_by_classification["Title"].loc["823.8"]

In [16]:
fünf

1198

In [17]:
sechs = max(titles_by_classification, key = titles_by_classification.get(1198))

In [18]:
sechs

'Type of resource'

In [40]:
import operator # Operator wird für die Funktion gebraucht
keyMax = max(titles_by_classification["Title"].items(), key = operator.itemgetter(1))[0]
# Mit keymax wird eine Variable definiert. 
# 
print("Die Dewey Classification", keyMax, "kommt mit", vier, "am häufigsten vor!")

Die Dewey Classification 823.8 kommt mit 1198 am häufigsten vor!
