# Datenanalyse des "Library Collection Inventory" Datenset der Seattle Public Library

## Beschreibung des Datensets

Für die Datenananlyse wurde das "Library Collection Inventory" Datenset der Seattle Public Library ausgewählt. Das Datenset enthält Daten zu allen physischen Objekten der Seattle Public Library. Es sind insgemsamt 13 Spalten vorhanden, welche unter anderem Informationen zu Titel, Autor, ISBN, Erscheinungsjahr, spezifische thematische Schlagwörter, welche für ein Objekt vergeben worden sind und Informationen über den Standort eines Objekts enthalten.

## Fragestellungen

Es werden in der folgenden Analyse drei Fragestellungen/Hypothesen untersucht: 

1) Histogramm Publication Year: In welchem Jahr sind die meisten physischen Objekte in der Seattle Public Library erschienen?

2) Wie viele Objekte „schweben“ zur Zeit der letzten Momentaufnahme?

3) Wie viele Objekte gibt es zum Thema Computer Programming? 

## Datenanalyse

In [3]:
# Zunächst werden die Pakete "pandas", "seaborn" sowie "matplotlib.pyplot" importiert.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [4]:
url = "https://data.seattle.gov/resource/6vkj-f5xf.csv"
spl = pd.read_csv(url)

In [5]:
spl

Unnamed: 0,bibnum,title,author,isbn,publicationyear,publisher,subjects,itemtype,itemcollection,floatingitem,itemlocation,reportdate,itemcount
0,106278,The Sporting news' national football guide.,,,,Sporting News.,Football United States History Periodicals,arbk,cs8r,,cen,2017-09-01T00:00:00.000,1
1,442617,,,,,,,acmus,camus,,cen,2017-09-01T00:00:00.000,1
2,2748722,You can get there from here : my journey from ...,"Knowling, Bob","1591844223, 9781591844228",2011.,"Portfolio/Penguin,","Knowling Bob, African American businesspeople ...",acbk,naaanf,,dth,2017-09-01T00:00:00.000,1
3,2881800,Naomi [sound recording] / the Cave Singers.,Cave Singers,,p2013.,"Jagjaguwar,","Popular music 2011 2020, Rock music 2011 2020",accd,naover,,gwd,2017-09-01T00:00:00.000,1
4,3181907,Bilgewater / Jane Gardam.,"Gardam, Jane","160945331X, 9781609453312",2016.,"Europa Editions,","Teenage girls Fiction, Teenagers Fiction, Boar...",acbk,nafic,,qna,2017-09-01T00:00:00.000,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,2035646,Friedrich Hayek : a biography / Alan Ebenstein.,"Ebenstein, Alan O.",0312233442,2001.,"St. Martin's Press,",Hayek Friedrich A von Friedrich August 1899 19...,acbk,canf,,cen,2017-09-01T00:00:00.000,1
996,3181802,The young Messiah [videorecording] / Focus Fea...,,,2016.,"Universal Pictures Home Entertainment,","Jesus Christ Drama, Feature films, Religious f...",acdvd,nadvd,Floating,dlr,2017-09-01T00:00:00.000,2
997,3042073,In the company of Sherlock Holmes : stories in...,,"1605986585, 9781605986586",2014.,"Pegasus Crime,","Holmes Sherlock Fiction, Watson John H Fictiti...",acbk,namys,Floating,mon,2017-09-01T00:00:00.000,1
998,2959621,The food parade : healthy eating with the nutr...,"Castaldi, Elicia","0805091769, 9780805091762",2013.,"Christy Ottaviano Books, Henry Holt and Company,","Diet Juvenile fiction, Children Nutrition Juve...",jcbk,ncnf,,dth,2017-09-01T00:00:00.000,1


Das Datenset wurde nicht vollständig importiert. Das originale Datenset enthält 66,2 Millionen Zeilen. Im Folgenden werden nur die übernommen 1000 Zeilen betrachtet.

## Fragestellung 1
#### Aus welchem Jahr stammen die meisten der vorhandenen physischen Objekte?
Im Folgenden  soll untersucht werden, wie viele Objekte in welchem Jahr erschienen sind und aus welchem Erscheinungsjahr die meisten Objekte vorhanden sind. Dazu soll ein Histogramm der Erscheinungsjahre ("publicationyear") erstellt werden. Hierbei ist zu berücksichtigen, dass die Fragestellung nicht eindeutig beantwortet werden kann, da nur 1000 der insgesamt 66,2 Millionen Zeilen betrachtet werden. Es kann aber eine Idee über die Verteilung der Erscheinungsjahre gewonnen werden. 

In [6]:
spl["publicationyear"]

0         NaN
1         NaN
2       2011.
3      p2013.
4       2016.
        ...  
995     2001.
996     2016.
997     2014.
998     2013.
999    [2015]
Name: publicationyear, Length: 1000, dtype: object

Es fällt auf, dass es schwierig wird, die Daten zu visualisieren, da die Erscheinungsjahre als "Plain Text" abgelegt sind. Für einige Objekte ist kein Erscheinungsjahr vorhanden (NaN), es steht ein Buchstabe davor (p2013.) oder das Erscheinungsjahr ist geklammert ([2015]).

In [7]:
spl.publicationyear.describe()

count        974
unique       245
top       [2016]
freq          54
Name: publicationyear, dtype: object

Eine Beschreibung des Datensets ergibt, dass für 974 der 1000 Objekte ein Erscheinungsjahr hinterlegt ist. Insgesamt stammen die Objekte aus 245 verschiedenen Erscheinungsjahren.
Um eine Antwort auf die Fragestellung zu finden, müssen die Daten als integer und nicht als PlainText vorliegen.

## Fragestellung 2
#### Wie viele Objekte „schweben“ zur Zeit der letzten Momentaufnahme?

In [9]:
spl["floatingitem"]

0           NaN
1           NaN
2           NaN
3           NaN
4           NaN
         ...   
995         NaN
996    Floating
997    Floating
998         NaN
999         NaN
Name: floatingitem, Length: 1000, dtype: object

In [8]:
spl.floatingitem.describe()

count          145
unique           1
top       Floating
freq           145
Name: floatingitem, dtype: object

Innerhalb der Variable "floatingitem" sind nur zwei Werte vertreten: "NaN" und "Floating". Mithilfe der Funktion "describe()" konnte herausgefunden werden, dass 145 der 1000 Objekte sich im Status "Floating" befinden. 

## Fragestellung 3
#### Wie viele physische Objekte gibt es zum Thema Computer Programming? 

In [10]:
spl["subjects"]

0             Football United States History Periodicals
1                                                    NaN
2      Knowling Bob, African American businesspeople ...
3          Popular music 2011 2020, Rock music 2011 2020
4      Teenage girls Fiction, Teenagers Fiction, Boar...
                             ...                        
995    Hayek Friedrich A von Friedrich August 1899 19...
996    Jesus Christ Drama, Feature films, Religious f...
997    Holmes Sherlock Fiction, Watson John H Fictiti...
998    Diet Juvenile fiction, Children Nutrition Juve...
999    DeMarco Joe Fictitious character Fiction, Gove...
Name: subjects, Length: 1000, dtype: object

In [11]:
spl.subjects.describe()

count                      951
unique                     927
top       Rock music 2011 2020
freq                         7
Name: subjects, dtype: object

Innerhalb der 1000 Objekte sind für 951 Daten innerhalb der Variable Subjects hinterlegt. Wie zu erwarten handelt es sich größtenteils um unterschiedliche Inhalte. Der Inhalt/das Thema das am häufigsten vorkommt (7-mal) ist "Rock music 2011 2020".
Im Folgenden soll untersucht werden, wie viele Werke der 1000 untersuchten Objekte das Thema "Computer Programming" behandeln.

Idee: for-Schleife, die den gesamten Datensatz durchläuft und für jede Zeile untersucht, ob der String "Computer Programming" im Feld subjects vorhanden ist. 
Um zu überprüfen, ob der String "Computer Programming" in subjects vorhanden ist, soll die Methode "__contains__" verwendet werden.

#### Testen der Methode contains

In [12]:
spl.subjects[0]

'Football United States History Periodicals'

In [13]:
spl.subjects[0].__contains__("Football")

True

In [14]:
spl.subjects[0].__contains__("Computer Programming")

False

Die Methode contains gibt einen Wahrheitswert zurück. Wenn der übergebene String im zu untersuchenden String enthalten ist, wird True zurückgegeben, ist dies nicht der Fall wird False zurückgegeben. 

In [15]:
spl.subjects[1].__contains__("Computer Programming")

AttributeError: 'float' object has no attribute '__contains__'

In der zweiten Zeile des Datensatzes befindet sich ein Eintrag, für den kein Subject, also der Wert NaN hinterlegt ist. Auf diesen kann die Funktion "contains" nicht angewendet werden. 

In [16]:
# Um mit den subjects arbeiten zu können, müssen diese zunächst in ein Dictionary umgewandelt werden.
# In der Variable Subjects wird der Inhalt der Spalte subjects aus dem Ausgangsdatensatz als Dictionary abgelegt.
subjects = dict(spl.subjects)

In [17]:
# Ausgabe des Dictionary subjects
print(subjects)

{0: 'Football United States History Periodicals', 1: nan, 2: 'Knowling Bob, African American businesspeople Biography, Success in business', 3: 'Popular music 2011 2020, Rock music 2011 2020', 4: 'Teenage girls Fiction, Teenagers Fiction, Boarding schools Fiction, Identity Psychology Fiction, England Fiction, Bildungsromans', 5: nan, 6: nan, 7: 'United States Federal Bureau of Investigation Drama, FBI Academy Behavioral Science Unit Drama, Criminal investigation Drama, Criminal behavior Prediction of Drama, Criminal profilers Drama, Television series, Fiction television programs, Television cop shows, Thrillers Television programs, Video recordings for the hearing impaired', 8: 'Cosby Bill 1937, Comedians United States Biography', 9: 'Aliksandrina Library History Juvenile literature, Libraries Egypt Alexandria Juvenile literature, Libraries Destruction and pillage Egypt Alexandria Juvenile literature, Cultural property Protection Juvenile literature, Egypt History 21st century Juvenile

In [19]:
# Ausgabe des Dictionary in schön
for i in subjects:
    print(subjects[i])

Football United States History Periodicals
nan
Knowling Bob, African American businesspeople Biography, Success in business
Popular music 2011 2020, Rock music 2011 2020
Teenage girls Fiction, Teenagers Fiction, Boarding schools Fiction, Identity Psychology Fiction, England Fiction, Bildungsromans
nan
nan
United States Federal Bureau of Investigation Drama, FBI Academy Behavioral Science Unit Drama, Criminal investigation Drama, Criminal behavior Prediction of Drama, Criminal profilers Drama, Television series, Fiction television programs, Television cop shows, Thrillers Television programs, Video recordings for the hearing impaired
Cosby Bill 1937, Comedians United States Biography
Aliksandrina Library History Juvenile literature, Libraries Egypt Alexandria Juvenile literature, Libraries Destruction and pillage Egypt Alexandria Juvenile literature, Cultural property Protection Juvenile literature, Egypt History 21st century Juvenile literature, Aliksandrina Library Juvenile literature

In [20]:
type(subjects[0])

str

In [21]:
type(subjects[1])

float

Mithilfe der Methode type konnte herausgefunden werden, dass die Datensätze, in denen unter subjects Daten hinterlegt sind, vom Typ String sind, während Daten, in denen keine Daten, also NaN hinterlegt ist, vom Typ float sind. 

In [23]:
# Mithilfe der Methode str kann der Typ float in einen String umgewandelt werden.
type(str(subjects[1]))

str

In [24]:
str(subjects[1]).__contains__("Football")
str(subjects[1]).__contains__("nan")

True

Mithilfe der Methode str kann die Methode contains nun auch auf die Datensätze angewendet werden, für die keine Daten im Feld subjects hinterlegt sind.

### for-Schleife

In [25]:
for i in subjects:
    if str(subjects[i]).__contains__("Computer Programming"):
        print("Computer Programming ist enthalten")
    else:
        print("Computer Programming ist nicht enthalten")

Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Programming ist nicht enthalten
Computer Program

Diese for-Schleife gibt für jeden Datensatz aus, ob der String "Computer Programming" enthalten ist oder nicht. Auf den ersten Blick sieht es so aus, als ob der String "Computer Programming" nicht oder nur sehr selten enthalten ist. Im nächsten Schritt muss mit einer Zählmethode gearbeitet werden. 

# Diskussion