_Lizenz: Das folgende Lehrmaterial kann unter einer [CC-BY-SA 4.0](https://creativecommons.org/licenses/by/4.0/legalcode) Lizenz frei verwendet, verbreitet und modifiziert werden._   
 _Authoren: Jana Lasser (jana.lasser@ds.mpg.de)_  
 _Das Lehrmaterial wurde im Zuge des Projektes "Daten Lesen Lernen", gefördert vom Stifterverband und der Heinz Nixdorf Stiftung erstellt._

# Übung 05 - Archäologie: Daten finden und einlesen
### Praktische Hinweise
$\rightarrow$ Übungen sind dafür gedacht, dass ihr sie euch daheim anseht und versucht, ein paar Aufgaben selbst zu lösen. In den Tutorien könnt ihr euch weiter mit dem Lösungen der Aufgaben beschäftigen und dabei Hilfe von den Tutor*innen bekommen.  

$\rightarrow$ Wenn ein Fehler auftritt:
1. Fehlermeldung _lesen_ und _verstehen_
2. Versuchen, selbst eine Lösung zu finden ($\rightarrow$ hier findet das Lernen statt!)
3. Das Problem googlen (Stichwort: Stackoverflow) oder den/die Nachbar*in fragen
4. Tutor*in fragen

$\rightarrow$ Unter <font color='green'>**HINWEIS**</font> werden Hinweise gegeben, die für die Lösung der Aufgabe hilfreich sind und oftmals auch weiterführende Informationen zur Aufgabe liefern.

$\rightarrow$ Mit **(Optional)** gekennzeichnete Übungsteile sind für besonders schnelle Menschen :-).

<a name="top"></a>Inhalt
---
 Mit dieser Übung beginnen wir eine Fallstudie, die sich mit einem Datensatz aus der Archäologie beschäftigt: dem ["Inventory of Crafts and Trade in the Roman East - database of tableware" (ICRATES)](https://archaeologydataservice.ac.uk/archives/view/icrates_lt_2018/downloads.cfm). Außerdem werden wir uns damit beschäftigen, wie wir die gewonnenen Informationen am besten visualisieren können. Die aktuelle Übung gliedert sich in drei Teile:
* [Daten beschaffen](#daten_beschaffen)
* [Daten erkunden & bereinigen](#daten_erkunden) 

Für die folgenden Übungen gibt es kein Lehrvideo. Deswegen wird es in den Jupyter-Notebooks zu den Übungen mehr Erklärungen und Zwischenschritte geben. Darüber hinaus haben ab dieser Woche auch nicht mehr alle Übungen der verschiedenen Übungsgruppen den exakt gleichen Inhalt, da einige Themenbereiche etwas unterschiedliche Werkzeuge brauchen als andere. Das Konzept ist aber überall das gleiche.

<a name="daten_beschaffen"></a>1. Daten beschaffen
---
**A.** Mache dich mit der Datenquelle und ihrem Aufbau vertraut: Wer hat die Daten gesammelt und in welchem Kontext publiziert? Was für Informationen finden sich im ```ICRATES_CATALOGUE``` und wie sind sie mit den anderen Tabellen wie ```ICRATES_LOCATION``` verknüpft?  

Wir können den Datensatz direkt aus dem Internet herunterladen:

In [1]:
# Bibliotheken zum Laden von Daten aus dem Internet
import requests 
import io

# die URL unter der der Datensatz zu finden ist
pfad_database = "https://archaeologydataservice.ac.uk/catalogue/adsdata/arch-3268-1/dissemination/csv/"

# die Dateinamen der einzelnen Dateien
name_catalogue = "ICRATES_CATALOGUE.csv"

# lies die Information von der in der URL hinterlegten Website aus
# diesmal geben wir das encoding schon an dieser Stelle an
antwort_catalogue = requests.get(pfad_database + name_catalogue).content
inhalt_catalogue = io.StringIO(antwort_catalogue.decode('ISO-8859-1'))

# lade die Daten in ein DataFrame und zeige die ersten paar Zeilen an
import pandas as pd
catalogue = pd.read_csv(inhalt_catalogue)
catalogue.head()

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,ICRATES_ID,Publication_ID,Deposit_ID,Location_ID,Location_specific,Fabric_ID,Fabric,Fabric_Uncertain,Standard_Form_ID,Standard_Form_Publication_Uncertain,...,Epigraphic_Anepigraphic,Complete,Graffito_Reading,Reading_Uncertain,Location_of_Graffito,Comment_Remarks_Graffito,Bibliographic_Reference_Parallels,Comment_Remarks,General_Shape,Function
0,1,328.0,1705.0,40.0,Assos,51.0,ESC,0,1180.0,0,...,,,,,,,,-,,
1,2,328.0,1705.0,40.0,Assos,51.0,ESC,0,1180.0,0,...,,,,,,,,-,,
2,3,328.0,1705.0,40.0,Assos,51.0,ESC,0,1180.0,0,...,,,,,,,,-,,
3,4,328.0,1705.0,40.0,Assos,51.0,ESC,0,1180.0,0,...,,,,,,,,-,,
4,5,328.0,1705.0,40.0,Assos,51.0,ESC,0,1180.0,0,...,,,,,,,,-,,


**B.** Lade auch die anderen zur Datenbasis gehörenden Tabellen wie oben (oder von Hand) herunter.  
<font color='green'>**HINWEIS:** Du kannst die Tabellen mit der Funktion ```DataFrame.to_csv()``` lokal speichern (Funktionsweise siehe [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html). </font>

[Anfang](#top)

<a name="daten_erkunden"></a>2. Daten erkunden & bereinigen
---
Zu Beginn möchten wir ein paar grundlegende Dinge über den Datensatz herausfinden: z.B. die enthaltene Information in den Spalten und die Anzahl der Einträge.
Die Namen der Spalten eines DataFrame lassen sich über die Variable ```columns``` des DataFrames ansehen:

In [2]:
catalogue.to_csv("data/ICRATES_CATALOGUE.csv")

In [3]:
# eine Liste der im DataFrame "catalogue" enthaltenen Spalten
catalogue.columns

Index(['ICRATES_ID', 'Publication_ID', 'Deposit_ID', 'Location_ID',
       'Location_specific', 'Fabric_ID', 'Fabric', 'Fabric_Uncertain',
       'Standard_Form_ID', 'Standard_Form_Publication_Uncertain',
       'Standard_Form_ICRATES', 'OCK_ID', 'OCK_Number_Uncertain', 'LRP_ID',
       'LRP_Stamp_Publication_Uncertain', 'Standard_LRP_Stamp_ICRATES',
       'Catalogue_Number', 'Illustration', 'Pages', 'Min_Rim_Diameter_mm',
       'Max_Rim_Diameter_mm', 'Min_Base_Diameter_mm', 'Max_Base_Diameter_mm',
       'Min_Height_mm', 'Max_Height_mm', 'Fragment', 'Specific_Shape',
       'Rouletting', 'Place_of_Rouletting', 'Moulded', 'Stamped',
       'Epigraphic_Anepigraphic_Empty', 'Retrograde_Ligature',
       'Place_of_Stamped_Decoration', 'Potters_Stamp', 'Suggested_Reading',
       'Stamp_Shape', 'Applique', 'Place_of_Applique', 'Gouged', 'Sanded',
       'Painted', 'Incised', 'Repaired', 'Glazed', 'Barbotine', 'Burnished',
       'Combed', 'Description_of_Decoration', 'Graffito',
       '

In einem DataFrame können wir auf eine bestimmte Spalte mit ihrem Namen zugreifen:

In [4]:
# zeigt die Spalte mit dem Namen "Location_specific" im DataFrame 
# "tweets_troll_raw" an
catalogue.Location_specific

0          Assos
1          Assos
2          Assos
3          Assos
4          Assos
5          Assos
6          Assos
7          Assos
8          Assos
9          Assos
10         Assos
11         Assos
12         Assos
13         Assos
14         Assos
15         Assos
16         Assos
17         Assos
18         Assos
19         Assos
20         Assos
21         Assos
22         Assos
23         Assos
24         Assos
25         Assos
26         Assos
27         Assos
28         Assos
29         Assos
          ...   
33909    Knossos
33910    Knossos
33911    Knossos
33912    Knossos
33913    Knossos
33914    Knossos
33915    Knossos
33916    Knossos
33917    Knossos
33918    Knossos
33919    Knossos
33920    Knossos
33921    Knossos
33922    Knossos
33923    Knossos
33924    Knossos
33925    Knossos
33926    Knossos
33927    Knossos
33928    Knossos
33929    Knossos
33930    Knossos
33931    Knossos
33932    Knossos
33933    Knossos
33934    Knossos
33935    Knossos
33936    Knoss

Mit der Funktion ```unique()``` lassen sich die einzigartigen Einträge in einer Spalte herausfinden:

In [5]:
# eine Liste der Fundorte, wobei jeder Fundort genau einmal
# vorkommt
catalogue.Location_specific.unique()

array(['Assos', 'Antiocheia ad Orontem', 'Constantinople', 'Patras',
       'Athens', 'Aigeira', 'Sparta', 'Olympia', 'Eretria', 'Veloukovo',
       'Delphi', 'Delos', 'Butrint', 'Corinth', 'Argos', 'Zeugma',
       'Tarsos', 'Stobi', nan, 'MS001', 'MS007', 'MS008', 'MS009',
       'MS010', 'MS013', 'MS017', 'MS019', 'MS020', 'MS025', 'MS051',
       'MS052', 'MS053', 'MS054', 'Isthmia', 'Kenchreai', 'Marades (6)',
       'Mylopotamos (15)', 'Roukounas (18)', 'Fotimari (24)',
       'Roukounas (25)', 'Eisodei tis Theotokou kai Ayios Petros (26)',
       'Mavrou (31)', 'Vourkari (33)', 'Vourkari (42)', 'Vourkari (43)',
       'Ayia Varvara (45)', 'Larna (51)', 'Diaseli Otzia (55)',
       'Diaseli Otzia (56)', 'Otzias (62)', 'Otzias (63)', 'Otzias (64)',
       'Apamea', 'Resafa', 'Aizanoi', 'Samosata', 'Kommos', 'Amygdalea',
       'Diakopion', 'Glyfada', 'Kallion', 'Kallithea', 'Kallydon',
       'Koniakos', 'Maladrino', 'Sykea', 'Tolophon', 'Karamildan',
       'Maroni Petrera', 'MP.

[Anfang](#top)

### Aufgaben
**A.** Wie heißen die Spalten in den Datensätzen ```ICRATES_LOCATION```, ```ICRATES_DEPOSIT``` und ```ICRATES_STANDARD_FORM``` und welche Informationen enthalten sie?  
**B.** Sieh dir ein paar Einträge aus dem Katalog an, indem du auf den Index zugreifst.  
**C.** Wieviele Fundstücke und Fundorte enthält der Katalog? Was ist die mittlere Anzahl an Fundstücken je Fundort?  
**D.** Die Spalte ```Min_Rim_Diameter_mm``` enthält eine Abschätzung des Umfanges der Tongefäße am oberen Rand. Berechne den mittleren Umfang und den Median des Umfangs. Berechne auch den Modus des Umfangs. Wie kannst du dir das Ergebnis erklären?  
**E.** Manche Spalten enthalten nur sporadisch Einträge und sind sonst leer. Fehlende Einträge werden im ```DataFrame``` als ```NaN``` ([not a number](https://de.wikipedia.org/wiki/NaN)) dargestellt. Spalten wie ```Gouged``` oder ```Glazed``` enthalten Nullen und Einsen. Wie sind diese zu interpretieren? 

Die Anzahl der ```NaN```-Einträge lässt sich mit der Funktion ```isna()``` herausfinden:

In [6]:
# in der Spalte "Min_Rim_Diameter_mm" des Katalogs z.B.
# gibt es 23137 fehlende Einträge
catalogue.Min_Rim_Diameter_mm.isna().sum()

23137

**F. (Optional)** Die Nullen in der Spalte ```Min_Rim_Diameter_mm``` sind offensichtlich als "fehlender Eintrag" gemeint. Ersetze alle Nullen in dieser Spalte durch ```NaN```. Speichere die bereinigte Datei mit der Funktion ```catalogue.to_csv()``` ab. Wie verändert sich der Mittelwert, Median und Modus der Spalte?  
<font color='green'>**HINWEIS:** dafür musst du das "NaN-Objekt" das von der Bibliothek ```NumPy``` bereit gestellt wird benutzen:</font> 

In [7]:
import numpy as np
np.nan

nan

**G.** Finde für jede Spalte des Katalogs heraus, wieviele (fehlende) Einträge es in der Spalte gibt. Erstelle ein neues ```DataFrame```, das jeweils den Spaltennamen und die Anzahl der Einträge enthält.  
**H.** Welche Spalten haben keine fehlenden Einträge? In welchen Spalten ist am wenigsten Information enthalten?  
**I. (Optional)** Erstelle mit Hilfe der Bibliothek ```matplotlib.pyplot``` ein sog. "bar-chart", in dem die Anzahl der fehlenden Einträge je Spalte visualisiert sind.  
<font color='green'>**HINWEIS:** [Hier](https://pythonspot.com/matplotlib-bar-chart/) findest du ein Beispiel für ein bar-chart und [Hier](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.bar.html) ist die Funktion ```bar()``` dokumentiert. </font>

[Anfang](#top)