<a href="https://colab.research.google.com/github/christianwarmuth/openhpi-kipraxis/blob/main/Woche%201/1_5_Programmierbibliotheken.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1.5 Programmierbibliotheken

<img width=90% src="https://raw.githubusercontent.com/pandas-dev/pandas/master/web/pandas/static/img/pandas.svg">

<sup><sub>Von Marc Garcia - https://github.com/pandas-dev/pandas/blob/master/web/pandas/static/img/pandas.svg, BSD, https://commons.wikimedia.org/w/index.php?curid=73107397</sub></sup>

"If I have seen further, it is by standing on the shoulders of giants" - Isaac Newton (1965)

Programme lassen sich ausgezeichnet verbreiten, da EntwicklerInnen geschriebenen Code als Werkzeuge veröffentlichen können. Nahezu jede Entwicklung moderner Applikationen baut auf Werkzeugen auf, die zuvor von großartigen EntwicklerInnen gebaut wurden.

Programmierbibliotheken sind genau solche Werkzeuge. Es handelt sich dabei etwa um Funktionen, die von EntwicklerInnen implementiert und anschließend für andere EntwicklerInnen zugänglich verbreitet wurden.

Wir schauen uns nun einmal gängige Bibliotheken an, die für Data Science verwendet werden.

Eine häufig verwendete Datenstruktur ist der sogenannte DataFrame - hierbei handelt es sich im Wesentlichen erst einmal um eine Tabelle. Wir wollen beispielsweise eine folgende CSV-Datei einlesen:
<img src="https://raw.githubusercontent.com/christianwarmuth/openhpi-kipraxis/main/images/csv_file.png">

Wir brauchen dies nicht selbst entwickeln, sondern können auf die Bibliothek `pandas` zurückgreifen. Dafür müssen wir die Bibliothek nur importieren:

In [None]:
import pandas as pd # as ... kürzt Bibliothek für spätere Aufrufe ab

Wir haben soeben eine ganze Bandbreite an Funktionalitäten in unser Juypter Notebook geladen. Mit `pandas` können wir etwa besagte CSV-Dateien einlesen. Hierfür müssen wir nur wissen, dass es die Funktion `read_csv` gibt.

In [None]:
# Da wir die .csv-Datei nicht lokal vorliegen haben, müssen wir sie zunächst temporär in das Colab-File-System ablegen.
# Der Code fragt die Dabei per http-request ab, entpackt die Datei und speichert sie im lokalen File-System von Colab. 
# Das File-System wird nur so lange "aufrecht erhalten", bis das Colab (sprich das Browser-Fenster) geschlossen wird. 

import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.getcwd()
FILE_PATH = "housing.csv"
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    
fetch_housing_data()

In [None]:
df = pd.read_csv(FILE_PATH)
df.head()

Wir können uns dazu einmal anschauen, wie der Code geschrieben wurde. Dieser ist unter folgendem Link zu finden:  https://github.com/pandas-dev/pandas/blob/master/pandas/io/parsers/readers.py

Zu der Funktionalität `read_csv` gibt es auch eine Dokumentation, die uns einfach zugänglich erklärt, was wir mit `read_csv` machen können, und wie diese Funktion zu bedienen ist. Wir finden die Dokumentation mit einer einfachen Google-Suche unter: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

`pandas` bietet aber natürlich noch viel mehr Möglichkeiten, als "nur" Daten einzulesen. Ähnlich wie bei Excel, können wir auch Daten filtern, oder transformieren.

In [None]:
df.loc[df["total_rooms"] > 1000]

Woher wissen wir, dass `pandas` das kann?
- Mit einer Idee starten, was entwickelt werden soll
- Einfach loslegen
- Wenn Herausforderungen auftreten (z.B. beim Einlesen einer Datei) nach Lösungen googlen (z.B. *python read csv file*)
- Die Lösung recherchieren und anwenden
- Vorgehensweise für das nächste Mal merken

Programmierbibliotheken sind **Tools**, und ihr Einsatz muss gelernt werden.

Es gibt Programmierbibliotheken für verschiedenste Zwecke. Im Data Science-Bereich etwa für:
- Datenmanagement (z.B. `pandas`)
- Datenvisualisierung (z.B. `matplotlib`)
- Komplexere Mathematik (z.B. `numpy`)
- Machine Learning (z.B. `scikit-learn` oder `tensorflow`)

Wir schauen uns im Laufe des Kurses einige Bibliotheken an!