# Projektstruktur
Data Science Projekte sollten einer fest vorgegebenen Projektstruktur folgen. Diese Projektstruktur wird üblicherweise im Team als feste Konvention vereinbart und alle Projekte des Teams folgen dieser Struktur.

Wir nutzen hier folgende Struktur:

![Projektstruktur](../img/struktur.png)

* Die nummerierten Ordner 01. 02. usw. enthalten die Jupyter Notebooks mit dem Code des Kurses.
* Der Ordner data enthält Daten, die für die Beispiele benötigt werden.
* Der Ordner img enthält Bilder, die in den Notesbooks angezeigt werden sollen.
* Die übrigen Ordner und Dateien dienen dem Betrieb der Anwendungen.


# Pandas

Damit Sie Daten für das maschinelle Lernen (gut) nutzen können, benötigen Sie eine Datenstruktur, in der Sie die Daten hinterlegen können.
Das Framework Pandas ist hierfür sehr gut geeignet, sofern die Datenmenge klein genug ist, um im Hauptspeicher Ihres Computers geladen zu werden. Dies ist für unser Beispiel der Fall.

Folgende wichtige Funktionen werden von Pandas bereits von Haus aus bereitgestellt[^1]:

* Laden von Daten aus unterschiedlichen Quellen (relationale Datenbank, Excel, CSV, ...).
* Berechnen von grundlegenden statistischen Werten:
    * Mittelwert, Median, Maximum oder Minimum einer Spalte.
    * Korrelationen zwischen Spaltenwerten.
    * Darstellung der Distribution von Werten in einer Spalte.
* Entfernen von Zeilen mit fehlenden Werten.
* Entfernen oder Hinzufügen von Spalten.
* Bereinigen von Daten, z.B. Entfernen von Nullwerten.
* Berechnungen mit Hilfe von Lambda-Funktionen auf einer ganzen Spalte ausführen.
* Daten können mit Hilfe weiterer Bibliotheken, wie Syborn, matplotlib und anderen visualisiert werden.


[^1]: Vgl. https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

## Laden von Daten
Zunächst wollen wir die Daten des Beispiels aus dem Pfad data/house-prices-advanced-regression-techniques/train.csv laden: 

In [None]:
# Die Pandas Bibliothek muss installiert sein und wird hier über den import Befehl geladen.
import pandas as pd

# Hinweis: Der Pfadname ergibt sich aus der Projektstruktur
df = pd.read_csv('../data/house-prices-advanced-regression-techniques/train.csv')

## Anzeige der Daten

Ein Pandas DataFrame (so heißt diese Datenstruktur) kann in einem Jupyter Notebook durch die schlichte Nennung (am Ende der Codezeile) angezeigt werden:

In [None]:
df

## Einen Überblick verschaffen: Basis-Informationen

DataFrames bieten einfache Funktionen zur Anzeige der wichtigsten Informationen. Das ist wichtig, um sich einen Überblick zu verschaffen:

In [None]:
# Allgemeine Informationen ausgeben:
# - Anzahl der Daten (Zeilen)
# - Anzahl der Spalten
# - Name und Datentyp der Spalten
df.info()

In [None]:
# Dimensionen (Zeilen|Spalten) des DataFrames anzeigen:

df.shape

In [None]:
# Bestimmte Daten anzeigen

df.head(10)

In [None]:
df.tail(10)

In [None]:
# Doppelte Zeilen finden

df[df.duplicated()]

In [None]:
# Doppelte Zeilen löschen, jeweils das erste|letzte Element behalten.

df_no_duplicates = df.drop_duplicates(keep='first') # 'last'

## Grundlegende statistische Informationen

In [None]:
# Liefert eine gute Übersicht über wichtige statistische Informationen
# Das .T Attribut transponiert die Darstellung in eine besser lesbare Form
df.describe().T


# Weitere Infos und grundlegende Operationen
## Umgang mit Spalten

In [None]:
# Spaltennamen
df.columns

In [None]:
# Spalte selektieren
df['Fireplaces']

In [None]:
# mehrere Spalten selektieren
df[['Fireplaces','GarageType']]

In [159]:
# Neuer DataFrame mit einem Subset von Spalten
df_subset = df[['Fireplaces','SalePrice']].copy()
df_subset.shape

(1460, 2)

In [165]:
# spalten umbenennen
df_subset.rename(columns={
        'Fireplaces': 'Anzahl Kamine', 
        'SalePrice': 'Verkaufspreis'
    }, inplace=True)
df_subset.columns

Index(['Anzahl Kamine', 'Verkaufspreis'], dtype='object')

In [166]:
# Spalten nach Nummer selektieren:
df.iloc[:,3] # vierte Spalte

0       65.0
1       80.0
2       68.0
3       60.0
4       84.0
        ... 
1455    62.0
1456    85.0
1457    66.0
1458    68.0
1459    75.0
Name: LotFrontage, Length: 1460, dtype: float64

In [None]:
# Spalten-Range - Spalten 6-8 (mit Index 5..7)
df.iloc[:,5:8]

In [None]:
# Range von Spalten selektieren
df[df.index.isin(range(2,10))]

## Umgang mit Zeilen

In [None]:
df.iloc[0] # Erste Zeile
df.iloc[1] # Zweite Zeile
df.iloc[-1] # Letzte Zeile

In [None]:
df.iloc[0:5,3:9] # Zeilen 1 bis 5 (mit Index 0..4) und Spalten vier bis neun (mit Index 3..8)

In [None]:
# Zeilen filtern - Daten bei denen der Hauspreis > als 700 Tausend ist.
df[df.SalePrice > 700000]

In [None]:
# Durch die Filter-Operation wird das Original nicht verändert!!!
print(df.shape)

In [None]:
df[df.SalePrice > 700000].describe().T

## Spalten (dauerhaft) löschen

In [None]:
df_demo = df.copy() # Wir wollen nicht unser Original bearbeiten
print (df_demo.shape)

del df_demo['Fireplaces']

# Durch den del Befehl werden die Spalten dauerhaft gelöscht!
print (df_demo.shape)

## Zeilen (dauerhaft) löschen

In [None]:
df_demo = df.copy() # Wir wollen nicht unser Original bearbeiten
indexNames = df[(df['SalePrice'] >= 300000) & (df['SalePrice'] <= 350000)].index

print(df_demo.shape)

df_demo.drop(indexNames, inplace=True)

print(df_demo.shape)

print (df_demo[(df_demo['SalePrice'] >= 300000) & (df_demo['SalePrice'] <= 350000)].shape) # Die gelöschen Zeilen sind endgültig entfernt