# Projektstruktur
Data Science Projekte sollten einer fest vorgegebenen Projektstruktur folgen. Diese Projektstruktur wird üblicherweise im Team als feste Konvention vereinbart und alle Projekte des Teams folgen dieser Struktur.

Wir nutzen hier folgende Struktur:

<img src="../img/struktur.png" width="30%" align="center">
<br>

* Die nummerierten Ordner 01. 02. usw. enthalten die Jupyter Notebooks mit dem Code des Kurses.
* Der Ordner data enthält Daten, die für die Beispiele benötigt werden.
* Der Ordner img enthält Bilder, die in den Notesbooks angezeigt werden sollen.
* Die übrigen Ordner und Dateien dienen dem Betrieb der Anwendungen.


# Pandas

Damit Sie Daten für das maschinelle Lernen (gut) nutzen können, benötigen Sie eine Datenstruktur, in der Sie die Daten hinterlegen können.
Das Framework Pandas ist hierfür sehr gut geeignet, sofern die Datenmenge klein genug ist, um im Hauptspeicher Ihres Computers geladen zu werden. Dies ist für unser Beispiel der Fall.

Folgende wichtige Funktionen werden von Pandas bereits von Haus aus bereitgestellt[^1]:

* Laden von Daten aus unterschiedlichen Quellen (relationale Datenbank, Excel, CSV, ...).
* Berechnen von grundlegenden statistischen Werten:
    * Mittelwert, Median, Maximum oder Minimum einer Spalte.
    * Korrelationen zwischen Spaltenwerten.
    * Darstellung der Distribution von Werten in einer Spalte.
* Entfernen von Zeilen mit fehlenden Werten.
* Entfernen oder Hinzufügen von Spalten.
* Bereinigen von Daten, z.B. Entfernen von Nullwerten.
* Berechnungen mit Hilfe von Lambda-Funktionen auf einer ganzen Spalte ausführen.
* Daten können mit Hilfe weiterer Bibliotheken, wie Syborn, matplotlib und anderen visualisiert werden.


[^1]: Vgl. https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

## Laden von Daten
Zunächst wollen wir die Daten des Beispiels aus dem Pfad data/house-prices-advanced-regression-techniques/train.csv laden: 

In [1]:
# Die Pandas Bibliothek muss installiert sein und wird hier über den import Befehl geladen.
import pandas as pd

# Hinweis: Der Pfadname ergibt sich aus der Projektstruktur
df = pd.read_csv('../data/house-prices-advanced-regression-techniques/train.csv')

## Anzeige der Daten

Ein Pandas DataFrame (so heißt diese Datenstruktur) kann in einem Jupyter Notebook durch die schlichte Nennung (am Ende der Codezeile) angezeigt werden:

In [2]:
df

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


## Einen Überblick verschaffen: Basis-Informationen

DataFrames bieten einfache Funktionen zur Anzeige der wichtigsten Informationen. Das ist wichtig, um sich einen Überblick zu verschaffen:

In [3]:
# Allgemeine Informationen ausgeben:
# - Anzahl der Daten (Zeilen)
# - Anzahl der Spalten
# - Name und Datentyp der Spalten
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [4]:
# Dimensionen (Zeilen|Spalten) des DataFrames anzeigen:

df.shape

(1460, 81)

In [5]:
# Bestimmte Daten anzeigen

df.head(10)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
5,6,50,RL,85.0,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000
6,7,20,RL,75.0,10084,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,307000
7,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000
8,9,50,RM,51.0,6120,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2008,WD,Abnorml,129900
9,10,190,RL,50.0,7420,Pave,,Reg,Lvl,AllPub,...,0,,,,0,1,2008,WD,Normal,118000


In [6]:
df.tail(10)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
1450,1451,90,RL,60.0,9000,Pave,,Reg,Lvl,AllPub,...,0,,,,0,9,2009,WD,Normal,136000
1451,1452,20,RL,78.0,9262,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2009,New,Partial,287090
1452,1453,180,RM,35.0,3675,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2006,WD,Normal,145000
1453,1454,20,RL,90.0,17217,Pave,,Reg,Lvl,AllPub,...,0,,,,0,7,2006,WD,Abnorml,84500
1454,1455,20,FV,62.0,7500,Pave,Pave,Reg,Lvl,AllPub,...,0,,,,0,10,2009,WD,Normal,185000
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125
1459,1460,20,RL,75.0,9937,Pave,,Reg,Lvl,AllPub,...,0,,,,0,6,2008,WD,Normal,147500


In [7]:
# Doppelte Zeilen finden

df[df.duplicated()]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice


In [8]:
# Doppelte Zeilen löschen, jeweils das erste|letzte Element behalten.

df_no_duplicates = df.drop_duplicates(keep='first') # 'last'

## Grundlegende statistische Informationen

In [9]:
# Liefert eine gute Übersicht über wichtige statistische Informationen
# Das .T Attribut transponiert die Darstellung in eine besser lesbare Form
df.describe().T


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0


# Weitere Infos und grundlegende Operationen
## Umgang mit Spalten

In [10]:
# Spaltennamen
df.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [11]:
# Spalte selektieren
df[['Fireplaces']]

Unnamed: 0,Fireplaces
0,0
1,1
2,1
3,1
4,1
...,...
1455,1
1456,2
1457,2
1458,0


In [12]:
# mehrere Spalten selektieren
df[['Fireplaces','GarageType']]

Unnamed: 0,Fireplaces,GarageType
0,0,Attchd
1,1,Attchd
2,1,Attchd
3,1,Detchd
4,1,Attchd
...,...,...
1455,1,Attchd
1456,2,Attchd
1457,2,Attchd
1458,0,Attchd


In [13]:
# Neuer DataFrame mit einem Subset von Spalten
df_subset = df[['Fireplaces','SalePrice']].copy()
df_subset.shape

(1460, 2)

In [14]:
# spalten umbenennen
df_subset.rename(columns={
        'Fireplaces': 'Anzahl Kamine', 
        'SalePrice': 'Verkaufspreis'
    }, inplace=True)
df_subset.columns

Index(['Anzahl Kamine', 'Verkaufspreis'], dtype='object')

In [15]:
# Spalten nach Nummer selektieren:
df.iloc[:,3] # vierte Spalte

0       65.0
1       80.0
2       68.0
3       60.0
4       84.0
        ... 
1455    62.0
1456    85.0
1457    66.0
1458    68.0
1459    75.0
Name: LotFrontage, Length: 1460, dtype: float64

In [16]:
# Spalten-Range - Spalten 6-8 (mit Index 5..7)
df.iloc[:,5:8]

Unnamed: 0,Street,Alley,LotShape
0,Pave,,Reg
1,Pave,,Reg
2,Pave,,IR1
3,Pave,,IR1
4,Pave,,IR1
...,...,...,...
1455,Pave,,Reg
1456,Pave,,Reg
1457,Pave,,Reg
1458,Pave,,Reg


## Umgang mit Zeilen

In [17]:
# Range von Zeilen selektieren
df[df.index.isin(range(2,10))]


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
5,6,50,RL,85.0,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000
6,7,20,RL,75.0,10084,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,307000
7,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000
8,9,50,RM,51.0,6120,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2008,WD,Abnorml,129900
9,10,190,RL,50.0,7420,Pave,,Reg,Lvl,AllPub,...,0,,,,0,1,2008,WD,Normal,118000


In [18]:
df.iloc[0] # Erste Zeile
df.iloc[1] # Zweite Zeile
df.iloc[-1] # Letzte Zeile

Id                 1460
MSSubClass           20
MSZoning             RL
LotFrontage        75.0
LotArea            9937
                  ...  
MoSold                6
YrSold             2008
SaleType             WD
SaleCondition    Normal
SalePrice        147500
Name: 1459, Length: 81, dtype: object

In [19]:
df_subset = df.iloc[0:5,3:9].copy() # Zeilen 1 bis 5 (mit Index 0..4) und Spalten vier bis neun (mit Index 3..8)
print ("Dimension des Subsets: ", df_subset.shape)
df_subset

Dimension des Subsets:  (5, 6)


Unnamed: 0,LotFrontage,LotArea,Street,Alley,LotShape,LandContour
0,65.0,8450,Pave,,Reg,Lvl
1,80.0,9600,Pave,,Reg,Lvl
2,68.0,11250,Pave,,IR1,Lvl
3,60.0,9550,Pave,,IR1,Lvl
4,84.0,14260,Pave,,IR1,Lvl


In [20]:
# Zeilen filtern - Daten bei denen der Hauspreis > als 700-tausend ist.
df[df.SalePrice > 700000]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
691,692,60,RL,104.0,21535,Pave,,IR1,Lvl,AllPub,...,0,,,,0,1,2007,WD,Normal,755000
1182,1183,60,RL,160.0,15623,Pave,,IR1,Lvl,AllPub,...,555,Ex,MnPrv,,0,7,2007,WD,Abnorml,745000


In [21]:
# Durch die Filter-Operation wird das Original nicht verändert!!!
print(df.shape)

(1460, 81)


In [22]:
df[df.SalePrice > 700000].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,2.0,937.5,347.18943,692.0,814.75,937.5,1060.25,1183.0
MSSubClass,2.0,60.0,0.0,60.0,60.0,60.0,60.0,60.0
LotFrontage,2.0,132.0,39.59798,104.0,118.0,132.0,146.0,160.0
LotArea,2.0,18579.0,4180.41529,15623.0,17101.0,18579.0,20057.0,21535.0
OverallQual,2.0,10.0,0.0,10.0,10.0,10.0,10.0,10.0
OverallCond,2.0,5.5,0.707107,5.0,5.25,5.5,5.75,6.0
YearBuilt,2.0,1995.0,1.414214,1994.0,1994.5,1995.0,1995.5,1996.0
YearRemodAdd,2.0,1995.5,0.707107,1995.0,1995.25,1995.5,1995.75,1996.0
MasVnrArea,2.0,585.0,827.314934,0.0,292.5,585.0,877.5,1170.0
BsmtFinSF1,2.0,1775.5,453.255447,1455.0,1615.25,1775.5,1935.75,2096.0


## Spalten (dauerhaft) löschen

In [23]:
df_demo = df.copy() # Wir wollen nicht unser Original bearbeiten
print (df_demo.shape)

del df_demo['Fireplaces']

# Durch den del Befehl werden die Spalten dauerhaft gelöscht!
print (df_demo.shape)

(1460, 81)
(1460, 80)


## Zeilen (dauerhaft) löschen

In [24]:
df_demo = df.copy() # Wir wollen nicht unser Original bearbeiten
indexNames = df[(df['SalePrice'] >= 300000) & (df['SalePrice'] <= 350000)].index

print(df_demo.shape)

df_demo.drop(indexNames, inplace=True)

print(df_demo.shape)

print (df_demo[(df_demo['SalePrice'] >= 300000) & (df_demo['SalePrice'] <= 350000)].shape) # Die gelöschen Zeilen sind endgültig entfernt

(1460, 81)
(1399, 81)
(0, 81)
