# Explorative Datenanalyse (EDA)
Die explorative Datenanalyse (EDA) ist ein Ansatz im Data Science, der sich darauf konzentriert, die Hauptcharakteristika von Daten zu entdecken und Zusammenhänge zu verstehen, oft bevor formale Modellierungs- oder Hypothesentests durchgeführt werden. Die EDA ist besonders nützlich, um einen ersten Überblick über den Datensatz zu gewinnen und um mögliche Richtungen für tiefere Analysen zu erkennen. [^2]

### Methoden der EDA
-    **Datenvisualisierung**: EDA nutzt häufig visuelle Methoden, um Muster, Trends und Anomalien in den Daten zu erkennen. Dazu gehören Diagramme wie Histogramme, Boxplots, Streudiagramme und komplexe visuelle Darstellungen.

-    **Deskriptive Statistik**: Grundlegende statistische Maße wie Mittelwert, Median, Modus, Standardabweichung und Quartile werden verwendet, um die zentralen Tendenzen und die Variabilität in den Daten zu verstehen.

-    **Bereinigung der Daten**: In der EDA wird versucht, Probleme in den Daten wie fehlende Werte, Inkonsistenzen oder falsche Formate zu identifizieren und zu korrigieren.

-    **Bereinigung von Anomalien**: In der EDA wird versucht, Ausreißer oder ungewöhnliche Daten zu identifizieren, um den Datensatz vor der weiteren Bearbeitung zu bereinigen.

### Ziele der EDA
-    **Testen von Annahmen**: Vor der weiteren Verwendung von Daten ist es wichtig, bestimmte Annahmen über die Daten zu überprüfen, wie Normalverteilung, oder die Unabhängigkeit der Beobachtungen.

-    **Entdeckung von Strukturen**: Bei der EDA geht es auch darum, Strukturen in den Daten zu erkennen, die Hinweise auf zugrunde liegende Beziehungen oder Gruppierungen geben können.

-    **Formulierung von Hypothesen**: Basierend auf den Erkenntnissen, die während der EDA gewonnen wurden, können Hypothesen für weitergehende Analysen und Tests formuliert werden.
   
-    **Kontextverständnis**: EDA hilft nicht nur bei der Analyse der Daten selbst, sondern auch dabei, ein besseres Verständnis für den Kontext, aus dem die Daten stammen, zu entwickeln.

[^2]: Nach einer Idee von ChatGPT

# EDA für das House Prices Beispiel
## Features
Features sind Eigenschaften eines Datensatzes. Letztlich handelt es sich um die Spalten, jedoch müssen wird die Spalten einer genauen Analyse unterziehen.

**Erst wenn die Daten erschlossen und bereinigt sind, sprechen wir von Features.**

## Datentypen

Die Bestimmung der Datentypen für die Features ist elementar. Der Datentyp entscheidet, ob die Daten vor der weiteren Verarbeitung angepasst bzw. überarbeitet werden müssen, um sinnvoll einem Algorithmus des maschinellen Lernens zugeführt werden zu können.

Betrachten Sie folgendes Beispiel:

Angenommen in einer Spalte des Datensatzes wäre eine Tierart gespeichert. Eine einfache Herangehensweise wäre, solche sogenannten kategorischen Daten durch eine Zahl zu ersetzen, z. B. 1 für "Katze", 2 für "Pferd", 3 für "Giraffe" usw. Nun gehen allerdings die meisten ML Algorithmen davon aus, dass sich benachbarte Werte (Zahlen) ähnlicher sind als weiter entfernte Werte, d.h. solch eine Umsetzung ist nicht möglich.

Betrachten wir Datentypen also genauer. Man unterscheidet zwischen numerischen Daten und kategorischen Daten, die noch weiter unterteilt werden:

* **Numerische Daten**:
    * **Diskrete Daten** (Werte, die man **zählen** kann, z. B. "Anzahl der Zimmer")
    * **Kontinuierliche Daten** (Werte, die man **messen** kann, z. B. "Verkaufspreis" oder "Grundstücksgröße")

* **Kategorische Daten**:
    * **Nominale Daten** (Werte, man spricht auch von Merkmalen, die man **benennen** kann, z. B. "Material des Dachs")
    * **Ordinale Daten** (Werte, die man **ordnen** kann, z. B. "Qualität der Innenausstattung von 'einfach' bis 'excellent'"

## Erster Überblick über die Daten

In [23]:
# Allgemeine Importfunktionen und Daten laden
import pandas as pd
# Numpy ist eine so genannte Bibliothek - also ein Paket von vordefinierten Funktionen -, das uns bei der Arbeit mit Zahlen und Zahlenreihen unterstützt.
import numpy as np

# Hinweis: Der Pfadname ergibt sich aus der Projektstruktur
df = pd.read_csv('../data/house-prices-advanced-regression-techniques/train.csv')

# Dimensionen der Daten

df.shape

(1460, 81)

In [16]:
# Demo Daten
df.head(10)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
5,6,50,RL,85.0,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000
6,7,20,RL,75.0,10084,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,307000
7,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000
8,9,50,RM,51.0,6120,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2008,WD,Abnorml,129900
9,10,190,RL,50.0,7420,Pave,,Reg,Lvl,AllPub,...,0,,,,0,1,2008,WD,Normal,118000


In [18]:
# Allgemeine Infos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [15]:
# Allgemeine statistische Infos
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0
