# Explorative Datenanalyse (EDA) Schritt-für-Schritt


Dieses Jupyter Notebook führt Sie Schritt für Schritt durch den Prozess einer Explorativen Datenanalyse (EDA).
Wir verwenden dabei die gängigsten Bibliotheken in Python wie Pandas, Matplotlib und Seaborn.
Ziel ist es, ein tieferes Verständnis für den zugrunde liegenden Datensatz zu bekommen.


## Schritt 1: Daten laden und erste Inspektion

In [None]:

import pandas as pd

# Laden Sie Ihren Datensatz (hier ein Beispiel mit 'data.csv')
df = pd.read_csv('data.csv')

# Zeigen Sie die ersten fünf Zeilen an
df.head()


In [None]:

# Überblick über die Struktur der Daten
df.info()


## Schritt 2: Datenbereinigung

In [None]:

# Überprüfen auf fehlende Werte
df.isnull().sum()


In [None]:

# Beispiel: Entfernen von Zeilen mit fehlenden Werten (alternativ können Sie fehlende Werte füllen)
df = df.dropna()  # Oder: df.fillna(df.mean(), inplace=True)

# Überprüfen der Datentypen
df.dtypes


## Schritt 3: Deskriptive Statistiken

In [None]:

# Statistische Übersicht der numerischen Daten
df.describe()


In [None]:

# Häufigkeit der Kategorien in einer kategorialen Spalte
df['Kategorie'].value_counts()


## Schritt 4: Datenvisualisierung

In [None]:

import matplotlib.pyplot as plt

# Beispiel: Histogramm der numerischen Variablen
df['Spalte'].hist()
plt.show()


In [None]:

# Beispiel: Boxplot für numerische Variablen
df.boxplot(column='Spalte')
plt.show()


In [None]:

# Beispiel: Scatterplot zur Untersuchung von Korrelationen
df.plot.scatter(x='Variable1', y='Variable2')
plt.show()


In [None]:

import seaborn as sns

# Korrelation zwischen Variablen als Heatmap darstellen
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()


## Schritt 5: Ausreißer erkennen

In [None]:

# Boxplot zur Identifizierung von Ausreißern
df.boxplot(column='Variable')
plt.show()


In [None]:

# IQR-Methode zur Identifizierung von Ausreißern
Q1 = df['Variable'].quantile(0.25)
Q3 = df['Variable'].quantile(0.75)
IQR = Q3 - Q1
Ausreißer = df[(df['Variable'] < (Q1 - 1.5 * IQR)) | (df['Variable'] > (Q3 + 1.5 * IQR))]
Ausreißer


## Schritt 6: Hypothesenbildung und Interpretation


Basierend auf den bisherigen Ergebnissen kannst du Hypothesen über potenzielle Zusammenhänge aufstellen.
Verwende diese Informationen, um zu entscheiden, welche statistischen Modelle oder maschinelle Lernverfahren in weiteren Analysen verwendet werden sollen.


## Schritt 7: Zusammenfassung und Dokumentation


Fasse hier die wichtigsten Erkenntnisse zusammen. Dokumentiere die gefundenen Muster, Trends und Ausreißer.
Diese Zusammenfassung kann als Ausgangspunkt für weiterführende Analysen oder Modellierungsversuche dienen.
