Der Code unterhalb ist dafür da, damit Python die Funktionen nutzen kann, die wir hier später verwenden. Dieser Block muss unbedingt ausgeführt werden.

In [1]:
import pandas as pd
import numpy as np

**Einlesen der CSV**

In [None]:
# Dataframe aus geladener CSV erstellen
df = pd.read_csv('heart.csv')

# Korrektur der Datentypen
df['heartrate'] = df['heartrate'].astype(float)  # Convert heart rate to float
df['time'] = pd.to_datetime(df['time'])  # Convert time to datetime

# Preview der ersten Reihen
df.head()



---

**Empirische Regel**

* **68 % der Daten liegen innerhalb einer Standardabweichung vom Mittelwert**
* **95 % der Werte liegen innerhalb von zwei Standardabweichungen**
* **99,7 % der Werte liegen innerhalb von drei Standardabweichungen**

In [None]:
# Mittelwert berechnen
mean_heart_rate = df['heartrate'].mean()
print(f"Mean heart rate: {mean_heart_rate}")

# Standardabweichung berechnen
std_heart_rate = df['heartrate'].std()
print(f"Standard deviation of heart rate: {std_heart_rate}")

**Berechnung wie viel Prozent der Daten innerhalb einer Standardabweichung vom Mittelwert liegen**

In [None]:
# Bereich der ersten Standardabweichung
lower_bound = mean_heart_rate - std_heart_rate
upper_bound = mean_heart_rate + std_heart_rate

# Dataframe mit dem abgesteckten Bereich filtern
subset_df = df[(df['heartrate'] > lower_bound) & (df['heartrate'] < upper_bound)]

# Prozent berechnen
percentage = (len(subset_df) / len(df)) * 100

# Ausgabe
print(f"{percentage:.2f}% der Werte liegen zwischen {lower_bound:.2f} und {upper_bound:.2f}")


**Berechnung wie viel Prozent der Daten innerhalb von zwei Standardabweichungen vom Mittelwert liegen**

In [None]:
# Bereich der zweiten Standardabweichung
lower_bound_2 = mean_heart_rate - 2 * std_heart_rate
upper_bound_2 = mean_heart_rate + 2 * std_heart_rate

# Dataframe mit dem abgesteckten Bereich filtern
subset_2 = df[(df['heartrate'] > lower_bound_2) & (df['heartrate'] < upper_bound_2)]

# Prozent berechnen
percentage_2 = (len(subset_2) / len(df)) * 100

# Ausgabe
print(f"{percentage_2:.2f}% der Werte liegen zwischen {lower_bound_2:.2f} und {upper_bound_2:.2f}")

**Berechnung wie viel Prozent der Daten innerhalb von drei Standardabweichungen vom Mittelwert liegen**

In [None]:
# Bereich der dritten Standardabweichung
lower_bound_3 = mean_heart_rate - 3 * std_heart_rate
upper_bound_3 = mean_heart_rate + 3 * std_heart_rate

# Dataframe mit dem abgesteckten Bereich filtern
subset_3 = df[(df['heartrate'] > lower_bound_3) & (df['heartrate'] < upper_bound_3)]

# Prozent berechnen
percentage_3 = (len(subset_3) / len(df)) * 100

# Ausgabe
print(f"{percentage_3:.2f}% der Werte liegen zwischen {lower_bound_3:.2f} und {upper_bound_3:.2f}")

Alle Datenpunkte, die außerhalb des erwarteten Bereichs liegen (d.h. außerhalb von drei Standardabweichungen vom Mittelwert), werden als Ausreißer betrachtet.



---
**Korrektur der Daten**
---
**Korrektur mit Top- und Bottom-Coding**

In [19]:
#df = pd.DataFrame({'heart-rate': sample})
df['heart-rate_corrected_clip'] = df['heartrate'].clip(lower=lower_bound_3, upper=upper_bound_3)

**Korrektur mit Top- und Bottom-Coding und Einsatz von Mittelwert**

In [21]:
#df = pd.DataFrame({'heart-rate': sample})
df['heart-rate_corrected_mean'] = df['heartrate'].apply(lambda x: mean_heart_rate if x < lower_bound_3 or x > upper_bound_3 else x)

**Korrektur durch Linare Interpolarisation**

In [22]:
#df = pd.DataFrame({'heart-rate': sample})
df['heart-rate_corrected_interpolation'] = df['heartrate']
df.loc[(df['heart-rate_corrected_interpolation'] < lower_bound_3) | (df['heart-rate_corrected_interpolation'] > upper_bound_3), 'heart-rate_corrected_interpolation'] = np.nan

df['heart-rate_corrected_interpolation'] = df['heart-rate_corrected_interpolation'].interpolate()

**Save the modified dataframe**

In [23]:
df.to_csv('data_with_outlier_correction.csv', index=False)



---



**Test: Nachträglich Outlier zum testen hinzufügen**

Für den Fall, dass ihr die Reinigung mit vorher fehlerlosen Daten testen wollt, könnt ihr die unten stehende Codebox ausführen. Dadurch werden **3 Outlier** zu eurem **Dataframe df** hinzugefügt.

In [15]:
# Künstliche Outlier
df.loc[1, 'heartrate'] = 10  # Outlier an Position 1 hinzufügen
df.loc[10, 'heartrate'] = 200  # Outlier an Position 200 hinzufügen
df.loc[len(df) - 1, 'heartrate'] = 20  # Outlier an letzter Position hinzufügen