In [1]:
import pandas as pd
import numpy as np

daten = {
    'Name': ['Anna', 'Mark', 'Julia', 'Tom', 'Laura', 'Peter', 'Sofia'],
    'Studiengang': ['Informatik', 'BWL', np.nan, 'Informatik', 'BWL', 'Informatik', np.nan],
    'Semester': [4, 6, 2, 4, 8, 2, 10],
    'Note': [1.7, 2.3, 1.0, 2.7, np.nan, 2.0, 1.3],
    'ECTS': [120, 180, 60, np.nan, 240, 55, np.nan]
}

df = pd.DataFrame(daten)

print("DataFrame mit fehlenden Werten:")
print(df)

DataFrame mit fehlenden Werten:
    Name Studiengang  Semester  Note   ECTS
0   Anna  Informatik         4   1.7  120.0
1   Mark         BWL         6   2.3  180.0
2  Julia         NaN         2   1.0   60.0
3    Tom  Informatik         4   2.7    NaN
4  Laura         BWL         8   NaN  240.0
5  Peter  Informatik         2   2.0   55.0
6  Sofia         NaN        10   1.3    NaN


In [2]:
# Zeigt an, welche Zellen leer sind
print("--- .isnull() ---")
print(df.isnull())

# Zählt die Anzahl der fehlenden Werte pro Spalte
print("\n--- Anzahl fehlender Werte pro Spalte ---")
print(df.isnull().sum())

--- .isnull() ---
    Name  Studiengang  Semester   Note   ECTS
0  False        False     False  False  False
1  False        False     False  False  False
2  False         True     False  False  False
3  False        False     False  False   True
4  False        False     False   True  False
5  False        False     False  False  False
6  False         True     False  False   True

--- Anzahl fehlender Werte pro Spalte ---
Name           0
Studiengang    2
Semester       0
Note           1
ECTS           2
dtype: int64


In [None]:
# Zeigt an, welche Zellen leer sind
print("--- .isnull() ---")
print(df.isnull())

# Zählt die Anzahl der fehlenden Werte pro Spalte
print("\n--- Anzahl fehlender Werte pro Spalte ---")
print(df.isnull().sum())

--- .isnull() ---
    Name  Studiengang  Semester   Note   ECTS
0  False        False     False  False  False
1  False        False     False  False  False
2  False         True     False  False  False
3  False        False     False  False   True
4  False        False     False   True  False
5  False        False     False  False  False
6  False         True     False  False   True

--- Anzahl fehlender Werte pro Spalte ---
Name           0
Studiengang    2
Semester       0
Note           1
ECTS           2
dtype: int64


In [4]:
# Erstellt einen neuen DataFrame, in dem alle Zeilen mit NaN entfernt wurden
df_ohne_nan_zeilen = df.dropna()

print("--- DataFrame nach dem Entfernen von Zeilen mit NaN ---")
print(df_ohne_nan_zeilen)

# Beachte: Der ursprüngliche DataFrame df bleibt unverändert!
# print(df)

--- DataFrame nach dem Entfernen von Zeilen mit NaN ---
    Name Studiengang  Semester  Note   ECTS
0   Anna  Informatik         4   1.7  120.0
1   Mark         BWL         6   2.3  180.0
5  Peter  Informatik         2   2.0   55.0


In [8]:
# Erstellt einen neuen DataFrame, in dem alle Spalten mit NaN entfernt wurden
df_ohne_nan_spalten = df.dropna(axis='columns')

print("--- DataFrame nach dem Entfernen von Spalten mit NaN ---")
print(df_ohne_nan_spalten)

--- DataFrame nach dem Entfernen von Spalten mit NaN ---
    Name  Semester
0   Anna         4
1   Mark         6
2  Julia         2
3    Tom         4
4  Laura         8
5  Peter         2
6  Sofia        10


In [9]:
# Erstellen einer Kopie, um den Original-DataFrame nicht zu verändern
df_filled = df.copy()

# Fehlende Noten mit 0.0 füllen
df_filled['Note'] = df_filled['Note'].fillna(0.0)

# Fehlende Studiengänge mit 'Unbekannt' füllen
df_filled['Studiengang'] = df_filled['Studiengang'].fillna('Unbekannt')

print("--- DataFrame nach dem Füllen mit festen Werten ---")
print(df_filled)

--- DataFrame nach dem Füllen mit festen Werten ---
    Name Studiengang  Semester  Note   ECTS
0   Anna  Informatik         4   1.7  120.0
1   Mark         BWL         6   2.3  180.0
2  Julia   Unbekannt         2   1.0   60.0
3    Tom  Informatik         4   2.7    NaN
4  Laura         BWL         8   0.0  240.0
5  Peter  Informatik         2   2.0   55.0
6  Sofia   Unbekannt        10   1.3    NaN


In [11]:
# Erstellen einer Kopie
df_filled_mean = df.copy()

# Berechne den Mittelwert der ECTS-Punkte (ignoriert NaN automatisch)
mean_ects = df_filled_mean['ECTS'].mean()
print(f"Der Durchschnitt der ECTS-Punkte ist: {mean_ects:.2f}")

# Fülle die NaN-Werte in der ECTS-Spalte mit dem berechneten Mittelwert
df_filled_mean['ECTS'] = df_filled_mean['ECTS'].fillna(mean_ects)

print("\n--- DataFrame nach dem Füllen von ECTS mit dem Mittelwert ---")
print(df_filled_mean)

Der Durchschnitt der ECTS-Punkte ist: 131.00

--- DataFrame nach dem Füllen von ECTS mit dem Mittelwert ---
    Name Studiengang  Semester  Note   ECTS
0   Anna  Informatik         4   1.7  120.0
1   Mark         BWL         6   2.3  180.0
2  Julia         NaN         2   1.0   60.0
3    Tom  Informatik         4   2.7  131.0
4  Laura         BWL         8   NaN  240.0
5  Peter  Informatik         2   2.0   55.0
6  Sofia         NaN        10   1.3  131.0
