### Aufgabe 1



# Datenvorbereitung mit Python

In diesem Notebook laden wir den Datensatz `Aufgabe-1.csv` ein, identifizieren typische Probleme (Trennzeichen, fehlende Werte, falsche Typen, Inkonsistenzen in Strings, Ausreißer) und bereinigen sie schrittweise. Am Ende speichern wir die bereinigte Datei ab.



Zusammenfassung der Arbeitsschritte

Format­erkennung mit csv.Sniffer

Einlesen mit korrekten Parametern und on_bad_lines='warn'

Inspektion (Typen, fehlende Werte, Ausreißer)

Bereinigung

Numerische Strings → Float/Int

String-Säuberung und Vereinheitlichung

Entfernen von Null-Werten und Duplikaten

Speichern des sauberen Datensatzes

### Bibliotheken & Imports

In [3]:
!python -m pip install pandas




[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\luisa\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [1]:
import pandas as pd
import numpy as np
import csv


# Wir nutzen pandas für DataFrames, numpy für numerische Operationen
# und das csv-Modul, um das Dateiformat (Delimiter, Quotechar) automatisch zu erkennen.

## 2. Dateiformat automatisch erkennen

Statt blind auf Komma oder Semikolon zu setzen, liest `csv.Sniffer()` eine Probe und ermittelt das Trennzeichen (`delimiter`) und das Zeichen für String-Markierung (`quotechar`).


In [2]:
with open('Data/Aufgabe-1.csv', newline='', encoding='utf-8') as f:
    sample = f.read(2048)
    dialect = csv.Sniffer().sniff(sample)
    delimiter = dialect.delimiter
    quotechar = dialect.quotechar

print(f"Erkannter delimiter: {delimiter!r}, quotechar: {quotechar!r}")

Erkannter delimiter: ',', quotechar: "'"


## 3. Datensatz einlesen

Nun laden wir den CSV mit den ermittelten Parametern.  
- `sep=delimiter`: korrektes Spaltentrennzeichen  
- `quotechar=quotechar`: z. B. Anführungszeichen um Strings  
- `encoding='utf-8'`: Annahme; ggf. anpassen, falls Fehler auftreten.


In [3]:
df = pd.read_csv(
    'Data/Aufgabe-1.csv',
    sep=delimiter,
    quotechar=quotechar,
    encoding='utf-8',
    on_bad_lines='warn'   # Zeilen mit falscher Anzahl Spalten nur warnen, statt Fehler zu werfen
)

# Erste Kontrolle
print("Shape:", df.shape)
df.head()


Shape: (18538, 89)



  df = pd.read_csv(
  df = pd.read_csv(


Unnamed: 0,Known As,Full Name,Overall,Potential,Value(in Euro),Positions Played,Best Position,Nationality,Image Link,Age,...,LM Rating,CM Rating,RM Rating,LWB Rating,CDM Rating,RWB Rating,LB Rating,CB Rating,RB Rating,GK Rating
0,L. Messi,Lionel Messi,91,91,54000000,RW,CAM,Argentina,https://cdn.sofifa.net/players/158/023/23_60.png,35,...,91,88,91,67,66,67,62,53,62,22
1,K. Benzema,Karim Benzema,91,91,64000000,"CF,ST",CF,France,https://cdn.sofifa.net/players/165/153/23_60.png,34,...,89,84,89,67,67,67,63,58,63,21
2,R. Lewandowski,Robert Lewandowski,91,91,84000000,ST,ST,Poland,https://cdn.sofifa.net/players/188/545/23_60.png,33,...,86,83,86,67,69,67,64,63,64,22
3,K. De Bruyne,Kevin De Bruyne,91,91,107500000,"CM,CAM",CM,Belgium,https://cdn.sofifa.net/players/192/985/23_60.png,31,...,91,91,91,82,82,82,78,72,78,24
4,K. Mbappé,Kylian Mbappé,91,95,190500000,"ST,LW",ST,France,https://cdn.sofifa.net/players/231/747/23_60.png,23,...,92,84,92,70,66,70,66,57,66,21


## 4. Erste Inspektion

- `df.info()`: Datentypen, Null-Werte  
- `df.describe()`: statistische Kennzahlen der numerischen Spalten  
- `df.isnull().sum()`: Anzahl fehlender Werte pro Spalte  


In [4]:
# Datentypen und Null-Werte prüfen
df.info()

# Statistische Kennzahlen kurz anschauen
df.describe(include='all')

# Fehlende Werte zählen
print("Fehlende Werte pro Spalte:\n", df.isnull().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18538 entries, 0 to 18537
Data columns (total 89 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Known As                     18538 non-null  object 
 1   Full Name                    18538 non-null  object 
 2   Overall                      18538 non-null  int64  
 3   Potential                    18538 non-null  int64  
 4   Value(in Euro)               18538 non-null  object 
 5   Positions Played             18538 non-null  object 
 6   Best Position                18538 non-null  object 
 7   Nationality                  18537 non-null  object 
 8   Image Link                   18538 non-null  object 
 9   Age                          18538 non-null  int64  
 10  Height(in cm)                18537 non-null  float64
 11  Weight(in kg)                18537 non-null  float64
 12  TotalStats                   18538 non-null  int64  
 13  BaseStats       

### Warum?
- Fehlende Werte müssen wir später entweder entfernen oder sinnvoll ersetzen.
- Falsche Datentypen (z. B. Zahlen als Strings) müssen korrigiert werden.
- `on_bad_lines='warn'` fängt Zeilen mit unpassender Spaltenzahl und zeigt, wo Probleme sind.


## 4b. Tiefergehende Typ-Analyse

Um zu erkennen, ob Spalten nicht den erwarteten Datentyp haben oder gemischte Typen enthalten, führen wir nun:

- Eine Übersicht über `df.dtypes`  
- Prüfung der tatsächlichen Python-Typen in jedem `object`-Feld  
- Zählung von Einträgen, die sich nicht in numerische Werte umwandeln lassen


In [33]:
# Übersicht aller Spalten mit aktuellem dtype
pd.set_option('display.max_rows', None)

dtype_df = pd.DataFrame({
    'Spalte': df.columns,
    'Dtype aktuell': df.dtypes.astype(str)
})
print(dtype_df)


                                                  Spalte Dtype aktuell
Known As                                        Known As        object
Full Name                                      Full Name        object
Overall                                          Overall         int64
Potential                                      Potential         int64
Value(in Euro)                            Value(in Euro)        object
Positions Played                        Positions Played        object
Best Position                              Best Position        object
Nationality                                  Nationality        object
Image Link                                    Image Link        object
Age                                                  Age         int64
Height(in cm)                              Height(in cm)       float64
Weight(in kg)                              Weight(in kg)       float64
TotalStats                                    TotalStats         int64
BaseSt

In [34]:
# Für jede object-Spalte: welche Python-Typen kommen vor?
for col in df.select_dtypes(include=['object']).columns:
    type_counts = (
        df[col]
        .map(lambda x: type(x).__name__ if pd.notnull(x) else 'NaN')
        .value_counts()
    )
    
    print(f"\nSpalte '{col}' – Python-Typen:")
    print(type_counts)
    



Spalte 'Known As' – Python-Typen:
Known As
str    18538
Name: count, dtype: int64

Spalte 'Full Name' – Python-Typen:
Full Name
str    18538
Name: count, dtype: int64

Spalte 'Value(in Euro)' – Python-Typen:
Value(in Euro)
str    16384
int     2154
Name: count, dtype: int64

Spalte 'Positions Played' – Python-Typen:
Positions Played
str    18538
Name: count, dtype: int64

Spalte 'Best Position' – Python-Typen:
Best Position
str    18538
Name: count, dtype: int64

Spalte 'Nationality' – Python-Typen:
Nationality
str    18537
NaN        1
Name: count, dtype: int64

Spalte 'Image Link' – Python-Typen:
Image Link
str    18538
Name: count, dtype: int64

Spalte 'Club Name' – Python-Typen:
Club Name
str    18538
Name: count, dtype: int64

Spalte 'Club Position' – Python-Typen:
Club Position
str    18538
Name: count, dtype: int64

Spalte 'Contract Until' – Python-Typen:
Contract Until
str    18538
Name: count, dtype: int64

Spalte 'Club Jersey Number' – Python-Typen:
Club Jersey Number
str   

In [None]:
# Analyse der numerischen Spalten

# Wähle alle Spalten, die pandas als numerisch einstuft
num_cols = df.select_dtypes(include=['number']).columns.tolist()

for col in num_cols:
    # Mappe jeden Wert auf seinen Python-Typ, NaNs als 'NaN'
    type_counts = (
        df[col]
        .map(lambda x: type(x).__name__ if pd.notnull(x) else 'NaN')
        .value_counts()
    )
    print(f"\nSpalte '{col}' – Python-Typen:")
    print(type_counts)



Spalte 'Overall' – Python-Typen:
Overall
int    18538
Name: count, dtype: int64

Spalte 'Potential' – Python-Typen:
Potential
int    18538
Name: count, dtype: int64

Spalte 'Age' – Python-Typen:
Age
int    18538
Name: count, dtype: int64

Spalte 'Height(in cm)' – Python-Typen:
Height(in cm)
float    18537
NaN          1
Name: count, dtype: int64

Spalte 'Weight(in kg)' – Python-Typen:
Weight(in kg)
float    18537
NaN          1
Name: count, dtype: int64

Spalte 'TotalStats' – Python-Typen:
TotalStats
int    18538
Name: count, dtype: int64

Spalte 'BaseStats' – Python-Typen:
BaseStats
int    18538
Name: count, dtype: int64

Spalte 'Wage(in Euro)' – Python-Typen:
Wage(in Euro)
int    18538
Name: count, dtype: int64

Spalte 'Release Clause' – Python-Typen:
Release Clause
int    18538
Name: count, dtype: int64

Spalte 'Joined On' – Python-Typen:
Joined On
int    18538
Name: count, dtype: int64

Spalte 'Weak Foot Rating' – Python-Typen:
Weak Foot Rating
int    18538
Name: count, dtype: int

In [12]:
# Übersicht problematischer Spalten

# Wir nehmen an, dass df bereits existiert

# Liste, die Infos zu jeder Spalte sammelt
report = []

for col in df.columns:
    # Grundinfos
    missing = df[col].isnull().sum()
    dtype = df[col].dtype
    
    # Verteilung der tatsächlichen Python-Typen in der Spalte
    type_counts = (
        df[col]
        .map(lambda x: type(x).__name__ if pd.notnull(x) else 'NaN')
        .value_counts()
    )
    # Heterogene Typen = mehr als ein Typ außer 'NaN'
    mixed = len(type_counts.drop(labels=['NaN'], errors='ignore')) > 1
    
    # Für object-Spalten: Anzahl der Einträge, die sich nicht in numerisch umwandeln lassen
    non_numeric = 0
    if dtype == 'object':
        coerced = pd.to_numeric(df[col], errors='coerce')
        non_numeric = ((coerced.isna()) & df[col].notna()).sum()
    
    report.append({
        'Spalte': col,
        'Dtype aktuell': str(dtype),
        'Missing values': missing,
        'Mixed types': mixed,
        'Non-numeric entries': non_numeric
    })

# DataFrame aus der Übersicht
report_df = pd.DataFrame(report)

# Nur Spalten mit mindestens einem Problem anzeigen
problems = report_df[
    (report_df['Missing values'] > 0) |
    (report_df['Mixed types']) #|
    #(report_df['Non-numeric entries'] > 0)
]

# Ausgabe aller problematischen Spalten und ihrer Kennzahlen
print(problems.to_string(index=False))


                  Spalte Dtype aktuell  Missing values  Mixed types  Non-numeric entries
          Value(in Euro)        object               0         True                    3
             Nationality        object               1        False                18537
           Height(in cm)       float64               1        False                    0
           Weight(in kg)       float64               1        False                    0
International Reputation       float64               1        False                    0
             Positioning       float64               1        False                    0
     Goalkeeper Handling       float64               1        False                    0


In [22]:
#print(df["Nationality"].unique())
#print(df["Value(in Euro)"])

print(df["Value(in Euro)"].map(lambda x: type(x).__name__ if pd.notnull(x) else 'NaN'), df["Value(in Euro)"])


0        str
1        str
2        str
3        str
4        str
        ... 
18533    int
18534    int
18535    int
18536    int
18537    int
Name: Value(in Euro), Length: 18538, dtype: object 0         54000000
1         64000000
2         84000000
3        107500000
4        190500000
           ...    
18533       110000
18534        90000
18535       130000
18536       100000
18537        60000
Name: Value(in Euro), Length: 18538, dtype: object


## 5. Datentyp-Korrekturen und Bereinigung

### a) Numerische Spalten  
Spalten wie **„Wage (in Euro)“** enthalten oft Euro-Symbol, Tausenderpunkt oder Leerzeichen. Wir entfernen nicht-numerische Zeichen und wandeln dann in Float um.

### b) Ganzzahl-Spalten  
Spalte **„Age“** sollte `int` sein, wandeln wir nach dem Cleanup um.

### c) Kategoriale Spalten  
**„Nationality“** und **„Club“** als Strings:  
- `.str.strip()` entfernt führende/abschließende Leerzeichen.  
- Einheitliche Schreibweise (z. B. „U.S.A.“ → „USA“).


In [10]:
# a) Wage (in Euro) bereinigen
df['Value(in Euro)'] = (
    df['Value(in Euro)']
    .astype(str)  # sicherstellen, dass wir eine String-Operation ausführen
    .str.replace(r'[^\d,.-]', '', regex=True)  # alles außer Ziffern, Komma, Punkt, Minus entfernen
    .str.replace(',', '.', regex=False)        # Komma als Dezimaltrennzeichen auf Punkt umstellen
    .astype(float)
)

# b) Age in Integer umwandeln
df['Age'] = pd.to_numeric(df['Age'], errors='coerce').astype('Int64')

# c) Kategoriale Spalten säubern
for col in ['Nationality', 'Club']:
    df[col] = (
        df[col]
        .astype(str)
        .str.strip()
        .replace({'U.S.A.': 'USA', 'United Kingdom': 'UK'})  # Beispiel für Vereinheitlichung
        .astype('category')
    )


ValueError: could not convert string to float: '26.500.000'

## 6. Ausreißer und Null-Werte behandeln

- **Null-Werte**:  
  - Falls wenige: entfernen (`df.dropna(subset=[...])`).  
  - Falls viele: imputieren (z. B. Mittelwert oder spezieller Wert „Unknown“).
- **Ausreißer**:  
  - Mit `df.describe()` grob erkennen.  
  - Entscheiden, ob realistisch (z. B. Wage > 1 Mio) oder Datenfehler (Tippfehler).


In [7]:
# Null-Werte zusammenfassen
missing = df.isnull().sum()
print(missing[missing > 0])

# Beispiel: alle Zeilen ohne Age oder Wage entfernen
df = df.dropna(subset=['Age', 'Wage (in Euro)'])

# Duplikate prüfen und löschen
if df.duplicated().any():
    df = df.drop_duplicates()


Nationality                 1
Height(in cm)               1
Weight(in kg)               1
International Reputation    1
Positioning                 1
Goalkeeper Handling         1
dtype: int64


KeyError: ['Wage (in Euro)']

## 7. Bereinigten Datensatz speichern

Am Ende speichern wir die bereinigte CSV ab. So bleibt das Original unverändert und wir haben jederzeit den sauberen Datensatz griffbereit.


In [None]:
df.to_csv(
    'Aufgabe-1_clean.csv',
    index=False,
    sep=delimiter,
    encoding='utf-8'
)
print("Bereinigte Datei 'Aufgabe-1_clean.csv' erstellt.")
