### Imports

In [1]:
import sys
import pandas as pd
import numpy as np
import json
from scipy import stats
import re

### Pfade & Encoding

In [2]:
data_path = "./Hauptordner"
encoding = "utf-8"

### Zufallsseed für Reproduzierbarkeit

In [3]:
RANDOM_SEED = 42

### Dataset 1: games – Grundchecks
- **Form & Größe prüfen**
- **Spaltennamen und Datentypen prüfen**
- **Erste Zeilen prüfen**
- **Zufällige Stichprobe prüfen**
- **Statistische Übersicht prüfen**
- **Fehlende Werte prüfen**
- **Duplikate prüfen**
- **Unix-Timestamp in Datum umwandeln**
- **Eindeutigkeit von Schlüsseln prüfen**
- **Min-/Max-Werte prüfen**
- **Wertebereiche prüfen**
- **Numerische Verteilungen prüfen**
- **Kardinalität prüfen**
- **Kategorische Verteilungen prüfen**
- **Auffälligkeiten markieren prüfen**
- **Konsistenz zwischen Spalten prüfen**
- **Komplett leere oder fast leere Spalten prüfen**
- **Datums-/Zeitspalten prüfen**
- **Zeichenketten in kategorischen Spalten prüfen**
- **Sonder-/unerwartete Zeichen in Textspalten prüfen**
- **Prüfung auf doppelte Spaltennamen**
- **Prüfung auf ungewöhnliche Null-Werte**
- **Prüfung auf inkonsistente Groß-/Kleinschreibung**
- **Prüfung auf führende/nachgestellte Leerzeichen**
- **Prüfung auf Werte, die nur aus Leerzeichen oder Sonderzeichen bestehen**
- **Ausreißer Checks**

### Form & Größe

In [4]:
pfad = r"D:\Python\Projektarbeit\Hauptordner\games.csv"
df = pd.read_csv(pfad)
df.shape

(51490, 61)

### Spaltennamen & Datentypen

In [5]:
df.dtypes

gameId          int64
creationTime    int64
gameDuration    int64
seasonId        int64
winner          int64
                ...  
t2_ban1         int64
t2_ban2         int64
t2_ban3         int64
t2_ban4         int64
t2_ban5         int64
Length: 61, dtype: object

### Erste Zeilen anzeigen

In [6]:
df.head()

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_towerKills,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5
0,3326086514,1504279457970,1949,9,1,2,1,1,1,1,...,5,0,0,1,1,114,67,43,16,51
1,3229566029,1497848803862,1851,9,1,1,1,1,0,1,...,2,0,0,0,0,11,67,238,51,420
2,3327363504,1504360103310,1493,9,1,2,1,1,1,2,...,2,0,0,1,0,157,238,121,57,28
3,3326856598,1504348503996,1758,9,1,1,1,1,1,1,...,0,0,0,0,0,164,18,141,40,51
4,3330080762,1504554410899,2094,9,1,2,1,1,1,1,...,3,0,0,1,0,86,11,201,122,18


### Zufällige Stichprobe

In [7]:
df.sample(5, random_state=1)

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_towerKills,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5
21338,3262581806,1499963921161,1886,9,2,1,1,2,1,2,...,10,2,0,3,0,122,154,12,420,67
42732,3327879178,1504392600370,1932,9,1,1,1,1,1,1,...,0,0,0,0,0,51,420,121,29,17
32673,3321454122,1503942313456,1754,9,2,1,2,2,0,2,...,8,1,0,2,1,238,157,122,105,516
31854,3319965495,1503842743668,2511,9,1,1,1,1,1,1,...,4,0,0,1,0,122,222,58,75,238
33214,3329638642,1504532712344,2389,9,1,1,1,1,1,1,...,7,0,0,1,1,53,17,51,68,238


### Statistische Übersicht

In [8]:
df.describe()

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_towerKills,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5
count,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,...,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0,51490.0
mean,3306223000.0,1502926000000.0,1832.362808,9.0,1.493552,1.471295,1.450631,1.308487,0.92651,1.442804,...,5.549466,0.985084,0.414547,1.40437,0.240105,108.216294,107.910216,108.690581,108.626044,108.066576
std,29460960.0,1978026000.0,512.017696,0.0,0.499963,0.520326,0.542848,0.676097,0.841424,0.569579,...,3.860989,1.256284,0.613768,1.224492,0.427151,102.551787,102.87071,102.592145,103.346952,102.756149
min,3214824000.0,1496892000000.0,190.0,9.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,-1.0,-1.0,-1.0,-1.0,-1.0
25%,3292218000.0,1502021000000.0,1531.0,9.0,1.0,1.0,1.0,1.0,0.0,1.0,...,2.0,0.0,0.0,0.0,0.0,38.0,37.0,38.0,38.0,38.0
50%,3320021000.0,1503844000000.0,1833.0,9.0,1.0,1.0,1.0,1.0,1.0,1.0,...,6.0,0.0,0.0,1.0,0.0,90.0,90.0,90.0,90.0,90.0
75%,3327099000.0,1504352000000.0,2148.0,9.0,2.0,2.0,2.0,2.0,2.0,2.0,...,9.0,2.0,1.0,2.0,0.0,141.0,141.0,141.0,141.0,141.0
max,3331833000.0,1504707000000.0,4728.0,9.0,2.0,2.0,2.0,2.0,2.0,2.0,...,11.0,10.0,4.0,6.0,1.0,516.0,516.0,516.0,516.0,516.0


### Fehlende Werte

In [9]:
df.isnull().sum()

gameId          0
creationTime    0
gameDuration    0
seasonId        0
winner          0
               ..
t2_ban1         0
t2_ban2         0
t2_ban3         0
t2_ban4         0
t2_ban5         0
Length: 61, dtype: int64

### Duplikate prüfen

In [10]:
df.duplicated().sum()

np.int64(437)

### Duplikate check 1:1

In [11]:
df.value_counts().reset_index(name='Anzahl').query("Anzahl > 1")

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5,Anzahl
0,3322520878,1504013620493,2407,9,2,1,1,2,2,1,...,5,2,2,0,55,157,141,154,122,3
1,3322454614,1504011343496,1745,9,1,1,1,1,1,1,...,0,0,0,0,81,498,245,92,7,3
2,3327686351,1504380431622,2661,9,2,1,2,2,2,2,...,4,2,3,0,105,29,8,266,31,3
3,3327701740,1504379388674,1611,9,2,1,2,2,0,2,...,2,0,2,1,412,55,18,57,31,3
4,3327746850,1504383601683,1396,9,1,1,1,1,0,2,...,0,0,1,0,122,18,238,29,8,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
419,3331398020,1504645952104,1266,9,2,2,2,0,0,2,...,0,0,3,1,141,57,33,40,29,2
420,3331444373,1504647664961,1433,9,1,1,1,1,1,1,...,0,0,0,0,8,141,40,113,157,2
421,3331485517,1504652442180,1220,9,1,2,1,1,0,1,...,0,0,0,0,31,157,40,141,117,2
422,3331491546,1504650469280,1383,9,1,1,1,1,0,1,...,0,0,0,0,10,238,117,18,40,2


### Duplikate löschen

In [12]:
df = df.drop_duplicates()

### Unix-Timestamp (ms) in Datum umwandeln

In [13]:
df["creationTime_dt"] = pd.to_datetime(df["creationTime"], unit="ms")

print("Erstes Spiel:", df["creationTime_dt"].min())
print("Letztes Spiel:", df["creationTime_dt"].max())

Erstes Spiel: 2017-06-08 03:14:54.922000
Letztes Spiel: 2017-09-06 14:15:32.198000


### Eindeutigkeit von Schlüsseln

In [14]:
df['gameId'].is_unique

True

### Min-/Max-Werte je Spalte

In [15]:
df.describe().loc[['min', 'max']]

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_inhibitorKills,t2_baronKills,t2_dragonKills,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5,creationTime_dt
min,3214824000.0,1496892000000.0,190.0,9.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,-1.0,-1.0,-1.0,-1.0,-1.0,2017-06-08 03:14:54.922000
max,3331833000.0,1504707000000.0,4728.0,9.0,2.0,2.0,2.0,2.0,2.0,2.0,...,10.0,4.0,6.0,1.0,516.0,516.0,516.0,516.0,516.0,2017-09-06 14:15:32.198000


### Wertebereiche

In [16]:
df[['gameDuration', 'seasonId', 'winner']].describe()

Unnamed: 0,gameDuration,seasonId,winner
count,51053.0,51053.0,51053.0
mean,1832.080348,9.0,1.493526
std,512.042455,0.0,0.499963
min,190.0,9.0,1.0
25%,1531.0,9.0,1.0
50%,1833.0,9.0,1.0
75%,2147.0,9.0,2.0
max,4728.0,9.0,2.0


### Numerische Verteilungen

In [17]:
num_cols = df.select_dtypes(include=["int64", "float64"]).columns.tolist()
print(f"Numerische Spalten ({len(num_cols)}):", num_cols)

Numerische Spalten (61): ['gameId', 'creationTime', 'gameDuration', 'seasonId', 'winner', 'firstBlood', 'firstTower', 'firstInhibitor', 'firstBaron', 'firstDragon', 'firstRiftHerald', 't1_champ1id', 't1_champ1_sum1', 't1_champ1_sum2', 't1_champ2id', 't1_champ2_sum1', 't1_champ2_sum2', 't1_champ3id', 't1_champ3_sum1', 't1_champ3_sum2', 't1_champ4id', 't1_champ4_sum1', 't1_champ4_sum2', 't1_champ5id', 't1_champ5_sum1', 't1_champ5_sum2', 't1_towerKills', 't1_inhibitorKills', 't1_baronKills', 't1_dragonKills', 't1_riftHeraldKills', 't1_ban1', 't1_ban2', 't1_ban3', 't1_ban4', 't1_ban5', 't2_champ1id', 't2_champ1_sum1', 't2_champ1_sum2', 't2_champ2id', 't2_champ2_sum1', 't2_champ2_sum2', 't2_champ3id', 't2_champ3_sum1', 't2_champ3_sum2', 't2_champ4id', 't2_champ4_sum1', 't2_champ4_sum2', 't2_champ5id', 't2_champ5_sum1', 't2_champ5_sum2', 't2_towerKills', 't2_inhibitorKills', 't2_baronKills', 't2_dragonKills', 't2_riftHeraldKills', 't2_ban1', 't2_ban2', 't2_ban3', 't2_ban4', 't2_ban5']


In [18]:
if len(num_cols) == 0:
    print("Keine numerischen Spalten gefunden.")
else:
    q = df[num_cols].quantile([0.10, 0.25, 0.50, 0.75, 0.90])
    q.index = [f"{int(p*100)}%" for p in q.index]
    print(q)

           gameId  creationTime  gameDuration  seasonId  winner  firstBlood  \
10%  3.255826e+09  1.499529e+12        1264.0       9.0     1.0         1.0   
25%  3.292076e+09  1.502002e+12        1531.0       9.0     1.0         1.0   
50%  3.319919e+09  1.503841e+12        1833.0       9.0     1.0         1.0   
75%  3.327075e+09  1.504350e+12        2147.0       9.0     2.0         2.0   
90%  3.329724e+09  1.504537e+12        2448.0       9.0     2.0         2.0   

     firstTower  firstInhibitor  firstBaron  firstDragon  ...  t2_towerKills  \
10%         1.0             0.0         0.0          1.0  ...            0.0   
25%         1.0             1.0         0.0          1.0  ...            2.0   
50%         1.0             1.0         1.0          1.0  ...            6.0   
75%         2.0             2.0         2.0          2.0  ...            9.0   
90%         2.0             2.0         2.0          2.0  ...           11.0   

     t2_inhibitorKills  t2_baronKills  t2_dr

### Kardinalität der Spalten

In [19]:
df.nunique()

gameId             51053
creationTime       51052
gameDuration        2590
seasonId               1
winner                 2
                   ...  
t2_ban2              139
t2_ban3              139
t2_ban4              139
t2_ban5              139
creationTime_dt    51052
Length: 62, dtype: int64

### Kategorische Verteilungen

In [20]:
df[['seasonId', 'winner']].apply(pd.Series.value_counts)

Unnamed: 0,seasonId,winner
1,,25857.0
2,,25196.0
9,51053.0,


### Auffälligkeiten markieren

In [21]:
df['auffällig_duration'] = (df['gameDuration'] < 300) | (df['gameDuration'] > 4000)
df['auffällig_winner'] = ~df['winner'].isin([1, 2])
df['auffällig_season'] = df['seasonId'] != 9
df[df[['auffällig_duration', 'auffällig_winner', 'auffällig_season']].any(axis=1)]

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_riftHeraldKills,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5,creationTime_dt,auffällig_duration,auffällig_winner,auffällig_season
64,3258796399,1499719924936,197,9,2,0,0,0,0,0,...,0,157,7,114,154,8,2017-07-10 20:52:04.936,True,False,False
82,3330152268,1504559761914,193,9,1,1,0,0,0,0,...,0,11,238,86,157,31,2017-09-04 21:16:01.914,True,False,False
119,3246799766,1498919798084,192,9,1,1,0,0,0,0,...,0,103,122,105,117,29,2017-07-01 14:36:38.084,True,False,False
149,3284885837,1501465757099,208,9,1,1,0,0,0,0,...,0,31,157,11,119,150,2017-07-31 01:49:17.099,True,False,False
276,3303374774,1502719079210,201,9,1,1,0,0,0,0,...,0,67,17,238,31,117,2017-08-14 13:57:59.210,True,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51271,3324791171,1504190733403,191,9,1,0,0,0,0,0,...,0,157,516,24,245,267,2017-08-31 14:45:33.403,True,False,False
51359,3323948503,1504111359658,202,9,1,2,0,0,0,0,...,0,113,31,25,238,119,2017-08-30 16:42:39.658,True,False,False
51412,3252578270,1499293935789,194,9,2,2,0,0,0,0,...,0,154,157,114,119,117,2017-07-05 22:32:15.789,True,False,False
51417,3282153758,1501271424076,197,9,2,0,0,0,0,0,...,0,119,80,117,498,157,2017-07-28 19:50:24.076,True,False,False


### Konsistenz zwischen Spalten

In [22]:
df['konsistenz_winner'] = df['winner'].isin([1, 2])
df[~df['konsistenz_winner']]

Unnamed: 0,gameId,creationTime,gameDuration,seasonId,winner,firstBlood,firstTower,firstInhibitor,firstBaron,firstDragon,...,t2_ban1,t2_ban2,t2_ban3,t2_ban4,t2_ban5,creationTime_dt,auffällig_duration,auffällig_winner,auffällig_season,konsistenz_winner


### Komplett leere oder fast leere Spalten

In [23]:
leere_spalten = df.columns[df.isnull().all()]
fast_leere_spalten = df.columns[df.isnull().mean() > 0.9]

print("Komplett leere Spalten:", list(leere_spalten))
print("Fast leere Spalten (>90% NaN):", list(fast_leere_spalten))

Komplett leere Spalten: []
Fast leere Spalten (>90% NaN): []


### Datums-/Zeitspalten prüfen

In [24]:
datum_spalten = df.select_dtypes(include=['datetime64', 'datetime64[ns]']).columns

print("Datum-/Zeitspalten:", list(datum_spalten))

for spalte in datum_spalten:
    print(spalte, "→ Min:", df[spalte].min(), "| Max:", df[spalte].max())

Datum-/Zeitspalten: ['creationTime_dt']
creationTime_dt → Min: 2017-06-08 03:14:54.922000 | Max: 2017-09-06 14:15:32.198000


### Zeichenketten in kategorischen Spalten prüfen

In [25]:
kategorie_spalten = df.select_dtypes(include=['object']).columns
print("Gefundene Textspalten:", list(kategorie_spalten))

Gefundene Textspalten: []


In [26]:
kategorie_spalten = df.select_dtypes(include=['object']).columns
for spalte in kategorie_spalten:
    print(f"Spalte: {spalte}")
    print(df[spalte].str.len().describe())
    print("-" * 40)

### Sonder-/unerwartete Zeichen

In [27]:
textspalten = df.select_dtypes(include=['object']).columns

if len(textspalten) == 0:
    print("Keine Textspalten vorhanden.")
else:
    for spalte in textspalten:
        print(f"Spalte: {spalte}")
        auffällig = df[spalte].dropna().str.contains(r"[^0-9A-Za-zÄÖÜäöüß\s\-_.]", regex=True)
        print("Auffällige Einträge:", auffällig.sum())
        print("-" * 40)

Keine Textspalten vorhanden.


### Doppelte Spaltennamen

In [28]:
doppelte_spalten = df.columns[df.columns.duplicated()]
print("Doppelte Spaltennamen:", list(doppelte_spalten))

Doppelte Spaltennamen: []


### Ungewöhnliche Null-Werte

In [29]:
null_spalten = df.columns[(df == 0).mean() > 0.9]
print("Spalten mit über 90 % Nullen:", list(null_spalten))

Spalten mit über 90 % Nullen: ['auffällig_duration', 'auffällig_winner', 'auffällig_season']


### Groß-/Kleinschreibung

In [30]:
textspalten = df.select_dtypes(include=['object']).columns
if len(textspalten) == 0:
    print("Keine Textspalten vorhanden.")
else:
    for spalte in textspalten:
        klein = df[spalte].dropna().str.islower().mean()
        groß = df[spalte].dropna().str.isupper().mean()
        print(f"{spalte}: Anteil kleingeschrieben = {klein:.2f}, großgeschrieben = {groß:.2f}")

Keine Textspalten vorhanden.


### Führende/nachgestellte Leerzeichen

In [31]:
textspalten = df.select_dtypes(include=['object']).columns
if len(textspalten) == 0:
    print("Keine Textspalten vorhanden.")
else:
    for spalte in textspalten:
        anteil = df[spalte].dropna().str.match(r"^\s|.*\s$").mean()
        print(f"{spalte}: Anteil mit Leerzeichen vorne oder hinten = {anteil:.2f}")

Keine Textspalten vorhanden.


### Prüfung auf Werte, die nur aus Leerzeichen oder Sonderzeichen bestehen

In [32]:
textspalten = df.select_dtypes(include=['object']).columns
if len(textspalten) == 0:
    print("Keine Textspalten vorhanden.")
else:
    for spalte in textspalten:
        nur_leer = df[spalte].astype(str).str.fullmatch(r"\s*").sum()
        nur_sonder = df[spalte].astype(str).str.fullmatch(r"[^\w\s]+").sum()
        print(f"{spalte}: Nur Leerzeichen = {nur_leer}, nur Sonderzeichen = {nur_sonder}")

Keine Textspalten vorhanden.


### Ausreißer-Check IQR-Methode

In [33]:
num_cols = df.select_dtypes(include=[np.number]).columns

for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR

    outliers = df[(df[col] < lower) | (df[col] > upper)][col]
    
    if not outliers.empty:
        print(f"Spalte: {col}")
        print(f"  Anzahl Ausreißer: {outliers.shape[0]}")
        print(f"  Wertebereich: {df[col].min()} bis {df[col].max()}")
        print(f"  IQR-Grenzen: {lower:.2f} bis {upper:.2f}")
        print()

        # IQR Methode ist nicht gut da es bei den ID sag es wären ausreißer obwohl ID´s Kategorische Nummern sind.

Spalte: gameId
  Anzahl Ausreißer: 2578
  Wertebereich: 3214824413 bis 3331832657
  IQR-Grenzen: 3239577067.00 bis 3379573947.00

Spalte: creationTime
  Anzahl Ausreißer: 2595
  Wertebereich: 1496891694922 bis 1504707332198
  IQR-Grenzen: 1498479573509.50 bis 1507872663105.50

Spalte: gameDuration
  Anzahl Ausreißer: 1697
  Wertebereich: 190 bis 4728
  IQR-Grenzen: 607.00 bis 3071.00

Spalte: t1_champ1id
  Anzahl Ausreißer: 3979
  Wertebereich: 1 bis 516
  IQR-Grenzen: -116.50 bis 287.50

Spalte: t1_champ2id
  Anzahl Ausreißer: 4471
  Wertebereich: 1 bis 516
  IQR-Grenzen: -124.00 bis 300.00

Spalte: t1_champ3id
  Anzahl Ausreißer: 4355
  Wertebereich: 1 bis 516
  IQR-Grenzen: -124.00 bis 300.00

Spalte: t1_champ4id
  Anzahl Ausreißer: 4457
  Wertebereich: 1 bis 516
  IQR-Grenzen: -121.50 bis 298.50

Spalte: t1_champ5id
  Anzahl Ausreißer: 4136
  Wertebereich: 1 bis 516
  IQR-Grenzen: -116.50 bis 287.50

Spalte: t1_inhibitorKills
  Anzahl Ausreißer: 198
  Wertebereich: 0 bis 10
  IQR-G

In [34]:
cols_check = ["gameDuration", 
              "t1_inhibitorKills", "t1_baronKills", "t1_dragonKills",
              "t2_inhibitorKills", "t2_baronKills", "t2_dragonKills", "t2_riftHeraldKills"]

for col in cols_check:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower) | (df[col] > upper)][col]
    
    if not outliers.empty:
        print(f"Spalte: {col}")
        print(f"  Anzahl Ausreißer: {outliers.shape[0]}")
        print(f"  Wertebereich: {df[col].min()} bis {df[col].max()}")
        print(f"  IQR-Grenzen: {lower:.2f} bis {upper:.2f}")
        print()

        # Mit der IQR-Methode wurden keine echten Ausreißer gefunden. Kurze Spiele sind Remakes, lange Spiele (über 60 Minuten) kommen real vor und sind keine Ausreißer.

Spalte: gameDuration
  Anzahl Ausreißer: 1697
  Wertebereich: 190 bis 4728
  IQR-Grenzen: 607.00 bis 3071.00

Spalte: t1_inhibitorKills
  Anzahl Ausreißer: 198
  Wertebereich: 0 bis 10
  IQR-Grenzen: -3.00 bis 5.00

Spalte: t1_baronKills
  Anzahl Ausreißer: 159
  Wertebereich: 0 bis 5
  IQR-Grenzen: -1.50 bis 2.50

Spalte: t1_dragonKills
  Anzahl Ausreißer: 29
  Wertebereich: 0 bis 6
  IQR-Grenzen: -3.00 bis 5.00

Spalte: t2_inhibitorKills
  Anzahl Ausreißer: 205
  Wertebereich: 0 bis 10
  IQR-Grenzen: -3.00 bis 5.00

Spalte: t2_baronKills
  Anzahl Ausreißer: 215
  Wertebereich: 0 bis 4
  IQR-Grenzen: -1.50 bis 2.50

Spalte: t2_dragonKills
  Anzahl Ausreißer: 24
  Wertebereich: 0 bis 6
  IQR-Grenzen: -3.00 bis 5.00

Spalte: t2_riftHeraldKills
  Anzahl Ausreißer: 12265
  Wertebereich: 0 bis 1
  IQR-Grenzen: 0.00 bis 0.00



### Ausreißer Check Z-Score-Methode

In [35]:
num_cols = df.select_dtypes(include=[np.number]).columns

for col in num_cols:
    z_scores = np.abs(stats.zscore(df[col], nan_policy='omit'))
    
    outliers = df[col][z_scores > 3]
    
    if not outliers.empty:
        print(f"Spalte: {col}")
        print(f"  Anzahl Ausreißer: {outliers.shape[0]}")
        print(f"  Wertebereich: {df[col].min()} bis {df[col].max()}")
        print(f"  Ausreißer min: {outliers.min()}  max: {outliers.max()}")
        print()

Spalte: gameId
  Anzahl Ausreißer: 241
  Wertebereich: 3214824413 bis 3331832657
  Ausreißer min: 3214824413  max: 3217565993

Spalte: creationTime
  Anzahl Ausreißer: 118
  Wertebereich: 1496891694922 bis 1504707332198
  Ausreißer min: 1496891694922  max: 1496971821754

Spalte: gameDuration
  Anzahl Ausreißer: 1313
  Wertebereich: 190 bis 4728
  Ausreißer min: 190  max: 4728

Spalte: t1_champ1id
  Anzahl Ausreißer: 1764
  Wertebereich: 1 bis 516
  Ausreißer min: 497  max: 516

Spalte: t1_champ1_sum1
  Anzahl Ausreißer: 698
  Wertebereich: 1 bis 21
  Ausreißer min: 21  max: 21

Spalte: t1_champ1_sum2
  Anzahl Ausreißer: 881
  Wertebereich: 1 bis 21
  Ausreißer min: 21  max: 21

Spalte: t1_champ2id
  Anzahl Ausreißer: 1986
  Wertebereich: 1 bis 516
  Ausreißer min: 497  max: 516

Spalte: t1_champ2_sum1
  Anzahl Ausreißer: 646
  Wertebereich: 1 bis 21
  Ausreißer min: 21  max: 21

Spalte: t1_champ2_sum2
  Anzahl Ausreißer: 799
  Wertebereich: 1 bis 21
  Ausreißer min: 21  max: 21

Spalte

  z_scores = np.abs(stats.zscore(df[col], nan_policy='omit'))


In [36]:
cols_check = ["gameDuration", 
              "t1_inhibitorKills", "t1_baronKills", "t1_dragonKills",
              "t2_inhibitorKills", "t2_baronKills", "t2_dragonKills", "t2_riftHeraldKills"]

for col in cols_check:
    z_scores = np.abs(stats.zscore(df[col], nan_policy='omit'))
    outliers = df[col][z_scores > 3]
    
    if not outliers.empty:
        print(f"Spalte: {col}")
        print(f"  Anzahl Ausreißer: {outliers.shape[0]}")
        print(f"  Wertebereich: {df[col].min()} bis {df[col].max()}")
        print(f"  Ausreißer min: {outliers.min()}  max: {outliers.max()}")
        print()

Spalte: gameDuration
  Anzahl Ausreißer: 1313
  Wertebereich: 190 bis 4728
  Ausreißer min: 190  max: 4728

Spalte: t1_inhibitorKills
  Anzahl Ausreißer: 618
  Wertebereich: 0 bis 10
  Ausreißer min: 5  max: 10

Spalte: t1_baronKills
  Anzahl Ausreißer: 159
  Wertebereich: 0 bis 5
  Ausreißer min: 3  max: 5

Spalte: t1_dragonKills
  Anzahl Ausreißer: 29
  Wertebereich: 0 bis 6
  Ausreißer min: 6  max: 6

Spalte: t2_inhibitorKills
  Anzahl Ausreißer: 635
  Wertebereich: 0 bis 10
  Ausreißer min: 5  max: 10

Spalte: t2_baronKills
  Anzahl Ausreißer: 215
  Wertebereich: 0 bis 4
  Ausreißer min: 3  max: 4

Spalte: t2_dragonKills
  Anzahl Ausreißer: 24
  Wertebereich: 0 bis 6
  Ausreißer min: 6  max: 6



### Gegenprüfung von Ausreißern (mit Spielzeit)

In [37]:
cols_check = ["gameDuration", 
              "t1_towerKills", "t2_towerKills",
              "t1_inhibitorKills", "t2_inhibitorKills",
              "t1_baronKills", "t2_baronKills",
              "t1_dragonKills", "t2_dragonKills",
              "t1_riftHeraldKills", "t2_riftHeraldKills"]

check_df = df[cols_check]

extreme_cases = check_df[
    (check_df["t1_inhibitorKills"] > 5) |
    (check_df["t2_inhibitorKills"] > 5) |
    (check_df["t1_towerKills"] > 11) |
    (check_df["t2_towerKills"] > 11) |
    (check_df["t1_baronKills"] >= 3) |
    (check_df["t2_baronKills"] >= 3) |
    (check_df["t1_dragonKills"] >= 6) |
    (check_df["t2_dragonKills"] >= 6) |
    (check_df["t1_riftHeraldKills"] > 1) |
    (check_df["t2_riftHeraldKills"] > 1)
]

print("Gefundene Extremfälle:", extreme_cases.shape[0])
print(extreme_cases[["gameDuration", "t1_inhibitorKills", "t2_inhibitorKills",
                     "t1_towerKills", "t2_towerKills",
                     "t1_baronKills", "t2_baronKills",
                     "t1_dragonKills", "t2_dragonKills",
                     "t1_riftHeraldKills", "t2_riftHeraldKills"]]
      .sort_values("gameDuration", ascending=False)
      .head(10))

# Alle Ausreißer ergeben einen sinn, den die Spieldauer z.b Inhibitkills und co haben alle eine lange Spielzeit.So mit keine Ausreißer.

Gefundene Extremfälle: 739
       gameDuration  t1_inhibitorKills  t2_inhibitorKills  t1_towerKills  \
30524          4728                  1                  9              7   
50101          4562                  3                  4             10   
25416          4210                  3                  6              9   
7669           4090                  2                  6              9   
44721          4083                  3                  3             10   
36686          4065                  1                  9              5   
38911          4019                  5                  8             11   
31885          3983                  1                  7              8   
5504           3977                  1                  3              7   
43279          3977                  0                  4              4   

       t2_towerKills  t1_baronKills  t2_baronKills  t1_dragonKills  \
30524             11              3              2               5

### Dataset 1: games – Spezifische Checks
- **Spielzeiten (gameDuration)**
- **Plausibilität**
- **Gewinner-Spalte (winner)**
- **Unrealistisch hohe Objective-Werte**
- **Negative Werte bei Objectives**


### Spielzeiten

In [38]:
short_games = df[df["gameDuration"] < 300]

print("Anzahl Spiele unter 5 Minuten:", short_games.shape[0])
print("Minimale Spielzeit:", df["gameDuration"].min())
print("Maximale Spielzeit:", df["gameDuration"].max())

#Es gibt 1.187 Spiele, die abgebrochen wurden – sogenannte Remakes, wenn ein Spieler AFK ist.
#Spiele die länger als 60 min vorkommen 4728 Games.Gibt es und kommt auch vor.

Anzahl Spiele unter 5 Minuten: 1187
Minimale Spielzeit: 190
Maximale Spielzeit: 4728


### Plausibilität

In [39]:
if "gameDuration" in df.columns:
    print("gameDuration min/max:", df["gameDuration"].min(), df["gameDuration"].max())
    print("=0 Sekunden:", (df["gameDuration"] == 0).sum())
    print("<0 Sekunden:", (df["gameDuration"] < 0).sum())
    print(">3h (10800 s):", (df["gameDuration"] > 10800).sum())

gameDuration min/max: 190 4728
=0 Sekunden: 0
<0 Sekunden: 0
>3h (10800 s): 0


In [40]:
likely_nonneg = [c for c in df.columns if re.search(
    r"(tower|turret|inhib|dragon|baron|herald|rift|objective)", c, re.IGNORECASE)]


for col in likely_nonneg:
    neg = (df[col] < 0).sum()
    print(f"{col}: negative Werte = {neg}")

firstTower: negative Werte = 0
firstInhibitor: negative Werte = 0
firstBaron: negative Werte = 0
firstDragon: negative Werte = 0
firstRiftHerald: negative Werte = 0
t1_towerKills: negative Werte = 0
t1_inhibitorKills: negative Werte = 0
t1_baronKills: negative Werte = 0
t1_dragonKills: negative Werte = 0
t1_riftHeraldKills: negative Werte = 0
t2_towerKills: negative Werte = 0
t2_inhibitorKills: negative Werte = 0
t2_baronKills: negative Werte = 0
t2_dragonKills: negative Werte = 0
t2_riftHeraldKills: negative Werte = 0


In [41]:
upper_caps = {
    "tower": 20,
    "turret": 20,
    "inhib": 12,
    "dragon": 15,
    "baron": 10,
    "herald": 4,
    "rift": 4,
    "objective": 10
}

for col in df.columns:
    for key, cap in upper_caps.items():
        if re.search(key, col, flags=re.I):
            too_high = (df[col] > cap).sum()
            print(f"{col}: > {cap} = {too_high}")


firstTower: > 20 = 0
firstInhibitor: > 12 = 0
firstBaron: > 10 = 0
firstDragon: > 15 = 0
firstRiftHerald: > 4 = 0
firstRiftHerald: > 4 = 0
t1_towerKills: > 20 = 0
t1_inhibitorKills: > 12 = 0
t1_baronKills: > 10 = 0
t1_dragonKills: > 15 = 0
t1_riftHeraldKills: > 4 = 0
t1_riftHeraldKills: > 4 = 0
t2_towerKills: > 20 = 0
t2_inhibitorKills: > 12 = 0
t2_baronKills: > 10 = 0
t2_dragonKills: > 15 = 0
t2_riftHeraldKills: > 4 = 0
t2_riftHeraldKills: > 4 = 0


### Gewinner-Spalte

In [42]:
print("Eindeutige Werte in winner:", df["winner"].unique())

Eindeutige Werte in winner: [1 2]


### Häufigkeiten zählen

In [43]:
print("\nAnzahl Siege pro Team:")
print(df["winner"].value_counts())


Anzahl Siege pro Team:
winner
1    25857
2    25196
Name: count, dtype: int64


### Unrealistisch hohe Objective-Werte

In [44]:
print("Maximale TowerKills Team 1:", df["t1_towerKills"].max())
print("Maximale TowerKills Team 2:", df["t2_towerKills"].max())

print("Maximale InhibitorKills Team 1:", df["t1_inhibitorKills"].max())
print("Maximale InhibitorKills Team 2:", df["t2_inhibitorKills"].max())

print("Maximale BaronKills Team 1:", df["t1_baronKills"].max())
print("Maximale BaronKills Team 2:", df["t2_baronKills"].max())

print("Maximale DragonKills Team 1:", df["t1_dragonKills"].max())
print("Maximale DragonKills Team 2:", df["t2_dragonKills"].max())

print("Maximale RiftHeraldKills Team 1:", df["t1_riftHeraldKills"].max())
print("Maximale RiftHeraldKills Team 2:", df["t2_riftHeraldKills"].max())

Maximale TowerKills Team 1: 11
Maximale TowerKills Team 2: 11
Maximale InhibitorKills Team 1: 10
Maximale InhibitorKills Team 2: 10
Maximale BaronKills Team 1: 5
Maximale BaronKills Team 2: 4
Maximale DragonKills Team 1: 6
Maximale DragonKills Team 2: 6
Maximale RiftHeraldKills Team 1: 1
Maximale RiftHeraldKills Team 2: 1


In [45]:
dragon_before_spawn = df[(df["gameDuration"] < 300) & ((df["t1_dragonKills"] + df["t2_dragonKills"]) > 0)].shape[0]
baron_before_spawn  = df[(df["gameDuration"] < 1200) & ((df["t1_baronKills"] + df["t2_baronKills"]) > 0)].shape[0]
herald_before_spawn = df[(df["gameDuration"] < 590) & ((df["t1_riftHeraldKills"] + df["t2_riftHeraldKills"]) > 0)].shape[0]

print("Drache vor 5:00:", dragon_before_spawn)
print("Baron vor 20:00:", baron_before_spawn)
print("Herald vor ~9:50:", herald_before_spawn)

Drache vor 5:00: 1
Baron vor 20:00: 0
Herald vor ~9:50: 0


In [46]:
def max_dragons(T):
    return 0 if T < 300 else 1 + int((T - 300) // 300)

def max_barons(T):
    return 0 if T < 1200 else 1 + int((T - 1200) // 360)

def max_heralds(T):
    return 0 if T < 590 else 1

total_dragons = df["t1_dragonKills"] + df["t2_dragonKills"]
total_barons  = df["t1_baronKills"]  + df["t2_baronKills"]
total_heralds = df["t1_riftHeraldKills"] + df["t2_riftHeraldKills"]

dragons_over = (total_dragons > df["gameDuration"].apply(max_dragons)).sum()
barons_over  = (total_barons  > df["gameDuration"].apply(max_barons)).sum()
heralds_over = (total_heralds > df["gameDuration"].apply(max_heralds)).sum()

print("Drachen über theoretischem Maximum:", dragons_over)
print("Barons über theoretischem Maximum:", barons_over)
print("Heralds über theoretischem Maximum:", heralds_over)

Drachen über theoretischem Maximum: 1
Barons über theoretischem Maximum: 0
Heralds über theoretischem Maximum: 0


In [47]:
firstDragon_zeroKill = ((total_dragons == 0) & (df["firstDragon"] != 0)).sum()
firstBaron_zeroKill  = ((total_barons  == 0) & (df["firstBaron"]  != 0)).sum()
firstHerald_zeroKill = ((total_heralds == 0) & (df["firstRiftHerald"] != 0)).sum()

print("firstDragon=1 trotz 0 Drachen:", firstDragon_zeroKill)
print("firstBaron=1  trotz 0 Barons:", firstBaron_zeroKill)
print("firstHerald=1 trotz 0 Heralds:", firstHerald_zeroKill)

firstDragon=1 trotz 0 Drachen: 0
firstBaron=1  trotz 0 Barons: 0
firstHerald=1 trotz 0 Heralds: 0


In [48]:
firstDragon_hasKill = ((total_dragons > 0) & (df["firstDragon"] != 1)).sum()
firstBaron_hasKill  = ((total_barons  > 0) & (df["firstBaron"]  != 1)).sum()
firstHerald_hasKill = ((total_heralds > 0) & (df["firstRiftHerald"] != 1)).sum()

print("firstDragon≠1 obwohl Drachen gefallen:", firstDragon_hasKill)
print("firstBaron≠1  obwohl Barons gefallen:", firstBaron_hasKill)
print("firstHerald≠1 obwohl Herald gefallen:", firstHerald_hasKill)


firstDragon≠1 obwohl Drachen gefallen: 24605
firstBaron≠1  obwohl Barons gefallen: 16331
firstHerald≠1 obwohl Herald gefallen: 12265


In [49]:
total_towers = df["t1_towerKills"] + df["t2_towerKills"]
total_inhibs = df["t1_inhibitorKills"] + df["t2_inhibitorKills"]

ft_zero = ((total_towers == 0) & (df["firstTower"] != 0)).sum()
fi_zero = ((total_inhibs == 0) & (df["firstInhibitor"] != 0)).sum()

ft_has  = ((total_towers > 0) & (df["firstTower"] != 1)).sum()
fi_has  = ((total_inhibs > 0) & (df["firstInhibitor"] != 1)).sum()

print("firstTower=1 trotz 0 Türmen:", ft_zero)
print("firstInhibitor=1 trotz 0 Inhibs:", fi_zero)
print("firstTower≠1 obwohl Türme gefallen:", ft_has)
print("firstInhibitor≠1 obwohl Inhibs gefallen:", fi_has)

#Türme und Inhibit können Respornen und dadurch auch  öfter gemacht werden.

firstTower=1 trotz 0 Türmen: 0
firstInhibitor=1 trotz 0 Inhibs: 0
firstTower≠1 obwohl Türme gefallen: 24218
firstInhibitor≠1 obwohl Inhibs gefallen: 21976


In [50]:
dur = df["gameDuration"] if "gameDuration" in df.columns else df["duration"]

inhibs = df["t1_inhibitorKills"] + df["t2_inhibitorKills"]
towers = df["t1_towerKills"]     + df["t2_towerKills"]

short = 15*60
m_inhib = (dur <= short) & (inhibs >= 10)
m_tow_i = towers > 22
m_tow_f = (dur <= short) & (towers >= 20)

print(">=10 Inhibs in <=15 Min:", m_inhib.sum())
print(">22 Tower (unmöglich):  ", m_tow_i.sum())
print(">=20 Tower in <=15 Min: ", m_tow_f.sum())

df.loc[m_inhib | m_tow_i | m_tow_f, [dur.name,"t1_inhibitorKills","t2_inhibitorKills","t1_towerKills","t2_towerKills"]].head()

#Hier hab ich einen Zeit Check gemacht um sicher zu gehen.

>=10 Inhibs in <=15 Min: 0
>22 Tower (unmöglich):   0
>=20 Tower in <=15 Min:  0


Unnamed: 0,gameDuration,t1_inhibitorKills,t2_inhibitorKills,t1_towerKills,t2_towerKills


### Negative Werte bei Objectives

In [51]:
obj_cols = ["t1_towerKills","t2_towerKills",
            "t1_inhibitorKills","t2_inhibitorKills",
            "t1_dragonKills","t2_dragonKills",
            "t1_baronKills","t2_baronKills",
            "t1_riftHeraldKills","t2_riftHeraldKills"]
negatives = (df[obj_cols] < 0).sum()

print("Anzahl negativer Werte je Spalte:")
print(negatives)

Anzahl negativer Werte je Spalte:
t1_towerKills         0
t2_towerKills         0
t1_inhibitorKills     0
t2_inhibitorKills     0
t1_dragonKills        0
t2_dragonKills        0
t1_baronKills         0
t2_baronKills         0
t1_riftHeraldKills    0
t2_riftHeraldKills    0
dtype: int64


### Cross-Dataset-Checks
- **Champion-IDs**
- **Bans (t1_banX, t2_banX)**
- **Summoner Spells (sum1 und sum2)**
- **Sonderfall -1 Wert**

### Champion-IDs

In [52]:
with open("champion_info.json", "r", encoding="utf-8") as f:
    c1 = json.load(f)["data"]
with open("champion_info_2.json", "r", encoding="utf-8") as f:
    c2 = json.load(f)["data"]

champ_ids = { int(v["id"]) for v in c1.values() } | { v["id"] for v in c2.values() }
champ_cols = [c for c in df.columns if ("champ" in c.lower()) and ("sum" not in c.lower())]
game_ids = set(df[champ_cols].values.ravel())
missing_ids = sorted(game_ids - champ_ids)

print("Champion-ID-Spalten:", champ_cols)
print("IDs in Games, aber nicht in Champion-Infos:", missing_ids)

Champion-ID-Spalten: ['t1_champ1id', 't1_champ2id', 't1_champ3id', 't1_champ4id', 't1_champ5id', 't2_champ1id', 't2_champ2id', 't2_champ3id', 't2_champ4id', 't2_champ5id']
IDs in Games, aber nicht in Champion-Infos: []


### Bans

In [53]:
ban_cols = [c for c in df.columns if "ban" in c.lower()]
ban_ids = set(df[ban_cols].values.ravel())

print("Verschiedene BAN-Werte:", sorted(ban_ids))

#Es gibt -1 wert,das werde ich in Sonderfall genauer behandeln.

Verschiedene BAN-Werte: [np.int64(-1), np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6), np.int64(7), np.int64(8), np.int64(9), np.int64(10), np.int64(11), np.int64(12), np.int64(13), np.int64(14), np.int64(15), np.int64(16), np.int64(17), np.int64(18), np.int64(19), np.int64(20), np.int64(21), np.int64(22), np.int64(23), np.int64(24), np.int64(25), np.int64(26), np.int64(27), np.int64(28), np.int64(29), np.int64(30), np.int64(31), np.int64(32), np.int64(33), np.int64(34), np.int64(35), np.int64(36), np.int64(37), np.int64(38), np.int64(39), np.int64(40), np.int64(41), np.int64(42), np.int64(43), np.int64(44), np.int64(45), np.int64(48), np.int64(50), np.int64(51), np.int64(53), np.int64(54), np.int64(55), np.int64(56), np.int64(57), np.int64(58), np.int64(59), np.int64(60), np.int64(61), np.int64(62), np.int64(63), np.int64(64), np.int64(67), np.int64(68), np.int64(69), np.int64(72), np.int64(74), np.int64(75), np.int64(76), np.int64(77), np.int64(78), np.i

### Summoner Spells

In [54]:
with open("summoner_spell_info.json", "r", encoding="utf-8") as f:
    data = json.load(f)["data"]

valid_spell_ids = { int(v["id"]) for v in data.values() }
print("Anzahl gültiger Spell-IDs:", len(valid_spell_ids))

Anzahl gültiger Spell-IDs: 17


In [55]:
spell_cols = [c for c in df.columns if "sum" in c.lower()]
print("Gefundene Spell-Spalten:", spell_cols)

Gefundene Spell-Spalten: ['t1_champ1_sum1', 't1_champ1_sum2', 't1_champ2_sum1', 't1_champ2_sum2', 't1_champ3_sum1', 't1_champ3_sum2', 't1_champ4_sum1', 't1_champ4_sum2', 't1_champ5_sum1', 't1_champ5_sum2', 't2_champ1_sum1', 't2_champ1_sum2', 't2_champ2_sum1', 't2_champ2_sum2', 't2_champ3_sum1', 't2_champ3_sum2', 't2_champ4_sum1', 't2_champ4_sum2', 't2_champ5_sum1', 't2_champ5_sum2']


In [56]:
all_spell_values = set(df[spell_cols].values.ravel())
invalid_values = sorted(v for v in all_spell_values if v not in valid_spell_ids)

print("Ungültige Spell-Werte (gesamt):", invalid_values)
print("\nUngültige Werte je Spalte:")
for c in spell_cols:
    bad = df[~df[c].isin(valid_spell_ids)][c]
    print(f"{c}: {bad.shape[0]}")

Ungültige Spell-Werte (gesamt): []

Ungültige Werte je Spalte:
t1_champ1_sum1: 0
t1_champ1_sum2: 0
t1_champ2_sum1: 0
t1_champ2_sum2: 0
t1_champ3_sum1: 0
t1_champ3_sum2: 0
t1_champ4_sum1: 0
t1_champ4_sum2: 0
t1_champ5_sum1: 0
t1_champ5_sum2: 0
t2_champ1_sum1: 0
t2_champ1_sum2: 0
t2_champ2_sum1: 0
t2_champ2_sum2: 0
t2_champ3_sum1: 0
t2_champ3_sum2: 0
t2_champ4_sum1: 0
t2_champ4_sum2: 0
t2_champ5_sum1: 0
t2_champ5_sum2: 0


In [57]:
pair_cols = []
for c in spell_cols:
    if c.endswith("_sum1"):
        c2 = c[:-5] + "_sum2"
        if c2 in df.columns:
            pair_cols.append((c, c2))
dupe_total = 0
for a, b in pair_cols:
    dupe_total += (df[a] == df[b]).sum()

print("Doppelte Spells innerhalb eines Champs (sum1 == sum2):", dupe_total)

Doppelte Spells innerhalb eines Champs (sum1 == sum2): 0


### Sonderfall -1 Werte

In [58]:
ban_cols = [c for c in df.columns if "ban" in c.lower()]
non_ban_cols = [c for c in df.columns if ("ban" not in c.lower())]

minus1_outside_bans = (df[non_ban_cols] == -1).sum().sum()
print("’-1’ außerhalb der Ban-Spalten:", minus1_outside_bans)


’-1’ außerhalb der Ban-Spalten: 0


In [59]:
print((df[ban_cols] == -1).sum().sort_index())

total_slots = df[ban_cols].size
minus1_total = (df[ban_cols] == -1).sum().sum()
print("’-1’ gesamt:", minus1_total, "/", total_slots, "-> Anteil:", round(minus1_total/total_slots, 3))

t1_ban1    357
t1_ban2    396
t1_ban3    385
t1_ban4    413
t1_ban5    343
t2_ban1    410
t2_ban2    397
t2_ban3    376
t2_ban4    346
t2_ban5    404
dtype: int64
’-1’ gesamt: 3827 / 510530 -> Anteil: 0.007


In [60]:
t1_all_none = (df[[c for c in ban_cols if c.startswith("t1_")]] == -1).all(axis=1)
t2_all_none = (df[[c for c in ban_cols if c.startswith("t2_")]] == -1).all(axis=1)

no_bans_both = (t1_all_none & t2_all_none).sum()
print("Spiele mit KEINEN Bans (beide Teams):", no_bans_both)

Spiele mit KEINEN Bans (beide Teams): 0


In [61]:
df["t1_minus1_bans"] = (df[[c for c in ban_cols if c.startswith("t1_")]] == -1).sum(axis=1)
df["t2_minus1_bans"] = (df[[c for c in ban_cols if c.startswith("t2_")]] == -1).sum(axis=1)

print("t1: -1-Bans pro Spiel (Wertehäufigkeit):")
print(df["t1_minus1_bans"].value_counts().sort_index())
print("\nt2: -1-Bans pro Spiel (Wertehäufigkeit):")
print(df["t2_minus1_bans"].value_counts().sort_index())

t1: -1-Bans pro Spiel (Wertehäufigkeit):
t1_minus1_bans
0    49354
1     1561
2      102
3       21
4        9
5        6
Name: count, dtype: int64

t2: -1-Bans pro Spiel (Wertehäufigkeit):
t2_minus1_bans
0    49300
1     1610
2      119
3       16
4        3
5        5
Name: count, dtype: int64


In [62]:
dur = df["gameDuration"] if "gameDuration" in df.columns else df["duration"]
print("Durchschnittsdauer ohne Bans (beide Teams):", round(dur[t1_all_none & t2_all_none].mean(), 1))

Durchschnittsdauer ohne Bans (beide Teams): nan


In [63]:
ban_cols = [c for c in df.columns if "ban" in c.lower()]
df[ban_cols] = df[ban_cols].replace(-1, 0)

# -1 bedeutet das da jemand kein Ban vorgenommen hat also normal. Deswegen -1 durch 0 ersetzt.
# In Champ2 datensatz gibt es extra dafür ein Platzhalter.

In [64]:
print("Anzahl verbliebener -1 Werte:", (df == -1).sum().sum())

# gegencheck

Anzahl verbliebener -1 Werte: 0


In [65]:
print((df == -1).sum().sort_values(ascending=False))

gameId               0
creationTime         0
gameDuration         0
seasonId             0
winner               0
                    ..
auffällig_winner     0
auffällig_season     0
konsistenz_winner    0
t1_minus1_bans       0
t2_minus1_bans       0
Length: 68, dtype: int64


### Abspeichern und eine Copi erstellen

In [66]:
df.to_csv("games2.csv", index=False)
print("Sicherheitskopie erfolgreich gespeichert: 'games2.csv'")

Sicherheitskopie erfolgreich gespeichert: 'games2.csv'
