# Data Cleaning

In deze notebook gaan we werken met een dataset die de gebeurtenissen tijdens een reeks wedstrijden over een periode van 4 jaar.
De link naar deze dataset is: https://www.kaggle.com/secareanualin/football-events.
Met deze kan je reeds heel wat informatie vinden over wat er in deze dataset zit. 
In de dataset zitten er drie files:
* events.csv Bevat data over de gebeurtenissen van elke wedstrijd.
* ginf.csv - Bevat metadata en win-kansen van elke wedstrijd.
* dictionary.txt Bevat een tekstuele weergave van de verschillende categorieen

Hieronder staan alle imports die gebruikt worden in de loop van de notebook.

In [1]:
# loading of the dataset
import opendatasets as od
from zipfile import ZipFile
import pandas as pd
import numpy as np

## Inladen dataset

De eerste stap is om de dataset te downloaden vanuit kaggle met de opendatasets library.
Aangezien de dataset meerdere bestanden bevat kan het zijn dat het wordt gedownload als zip (controleer dit). 
Unzip daarom eerst het bestand indien nodig.
Laad daarna de twee csv bestanden in in een dataframe.
De code voor deze stappen is:

In [2]:
# download
od.download("https://www.kaggle.com/secareanualin/football-events")

Please provide your Kaggle credentials to download this dataset. Learn more: http://bit.ly/kaggle-creds
Your Kaggle username:Your Kaggle Key:Dataset URL: https://www.kaggle.com/datasets/secareanualin/football-events
Downloading football-events.zip to .\football-events


100%|██████████| 21.1M/21.1M [00:01<00:00, 18.2MB/s]





In [22]:
# unzip if necessary en load data in
df_events = pd.read_csv(".\\football-events\\events.csv")
df_ginf = pd.read_csv(".\\football-events\\ginf.csv")

In [23]:
#df_events.set_index('id_odsp', inplace=True)
df_ginf.set_index('id_odsp', inplace=True)
display(df_events.head())
display(df_ginf.head())

Unnamed: 0,id_odsp,id_event,sort_order,time,text,event_type,event_type2,side,event_team,opponent,...,player_in,player_out,shot_place,shot_outcome,is_goal,location,bodypart,assist_method,situation,fast_break
0,UFot0hit/,UFot0hit1,1,2,Attempt missed. Mladen Petric (Hamburg) left f...,1,12.0,2,Hamburg SV,Borussia Dortmund,...,,,6.0,2.0,0,9.0,2.0,1,1.0,0
1,UFot0hit/,UFot0hit2,2,4,"Corner, Borussia Dortmund. Conceded by Dennis...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
2,UFot0hit/,UFot0hit3,3,4,"Corner, Borussia Dortmund. Conceded by Heiko ...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
3,UFot0hit/,UFot0hit4,4,7,Foul by Sven Bender (Borussia Dortmund).,3,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
4,UFot0hit/,UFot0hit5,5,7,Gokhan Tore (Hamburg) wins a free kick in the ...,8,,2,Hamburg SV,Borussia Dortmund,...,,,,,0,2.0,,0,,0


Unnamed: 0_level_0,link_odsp,adv_stats,date,league,season,country,ht,at,fthg,ftag,odd_h,odd_d,odd_a,odd_over,odd_under,odd_bts,odd_bts_n
id_odsp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
UFot0hit/,/soccer/germany/bundesliga-2011-2012/dortmund-...,True,2011-08-05,D1,2012,germany,Borussia Dortmund,Hamburg SV,3,1,1.56,4.41,7.42,,,,
Aw5DflLH/,/soccer/germany/bundesliga-2011-2012/augsburg-...,True,2011-08-06,D1,2012,germany,FC Augsburg,SC Freiburg,2,2,2.36,3.6,3.4,,,,
bkjpaC6n/,/soccer/germany/bundesliga-2011-2012/werder-br...,True,2011-08-06,D1,2012,germany,Werder Bremen,Kaiserslautern,2,0,1.83,4.2,4.8,,,,
CzPV312a/,/soccer/france/ligue-1-2011-2012/paris-sg-lori...,True,2011-08-06,F1,2012,france,Paris Saint-Germain,Lorient,0,1,1.55,4.5,9.4,,,,
GUOdmtII/,/soccer/france/ligue-1-2011-2012/caen-valencie...,True,2011-08-06,F1,2012,france,Caen,Valenciennes,1,0,2.5,3.4,3.45,,,,


## Exploratory Data Analysis

De read_csv functie heeft een dataframe aangemaakt en alle data van de csv ingeladen in dit object.
Pandas voorziet daarnaast een aantal eenvoudige methodes om heel wat informatie uit de dataset op te halen.
Een overzicht van alle functies die mogelijk zijn met dataframes vind je hier: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html.
We kunnen bijvoorbeeld eenvoudig het aantal rijen gaan opvragen maar ook een aantal rijen gaan bekijken. 
Dit kan bijvoorbeeld met de volgende code:

In [20]:
df_events.sample(5, random_state=90123) # met random state stel je de seed van de rng in (altijd hetzelfde resultaat -> consistent)
df_events.info() # informatie over aantal beschikbare kolommen en rijen, het type van de kolommen en het aantal ontbrekende gegevens
df_events.describe() # statistische gegevens over de numerieke kolommen tonen (int, float, ...)
df_events.bodypart.nunique() # aantal unique
df_events.bodypart.unique() # welke unieke er zijn (ontbrekende waare nan of none)

<class 'pandas.core.frame.DataFrame'>
Index: 941009 entries, UFot0hit/ to z5L2OT5E/
Data columns (total 21 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   id_event       941009 non-null  object 
 1   sort_order     941009 non-null  int64  
 2   time           941009 non-null  int64  
 3   text           941009 non-null  object 
 4   event_type     941009 non-null  int64  
 5   event_type2    214293 non-null  float64
 6   side           941009 non-null  int64  
 7   event_team     941009 non-null  object 
 8   opponent       941009 non-null  object 
 9   player         880009 non-null  object 
 10  player2        291310 non-null  object 
 11  player_in      51715 non-null   object 
 12  player_out     51738 non-null   object 
 13  shot_place     227459 non-null  float64
 14  shot_outcome   228498 non-null  float64
 15  is_goal        941009 non-null  int64  
 16  location       467067 non-null  float64
 17  bodypart       229185 n

array([ 2., nan,  1.,  3.])

Probeer nu zelf de volgende zaken op te zoeken:
* Haal willekeurig 2 rijen uit de dataset
* Alle spelers die betrokken zijn geweest bij een event (geen duplicaten)
* Hoeveel goalen zijn er gemaakt in de geregistreerde events? Dit kan aan de hand van de is_goal kolom.
* Bestudeer de inhoud van het ginf dataset, besteed vooral aandacht aan de ontbrekende data
* Voeg aan het ginf dataframe twee kolommen toe, 1 voor het aantal events van de thuisploeg en 1 voor het aantal events van de andere ploeg.

In [21]:
# Hoeveel keer is elke speler betrokken geweest bij een event (geen duplicaten)
# in sql select count(*) from events group by player

df_events.groupby('player').size()

player
aara³n                  2
aaron                 146
aaron cresswell       243
aaron hughes           21
aaron hunt            583
                     ... 
zouhaier dhaouadhi     11
zouhaier dhaouadi       2
zouhair feddal        187
zoumana camara         92
zubi                    1
Length: 6118, dtype: int64

In [None]:
df_events.is_goal.sum()

In [30]:
# count number of events by making groups per match id and side
events_per_game_per_team = df_events.groupby(['id_odsp', 'side']).size()
events_per_game_per_team = events_per_game_per_team.reset_index('side')

# create dataframe containing the home event
home = events_per_game_per_team[events_per_game_per_team.side==1].iloc[:, -1] # met iloc doen we alle rijen, laatste kolom (die met naam 0 die het aantal events bevat)

# create dataframe containing the away events
away = events_per_game_per_team[events_per_game_per_team.side==2].iloc[:, -1] # met iloc doen we alle rijen, laatste kolom (die met naam 0 die het aantal events bevat)

df_ginf["events_home"] = home
df_ginf["events_away"] = away

df_ginf

Unnamed: 0_level_0,link_odsp,adv_stats,date,league,season,country,ht,at,fthg,ftag,odd_h,odd_d,odd_a,odd_over,odd_under,odd_bts,odd_bts_n,events_home,events_away
id_odsp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
UFot0hit/,/soccer/germany/bundesliga-2011-2012/dortmund-...,True,2011-08-05,D1,2012,germany,Borussia Dortmund,Hamburg SV,3,1,1.56,4.41,7.42,,,,,56.0,54.0
Aw5DflLH/,/soccer/germany/bundesliga-2011-2012/augsburg-...,True,2011-08-06,D1,2012,germany,FC Augsburg,SC Freiburg,2,2,2.36,3.60,3.40,,,,,61.0,61.0
bkjpaC6n/,/soccer/germany/bundesliga-2011-2012/werder-br...,True,2011-08-06,D1,2012,germany,Werder Bremen,Kaiserslautern,2,0,1.83,4.20,4.80,,,,,72.0,65.0
CzPV312a/,/soccer/france/ligue-1-2011-2012/paris-sg-lori...,True,2011-08-06,F1,2012,france,Paris Saint-Germain,Lorient,0,1,1.55,4.50,9.40,,,,,58.0,56.0
GUOdmtII/,/soccer/france/ligue-1-2011-2012/caen-valencie...,True,2011-08-06,F1,2012,france,Caen,Valenciennes,1,0,2.50,3.40,3.45,,,,,43.0,47.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
xAkY8l6R/,/soccer/italy/serie-a/genoa-crotone-xAkY8l6R/,True,2017-01-22,I1,2017,italy,Genoa,Crotone,2,2,1.97,4.35,8.00,1.95,2.03,2.03,1.86,52.0,50.0
xSU9scI9/,/soccer/england/premier-league/chelsea-hull-ci...,True,2017-01-22,E0,2017,england,Chelsea,Hull,2,0,1.19,8.50,20.00,1.54,2.68,2.40,1.66,44.0,45.0
xY7uZwOI/,/soccer/france/ligue-1/monaco-lorient-xY7uZwOI/,True,2017-01-22,F1,2017,france,AS Monaco,Lorient,4,0,1.32,6.24,11.50,1.53,3.08,1.80,2.25,44.0,36.0
YyeGxMX8/,/soccer/spain/laliga/betis-gijon-YyeGxMX8/,True,2017-01-22,SP1,2017,spain,Real Betis,Sporting Gijon,0,0,1.74,4.07,5.90,2.20,1.89,2.05,1.86,69.0,51.0


## Data Cleaning

### Ontbrekende data

In eerste instantie zijn er de volgende mogelijkheden om om te gaan met ontbrekende data (Null or Nan values)
* Negeren
* Verwijder rijen met null waarden
* Verwijder kolommen met null waarden
* Kies een waarde om de NaN waarden in te vullen
* Gebruik duplicaten om de waarde in te vullen

Je kan gebruik maken van de volgende functies:
* isna or notna om aan te geven welke elementen ontbrekende of ingevulde data bevatten 
* dropna drop columns or rows containing missing values  (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)
* fillna fill in missing values https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna

Deze functies hebben de volgende resultaten

In [36]:
df_events_copy = df_events.copy() # werken met een kopie om geen problemen te hebben door herhaaldelijk zaken te droppen

df_events_copy.isna() # per cell gaan aanduiden of de waarde ontbreekt of niet
df_events_copy.notna() # het omgekeerde (niet ontbreekt)

#df_events_copy.dropna(axis=1) # standaard dropt het rijen met ontbreekende data, met axis kan je ook kolommen droppen ipv rijen

#df_events_copy.fillna({"player_in": -1})
df_events_copy.fillna(-1)

Unnamed: 0,id_odsp,id_event,sort_order,time,text,event_type,event_type2,side,event_team,opponent,...,player_in,player_out,shot_place,shot_outcome,is_goal,location,bodypart,assist_method,situation,fast_break
0,UFot0hit/,UFot0hit1,1,2,Attempt missed. Mladen Petric (Hamburg) left f...,1,12.0,2,Hamburg SV,Borussia Dortmund,...,-1,-1,6.0,2.0,0,9.0,2.0,1,1.0,0
1,UFot0hit/,UFot0hit2,2,4,"Corner, Borussia Dortmund. Conceded by Dennis...",2,-1.0,1,Borussia Dortmund,Hamburg SV,...,-1,-1,-1.0,-1.0,0,-1.0,-1.0,0,-1.0,0
2,UFot0hit/,UFot0hit3,3,4,"Corner, Borussia Dortmund. Conceded by Heiko ...",2,-1.0,1,Borussia Dortmund,Hamburg SV,...,-1,-1,-1.0,-1.0,0,-1.0,-1.0,0,-1.0,0
3,UFot0hit/,UFot0hit4,4,7,Foul by Sven Bender (Borussia Dortmund).,3,-1.0,1,Borussia Dortmund,Hamburg SV,...,-1,-1,-1.0,-1.0,0,-1.0,-1.0,0,-1.0,0
4,UFot0hit/,UFot0hit5,5,7,Gokhan Tore (Hamburg) wins a free kick in the ...,8,-1.0,2,Hamburg SV,Borussia Dortmund,...,-1,-1,-1.0,-1.0,0,2.0,-1.0,0,-1.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
941004,z5L2OT5E/,z5L2OT5E123,123,92,Lucas Torreira (Sampdoria) wins a free kick in...,8,-1.0,2,Sampdoria,Atalanta,...,-1,-1,-1.0,-1.0,0,2.0,-1.0,0,-1.0,0
941005,z5L2OT5E/,z5L2OT5E124,124,93,"Corner, Sampdoria. Conceded by Andrea Masiello.",2,-1.0,2,Sampdoria,Atalanta,...,-1,-1,-1.0,-1.0,0,-1.0,-1.0,0,-1.0,0
941006,z5L2OT5E/,z5L2OT5E125,125,93,Attempt missed. Fabio Quagliarella (Sampdoria)...,1,12.0,2,Sampdoria,Atalanta,...,-1,-1,8.0,2.0,0,9.0,1.0,1,3.0,0
941007,z5L2OT5E/,z5L2OT5E126,126,94,Alberto Grassi (Atalanta) wins a free kick on ...,8,-1.0,1,Atalanta,Sampdoria,...,-1,-1,-1.0,-1.0,0,4.0,-1.0,0,-1.0,0


We zien dat de manier waarop we dropna uitvoeren een grote impact kan hebben op het resultaat.
In de eerste situatie bekomen we een lege dataset. Dit komt omdat er op elke rij minstens 1 kolom is die een Nan value bevat.

In het tweede voorbeeld, worden alle kolommen verwijderd die minstens 1 Nan value bevat. Op deze manier hebben we nog evenveel elementen maar het aantal kolommen is sterk gereduceerd. Door dit zonder controle te gebruiken kan veel nuttige informatie verwijderd worden. Merk op dat de 4 kolommen met de speler informatie verwijderd zijn. En ook de kolommen die meer informatie bevatten over het type event.

Het merendeel van de verwijderde kolommen bevatten dus nuttige informatie en willen we daarom niet verwijderen.
Om deze reden hebben we een meer manuele aanpak nodig.
De kolommen met informatie over het event (bvb shot_place) zijn nodig en mogen dus blijven staan. 
Nan geeft dan enkel weer dat de waarde niet van toepassing is.
De 4 kolommen met speler informatie kan echter gereduceerd worden tot twee kolommen (1 voor elk team) waarbij player2 niet altijd ingevuld moet zijn.
Dit kan bewezen worden als volgt: 

In [41]:
nans = df_events.isna()

print(nans.player.sum()) # we geven de voorkeur aan het bovenste omdat deze werkt met de pandas package en dus geoptimaliseerd is
print(sum(nans.player)) # dit is python code en dus typisch trager

(nans.player & nans.player_in).sum()  # | (of), ^(xor) ~ (not)

61000
61000


np.int64(9285)

Met bovenstaande resultaten zien we dat in bijna alle gevallen player ofwel player_in ingevuld is maar nooit allebei.
Dit houdt in dat we deze twee kolommen eenvoudig kunnen samenvoegen. 
Hetzelfde geldt voor de kolommen player2 en player_out.
Nog een belangrijke opmerking is dat er een aantal rijen zijn waar er geen informatie over spelers aanwezig is.
Deze rijen kunnen verwijderd worden.

Overbodige kolommen:
* text
* id_event (samenstelling van id_odsp en sort_order)

Dit doen we hier:

In [45]:
def get_player1_info(row):
    #display(row)
    if row.isnull().player:
        return row.player_in
    else:
        return row.player
    
df_events.apply(get_player1_info, axis=1) # voer de functie uit op elke rij maar dit is python code dus een heel pak trager

0              mladen petric
1           dennis diekmeier
2           heiko westermann
3                sven bender
4                gokhan tore
                 ...        
941004        lucas torreira
941005                   NaN
941006    fabio quagliarella
941007        alberto grassi
941008         pedro pereira
Length: 941009, dtype: object

In [46]:
nans_player = df_events.isnull().player # welke waarden moet ik invullen
df_events.loc[nans_player, "player"] = df_events.loc[nans_player, "player_in"] # vervang de waarden

Oefening: Zijn er na het mergen van deze twee kolommen nog gevallen waar player null is maar player2 niet? In het geval dat er nog zo rijen zijn, verplaats de waarde van de player2 kolom naar de player kolom (enkel voor deze rijen). Nadat dit gedaan is hebben we zoveel mogelijk gedaan en kunnen we de overige rijen waarvoor de player feature null is laten vallen. 

### One hot encoding

In deze dataset wordt er vaak een enum gebruikt om een categorie aan te duiden. 
Dit is een compacte manier om een enum in een dataset op te slaan maar dit geeft vaak problemen bij het opbouwen van modellen.
Dit gaan we in meer detail bekijken bij classificatie/clustering.

Om dit op te lossen kunnen gebruik maken van one-hot encoding.
In pandas kan dat door gebruik te maken van de functie pd.get_dummies()

In [49]:
df_events

Unnamed: 0,id_odsp,id_event,sort_order,time,text,event_type,event_type2,side,event_team,opponent,...,player_in,player_out,shot_place,shot_outcome,is_goal,location,bodypart,assist_method,situation,fast_break
0,UFot0hit/,UFot0hit1,1,2,Attempt missed. Mladen Petric (Hamburg) left f...,1,12.0,2,Hamburg SV,Borussia Dortmund,...,,,6.0,2.0,0,9.0,2.0,1,1.0,0
1,UFot0hit/,UFot0hit2,2,4,"Corner, Borussia Dortmund. Conceded by Dennis...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
2,UFot0hit/,UFot0hit3,3,4,"Corner, Borussia Dortmund. Conceded by Heiko ...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
3,UFot0hit/,UFot0hit4,4,7,Foul by Sven Bender (Borussia Dortmund).,3,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
4,UFot0hit/,UFot0hit5,5,7,Gokhan Tore (Hamburg) wins a free kick in the ...,8,,2,Hamburg SV,Borussia Dortmund,...,,,,,0,2.0,,0,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
941004,z5L2OT5E/,z5L2OT5E123,123,92,Lucas Torreira (Sampdoria) wins a free kick in...,8,,2,Sampdoria,Atalanta,...,,,,,0,2.0,,0,,0
941005,z5L2OT5E/,z5L2OT5E124,124,93,"Corner, Sampdoria. Conceded by Andrea Masiello.",2,,2,Sampdoria,Atalanta,...,,,,,0,,,0,,0
941006,z5L2OT5E/,z5L2OT5E125,125,93,Attempt missed. Fabio Quagliarella (Sampdoria)...,1,12.0,2,Sampdoria,Atalanta,...,,,8.0,2.0,0,9.0,1.0,1,3.0,0
941007,z5L2OT5E/,z5L2OT5E126,126,94,Alberto Grassi (Atalanta) wins a free kick on ...,8,,1,Atalanta,Sampdoria,...,,,,,0,4.0,,0,,0


In [50]:
tmp = pd.get_dummies(df_events.event_type, prefix="event_type")
df = df_events.join(tmp, how="left" ) # standaard join op index, on om te bepalen op welke kolom er gemergd moet worden

### Data Format Correcting

Buiten het verwijderen of toevoegen van kolommen kan het ook belangrijk zijn om de waarden van individuele elementen te corrigeren/aan te passen. 
Dit kan een heel aantal zaken omvatten zoals het corrigeren van typo's, omzetten van datatypes, etc.
Laten we eerst eens de One-Hot Encoded values omzetten van 0/1 naar true/false.

In [52]:
tmp.astype('int')

Unnamed: 0,event_type_1,event_type_2,event_type_3,event_type_4,event_type_5,event_type_6,event_type_7,event_type_8,event_type_9,event_type_10,event_type_11
0,1,0,0,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0,0
2,0,1,0,0,0,0,0,0,0,0,0
3,0,0,1,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...
941004,0,0,0,0,0,0,0,1,0,0,0
941005,0,1,0,0,0,0,0,0,0,0,0
941006,1,0,0,0,0,0,0,0,0,0,0
941007,0,0,0,0,0,0,0,1,0,0,0


Daarnaast moeten er ook vaak woorden in tekstuele velden gecorrigeerd of vertaald worden. 
Om hiervan een voorbeeld te geven ga ik in de player en player2 kolommen de naam van "Romelu Lukaku" hernoemen naar "Big Rom".
De volgende code voert dit uit door gebruik te maken van de [replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) functie:

In [54]:
df_events.replace(to_replace="Romelu Lukaka", value="Big Rom")
df_events.replace(to_replace="Hamburg SV", value="Hamburger")

Unnamed: 0,id_odsp,id_event,sort_order,time,text,event_type,event_type2,side,event_team,opponent,...,player_in,player_out,shot_place,shot_outcome,is_goal,location,bodypart,assist_method,situation,fast_break
0,UFot0hit/,UFot0hit1,1,2,Attempt missed. Mladen Petric (Hamburg) left f...,1,12.0,2,Hamburger,Borussia Dortmund,...,,,6.0,2.0,0,9.0,2.0,1,1.0,0
1,UFot0hit/,UFot0hit2,2,4,"Corner, Borussia Dortmund. Conceded by Dennis...",2,,1,Borussia Dortmund,Hamburger,...,,,,,0,,,0,,0
2,UFot0hit/,UFot0hit3,3,4,"Corner, Borussia Dortmund. Conceded by Heiko ...",2,,1,Borussia Dortmund,Hamburger,...,,,,,0,,,0,,0
3,UFot0hit/,UFot0hit4,4,7,Foul by Sven Bender (Borussia Dortmund).,3,,1,Borussia Dortmund,Hamburger,...,,,,,0,,,0,,0
4,UFot0hit/,UFot0hit5,5,7,Gokhan Tore (Hamburg) wins a free kick in the ...,8,,2,Hamburger,Borussia Dortmund,...,,,,,0,2.0,,0,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
941004,z5L2OT5E/,z5L2OT5E123,123,92,Lucas Torreira (Sampdoria) wins a free kick in...,8,,2,Sampdoria,Atalanta,...,,,,,0,2.0,,0,,0
941005,z5L2OT5E/,z5L2OT5E124,124,93,"Corner, Sampdoria. Conceded by Andrea Masiello.",2,,2,Sampdoria,Atalanta,...,,,,,0,,,0,,0
941006,z5L2OT5E/,z5L2OT5E125,125,93,Attempt missed. Fabio Quagliarella (Sampdoria)...,1,12.0,2,Sampdoria,Atalanta,...,,,8.0,2.0,0,9.0,1.0,1,3.0,0
941007,z5L2OT5E/,z5L2OT5E126,126,94,Alberto Grassi (Atalanta) wins a free kick on ...,8,,1,Atalanta,Sampdoria,...,,,,,0,4.0,,0,,0


Een andere grote bron van data formaten dat aangepast moet worden komt voort uit kolommen die datums bevatten. Deze worden standaard ingelezen als een tekst veldje dus moet je deze zelf gaan omzetten. Dit kan je zien in de ginf dataset waar de "date" kolom van het type object is. Dit is in numpy de indicatie dat het een tekstveld is.

In de dataframe zien we dat de datums erin staan als "%Y-%m-%d" (jaar als 4 cijfers, rest als twee). 
Voor de notatie van andere dataformaten vind je [hier](http://strftime.org/) meer informatie.
Met behulp van de [to_datetime](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html) functie kan je deze kolom omzetten naar datums.
Zoek na deze omzetting eens het datatype op van deze kolom.
Je ziet dat het nu geen object meer is maar een correcte datum.

Merk op dat deze manier van aanpakken enkel werkt wanneer de hele tabel hetzelfde dataformaat heeft.
Indien er meerdere dataformaten gebruikt zijn (bijvoorbeeld door manuele input), dan kan je het nog steeds doen maar dan moet panda een inschatting maken van het gewenste formaat. Dit kan door het argument "infer_datetime_format=True".
Hoewel dit mogelijk is zijn er twee redenen waarom we dit niet altijd gebruiken, namelijk
* Het duurt veel langer om de tabel om te zetten.
* Het gaat niet altijd het correcte resultaat geven bij speciale formaten

Eenmaal de kolom van het type datetime is kan je heel gemakkelijk deze kolommen vergelijken en er zaken gaan uithalen zoals de maand waarin de wedstrijd plaatsvond. 

In [58]:
df_ginf.info() # date is dtype object

pd.to_datetime(df_ginf.date, infer_datetime_format=True) # bepaal het dataformaat automatisch
pd.to_datetime(df_ginf.date, format="%Y-%m-%d")

<class 'pandas.core.frame.DataFrame'>
Index: 10112 entries, UFot0hit/ to z5L2OT5E/
Data columns (total 19 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   link_odsp    10112 non-null  object 
 1   adv_stats    10112 non-null  bool   
 2   date         10112 non-null  object 
 3   league       10112 non-null  object 
 4   season       10112 non-null  int64  
 5   country      10112 non-null  object 
 6   ht           10112 non-null  object 
 7   at           10112 non-null  object 
 8   fthg         10112 non-null  int64  
 9   ftag         10112 non-null  int64  
 10  odd_h        10112 non-null  float64
 11  odd_d        10112 non-null  float64
 12  odd_a        10112 non-null  float64
 13  odd_over     977 non-null    float64
 14  odd_under    977 non-null    float64
 15  odd_bts      977 non-null    float64
 16  odd_bts_n    977 non-null    float64
 17  events_home  9074 non-null   float64
 18  events_away  9074 non-null   float64
dt

  pd.to_datetime(df_ginf.date, infer_datetime_format=True) # bepaal het dataformaat automatisch


id_odsp
UFot0hit/   2011-08-05
Aw5DflLH/   2011-08-06
bkjpaC6n/   2011-08-06
CzPV312a/   2011-08-06
GUOdmtII/   2011-08-06
               ...    
xAkY8l6R/   2017-01-22
xSU9scI9/   2017-01-22
xY7uZwOI/   2017-01-22
YyeGxMX8/   2017-01-22
z5L2OT5E/   2017-01-22
Name: date, Length: 10112, dtype: datetime64[ns]

### Data shuffling

Een mogelijke manier om de privacy van je klanten te beschermen die we aangehaald hebben is data shuffling.
Bij deze methode is het de bedoeling dat je de namen in een dataset op een willekeurige manier door elkaar haalt.
Dit kan gedaan worden door gebruik te maken van de permutation methode van numpy  (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) op de volgende manier:

In [67]:
df_ginf.country = df_ginf.country.sample(frac=1).values # pak een willekeurige sample van 100%
# standaard combineert hij de kolommen op de index (dus met .values verwijderen we eigenlijk de index)

In [68]:
df_ginf

Unnamed: 0_level_0,link_odsp,adv_stats,date,league,season,country,ht,at,fthg,ftag,odd_h,odd_d,odd_a,odd_over,odd_under,odd_bts,odd_bts_n,events_home,events_away
id_odsp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
UFot0hit/,/soccer/germany/bundesliga-2011-2012/dortmund-...,True,2011-08-05,D1,2012,germany,Borussia Dortmund,Hamburg SV,3,1,1.56,4.41,7.42,,,,,56.0,54.0
Aw5DflLH/,/soccer/germany/bundesliga-2011-2012/augsburg-...,True,2011-08-06,D1,2012,england,FC Augsburg,SC Freiburg,2,2,2.36,3.60,3.40,,,,,61.0,61.0
bkjpaC6n/,/soccer/germany/bundesliga-2011-2012/werder-br...,True,2011-08-06,D1,2012,italy,Werder Bremen,Kaiserslautern,2,0,1.83,4.20,4.80,,,,,72.0,65.0
CzPV312a/,/soccer/france/ligue-1-2011-2012/paris-sg-lori...,True,2011-08-06,F1,2012,italy,Paris Saint-Germain,Lorient,0,1,1.55,4.50,9.40,,,,,58.0,56.0
GUOdmtII/,/soccer/france/ligue-1-2011-2012/caen-valencie...,True,2011-08-06,F1,2012,england,Caen,Valenciennes,1,0,2.50,3.40,3.45,,,,,43.0,47.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
xAkY8l6R/,/soccer/italy/serie-a/genoa-crotone-xAkY8l6R/,True,2017-01-22,I1,2017,germany,Genoa,Crotone,2,2,1.97,4.35,8.00,1.95,2.03,2.03,1.86,52.0,50.0
xSU9scI9/,/soccer/england/premier-league/chelsea-hull-ci...,True,2017-01-22,E0,2017,spain,Chelsea,Hull,2,0,1.19,8.50,20.00,1.54,2.68,2.40,1.66,44.0,45.0
xY7uZwOI/,/soccer/france/ligue-1/monaco-lorient-xY7uZwOI/,True,2017-01-22,F1,2017,germany,AS Monaco,Lorient,4,0,1.32,6.24,11.50,1.53,3.08,1.80,2.25,44.0,36.0
YyeGxMX8/,/soccer/spain/laliga/betis-gijon-YyeGxMX8/,True,2017-01-22,SP1,2017,germany,Real Betis,Sporting Gijon,0,0,1.74,4.07,5.90,2.20,1.89,2.05,1.86,69.0,51.0


## Oefeningen

Om meer vertrouwd te worden met het werken met pandas kan je de volgende zaken zelf proberen.

Bewerkingen op de events.csv dataset:
* Controleer de kolommen "id_event", "id_odsp" en "sort_order". Is er 1 van deze drie overbodig? Verwijder de kolom indien dit zo is.
* Hernoem "Hamburg SV" naar "Hamburg FC". Let op, doe dit voor alle kolommen waar het kan staan.

Bewerkingen op de ginf.csv dataset:
* Maak One Hot Encoding voor de kolom "Country"
* Voeg een kolom toe die drie waarden kan hebben: Home team wins, Home team loses, draw
* Maak nu ook een One Hot Encoding voor deze nieuwe kolom
* Drop de kolom met de urls voor de ploegen
* Bewaar je aangepaste dataset in "wedstrijden.csv" (Gebruik de functie to_save: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

## Oefening 2

Gebruik de dataset die je kan vinden op [deze link](https://gist.githubusercontent.com/deanjamesss/f8f5781fb682fb728e9674dda9813982/raw/801df9e7b9af894af1f69ba1a40af909160891aa/employee_data.csv).
Deze dataset bevat informatie over de personeelslijst van een bedrijf.
Voer de volgende stappen/oefeningen/bewerkingen uit:
* Bekijk de datatypes van de verschillende kolommen. Is alles zoals je verwacht?
* Bereken het aantal nulwaarden per kolom.
* Verwijder de kolom met de gegevens over het belastingsnummer. Verliezen we hiermee data?
* Verwijder alle rijen die meer dan 2 ontbrekende gegevens bevatten. Hoeveel rijen blijven er over?
* Geef een dataframe met de lijsten verwijderd in de vorige stap.
* Vul in de kolommen voor het geslacht en employment_status ontbrekende waarden in met een U van unknown.
* Om de geslacht kolom leesbaarder te maken, vervang M door male, F door female en U door unknown.
* Voeg een one-hot encoding voor de kolom van de employment_status toe. Verwijder ook de originele kolom.
* Bewaar het bewerkte csv in een bestand