# De statistieken in het WK voetbal notebook

In [23]:
# Alle benodigde imports en datasets
import pandas as pd
import plotly.graph_objects as go
wk2018 = pd.read_csv('FIFA 2018 Statistics.csv')
wk2022 = pd.read_csv('Fifa_world_cup_matches.csv')
wk_df = pd.read_csv('wk_merged_datasets.csv')

In [48]:
# kolom met overtredingen van 2018
fouls_2018 = wk_df['Fouls Committed']
# kolommen met de overtredingen van 2022
fouls_2022 = wk_df['fouls against team1'] + wk_df['fouls against team2']

# Gegevens voor de boxplot
data = [go.Box(y = fouls_2018, name = 'WK 2018', marker_color = 'green'),
        go.Box(y = fouls_2022, name = 'WK 2022', marker_color = 'blue')]

# Grafische opmaak
layout = go.Layout(
    title = 'Figuur 1: Overtredingen per jaar in cijfers',
    xaxis = dict(title = 'Jaar'),
    yaxis = dict(title = 'Aantal overtredingen'),
    showlegend = True)

# Boxplot maken
fig = go.Figure(data = data, layout = layout)

# Grafiek weergeven
fig.show()

De boxplot in figuur 1 geeft de statistieken wat betreft het aantal overtredingen per WK weer. De rest van de caption komt als die af is, want deze is nog niet helemaal goed (door de dubbele rijen van het 2018 databestand)!
- Is het aantal overtredingen meer/gelijk/minder?

In [44]:
# Alle gele kaarten
yellow_cards_2022 = wk_df['yellow cards team1'].sum() + wk_df['yellow cards team2'].sum()
yellow_cards_2018 = wk_df['Yellow Card'].sum()

# Alle rode kaarten
red_cards_2022 = wk_df['red cards team1'].sum() + wk_df['red cards team2'].sum()
red_cards_2018 = wk_df['Red'].sum() + wk_df['Yellow & Red'].sum()

# Lijsten met verschillende gegevens
# geel = #FFD700
# rood = #FF0000
years = ['2018', '2022']
yellow_cards = [yellow_cards_2018, yellow_cards_2022]
red_cards = [red_cards_2018, red_cards_2022]
colors = ['#FFD700', '#FF0000', '#FFD700', '#FF0000']  # Geel en rood

# Punten voor gele kaarten in 2018
trace_yellow_2018 = go.Scatter(
    x = [years[0]],
    y = [yellow_cards[0]],
    mode = 'markers',
    name = 'Gele kaarten 2018',
    marker = dict(color = colors[0], size = 8))

# Punten voor rode kaarten in 2018
trace_red_2018 = go.Scatter(
    x = [years[0]],
    y = [red_cards[0]],
    mode = 'markers',
    name = 'Rode kaarten 2018',
    marker = dict(color = colors[1], size = 8))

# Punten voor gele kaarten in 2022
trace_yellow_2022 = go.Scatter(
    x = [years[1]],
    y = [yellow_cards[1]],
    mode = 'markers',
    name = 'Gele kaarten 2022',
    marker = dict(color = colors[2], size = 8))

# Punten voor rode kaarten in 2022
trace_red_2022 = go.Scatter(
    x = [years[1]],
    y = [red_cards[1]],
    mode = 'markers',
    name = 'Rode kaarten 2022',
    marker = dict(color = colors[3], size = 8))

# Gegevens samenvoegen in een lijst
data = [trace_yellow_2018, trace_red_2018, trace_yellow_2022, trace_red_2022]

# Grafische opmaak
layout = go.Layout(
    title = 'Figuur 2: Aantal gele en rode kaarten per jaar',
    xaxis = dict(title = 'Jaar', type = 'category', showgrid = True),
    yaxis = dict(title = 'Aantal kaarten', showgrid = True),
    showlegend = True)

# plot maken
fig = go.Figure(data = data, layout = layout)
fig.show()

Figuur 2 geeft een figuur met vier punten, elke punt representeerd een kleur kaart per jaar. Als je met de muis over de punten gaat, geeft de plot een jaartal gevolgd door het aantal rode/gele kaarten. Figuur 2 laat zien dat er zowel in het WK van 2018 als in het WK van 2022 vier rode kaarten zijn gegeven. Daarnaast zijn er in het WK van 2022 iets meer gele kaarten (226) dan in het WK van 2018 (217).

In [3]:
selected_columns2022 = wk_df.loc[:, ['fouls against team1', 'fouls against team2', 'category']]

# Verwijder NaN-waarden in de 'category'-kolom
selected_columns2022 = selected_columns2022.dropna(subset=['category'])

# Data voor groepsfase en knock-outfase
groepsfase = selected_columns2022[selected_columns2022['category'].str.contains('Group')]
knockoutfase = selected_columns2022[~selected_columns2022['category'].str.contains('Group')]

# Totaal aantal overtredingen per fase
groepsfase_overtredingen = groepsfase['fouls against team1'] + groepsfase['fouls against team2']
knockoutfase_overtredingen = knockoutfase['fouls against team1'] + knockoutfase['fouls against team2']

# Staafdiagram
fig = go.Figure()
fig.add_trace(go.Bar(x=groepsfase['category'], y=groepsfase_overtredingen, name='Groepsfase'))
fig.add_trace(go.Bar(x=knockoutfase['category'], y=knockoutfase_overtredingen, name='Knock-outfase'))

fig.update_layout(title='Aantal overtredingen per groepsfase en ronde (2022)',
                  xaxis_title='Fase',
                  yaxis_title='Aantal overtredingen')

fig.show()