# FIFA voetbal casus

In deze studie zullen Wail Abou, Bart de Vries en Youssef Boulfiham een aantal onderwerpen over FIFA onderzoeken. Voor dit onderzoek zullen we te werk gaan met datasets over voetbalspelers en voetbalwedstrijden uit het seizoen 2019-2020 Met behulp van statistische analyse zullen we trachten om tot nieuwe ontdekkingen en conclusies te komen.

### Inhoudsopgave
- [Onderzoeksvragen](#Onderzoeksvragen)
- [Databases die zullen worden gebruikt](#Databases)
- [Verwachte resultaat](#Resultaat)
- [Voorwoord](#Voorwoord)
- [Data analysis](#Analyseren)
- [Data cleaing](#Cleaning)
- [Onderzoeksvragen](#Onderzoeksvragen)
    - [Vraag 1](#Vraag1)
    - [Vraag 2](#Vraag2)
    - [Vraag 3](#Vraag3)

### Onderzoeksvragen:<a id='Onderzoeksvragen'></a>

_Supervised:_
1. In hoeverre is de prijs van een speler te voorspellen aan de hand van zijn belangrijkste kenmerken? 
2. Kan je op basis van de gemiddelde waardes van een team voorspellen welke van de 2 teams zullen winnen?

_Unsupervised:_
3. Is er een verband tussen de gewicht, lengte, prijs, leeftijd en positie van een speler

### Databases die zullen worden gebruikt<a id='Databases'></a>
- FIFA-spelerseigenschappen van seizoen 2019-2020
- FIFA-wedstrijd uitslagen van seizoen 2019-2020

### Verwachte resultaat<a id='Resultaat'></a>
- Nieuwe inzichtingen over de prijs en kwaliteit verhoudingen van de spelers.
- Voorspellingen van wedstrijden en slagingspercentage van deze wedstrijden.
- Invloed van bepaalde specifieke factoren op de prijs bepaling van spelers.

### Voorwoord<a id='Resultaat'></a>
Hallo lezer, wij zullen proberen de verwachte resultaten stapsgewijs aan te tonen en daaruit conclusies te trekken. De manieren die we gaan gebruiken zijn als volgt: 
1. Wij zullen bij deze vraag linear regression gebruiken om te kijken in hoeverre een punt bij de lijn zit, dit laat ons weten of er daadwerkelijk een linear verband is tussen de prijs van een speler en zijn belangrijkste kenmerken.
2. Bij deze vraag gaan we correlatie analyses uitvoeren en een externe dataset gebruiken om meer inzicht te vekrijgen, de externe dataset die we gaan gebruiken is de bovengenoemde "FIFA-wedstrijd uitslagen van seizoen 2019-2020".
3. Hierbij zullen wij clustering gaan gebruiken om mogelijke patronen te ontdekken.

### Doel: importeer alle benodigde libraries

In [1]:
# importeer libraries.
import numpy as np
import pandas as pd
import matplotlib as mp
import matplotlib.pyplot as plt
import seaborn as sns
import csv, glob, os
from ipywidgets import interact, widgets, interactive
from sklearn.linear_model import LinearRegression

# Importeer deze modules voor de warning supressions
import warnings
import matplotlib.cbook
warnings.filterwarnings("ignore",category=matplotlib.cbook.mplDeprecation)

### Doel: importeer de fifa19.csv en de data ontdekken.

In [2]:
# .csv bestand uitlezen en omzetten naar pandas array van 18207x89
players = pd.read_csv('csv/fifa19.csv')

players

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,18202,238813,J. Lundstram,19,https://cdn.sofifa.org/players/4/19/238813.png,England,https://cdn.sofifa.org/flags/14.png,47,65,Crewe Alexandra,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,18203,243165,N. Christoffersson,19,https://cdn.sofifa.org/players/4/19/243165.png,Sweden,https://cdn.sofifa.org/flags/46.png,47,63,Trelleborgs FF,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,Tranmere Rovers,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K


_Hierboven kan je een deel van de dataset inzien. Zo kan je zien met welke kolommen we zullen werken, welke meetwaardes we zullen gebruiken en hoeveel data elementen er beschikbaar is._

### Doel: Data analysis.<a id='Analyseren'></a>

In [3]:
#lijst van alle onderdelen van de dataset
print(players.columns)

Index(['Unnamed: 0', 'ID', 'Name', 'Age', 'Photo', 'Nationality', 'Flag',
       'Overall', 'Potential', 'Club', 'Club Logo', 'Value', 'Wage', 'Special',
       'Preferred Foot', 'International Reputation', 'Weak Foot',
       'Skill Moves', 'Work Rate', 'Body Type', 'Real Face', 'Position',
       'Jersey Number', 'Joined', 'Loaned From', 'Contract Valid Until',
       'Height', 'Weight', 'LS', 'ST', 'RS', 'LW', 'LF', 'CF', 'RF', 'RW',
       'LAM', 'CAM', 'RAM', 'LM', 'LCM', 'CM', 'RCM', 'RM', 'LWB', 'LDM',
       'CDM', 'RDM', 'RWB', 'LB', 'LCB', 'CB', 'RCB', 'RB', 'Crossing',
       'Finishing', 'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling',
       'Curve', 'FKAccuracy', 'LongPassing', 'BallControl', 'Acceleration',
       'SprintSpeed', 'Agility', 'Reactions', 'Balance', 'ShotPower',
       'Jumping', 'Stamina', 'Strength', 'LongShots', 'Aggression',
       'Interceptions', 'Positioning', 'Vision', 'Penalties', 'Composure',
       'Marking', 'StandingTackle', 'SlidingT

In [4]:
# data types van alle onderdelen.
players.dtypes

Unnamed: 0          int64
ID                  int64
Name               object
Age                 int64
Photo              object
                   ...   
GKHandling        float64
GKKicking         float64
GKPositioning     float64
GKReflexes        float64
Release Clause     object
Length: 89, dtype: object

_height, weight en value moeten het data type float64 krijgen._

In [5]:
#check voor lege waardes.
print(pd.isnull(players).sum())

Unnamed: 0           0
ID                   0
Name                 0
Age                  0
Photo                0
                  ... 
GKHandling          48
GKKicking           48
GKPositioning       48
GKReflexes          48
Release Clause    1564
Length: 89, dtype: int64


_het grootste deel van alle waardes zijn er.
bij de meeste mis onder 0,5% dus dit zal relatief schadeloos zijn._

### Doel: Data cleaning.<a id='Cleaning'></a>

In [6]:
# selecteren van alle relevante gegevens
players = players[["Name", "Nationality", "Overall", "Potential", "Club", "Value", "Height",
                   "Weight", "Age", "Position","Crossing", "Finishing", "HeadingAccuracy","ShortPassing",
                   'Volleys', "Dribbling", "Curve", "FKAccuracy", "LongPassing", "BallControl",
                   "Acceleration", "SprintSpeed", "Agility", "Reactions", "Balance", "ShotPower",
                   "Jumping", "Stamina", "Strength", "LongShots", "Aggression", "Interceptions",
                   "Positioning", "Vision", "Penalties","Composure", "Marking", "StandingTackle",
                   "SlidingTackle", "GKDiving", "GKHandling", "GKKicking", "GKPositioning", "GKReflexes"]]

players

Unnamed: 0,Name,Nationality,Overall,Potential,Club,Value,Height,Weight,Age,Position,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,L. Messi,Argentina,94,94,FC Barcelona,€110.5M,5'7,159lbs,31,RF,...,75.0,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0
1,Cristiano Ronaldo,Portugal,94,94,Juventus,€77M,6'2,183lbs,33,ST,...,85.0,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0
2,Neymar Jr,Brazil,92,93,Paris Saint-Germain,€118.5M,5'9,150lbs,26,LW,...,81.0,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0
3,De Gea,Spain,91,93,Manchester United,€72M,6'4,168lbs,27,GK,...,40.0,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0
4,K. De Bruyne,Belgium,91,92,Manchester City,€102M,5'11,154lbs,27,RCM,...,79.0,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,J. Lundstram,England,47,65,Crewe Alexandra,€60K,5'9,134lbs,19,CM,...,43.0,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0
18203,N. Christoffersson,Sweden,47,63,Trelleborgs FF,€60K,6'3,170lbs,19,ST,...,43.0,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0
18204,B. Worman,England,47,67,Cambridge United,€60K,5'8,148lbs,16,ST,...,55.0,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0
18205,D. Walker-Rice,England,47,66,Tranmere Rovers,€60K,5'10,154lbs,17,RW,...,50.0,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0


In [7]:
# dtypes wijzigen van height, weight en value.
players['Height'].to_numeric(s, errors='coerce')


AttributeError: 'Series' object has no attribute 'to_numeric'

### Doel: het plotten van de frequentieverdeling van de gemiddelde kwaliteit van de spelers.

In [None]:
# frequentieverdeling
ax = sns.distplot(players.Overall, kde=False, rug=True)
ax = ax.set(xlabel='Overall', ylabel='frequentie')

### Doel: het weergeven van 2 spelers kwaliteiten in een spider plot.

In [None]:
# Alleen relevante data selecteren en de beste en slechtste speler
player_skills = ['Name', 'Agility', 'BallControl', 'Dribbling', 'Finishing','Stamina']

# Alle spelers met de releveante data ophalen
all_players = players[player_skills]
all_players = all_players.set_index('Name')

# Een lijst met namen van de 5 beste en 5 slechtse spelers
all_names = list(all_players.head().index.values) + list(all_players.tail().index.values)

# 2 Dropdown list widgets om een speler te kunnen selecteren
player1_widget = widgets.Dropdown(options = all_names, value = all_names[0], description='Player 1:')
player2_widget = widgets.Dropdown(options = all_names, value = all_names[-1], description='Player 2:')

# Functie om gegeven 2 namen de spelers in een spiderplot te kunnen zetten
def spiderplot_players(p1, p2):
    # Groote van de plot bepalen
    plt.figure(figsize=(20, 20))
    
    # De kollomen van de spelers ophalen
    comparison_players = all_players.loc[[p1, p2]] 

    for name, skills in comparison_players.iterrows():
        categories = skills.index.values

        # Alle punten om te tekenen
        points = list(skills.values)
        points += points[:1]

        # Alle hoeken berekenen
        angles = [side / float(len(categories)) * 2 * np.pi for side in range(len(categories))]
        angles += angles[:1]

        # De spider plot aanmaken
        sp = plt.subplot(3, 3, 1, polar=True)

        # De categorieen weergeven
        plt.xticks(angles, categories)

        # De markers weergeven
        plt.yticks([25, 50, 75], ["25", "50", "75"], color="grey")
        plt.ylim(0,100)

        # Alles plotten en opvullen
        sp.plot(angles, points)
        sp.fill(angles, points, alpha=0.1)

    # De titel plotten
    names = comparison_players.index.values
    plt.title(f'{names[0]} vs {names[1]}', y=1.1)
    
interactive(spiderplot_players, p1=player1_widget, p2=player2_widget)

_Met behulp van de bovenstaande grafiek stellen we ons in staat om in een oogopslag de kernkwaliteiten van de spelers in te zien en te vergelijken._

### Doel: alle westrijden in een dataframe te krijgen met een extra kolom voor de resultaten.

In [None]:
# Alle files via de path krijgen
path = r'westrijden'     
all_files = glob.glob(os.path.join(path, "*.csv"))

# Alle files in een dataframe inlezen via een list comprehension
data_frames = (pd.read_csv(f, encoding='cp1252', sep=';') for f in all_files)
clubs = pd.concat(data_frames, ignore_index=True)

# Relevanten kollommen selecteren
clubs = clubs[["Date", "HomeTeam", "AwayTeam", "FTHG", "FTAG"]]

# De date omzetten naar de date object van panda
clubs.Date = pd.to_datetime(clubs.Date)

# De entries droppen die onder 2019 vallen
clubs = clubs.drop(clubs[clubs.Date < pd.Timestamp(2019, 1, 1)].index)

# Nieuwe kollom maken met de winnende team
clubs["WinningTeam"] = np.where(clubs["FTHG"] >= clubs["FTAG"], clubs["HomeTeam"], clubs["AwayTeam"])

clubs

_Nu hebben we een handige tabel met daarin alleen de relevante data voor ons._

## Vraag 1 (In hoeverre is de prijs van een speler te voorspellen aan de hand van zijn belangrijkste kenmerken?)<a id='Vraag1'></a>

In [None]:
value_players = players[['Agility', 'BallControl']][0:500]

X = value_players.iloc[:, 0].values.reshape(-1, 1)
Y = value_players.iloc[:, 1].values.reshape(-1, 1) 

linear_regressor = LinearRegression()
linear_regressor.fit(X, Y)
Y_pred = linear_regressor.predict(X)

plt.scatter(X, Y, color='red')
plt.plot(X, Y_pred, color='green')
plt.show()