# Onderzoeksvragen en eerste verkenning: FIFA 19

<b> Redouan el Hidraoui <br>
Maurits Arissen <br>
Eric Houdijk <br>
V2A </b>

Lever één Jupyter Notebook in met de volgende onderdelen:
* een eerste verkenning en analyse van je dataset (stappen 1 tot en met 4 uit het data science proces);
* drie concept-onderzoeksvragen;
* een externe dataset (als bijlage in csv-formaat).

## Data collection

*Data collection is al voor je gedaan, aangezien je een dataset krijgt toegewezen, 
waarbij de ruwe data al eerder is verzameld door derden.
Je moet nog wel op zoek naar een externe dataset om je data mee uit te breiden. 
Deze data is echter ook al eerder voor je verzameld: je hoeft zelf geen dataverzameling te doen door bijvoorbeeld interviews te houden of sensoren uit te lezen.*
Na deze stap is er sprake van <b>ruwe data</b>.

In [None]:
# imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


Onze gekozen CSV-file dataset inladen: <br>
- fifa19.csv

De dataset bevat: <br>
1. Alle spelers uit FIFA 19.
2. Speelpositie en fysieke eigenschappen.
3. Persoonlijke spelersinformatie (bijv. nationaliteit, club, leeftijd, salaris etc.).

In [None]:
fifa_source = pd.read_csv('source/fifa19.csv', index_col=0)

De grootte van onze dataset:
- 8.71 MB
- Bevat 18207 rijen (dus 18206 spelers, want de eerste rij bevat alle kolommen)

In [None]:
rows_dataset = fifa_source.shape[0] - 1
rows_dataset

Een aantal rijen als voorbeeld voor hoe de dataset eruit ziet:

In [None]:
fifa_source.head(10)

## Data processing

*Na het verzamelen van de data, moet je dit waarschijnlijk eerst bewerken, 
want het komt niet altijd in het formaat binnen dat je voor ogen had. 
Deze stap data processing is ook al grotendeels voor je gedaan: je krijgt de data immers in nette tabelvorm aangeleverd (bijvoorbeeld in CSV-files). 
Het is wel goed mogelijk dat je de data moet omvormen om meerdere datasets te kunnen combineren. 
Na deze stap heb je <b>geordende data</b>.*

De column <b>'Wage'</b> en column <b>'Release Clause'</b> bevat characters zoals €, M en K. Om later gebruik te maken van deze data,
willen wij graag van deze characters af.

In [None]:
fifa_source['Wage']

In [None]:
fifa_source['Release Clause']

Nu het verwijderen van de ongewenste characters <b>(Release Clause)</b>:

In [None]:
fifa_source['Clean Release Clause'] = fifa_source['Release Clause']
fifa_source['Clean Release Clause'].replace(regex=True,inplace=True,to_replace=r'€',value=r'')

fifa_source['Clean Release Clause'] = fifa_source['Clean Release Clause'].replace(r'[KM]+$', '', regex=True).astype(float) * \
             fifa_source['Clean Release Clause'].str.extract(r'[\d\.]+([KM]+)', expand=False).fillna(1).replace(['K','M'], [10**3, 10**6]).astype(int)

De <b>Release Clause</b> van de spelers na het opschonen:

In [None]:
fifa_source['Clean Release Clause']

Nu het verwijderen van de ongewenste charachters <b>(Wage)</b>:

In [None]:
fifa_source['Clean Wage'] = fifa_source['Wage']
fifa_source['Clean Wage'].replace(regex=True,inplace=True,to_replace=r'€',value=r'')

fifa_source['Clean Wage'] = fifa_source['Clean Wage'].replace(r'[KM]+$', '', regex=True).astype(float) * \
             fifa_source['Clean Wage'].str.extract(r'[\d\.]+([KM]+)', expand=False).fillna(1).replace(['K','M'], [10**3, 10**6]).astype(int)

De <b>Wage</b> van de spelers na het opschonen:

In [None]:
fifa_source['Clean Wage']

## Data cleaning

*Je hebt nu een geordende dataset, maar deze is niet noodzakelijk al helemaal schoon. 
In de stap data cleaning ga je op zoek naar dubbele en missende waarden, outliers en andere onvolkomenheden en los je deze op. 
Na deze stap heb je <b>schone data</b>.*

Op dit moment bevat onze gekozen dataset <b>88 kolommen</b>:

In [None]:
print('Aantal kolommen in fifa19.csv: {}'.format(len(fifa_source.columns)))
fifa_source.columns

Wij als team zijn tot de conclusie gekomen dat de volgende kolommen overbodig, en dus niet nodig zijn:
1. <b>Photo</b>, omdat: deze kolom een referentie bevat naar een afbeelding van de desbetreffende speler. Dit is nog relevant voor ons onderzoek nog hebben wij de beschikking tot deze foto's.
2. <b>Flag</b>, omdat: deze kolom een referentie bevat naar een afbeelding van de vlag die bij de nationaliteit hoort van de desbetreffende speler. Dit is nog relevant voor ons onderzoek, de 'Nationality' kolom is bruikbaarder, nog hebben wij beschikking tot deze afbeeldingen.
3. <b>Club logo</b>, omdat: bevat url's naar afbeeldingen
4. <b>Special</b>, omdat: nummers zonder duidelijke betekenis
5. <b>Body Type</b>, omdat: niet al te nuttig, erg generiek, bijna alle spelers delen dezelfde 3 bodytypes
6. <b>International Reputation</b>, omdat: weinig zeggend nummer
7. <b>Skill Moves</b>, omdat: weinig zeggend nummer
8. <b>Real Face</b>, omdat: Yes / No kolom, geen nuttige data
9. <b>Jersey Number</b>, omdat: weinig zeggend nummer, heeft geen specifiek betekenis

In [None]:
fifa_source.drop(['Photo', 'Flag', 'Club Logo', 'Special', 'Body Type', 'International Reputation', 'Skill Moves', 'Real Face', 'Jersey Number'], axis=1, inplace=True)

De resterende kolommen na het verwijderen van de overbodige kolommen:

In [None]:
print('Aantal kolommen in fifa19.csv na het verwijderen van overbodige kolommen: {}'.format(len(fifa_source.columns)))
fifa_source.columns

De column <b>'Overall'</b> bevat een getal (rating) van een speler. dit geeft weer hoe goed een speler
is t.o.v. de andere spelers binnen de dataset. Wij vinden dan ook dat deze column <b>niet</b> NaN mag zijn,
het heeft een belangrijke betekenis.
* Alle spelers die hier <b>NaN</b> hebben staan, worden uit onze dataset gehaald.

In [None]:
aantal_nan_overall = pd.isnull(fifa_source['Overall']).sum().sum()
print('Aantal NaN-waardes column \'Overall\': {}'.format(aantal_nan_overall))

Onze dataset bevat geen spelers met NaN waardes in  column <b>'Overall'</b>.

De resterende columns met NaN worden door ons gevult met het getal 0. 
Dit doen wij om later (mochten die ontstaan door dit) foutmeldingen te voorkomen.

In [None]:
aantal_nan = pd.isnull(fifa_source).sum().sum()
print('Huidige aantal NaN-waardes: {}'.format(aantal_nan))

In [None]:
fifa_source.fillna(0, inplace=True)

In [None]:
aantal_nan = pd.isnull(fifa_source).sum().sum()
print('Aantal NaN-waardes na het replacen met getal 0: {}'.format(aantal_nan))

Aantal duplicate spelers binnen onze fifa19.csv dataset:
* <b>0 spelers</b>

Dit checken wij aan de hand van het unieke ID die iedere speler toegewezen heeft gekregen.

In [None]:
duplicatePlayers = fifa_source[fifa_source.duplicated(['ID'])]
print("Duplicate players gebaseerd op het unieke ID:", duplicatePlayers.count().sum())

## Data exploration & analysis

*Voordat je kan beginnen met het beantwoorden van de onderzoeksvragen, 
moet je de dataset eerst doorgronden en analyseren. 
Je moet begrijpen waar je data uit bestaat en hoe je met je data de onderzoeksvragen oplost. 
Gebruik <b>statistische analyses en visualisaties</b> om inzicht te krijgen in de dataset.* 

<b>Statische analyse column 'Overall'</b>:

In [None]:
np.round(fifa_source['Overall'].describe(), decimals=2)

<b>Statische analyse column 'Age'</b>:

In [None]:
np.round(fifa_source['Age'].describe(), decimals=0)

<b>Statische analyse column 'Release Clause'</b>:

In [None]:
fifa_source['Release Clause'].describe()

<b>Histogram met Aantal spelers per 'Overall' waarde</b>:

In [None]:
histogram = plt.hist(fifa_source['Overall'], edgecolor='black', linewidth=1.2)
plt.xlabel('Overall')
plt.ylabel('Amount')
histogram

<b>Histogram met Aantal spelers per 'Age' waarde</b>:

In [None]:
histogram = plt.hist(fifa_source['Age'], edgecolor='black', linewidth=1.2)
plt.xlabel('Age')
plt.ylabel('Amount')
histogram

<b>Boxplot met column 'Overall'</b>:

In [None]:
boxplot = plt.boxplot(fifa_source['Overall'], vert=False)
boxplot

<b>Scatter plot met column 'Overall' t.o.v. column 'Age'</b>:

In [None]:
scatter = plt.scatter(fifa_source['Overall'], fifa_source['Age'])
plt.xlabel('Overall')
plt.ylabel('Age')
scatter

<b>Scatter plot met column 'Clean Wage' t.o.v. column 'Age'</b>:

In [None]:
scatter = plt.scatter(fifa_source['Age'], fifa_source['Clean Wage'])
plt.xlabel('Age')
plt.ylabel('Wage')
scatter

<b>Verplichte onderzoeksvragen: </b>
   * *In hoeverre is de waarde van een speler te voorspellen aan de hand 
       van zijn belangrijkste kenmerken?*
   

<b>Concept-onderzoeksvragen: </b>
   1. *In hoeverre is de positie van een spelers te voorspellen aan de hand van zijn kenmerken?*
   2. *In hoeverre is de 'potential' van de destijds jonge talenten in fifa 16 (max 21 jaar oud met een goed potentie) uitgekomen in fifa 19?*

<b>Bonus (mocht er tijd over zijn)</b>: In hoeverre is het salaris van een speler te voorspellen aan de hand van zijn kenmerken? (Voorspelling: betere speler is hoger salaris, leeftijd speelt een rol, positie speelt een rol, nationaliteit speelt een rol)

## Externe dataset

Onze gekozen externe CSV-file dataset inladen: <br>
- fifa16.csv

De dataset bevat: <br>
1. Alle spelers uit FIFA 16.
2. Speelpositie en fysieke eigenschappen.
3. Persoonlijke spelersinformatie (bijv. nationaliteit, club, leeftijd, salaris etc.).

In [None]:
extern_source = pd.read_csv('source/fifa16.csv', index_col=0)

De grootte van onze externe dataset:
- 7.18 MB
- Bevat 18207 rijen (dus 15464 spelers, want de eerste rij bevat alle kolommen)

In [None]:
rows_extern_dataset = extern_source.shape[0] - 1
rows_extern_dataset

Een aantal rijen als voorbeeld voor hoe de externe dataset eruit ziet:

In [None]:
extern_source.head(10)