In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
    
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

<img src="../../../common/logo_DH.svg" align='left' width=50%/>

### Desafío Clustering de Jugadores de Fifa

En esta práctica trabajaremos con un dataset de jugadores de Fifa18. El Fifa es un juego de consola en donde los jugadores de la principales ligas del mundo están descriptos por un conjunto de características como la agilidad, precisión en los tiros libres, etc, además de otros datos como la edad, nacionalidad, salario, y otros sobre su posición en el campo de juego. El dataset está disponible [acá](https://www.kaggle.com/thec03u5/fifa-18-demo-player-dataset). Lamentablemente, contamos con la versión del 2018 en donde pusieron a Cristiano Ronaldo en la tapa, pero cabe mencionar 

Algunas features del dataset son las siguientes:

* Name
* Age 
* Nationality
* Club
* Value: Precio de mercado del jugador
* Wage: Salario del jugador

(...)

* Acceleration
* Agility     
* Balance     
* Ball control
* Free kick accuracy

(...)

* CAM
* CB
* CDM
* CF
* CM                 

Estas últimas codifican numéricamente cuán bien se desenvuelven en las distintas posiciones del campo

<img src='img/field_positions.jpg' width=80%>



<b>El objetivo</b> de esta práctica es ver si hay alguna estructura de clusters en los datos y luego inferir qué criterio es el que mejor los agrupa.

Empezamos levantando el dataset.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

In [None]:
data=pd.read_csv('../Data/Fifa_players.csv')

### 1. Limpieza

* ¿Qué tipo de datos tiene el dataset?

* Conviertan a numérica la columna 'Valor' eliminando el caracter "€" y transformando las M en millones y K en miles.

* Eliminen los jugadores con valor = 0. 

Vamos a implementar un algoritmo de clustering sobre la porción de las features que describen las habilidades de los jugadores. 

* Creen un nuevo dataframe seleccionando las columnas

['Acceleration', 'Aggression', 'Agility', 'Balance',
       'Ball control', 'Composure', 'Crossing', 'Curve', 'Dribbling',
       'Finishing', 'Free kick accuracy', 'GK diving', 'GK handling',
       'GK kicking', 'GK positioning', 'GK reflexes', 'Heading accuracy',
       'Interceptions', 'Jumping', 'Long passing', 'Long shots', 'Marking',
       'Penalties', 'Positioning', 'Reactions', 'Short passing', 'Shot power',
       'Sliding tackle', 'Sprint speed', 'Stamina', 'Standing tackle',
       'Strength', 'Vision', 'Volleys']
       
* Conviertan las columnas seleccionadas a tipo numérico, eliminando las filas que sean conflictivas, por ejemplo entradas como '50+8'.       
       
* <b>Importante:</b>No pisen el dataframe original y conserven la relación de índices entre ambos pues vamos a querer recuperar información del dataframe completo para evaluar la composicion de los clusters. 

In [None]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):  # more options can be specified also
     display(data.head(3))
     display(data.dtypes)

### 2. Clustering


* Implementen un algoritmo de KMeans variando el número de clusters en un rango que les suene razonable. 

<b>¿Qué hay que hacer antes con los datos?</b>


* Grafiquen la inercia (suma de distancias cuadráticas a los centroides) en función de k. Esta medida queda almacenada en la propiedad 'inertia_' del objeto KMeans una vez entrenado.

* Siguiendo la regla del codo, hay un valor de k preferencial?



### 3. Composición de los clusters

Veamos cómo están compuestos los clusters, por ejemplo mirando las posiciones preferibles para cada jugador. Esta información está en el campo 'Preferred position' del dataset original.

* Hagan un gráfico de barras para cada cluster mostrando la proporción de jugadores de cada posición que lo componen.

### 4. Más clusters

Vimos que los clusters contienen información sobre la posición en el campo. Si forzamos k = 15, 

* ¿se ven las posiciones pintadas de distinto color en la imagen de la introducción?

* Si encuentran clusters con una composición parecida de posiciones, ¿qué variable puede ser relevante para separarlos? Tal vez el valor... Grafiquen simultaneamente la distribución de valores de los jugadores para los clusters de composición similar.

### 5. Visualización en un espacio de dimensionalidad reducida

* Reduzcamos la dimensionalidad del dataset usando PCA y conservando dos componentes principales.

* Grafiquemos con un scatterplot los 4 clusters obtenidos originalmente en este espacio reducido.