# FASE 2: Visualización

**0. INTRODUCCIÓN**

Para la visualización de los datos se ha usado una biblioteca que permite interactuar con los gráficos, en este caso la interacción de mayor utilidad será la aparición de una etiqueta con la información al situar el ratón sobre algún elemento o resaltar grupos arrastrando con el cursor y eligiendo varios a la vez. A continuación se incluirán los pasos necesarios para su instalación.


**1. INSTALACIÓN DE PLOTLY Y JUPYTER SUPPORT**



* Para el soporte de jupyter classic, se necesita `ipywidgets`.
* Para el soporte de jupyterlab se necesita una extensión:
    * `conda activar jupyter_env`
    * `jupyter labextension install jupyterlab-plotly@1.5.0 --no-build` (necesita nodejs, puede instalar ejecutando` conda install nodejs`)
    * `jupyter lab build` (necesita nodejs, puede instalar ejecutando` conda install nodejs`)

**2.IMPORTACIÓN DE LIIBRERIAS**

In [1]:
import cufflinks as cf
import pandas as pd
import plotly.express as px

cf.go_offline()
?pd.DataFrame.iplot

**3.CARGA DE LOS DATOS**

A continuación se declarará el siguiente dataframe generado en pandas y cargado a través de un archivo en csv llamado **4_clusteres_fifa2019_stats** en la ruta relativa "../../data/4_clusteres_fifa2019_stats.csv", donde están contenidas las variables categóricas. 

In [2]:
df = pd.read_csv('../../data/4_clusteres_fifa2019_stats.csv')

**4.VISUALIZACIÓN E INTERPRETACIÓN DE LOS RESULTADOS**

Ante el desconocimiento del campo a tratar se han realizado las siguientes visualizaciones  a modo exploratorio con el fin de comprobar si el modelo de clusterización aplicado a los datos ha sido efectivo.

Dada la naturaleza de la información se ha determinado que la manera más efectiva de visualizar los datos será mediante una serie de histogramas que demuestren la diferencia entre los clústers.

*Los clústers están enumerados del 0 al 3. Siendo el 0 el que contiene menor cantidad de registros y el 3 el que cotiene la mayor cantidad.*

  **4.1 Distribución poblacional**

En este primer histograma se verá representado el volúmen de jugadores que contiene cada clúster.

In [3]:
df['cluster'].iplot(kind='hist', title='Jugadores totales por cluster',
                    yTitle='Jugadores totales', xTitle='clústers')

Se aprecia una gran descompensación entre clústers y como se puede comprobar en la gráfica que aparece en el apartado de la **FASE:1** titulado **5. APLICACIÓN DE LOS DISTINTOS MODELOS DE CLUSTERIZACIÓN**, la distribución de jugadores coincide con el tamaño de los clústers representados ahí.

**4.2 Salariao medio por clúster**

En el siguiente gráfico será representado el salario medio de los jugadores que conforman cada clúster.

In [4]:
salario_medio_por_cluster = df.groupby('cluster',
                                       as_index=False).agg({'Wage':'mean'})

In [5]:
salario_medio_por_cluster

Unnamed: 0,cluster,Wage
0,0,196000000.0
1,1,84749050.0
2,2,32492860.0
3,3,6086615.0


In [7]:
salario_medio_por_cluster.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Salario en MIllones', 
                       title='Salario medio por clúster', 
                       color='green')

En esta visualización se empieza a apreciar la semejanza de la información con la realidad en la que grandes estrellas del fútbol perciben grandes cantidades de salario y cobra sentido que estas pertenezcan al clúster "0", donde el volúmen de jugadores respecto al total es ínfimo mostrando una relación inversa con el gráfico **4.2**.

**4.3 Reputación media por clúster**

A continuación se representa el valor medio por clúster llamado *Internacional Reputation* que determina el nivel de reputación aplicado por el videojuego a los jugadores.

In [8]:
reputacion_media_por_cluster = df.groupby('cluster',
                                          as_index=False).agg({'International Reputation':'mean'})

In [9]:
reputacion_media_por_cluster

Unnamed: 0,cluster,International Reputation
0,0,4.104167
1,1,3.0
2,2,2.0
3,3,1.0


In [10]:
reputacion_media_por_cluster.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Reputación Internacional', 
                       title='Reputación Internacional media por clúster', 
                       color='blue')

Lo más interesante de esté gráfico es la diferencia casi perfecta que se muestra escalonada entre clústers, que por un lado demuestra ir acorde con la importancia de los jugadores de mayor a menor como hemos estado viendo hasta ahora, pero lo más importante es que resulta ser un undicador de confianza sobre la efectividad del algoritmo empleado para la clusterización.

**4.4 Potencial medio por clúster**

En el siguiente gráfico queda representado el nivel potencial medio de los jugadores de cada clúster sobre el terreno de juego.

In [11]:
potencial_medio = df.groupby('cluster',
                             as_index=False).agg({'Potential':'mean'})

In [12]:
potencial_medio

Unnamed: 0,cluster,Potential
0,0,86.854167
1,1,82.593156
2,2,76.548049
3,3,70.648457


In [13]:
potencial_medio.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Potencial', 
                       title='Potencial medio por clúster', 
                       color='yellow')

Se puede comprobar como en este caso no hay una descompensación tan grande como en los valores de las representaciones anteriores, existiendo un margen del **20% puntos** entre el clúster "0" y el "3". No obstante sigue habiendo una distribución escalonada dando preferencia el clúster "0" donde parecen encontrarse los jugadores de primer nivel.

**4.5 Tasa media de trabajo por clúster**

La Tasa representada en el siguiente histograma representa el nivel de compromiso que tiene el jugador entre la defensa y el ataque.

In [14]:
work_rate_medio = df.groupby('cluster', as_index=False).agg({'Work':'mean'})

In [15]:
work_rate_medio

Unnamed: 0,cluster,Work
0,0,4.666667
1,1,4.634981
2,2,4.514748
3,3,4.32449


In [16]:
potencial_medio.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Tasa de Trabajo', 
                       title='Tasa media de Trabajo por clúster', 
                       color='red')

Como se puede observar sigue existiendo la misma distribución pero sin una gran diferencia, esto puede demostrar que los jugadores de primer nivel son más completos y se desenvuelven con soltura en ambas actitudes, no obstante, este caso sería conveniente estudiar los *outliers* que contenga el clúster.

**4.6 Edad media por clúster**

A continuación, se mostrará la edad media que contiene cada clúster.

In [17]:
edad_media = df.groupby('cluster', as_index=False).agg({'Age':'mean'})

In [18]:
edad_media

Unnamed: 0,cluster,Age
0,0,30.416667
1,1,28.828897
2,2,29.059943
3,3,24.712129


In [19]:
edad_media.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Edad de los jugadores', 
                       title='Edad media de los jugadores por clúster', 
                       color='purple')

En este caso la distribución se representa excepcionalmente con respecto al resto de gráficas. Aunque sin una diferencia realmente notable. En este caso se podrían plantear dos hipótesis.

    -A) ¿Es decisiva la edad de un jugador con respecto a su calidad?
    -B) ¿La veterania de un jugador influye en su reputación y por consiguiente en su salario?

**4.7 Calidad media de juego por cada clúster según la media de sus habilidades**

Para este gráfico se ha usado la media de todas las estadísticas del jugador en el campo.

In [20]:
avg_stats_medio = df.groupby('cluster', as_index=False).agg({'avg_stats':'mean'})

In [21]:
avg_stats_medio

Unnamed: 0,cluster,avg_stats
0,0,64.422794
1,1,61.133863
2,2,57.841943
3,3,49.983238


In [22]:
avg_stats_medio.iplot(kind='bar', 
                       x='cluster', 
                       xTitle='clústers', 
                       yTitle='Edad de los jugadores', 
                       title='Calidad media de los jugadores por clúster', 
                       color='pink')

Se repite una distribución similar al resto pero se puede apreciar que no hay una diferencia demasiado descompensada entre los clústers "0" y "1".

**5 COMPROBACIÓN DE LOS JUGADORES QUE CONFORMAN EL PRIMER CLÚSTER**

Para finalizar se mostrarán aquellos jugadores que contiene el clúster "0" para comprobar la fiabilidad de los datos.

In [23]:
clúster_cero = df[df['cluster'] == 0]

In [24]:
clúster_cero

Unnamed: 0,ID,Name,Nationality,Club,Preferred Foot,Age,Overall,Potential,Wage,Special,...,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Work,cluster,avg_stats
0,158023,L. Messi,Argentina,FC Barcelona,Left,31,94,94,565000000.0,2202,...,28.0,26.0,6.0,11.0,15.0,14.0,8.0,4,0,67.588235
1,20801,Cristiano Ronaldo,Portugal,Juventus,Right,33,94,94,405000000.0,2228,...,31.0,23.0,7.0,11.0,15.0,14.0,11.0,4,0,68.323529
2,190871,Neymar Jr,Brazil,Paris Saint-Germain,Right,26,92,93,290000000.0,2143,...,24.0,33.0,9.0,9.0,15.0,15.0,11.0,5,0,65.794118
3,192985,K. De Bruyne,Belgium,Manchester City,Right,27,91,92,355000000.0,2281,...,58.0,51.0,15.0,13.0,5.0,10.0,13.0,6,0,69.676471
4,183277,E. Hazard,Belgium,Chelsea,Right,27,91,91,340000000.0,2142,...,27.0,22.0,11.0,12.0,6.0,8.0,8.0,5,0,65.676471
5,177003,L. Modrić,Croatia,Real Madrid,Right,32,91,91,420000000.0,2280,...,76.0,73.0,13.0,9.0,7.0,14.0,9.0,6,0,69.529412
6,176580,L. Suárez,Uruguay,FC Barcelona,Right,31,91,91,455000000.0,2346,...,45.0,38.0,27.0,25.0,31.0,33.0,37.0,5,0,71.5
7,155862,Sergio Ramos,Spain,Real Madrid,Right,32,91,91,380000000.0,2201,...,92.0,91.0,11.0,8.0,9.0,7.0,11.0,5,0,67.147059
8,188545,R. Lewandowski,Poland,FC Bayern München,Right,29,90,90,205000000.0,2152,...,42.0,19.0,15.0,6.0,12.0,8.0,10.0,5,0,65.823529
9,182521,T. Kroos,Germany,Real Madrid,Right,28,90,90,355000000.0,2190,...,79.0,69.0,10.0,11.0,13.0,7.0,10.0,4,0,66.911765


Como se puede comprobar, los jugadores etiquetados en este clúster son de primer nivel, demostrando así la fiabilidad del análisis.

**6 CONCLUSIONES**

Dejando a un lado las conclusiones fubolísticas en cuanto al fifa2019 se refiere, se ha podido comprobar que existe una coherencia lógica y feaciente de los criterios de clasificación usados por el algoritmo y queda demostrada la efectividad del mismo sobre los datos entrenados que a posteriori podrán ser analizados con mayor precisión de cara a los objetivos que requieran los futuros proyectos.