# Análisis de Futbol Europeo

##### Mentor: Mario Ferreyra
##### Alumno: Gianfranco Barbiani
##### Fecha: Sábado 2 de Noviembre de 2019

### ¿Machine Learning en el futbol actual?
Si le preguntamos a diferentes eminencias de este deporte: ¿Qué es el fútbol?, podriamos resumir que se trata de pasión, talento, habilidad y de esa "chispa" que tienen algunos; pero también se trata de entrenamiento constante, dietas rigurosas, concentración y sacrificio. Es en estas últimas cosas que el entrenador de un equipo, el personal médico y el cuerpo técnico en general buscar guiar al jugador para que rinda más, mejore y se eviten lesiones en el camino.

Si hay algo que hoy en dia es más sencillo que nunca es relevar datos: estadísticas de los jugadores, perfiles de juego de los equipos y resúmenes de los resultados de los partidos disputados por liga, por nombrar algunos. Y es aquí que aparece el protagonista de esta Diplomatura: La Ciencia de Datos en un principio nos permite analizar esos datos crudos y obtener **información** a base de ellos. Tras analizar los mismos a traves de un ojo experto (o al menos entrenado) es posible comenzar a visualizar patrones y tendencias. Esto es algo que en el futbol europeo ya se ve hace años y está comenzando a "automatizarse" mediante el uso de AI, por ejemplo, para:
- Predecir resultados de partidos,
- Predecir lesiones,
- Comparar y elejir esquemas de juego,
- Tomar decisiones sobre concretar o no un fichaje,

y la lista continúa. Como se puede suponer, el hecho de contar con esta información representa un clara ventaja competitiva entre clubes, apostadores, agentes de fichajes y cazadores de talentos entre otros.

### Nuestro escenario
El conjunto de datos que nuestro mentor nos propuso está compuesto por 3 *datasets*:
- **FOOTBALL_PLAYER**
- **FOOTBALL_TEAM**
- **FOOTBALL_MATCH**

##### FOOTBALL_PLAYER
Está compuesta por:
- Nombre del jugador
- Fecha de nacimiento
- Edad
- Peso
- Altura
- Indice de masa corporal
- Ratings FIFA:
    - Rating general
    - Definicion
    - Vision de pase
    - Pase corto
    - Pase Largo
    - Habilidad de portero, entre otros


##### FOOTBALL_TEAM
Está compuesta por:
- Nombre del equipo
- Velociadad de juego
- Capacidad de dribleo
- Capacidad de pase
- Capacidad de posicionamiento
- Capacidad de creación
- Capacidad de tiro
- Presion de la defenza
- Anchura del equipo, entre otros
    

##### FOOTBALL_MATCH
Está compuesta por:
- Nombre del país
- Nombre de la liga
- Temporada
- Etapa
- Fecha del partido
- Nombre del equipo visitante
- Nombre del equipo local
- Goles del equipo visitante
- Goles del equipo local
- Total de goles, entre otros
- Apuestas de "Bet365":
    - Gana visitante
    - Empate
    - Gana local

### El camino del Mentor
A medida que avanzaba el cursada de la diplomatura, nuestro mentor nos fue guiando a aplicar los nuevos conocimientos a nuestros datasets. A continuación un resúmen de lo logrado en las diferentes etapas:

#### Análisis y Visualación de Datos
En esta etapa se focalizó primeramente en el dataset de **Football_Player** y en particular en las features **long_shot** y **shot_power**.

Se obtuvieron datos estadísticos de los mismos, se graficó su distribución y se buscaron datos atípicos (outliers). Pero lo más interesante fue analizar la teoría de que existiera diferencia en estas propiedades, dependiendo de si un jugador es zurdo o diestro. Esto fue a lo que concluimos:

- *"...hay menos jugadores zurdos que patean con menos fuerza que derechos y a medida que el valor de shot_power comienza a incrementar, ambos grupos de jugadores (diestros y zurdos) se comienzan a parecer más y más."*
- *Podemos ver en el boxplot que los jugadores zurdos tienen un valor minimo de long_shots más alto que los diestros. Sin embargo, al comparar los valores en el otro extremo (los valores altos) vemos que los jugadores diestros tieneden a superar los valores de long_shots de los zurdos. Otro dato no menor es que segun el z-score, no hay jugadores zurdos que puedan ser considerados outliers para la variable long_shots."*
- *"Podemos ver como hay una relacion lineal entre las dos variables (long_shot y shot_power): Ambas tienden a aumentar cuando la otra tambien lo hace."*
![](img/AyV/long_shot_shot_power.png)
- *"Podemos ver que la correlacion entre ambas variables casi no varia si hablamos de jugadores diestros o zurdos (aunque es levemente mayor la correlacion en jugadores diestros)."*

Brevemente se analizaron las features **weight_kg**, **height_m** y **age**. Estas fueron las conclusiones:
- *"Podemos deducir de ambos graficos que no existe una correlacion clara entre el peso y la edad de los jugadores. La relacion esta lejos de ser directamente proporcional (al comparar contra la identidad), pero se puede observar un leve incremente del peso con el paso de los los años, pero muy suave."*
- *"Podemos deducir de ambos graficos que no existe una correlacion alguna entre la altura y la edad de los jugadores."*

Más adelante el foco se movió al dataset de **Football_Match**. Una vez mas se obtivieron algunos datos estadísticos de interés:
- Liga Europea con mayor cantidad de partidos: Comparten el podio las ligas de España, Inglaterra y Francia con un total de 3040, seguidas de cerca por la liga de Italia con 3017 goles.
![](img/AyV/matches_per_league.png)
- Top 10 de Equipos con mayor cantidad de goles convertidos: Total, Local y Visitante: 
![](img/AyV/goals_scored_podium.png)
- Resumen de Goles convertidos por Temporada: Total, Local y Visitante:
![](img/AyV/goals_per_temp.png)
- Proporciones de los resultados de los partidos:
![](img/AyV/match_results_proportion.png)

#### Analisis Exploratorio y Curación de Datos
En esta etapa el mentor nos guió a traves de algunos pasos recomendados para "limpiar" nuestros datasets:
- Detección de caracteres no soportados en las columnas de los dataframes.
- Creación de nuevos atributos (como combinación lineal de otros).
- Tramamiento de valores faltantes: En esta sección quedó a nuestro criterio decidir si eliminar las filas con valores faltantes. Esta fue la decición: *"...no eliminariamos los missing values en este caso porque eso implicaria eliminar 500 filas de nuestro dataset, solo porque estan faltando 7 features de las 40 que son en total, por lo que estariamos eliminando mucha informacion útil junto con ellas."*. A continuación rellenamos los valoes faltantes usando la *moda*.
- Nomarlizacion de algunas columas usando *Z-Score* y *Min-Max*.
- Codificacion de los valores de una de las columnas del dataset *Footbal_Match*.

#### Introduccion al Aprendizaje Automatico
En esta etapa se nos fue encomendado, primeramente, **predecir** el valor de *Overall Rating* de los jugadores, dado el resto de sus atributos (usando el dataframe "Footbal_Player". El mentor nos propuso implementar los siguientes predictores:
(*Aclaración: en las imágenes a continuación se seleccionó solo un atributo del jugador (vision), para poder graficar la prediccion*)
- Regresion Lineal
![](img/IAA/reg_lin.png)
- Regresion Polinomial
![](img/IAA/reg_pol.png)


En segundo lugar se nos solicitó **clasificar** el *attacking_work_rate* de un jugador, lo cual se puede entender como qué tan orientado al ataque es un jugador (poco, moderado o alto). Se usó sólo el atributo *dribbling* y se implementó el clasificador:
- Regresión Logistica