## FIFA Project

Tiene como objetivo estudiar y prácticar diferentes técnicas de aprendizaje no supervisado con la base de datos del videojuego FIFA. Esta base de datos ha sido extraida de la siguiente página de Kaggle: https://www.kaggle.com/stefanoleone992/fifa-21-complete-player-dataset?select=players_21.csv

Además, antes de llegar a la etapa de entrenamiento del modelo, realizaré el preprocesado y análisis exploratorio del Dataset. También aplicaré en el último apartado técnicas de visualización de la información con mapas.

In [119]:
import pandas as pd
import numpy as np

### Preprocesado

#### Carga

In [120]:
# Cargamos el dataset subido a github
data = pd.read_csv("https://raw.githubusercontent.com/josinho93/FIFA-Proyect/main/data/FIFA%2021%20Database.csv")

# Comprobamos su dimensión
data.shape

(18944, 106)

El dataset tiene muchas columnas que no nos van a aportar información, por lo que revisamos el nombre de las columnas y retiramos las que ya no son necesarias.

In [121]:
data.columns.values

array(['sofifa_id', 'player_url', 'short_name', 'long_name', 'age', 'dob',
       'height_cm', 'weight_kg', 'nationality', 'club_name',
       'league_name', 'league_rank', 'overall', 'potential', 'value_eur',
       'wage_eur', 'player_positions', 'preferred_foot',
       'international_reputation', 'weak_foot', 'skill_moves',
       'work_rate', 'body_type', 'real_face', 'release_clause_eur',
       'player_tags', 'team_position', 'team_jersey_number',
       'loaned_from', 'joined', 'contract_valid_until', 'nation_position',
       'nation_jersey_number', 'pace', 'shooting', 'passing', 'dribbling',
       'defending', 'physic', 'gk_diving', 'gk_handling', 'gk_kicking',
       'gk_reflexes', 'gk_speed', 'gk_positioning', 'player_traits',
       'attacking_crossing', 'attacking_finishing',
       'attacking_heading_accuracy', 'attacking_short_passing',
       'attacking_volleys', 'skill_dribbling', 'skill_curve',
       'skill_fk_accuracy', 'skill_long_passing', 'skill_ball_control',


Las columnas que me interesan hacen referencia a datos básicos sobre el futbolista (nacionalidad, club, valor, etc.) y sus atributos futbolisticos.

La primera relación de columnas a eliminar es la siguiente:

In [122]:
desired_columns = ['short_name', 'age', 'dob', 'height_cm', 'weight_kg', 'nationality', 'club_name',
       'league_name', 'overall', 'potential', 'value_eur', 'wage_eur', 'player_positions', 'preferred_foot',
       'international_reputation','team_position','contract_valid_until', 'pace', 'shooting', 'passing', 'dribbling',
       'defending', 'physic', 'gk_diving', 'gk_handling', 'gk_kicking','gk_reflexes', 'gk_speed', 'gk_positioning', 
       'player_traits', 'attacking_crossing', 'attacking_finishing', 'attacking_heading_accuracy', 'attacking_short_passing',
       'attacking_volleys', 'skill_dribbling', 'skill_curve','skill_fk_accuracy', 'skill_long_passing', 'skill_ball_control',
       'movement_acceleration', 'movement_sprint_speed', 'movement_agility', 'movement_reactions', 'movement_balance',
       'power_shot_power', 'power_jumping', 'power_stamina', 'power_strength', 'power_long_shots', 'mentality_aggression',
       'mentality_interceptions', 'mentality_positioning','mentality_vision', 'mentality_penalties', 'mentality_composure',
       'defending_marking', 'defending_standing_tackle','defending_sliding_tackle', 'goalkeeping_diving',
       'goalkeeping_handling', 'goalkeeping_kicking','goalkeeping_positioning', 'goalkeeping_reflexes']

drop_columns = set(data.columns.values) - set(desired_columns)

# Las eliminamos del dataset
data = data.drop(list(drop_columns), axis = 1)

Ahora tenemos **64** columnas. Por otro lado, queremos realizar un análisis con un volumen grande de jugadores pero que, independientemente de su posición, tengan una puntuación similar. Por eso vamos a seleccionar unicamente jugadores con más de 78 puntos actualmente.

In [123]:
data = data[data["overall"] >= 78]

Por lo tanto trabajaremos con un dataset de tan solo **898** jugadores.

In [124]:
data.shape

(898, 64)

#### Análisis Exploratorio

In [135]:
#Echamos un vistazo rápido a las variables
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 898 entries, 0 to 897
Data columns (total 50 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   short_name                  898 non-null    object
 1   age                         898 non-null    int64 
 2   dob                         898 non-null    object
 3   height_cm                   898 non-null    int64 
 4   weight_kg                   898 non-null    int64 
 5   nationality                 898 non-null    object
 6   club_name                   898 non-null    object
 7   league_name                 898 non-null    object
 8   overall                     898 non-null    int64 
 9   potential                   898 non-null    int64 
 10  value_eur                   898 non-null    int64 
 11  wage_eur                    898 non-null    int64 
 12  player_positions            898 non-null    object
 13  preferred_foot              898 non-null    object

Comprobamos la existencia de nulos:

In [126]:
for col in data.columns.values:
    print(col + " tiene " + str(data[col].isnull().sum()))

short_name tiene 0
age tiene 0
dob tiene 0
height_cm tiene 0
weight_kg tiene 0
nationality tiene 0
club_name tiene 21
league_name tiene 21
overall tiene 0
potential tiene 0
value_eur tiene 0
wage_eur tiene 0
player_positions tiene 0
preferred_foot tiene 0
international_reputation tiene 0
team_position tiene 21
contract_valid_until tiene 21
pace tiene 106
shooting tiene 106
passing tiene 106
dribbling tiene 106
defending tiene 106
physic tiene 106
gk_diving tiene 792
gk_handling tiene 792
gk_kicking tiene 792
gk_reflexes tiene 792
gk_speed tiene 792
gk_positioning tiene 792
player_traits tiene 101
attacking_crossing tiene 0
attacking_finishing tiene 0
attacking_heading_accuracy tiene 0
attacking_short_passing tiene 0
attacking_volleys tiene 0
skill_dribbling tiene 0
skill_curve tiene 0
skill_fk_accuracy tiene 0
skill_long_passing tiene 0
skill_ball_control tiene 0
movement_acceleration tiene 0
movement_sprint_speed tiene 0
movement_agility tiene 0
movement_reactions tiene 0
movement_bal

En base al análisis, tres acciones:

* Eliminar la columna **defending_marking** que tiene valores nulos en para todos los registros.
* Eliminar las columnas con los primeros atributos *más generales* ya que estos no muestran la realidad total de los jugadores.
* Identificar a los 21 jugadores sin equipo y sustituir esos valores por "Sin equipo".

In [127]:
data.columns

Index(['short_name', 'age', 'dob', 'height_cm', 'weight_kg', 'nationality',
       'club_name', 'league_name', 'overall', 'potential', 'value_eur',
       'wage_eur', 'player_positions', 'preferred_foot',
       'international_reputation', 'team_position', 'contract_valid_until',
       'pace', 'shooting', 'passing', 'dribbling', 'defending', 'physic',
       'gk_diving', 'gk_handling', 'gk_kicking', 'gk_reflexes', 'gk_speed',
       'gk_positioning', 'player_traits', 'attacking_crossing',
       'attacking_finishing', 'attacking_heading_accuracy',
       'attacking_short_passing', 'attacking_volleys', 'skill_dribbling',
       'skill_curve', 'skill_fk_accuracy', 'skill_long_passing',
       'skill_ball_control', 'movement_acceleration', 'movement_sprint_speed',
       'movement_agility', 'movement_reactions', 'movement_balance',
       'power_shot_power', 'power_jumping', 'power_stamina', 'power_strength',
       'power_long_shots', 'mentality_aggression', 'mentality_interceptions',
 

In [128]:
# Repetimos el prooceso de eliminación anterior. En este caso seleccionamos directamente las que queremos eliminar:
data = data.drop(['pace', 'shooting', 'passing', 'dribbling', 'defending', 'physic',
       'gk_diving', 'gk_handling', 'gk_kicking', 'gk_reflexes', 'gk_speed',
       'gk_positioning', 'player_traits', 'defending_marking'], axis = 1)

In [129]:
data.shape

(898, 50)

Los jugadores sin equipo son los siquientes:

In [130]:
data[data["club_name"].isna()]

Unnamed: 0,short_name,age,dob,height_cm,weight_kg,nationality,club_name,league_name,overall,potential,...,mentality_vision,mentality_penalties,mentality_composure,defending_standing_tackle,defending_sliding_tackle,goalkeeping_diving,goalkeeping_handling,goalkeeping_kicking,goalkeeping_positioning,goalkeeping_reflexes
359,Juiano Mestres,24,1996-02-29,181,82,Brazil,,,81,81,...,50,62,70,85,84,18,12,14,11,18
363,Welington Dano,20,2000-02-29,178,69,Brazil,,,81,81,...,75,61,82,77,81,16,15,15,7,7
494,J. Serendero,32,1988-02-29,190,85,Uruguay,,,80,80,...,71,14,67,17,13,78,81,77,80,77
495,J. Frendado,36,1984-02-29,181,82,Uruguay,,,80,80,...,50,62,70,82,82,14,15,15,17,19
496,M. Baldona,36,1984-02-29,177,75,Uruguay,,,80,80,...,73,61,68,81,77,9,9,14,15,8
497,S. Ardero,32,1988-02-29,171,63,Uruguay,,,80,80,...,80,74,77,13,23,9,7,8,14,10
498,L. Dálves,28,1992-02-29,188,83,Uruguay,,,80,80,...,58,77,79,27,24,8,11,20,19,20
499,M. Nérez,32,1988-02-29,178,69,Uruguay,,,80,80,...,75,61,82,77,76,16,15,15,7,7
500,E. Schetino,28,1992-02-29,185,80,Uruguay,,,80,80,...,42,56,71,83,76,16,12,13,12,17
501,J. Sildero,28,1992-02-29,177,75,Uruguay,,,80,80,...,83,77,81,35,33,12,12,13,15,13


Vamos a completar los missing con la etiqueta "Sin equipo":

In [131]:
data.loc[data["club_name"].isna(), ("club_name", "league_name", "team_position", "contract_valid_until")] = "Sin equipo"

### Visualización datos geográficos