# Práctica de Inteligencia Artificial
#### Robert Mikhailovskiy

https://github.com/morj12/ia_practica3

## Introducción
FIFA 19 es un videojuego de género simulador de fútbol creado por la empresa Electronic Arts. El juego contiene una gran base de personajes (jugadores reales), con muchas características, que pueden ser objetos de análisis y estudio. En esta práctica se trata de analizar los datos de los jugadores, prepararlos para usar un algoritmo de aprendizaje automático con el objetivo de poder calcular el precio de un jugador sabiendo sus características.

## Herramientas

Las herramientas que vamos a usar son las librerías Pandas, Numpy y Scikit Learn de Python.

In [1]:
import os

#separamos el dataframe en train y test
from sklearn.model_selection import train_test_split
#vamos a usar un modelo lineal
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

import pandas as pd
import numpy as np

## Lectura de datos
Para leer los datos y guardarlos en undataframe, vamos a utilizar una función de la librería Pandas.

In [2]:
df = pd.read_csv(os.path.join("..", "in", "fifa.csv"))
df

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,0,158023,L. Messi,31,https://cdn.sofifa.org/players/4/19/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,1,20801,Cristiano Ronaldo,33,https://cdn.sofifa.org/players/4/19/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Juventus,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,2,190871,Neymar Jr,26,https://cdn.sofifa.org/players/4/19/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,3,193080,De Gea,27,https://cdn.sofifa.org/players/4/19/193080.png,Spain,https://cdn.sofifa.org/flags/45.png,91,93,Manchester United,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,4,192985,K. De Bruyne,27,https://cdn.sofifa.org/players/4/19/192985.png,Belgium,https://cdn.sofifa.org/flags/7.png,91,92,Manchester City,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,18202,238813,J. Lundstram,19,https://cdn.sofifa.org/players/4/19/238813.png,England,https://cdn.sofifa.org/flags/14.png,47,65,Crewe Alexandra,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,18203,243165,N. Christoffersson,19,https://cdn.sofifa.org/players/4/19/243165.png,Sweden,https://cdn.sofifa.org/flags/46.png,47,63,Trelleborgs FF,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,18204,241638,B. Worman,16,https://cdn.sofifa.org/players/4/19/241638.png,England,https://cdn.sofifa.org/flags/14.png,47,67,Cambridge United,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,18205,246268,D. Walker-Rice,17,https://cdn.sofifa.org/players/4/19/246268.png,England,https://cdn.sofifa.org/flags/14.png,47,66,Tranmere Rovers,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K


## Descripción de los datos

El dataframe contiene muchas columnas, sin embargo no todas de esas vamos a tener que usarlas para el aprendizaje automático. Las columnas como ID, Name, Photo y algunas más no tienen que ver con las características, entonces las podremos ignorar.

### Overall, Potential
Estas dos columnas representan la habilidad general y la habilidad potencial de cada jugador. Podemos decir que los mejores jugadores son los que tienen estas dos características más altas. Como podemos ver, los dos mejores jugadores tienen un 94 de overall y de potencial.

### Special
Esta columna representa el total de estadísticas de un jugador.

### Skill moves
Representa la movilidad del jugador. Su rango es 1-5.

### Work rate

Representa el trabajo en defensa y ataque del jugador.

### LS, ST .. RB
Esta serie de características muestra la habilidad de un jugador de jugar en diferentes posiciones.

### Crossing .. SlidingTackle

Esta serie de características califica las diferentes características y acciones de un jugador (acceleración, penalty, agilidad, etc.).

### GKDiving .. GKReflexes
Estas columnas corresponden con las habilidades de los porteros.

### Release clause
Es la cantidad de dinero que se paga al club para que deje libre al jugador..

## Limpieza de datos

Primero vamos a buscar las columnas que no tienen relevancia y eliminarlas. Estas columnas son: Unnamed, ID, Photo, Flag, Club Logo, Real Face, Jersey Number y Name. Lo hacemos porque no aportan datos de características.

In [3]:
df = df.iloc[:, 2:]
df = df.drop('Photo', 1)
df = df.drop('Flag', 1)
df = df.drop('Club Logo', 1)
df = df.drop('Real Face', 1)
df = df.drop('Jersey Number', 1)
df = df.drop('Name', 1)

### Valores NaN

Hay algunas columnas en las cuales en vez de un valor hay un NaN. Por ejemplo, algunos jugadores no tienen un club asignado. Podemos borrarlos ya que son pocos. 

In [4]:
df = df.dropna(subset = ['Club'])
df

Unnamed: 0,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,International Reputation,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,5.0,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,5.0,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,5.0,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,4.0,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,4.0,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,19,England,47,65,Crewe Alexandra,€60K,€1K,1307,Right,1.0,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,19,Sweden,47,63,Trelleborgs FF,€60K,€1K,1098,Right,1.0,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,16,England,47,67,Cambridge United,€60K,€1K,1189,Right,1.0,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,17,England,47,66,Tranmere Rovers,€60K,€1K,1228,Right,1.0,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K


Vemos un problema: los porteros no tienen asignado ningún valor en las características (LS..RB). Lo que podemos hacer es ponerlas un 0. Así no su precio no vendrá dado por las características que no les pertenecen y a la vez pueden participar en el análisis.  
Primero tenemos que pasar estas características al mismo formato que los otros valores.

In [5]:
df["LS"] = df["LS"].replace(np.nan, "00 + 0")
df["ST"] = df["ST"].replace(np.nan, "00 + 0")
df["RS"] = df["RS"].replace(np.nan, "00 + 0")
df["LW"] = df["LW"].replace(np.nan, "00 + 0")
df["LF"] = df["LF"].replace(np.nan, "00 + 0")
df["CF"] = df["CF"].replace(np.nan, "00 + 0")
df["RF"] = df["RF"].replace(np.nan, "00 + 0")
df["RW"] = df["RW"].replace(np.nan, "00 + 0")
df["LAM"] = df["LAM"].replace(np.nan, "00 + 0")
df["CAM"] = df["CAM"].replace(np.nan, "00 + 0")
df["RAM"] = df["RAM"].replace(np.nan, "00 + 0")
df["LM"] = df["LM"].replace(np.nan, "00 + 0")
df["LCM"] = df["LCM"].replace(np.nan, "00 + 0")
df["CM"] = df["CM"].replace(np.nan, "00 + 0")
df["RCM"] = df["RCM"].replace(np.nan, "00 + 0")
df["RM"] = df["RM"].replace(np.nan, "00 + 0")
df["LWB"] = df["LWB"].replace(np.nan, "00 + 0")
df["LDM"] = df["LDM"].replace(np.nan, "00 + 0")
df["CDM"] = df["CDM"].replace(np.nan, "00 + 0")
df["RDM"] = df["RDM"].replace(np.nan, "00 + 0")
df["RWB"] = df["RWB"].replace(np.nan, "00 + 0")
df["LB"] = df["LB"].replace(np.nan, "00 + 0")
df["LCB"] = df["LCB"].replace(np.nan, "00 + 0")
df["CB"] = df["CB"].replace(np.nan, "00 + 0")
df["RCB"] = df["RCB"].replace(np.nan, "00 + 0")
df["RB"] = df["RB"].replace(np.nan, "00 + 0")

Ahora, como todos los valores tienen la misma forma, podemos definir una función que nos pase esas características a valores numéricos.

In [6]:
def car_to_float(x):
    firstSum =  x[:2]
    secondSum =  x[-1]
    ret_val = float(firstSum) + float(secondSum)
    return ret_val

In [7]:
df["LS"] = df["LS"].apply(car_to_float)
df["ST"] = df["ST"].apply(car_to_float)
df["RS"] = df["RS"].apply(car_to_float)
df["LW"] = df["LW"].apply(car_to_float)
df["LF"] = df["LF"].apply(car_to_float)
df["CF"] = df["CF"].apply(car_to_float)
df["RF"] = df["RF"].apply(car_to_float)
df["RW"] = df["RW"].apply(car_to_float)
df["LAM"] = df["LAM"].apply(car_to_float)
df["CAM"] = df["CAM"].apply(car_to_float)
df["RAM"] = df["RAM"].apply(car_to_float)
df["LM"] = df["LM"].apply(car_to_float)
df["LCM"] = df["LCM"].apply(car_to_float)
df["CM"] = df["CM"].apply(car_to_float)
df["RCM"] = df["RCM"].apply(car_to_float)
df["RM"] = df["RM"].apply(car_to_float)
df["LWB"] = df["LWB"].apply(car_to_float)
df["LDM"] = df["LDM"].apply(car_to_float)
df["CDM"] = df["CDM"].apply(car_to_float)
df["RDM"] = df["RDM"].apply(car_to_float)
df["RWB"] = df["RWB"].apply(car_to_float)
df["LB"] = df["LB"].apply(car_to_float)
df["LCB"] = df["LCB"].apply(car_to_float)
df["CB"] = df["CB"].apply(car_to_float)
df["RCB"] = df["RCB"].apply(car_to_float)
df["RB"] = df["RB"].apply(car_to_float)
df

Unnamed: 0,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,International Reputation,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,31,Argentina,94,94,FC Barcelona,€110.5M,€565K,2202,Left,5.0,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,€226.5M
1,33,Portugal,94,94,Juventus,€77M,€405K,2228,Right,5.0,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,€127.1M
2,26,Brazil,92,93,Paris Saint-Germain,€118.5M,€290K,2143,Right,5.0,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,€228.1M
3,27,Spain,91,93,Manchester United,€72M,€260K,1471,Right,4.0,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,€138.6M
4,27,Belgium,91,92,Manchester City,€102M,€355K,2281,Right,4.0,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,€196.4M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,19,England,47,65,Crewe Alexandra,€60K,€1K,1307,Right,1.0,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,€143K
18203,19,Sweden,47,63,Trelleborgs FF,€60K,€1K,1098,Right,1.0,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,€113K
18204,16,England,47,67,Cambridge United,€60K,€1K,1189,Right,1.0,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,€165K
18205,17,England,47,66,Tranmere Rovers,€60K,€1K,1228,Right,1.0,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,€143K


### Valores no numéricos

Como vemos, las columnas que deberían contener un número (Value, Wage, Release Clause), contienen una cadena de caracteres.
Tenemos que pasar estos valores a entero con una función.

In [8]:
def value_to_float(x):
    if type(x) == float or type(x) == int:
        return x
    x = x.replace('€', '')
    ret_val = 0.0
    if type(x) == float or type(x) == int:
        ret_val = x
    if 'K' in x:
        if len(x) > 1:
            ret_val = float(x.replace('K', ''))
        ret_val = ret_val *1000
    if 'M' in x:
        if len(x) > 1:
            ret_val = float(x.replace('M', ''))
        ret_val = ret_val * 1000000.0
    return ret_val

In [9]:
df["Value"] = df["Value"].apply(value_to_float)
df["Wage"] = df["Wage"].apply(value_to_float)
df["Release Clause"] = df["Release Clause"].apply(value_to_float)

Ahora convertimos la columna Weight en un entero.

In [10]:
def weight_to_float(x):
    if type(x) == float or type(x) == int:
        return x
    x = x.replace("lbs", "")
    ret_val = float(x)
    return ret_val

In [11]:
df["Weight"] = df["Weight"].apply(weight_to_float)

Hacemos lo mismo con la columna Height.

In [12]:
def height_to_float(x):
    if type(x) == float or type(x) == int:
        return x
    x = x.replace("'", ".")
    ret_val = float(x)
    return ret_val
    

In [13]:
df["Height"] = df["Height"].apply(height_to_float)

### Fechas

Vemos que las columnas Joined y Contract Valid Until son fechas. Lo que podemos hacer es convertir el año en un número con una función.

In [14]:
def date_to_float(x):
    if type(x) == float or type(x) == int:
        return x
    year = x[len(x) - 4:]
    ret_val = float(year)
    return ret_val

In [15]:
df["Joined"] = df["Joined"].apply(date_to_float)
df["Contract Valid Until"] = df["Contract Valid Until"].apply(date_to_float)

 #### Copia del dataset
 Antes del siguiente paso, haremos una copia del dataset para poder hacer más de una predicción sin tener que eliminar un montón de columnas que vamos a añadir. 

In [16]:
dfcopy = df.copy()
dfcopy

Unnamed: 0,Age,Nationality,Overall,Potential,Club,Value,Wage,Special,Preferred Foot,International Reputation,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,31,Argentina,94,94,FC Barcelona,110500000.0,565000.0,2202,Left,5.0,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,226500000.0
1,33,Portugal,94,94,Juventus,77000000.0,405000.0,2228,Right,5.0,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,127100000.0
2,26,Brazil,92,93,Paris Saint-Germain,118500000.0,290000.0,2143,Right,5.0,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,228100000.0
3,27,Spain,91,93,Manchester United,72000000.0,260000.0,1471,Right,4.0,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,138600000.0
4,27,Belgium,91,92,Manchester City,102000000.0,355000.0,2281,Right,4.0,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,196400000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,19,England,47,65,Crewe Alexandra,60000.0,1000.0,1307,Right,1.0,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,143000.0
18203,19,Sweden,47,63,Trelleborgs FF,60000.0,1000.0,1098,Right,1.0,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,113000.0
18204,16,England,47,67,Cambridge United,60000.0,1000.0,1189,Right,1.0,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,165000.0
18205,17,England,47,66,Tranmere Rovers,60000.0,1000.0,1228,Right,1.0,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,143000.0


### Valores de tipo enumerado

Ahora podemos convertir las columnas Nationality, Club, Preferred Foot, Work Rate, Body Type, Loaned From y Position en una estructura hot-encoding. Así, los distintos valores de una columna se convierten en columnas del dataset, se borra la columna original y los jugadores y los valores que coinciden, se marcan con un 1, y si no coinciden, con un 0. Por ejemplo, un jugador que pertenece al Juventus tendrá un 1 en la columna de Juventus, y un 0 en todas las otras columnas con los clubs.  
Hacemos esto para las columnas Nationality, Cluib, Preferred Foot, Work Rate, Body Type, Loaned From, Position.

In [17]:
nat = df.pop("Nationality")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(nat, prefix='nat').reset_index(drop=True)], axis = 1, sort = False)

clb = df.pop("Club")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(clb, prefix='clb').reset_index(drop=True)], axis = 1, sort = False)

preffoot = df.pop("Preferred Foot")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(preffoot, prefix='preffoot').reset_index(drop=True)], axis = 1, sort = False)

wrate = df.pop("Work Rate")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(wrate, prefix='wrate').reset_index(drop=True)], axis = 1, sort = False)

btype = df.pop("Body Type")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(btype, prefix='btype').reset_index(drop=True)], axis = 1, sort = False)

lf = df.pop("Loaned From")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(btype, prefix='lf').reset_index(drop=True)], axis = 1, sort = False)

pos = df.pop("Position")
df = pd.concat([df.reset_index(drop=True), pd.get_dummies(pos, prefix='pos').reset_index(drop=True)], axis = 1, sort = False)

### Nos quedan NaNs

In [18]:
df.columns[df.isna().any()].tolist()

['International Reputation',
 'Weak Foot',
 'Skill Moves',
 'Joined',
 'Contract Valid Until',
 'Height',
 'Weight',
 'Crossing',
 'Finishing',
 'HeadingAccuracy',
 'ShortPassing',
 'Volleys',
 'Dribbling',
 'Curve',
 'FKAccuracy',
 'LongPassing',
 'BallControl',
 'Acceleration',
 'SprintSpeed',
 'Agility',
 'Reactions',
 'Balance',
 'ShotPower',
 'Jumping',
 'Stamina',
 'Strength',
 'LongShots',
 'Aggression',
 'Interceptions',
 'Positioning',
 'Vision',
 'Penalties',
 'Composure',
 'Marking',
 'StandingTackle',
 'SlidingTackle',
 'GKDiving',
 'GKHandling',
 'GKKicking',
 'GKPositioning',
 'GKReflexes',
 'Release Clause']

Vemos que aún quedan unos NaNs. Puede haber que haya jugadores sin características asignadas. Podemos intentar borrar a todos los jugadores que no tienen, por ejemplo, altura.

In [19]:
df = df.dropna(subset = ['Height'])
df.columns[df.isna().any()].tolist()

['Joined', 'Release Clause']

Como aún nos quedan unos pocos NaNs, podemos substituirlos por ceros.

In [20]:
df["Joined"] = df["Joined"].replace(np.nan, 0)
df["Release Clause"] = df["Release Clause"].replace(np.nan, 0)
df.columns[df.isna().any()].tolist()


[]

Como vemos, todos los valores de todas las columnas ahora son números.

## Predecir el precio
Ahora tenemos preparado el dataframe y podemos separar la columna que queremos predecir.

In [21]:
val = df.pop("Value")
df.info
df

Unnamed: 0,Age,Overall,Potential,Wage,Special,International Reputation,Weak Foot,Skill Moves,Joined,Contract Valid Until,...,pos_RB,pos_RCB,pos_RCM,pos_RDM,pos_RF,pos_RM,pos_RS,pos_RW,pos_RWB,pos_ST
0,31,94,94,565000.0,2202,5.0,4.0,4.0,2004.0,2021.0,...,0,0,0,0,1,0,0,0,0,0
1,33,94,94,405000.0,2228,5.0,4.0,5.0,2018.0,2022.0,...,0,0,0,0,0,0,0,0,0,1
2,26,92,93,290000.0,2143,5.0,5.0,5.0,2017.0,2022.0,...,0,0,0,0,0,0,0,0,0,0
3,27,91,93,260000.0,1471,4.0,3.0,1.0,2011.0,2020.0,...,0,0,0,0,0,0,0,0,0,0
4,27,91,92,355000.0,2281,4.0,5.0,4.0,2015.0,2023.0,...,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17961,19,47,65,1000.0,1307,1.0,2.0,2.0,2017.0,2019.0,...,0,0,0,0,0,0,0,0,0,0
17962,19,47,63,1000.0,1098,1.0,2.0,2.0,2018.0,2020.0,...,0,0,0,0,0,0,0,0,0,1
17963,16,47,67,1000.0,1189,1.0,3.0,2.0,2017.0,2021.0,...,0,0,0,0,0,0,0,0,0,1
17964,17,47,66,1000.0,1228,1.0,3.0,2.0,2018.0,2019.0,...,0,0,0,0,0,0,0,1,0,0


Ya podemos dividir los datos en train/test y ejecutar el aprendizaje automático. 

In [22]:
x_train, x_test, y_train, y_test = train_test_split(df, val, test_size = 0.3, random_state = 42)

In [23]:
len(x_train)

12542

Creamos un modelo de regresión lineal y hacemos las predicciones. Usamos el modelo de regresión lineal, porque no necesitamos clasificar a los jugadores, sinó predecir su valor.

In [24]:
reg = linear_model.LinearRegression().fit(x_train, y_train)

In [25]:
preds = reg.predict(x_test)

### Resultados

Vamos a ver los resultados de las predicciones.

In [26]:
preds[0]

-408802.0387439728

In [27]:
y_test[0]

110500000.0

Como podemos ver, el algoritmo nos ha devuelto un valor negativo para un jugador. Como es imposible, podemos suponer que el entrenamiento ha fallado. 

### Métricas

Vamos a calcular unas métricas y a partir de estas sacar una conclusión.

#### Coeficiente de determinación

El coeficiente de determinación nos puede indicar la calidad del modelo. Su mejor valor es 1 y su peor valor es un 0. Puede también tener un valor negativo, que también indica que el modelo es malo.

In [28]:
r2_score(preds, y_test)

0.16336661460759316

Hemos alcanzado un valor muy bajo, lo que significa que en el dataset hay pocas dependencias entre la variables y en general el dataset es de mala calidad.

#### Error cuadrático medio

El error cuadrático medio calcula la media de todos los errores absolutos del dataset elevados al cuadrado, lo cuales se calculan restando el valor real al valor predicho. Cuanto mejores son los resultados, menor es el valor de la métrica.

In [29]:
mean_squared_error(preds, y_test)

189043339958164.25

Como vemos, el error cuadrático es muy grande. Significa que los resultados predichos se alejan mucho de los reales.

#### Error absoluto medio

El error absoluto medio se calcula haciendo la media aritmética de todos los errores absolutos. A diferencia del valor cuadrático medio, esta métrica puede dar un resultado negativo. Si los resultados son buenos, el error absoluto medio se acerca al valor 0.

In [30]:
mean_absolute_error(preds, y_test)

1000024.7900420467

Como vemos, el error que tenemos es elevado. Significa que de media los precios predichos son más altos que los reales.

### Segundo intento
Podríamos suponer que, por ejemplo, las columnas Nationality y Club no tienen importancia en el dataset, ya que no son atributos del jugador en sí. Vamos a realizar otro test borrando estas dos columnas de la copia que hicimos antes.

In [31]:
dfcopy = dfcopy.drop('Nationality', 1)
dfcopy = dfcopy.drop('Club', 1)
dfcopy

Unnamed: 0,Age,Overall,Potential,Value,Wage,Special,Preferred Foot,International Reputation,Weak Foot,Skill Moves,...,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes,Release Clause
0,31,94,94,110500000.0,565000.0,2202,Left,5.0,4.0,4.0,...,96.0,33.0,28.0,26.0,6.0,11.0,15.0,14.0,8.0,226500000.0
1,33,94,94,77000000.0,405000.0,2228,Right,5.0,4.0,5.0,...,95.0,28.0,31.0,23.0,7.0,11.0,15.0,14.0,11.0,127100000.0
2,26,92,93,118500000.0,290000.0,2143,Right,5.0,5.0,5.0,...,94.0,27.0,24.0,33.0,9.0,9.0,15.0,15.0,11.0,228100000.0
3,27,91,93,72000000.0,260000.0,1471,Right,4.0,3.0,1.0,...,68.0,15.0,21.0,13.0,90.0,85.0,87.0,88.0,94.0,138600000.0
4,27,91,92,102000000.0,355000.0,2281,Right,4.0,5.0,4.0,...,88.0,68.0,58.0,51.0,15.0,13.0,5.0,10.0,13.0,196400000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18202,19,47,65,60000.0,1000.0,1307,Right,1.0,2.0,2.0,...,45.0,40.0,48.0,47.0,10.0,13.0,7.0,8.0,9.0,143000.0
18203,19,47,63,60000.0,1000.0,1098,Right,1.0,2.0,2.0,...,42.0,22.0,15.0,19.0,10.0,9.0,9.0,5.0,12.0,113000.0
18204,16,47,67,60000.0,1000.0,1189,Right,1.0,3.0,2.0,...,41.0,32.0,13.0,11.0,6.0,5.0,10.0,6.0,13.0,165000.0
18205,17,47,66,60000.0,1000.0,1228,Right,1.0,3.0,2.0,...,46.0,20.0,25.0,27.0,14.0,6.0,14.0,8.0,9.0,143000.0


Pasamos las otras columnas que necesitábamos a valores binarios.

In [32]:
preffoot = dfcopy.pop("Preferred Foot")
dfcopy = pd.concat([dfcopy.reset_index(drop=True), pd.get_dummies(preffoot, prefix='preffoot').reset_index(drop=True)], axis = 1, sort = False)

wrate = dfcopy.pop("Work Rate")
dfcopy = pd.concat([dfcopy.reset_index(drop=True), pd.get_dummies(wrate, prefix='wrate').reset_index(drop=True)], axis = 1, sort = False)

btype = dfcopy.pop("Body Type")
dfcopy = pd.concat([dfcopy.reset_index(drop=True), pd.get_dummies(btype, prefix='btype').reset_index(drop=True)], axis = 1, sort = False)

lf = dfcopy.pop("Loaned From")
dfcopy = pd.concat([dfcopy.reset_index(drop=True), pd.get_dummies(btype, prefix='lf').reset_index(drop=True)], axis = 1, sort = False)

pos = dfcopy.pop("Position")
dfcopy = pd.concat([dfcopy.reset_index(drop=True), pd.get_dummies(pos, prefix='pos').reset_index(drop=True)], axis = 1, sort = False)

Como la copia al crearse tenía NaNs, hacemos el mismo tratamiento que con el dataframe original.

In [33]:
dfcopy = dfcopy.dropna(subset = ['Height'])
dfcopy["Joined"] = dfcopy["Joined"].replace(np.nan, 0)
dfcopy["Release Clause"] = dfcopy["Release Clause"].replace(np.nan, 0)
dfcopy.columns[dfcopy.isna().any()].tolist()

[]

### Predicciones

Hacemos el mismo tratamiento que antes

In [34]:
val = dfcopy.pop("Value")
x_train2, x_test2, y_train2, y_test2 = train_test_split(dfcopy, val, test_size = 0.3, random_state = 42)


In [35]:
len(x_train2)

12542

In [36]:
reg2 = linear_model.LinearRegression().fit(x_train2, y_train2)

In [37]:
preds2 = reg2.predict(x_test2)

#### Resultados

In [38]:
preds2[0]

-235915.93404558674

In [39]:
y_test2[0]

110500000.0

#### Métricas

In [40]:
r2_score(preds2, y_test2)

0.9679676966830022

In [41]:
mean_squared_error(preds2, y_test2)

1067645485507.8463

In [42]:
mean_absolute_error(preds2, y_test2)

502141.178363597

En conclusión a la segunda prueba, podemos decir lo siguiente: su resultado ha sido bastante mejor. La métrica R-cuadrado ha dado un valor alto, lo que significa que los datos ahora tienen más dependencias.  Sin embargo, aún tenemos un valor muy elevado en las métricas del error cuadrático medio y del error absoluto medio. Aunque sea más pequeño que antes, sigue habiendo mucho error.

## Conclusiones

En conclusión podemos decir que el precio de un jugador es complicado predecirlo con este tipo de algoritmos de aprendizaje automático. Hay muchas variables que no son dependientes entre sí y hay distintos tipos de jugadores, por lo cual el precio de un jugador no puede venir dado directamente por sus características o habilidades.