# Tutorial de EDA
Dataset: FIFA

In [None]:
# Importando todas las librerías requeridas para el análisis

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Cargando el archivo commo dataframe
df_fifa = pd.read_csv("./data/fifa_AE.csv")

In [None]:
# Mostrando las dimensiones del dataframe
df_fifa.shape

In [None]:
# Verificando los tipos de datos de las columnas
df_fifa.dtypes

In [None]:
# Imprimiendo los primeros 10 registros
df_fifa.head(10)

### Transformando al tipo de dato correcto la columna *Value*

In [None]:
# La columna "value" no es de tipo entero
# Verificando los diferentes caractéres que contiene esta columna

set_char = set()

def add_chars(x):
    for i in x:
        set_char.add(i)
    return True

df_fifa["Value"].apply(add_chars)
set_char

In [None]:
# Convirtiendo la columna a valor numérico

def get_value(x):
    x = x.replace('€','')
    if 'M' in x:
        x = x.replace('M','')
        return float(x)*1000000
    elif 'K' in x:
        x = x.replace('K','')
        return float(x)*1000
    else:
        return float(x)

df_fifa["Value"] = df_fifa["Value"].apply(get_value)

### Análisis cuantitativo sobre la columna *Value*

In [None]:
# Calculando el promedio del valor de los jugadores
mean = np.mean(df_fifa["Value"])
mean

In [None]:
# Calculando la mediana del valor de los jugadores
median = np.median(df_fifa["Value"])
median

In [None]:
# Calculando el valor del jugador más barato
minimum = np.min(df_fifa["Value"])
minimum

In [None]:
# Calculando el valor del jugador más caro
maximum = np.max(df_fifa["Value"])
maximum

In [None]:
# Pintando el histograma del valor de los jugadores
df_fifa["Value"].hist()

In [None]:
# Dado que no se logra una buena visualización, se pinta nuevamente modificando la cantidad de bins (grupos) y el rango del eje x
df_fifa["Value"].hist(bins = 100, range = [0, 20000000])

In [None]:
# Calculando la varianza del valor de los jugadores
variance = np.var(df_fifa["Value"])
variance

In [None]:
# Dado que las unidades de la varianza son más dificiles de interpretar, se calcula la desviación estándar del valor de los jugadores
std_deviation = np.std(df_fifa["Value"])
std_deviation

In [None]:
# Calculando los diferentes quartiles del valor de los jugadores
q1 = np.percentile(df_fifa["Value"], 25)
print("El 25% de los jugadores con los salarios más bajos ganan a lo sumo {}".format(q1))

q2 = np.percentile(df_fifa["Value"], 50)
print("El siguiente 25% de los jugadores con los salarios más bajos ganan entre {} y {}".format(q1, q2))

q3 = np.percentile(df_fifa["Value"], 75)
print("El 25% de los jugadores con los salarios más altos ganan más de {}".format(q3))

In [None]:
# ¿Quién o quiénes son los jugadores con el valor más bajo?
df_fifa.loc[df_fifa["Value"] == minimum]

In [None]:
# ¿Quién es el jugador con el valor más alto?
df_fifa.loc[df_fifa["Value"] == maximum]

In [None]:
# Utilizando la función describe para el cálculo de las principales estadísticas de interés para una variable cuantitativa
df_fifa["Value"].describe()

In [None]:
# Revisando los jugadores con valores atípicos
df_fifa[df_fifa["Value"] > (mean + std_deviation * 3)]

In [None]:
# Revisando los jugadores con un valores extremos
df_fifa[df_fifa["Value"] > (mean + std_deviation * 15)]

### Análisis cualitativo sobre la columna *Preferred Positions*

In [None]:
# Calculando la frecuencia de las diferentes posiciones de los jugadores
abs_frecuency = df_fifa["Preferred Positions"].value_counts().to_frame()
abs_frecuency

In [None]:
# Pintando la misma frecuencia de las posiciones
# Sin embargo un gráfico de línea no es el tipo de gráfico correcto ya que implica una continuidad entre las posiciones las cuales son inherentemente categóricas nominales
df_fifa["Preferred Positions"].value_counts().plot()

In [None]:
# Pintando de nuevo la frecuencia de las posiciones utilizando un gráfico de barras como una mejor alternativa de visualización
df_fifa["Preferred Positions"].value_counts().plot(kind = "bar")

In [None]:
# Complementando la tabla de frecuencias agregando la frecuencia relativa de cada posición
rel_frecuency = df_fifa["Preferred Positions"].value_counts(normalize = True).to_frame()
pd.concat([abs_frecuency, rel_frecuency], axis = 1)

### Análisis bivariado sobre las columnas *Value* y *Age*

In [None]:
# Graficando la relación entre la edad y el valor del jugador
plt.scatter(df_fifa["Age"], df_fifa["Value"],alpha = 0.5)
plt.title("Age vs. Value")
plt.xlabel("Age")
plt.ylabel("Value")
plt.show()

In [None]:
# Calculando la correlación (lineal) entre las dos variables
df_fifa[["Age", "Value"]].corr()

In [None]:
# Calculando la correlación (monótona) entre las dos variables
df_fifa[["Age", "Value"]].corr("spearman")

### Análisis bivariado sobre las columnas *Value* y *Overall*

In [None]:
# Graficando la relación entre la edad y el valor del jugador
plt.scatter(df_fifa["Overall"], df_fifa["Value"],alpha = 0.5)
plt.title("Overall vs. Value")
plt.xlabel("Overall")
plt.ylabel("Value")
plt.show()

In [None]:
# Calculando la correlación (lineal) entre las dos variables
df_fifa[["Overall", "Value"]].corr()

In [None]:
# Calculando la correlación (monótona) entre las dos variables
df_fifa[["Overall", "Value"]].corr("spearman")

### Análisis multivariado, comparación entre categorías

In [None]:
# Filtrando los jugadores del Real Madrid
df_real_madrid = df_fifa.loc[df_fifa["Club"] == "Real Madrid CF"]
df_real_madrid.head()

In [None]:
# Filtrando los jugadores de Santa Fe
df_santa_fe = df_fifa.loc[df_fifa["Club"] == "Independiente Santa Fe"]
df_santa_fe.head()

In [None]:
# Filtrando los jugadores de Millonarios
df_millonarios = df_fifa.loc[df_fifa["Club"] == "CD Los Millionarios Bogota"]
df_millonarios.head()

In [None]:
# Comparando las edades entre diferentes clubes
pd.concat([
    df_real_madrid["Age"].describe().to_frame().rename(columns = {"Age": "Real Madrid"}),
    df_santa_fe["Age"].describe().to_frame().rename(columns = {"Age": "Santa Fe"}),
    df_millonarios["Age"].describe().to_frame().rename(columns = {"Age": "Millonarios"})
], axis = 1)

In [None]:
# Comparando el overall entre diferentes clubes
pd.concat([
    df_real_madrid["Overall"].describe().to_frame().rename(columns = {"Overall": "Real Madrid"}),
    df_santa_fe["Overall"].describe().to_frame().rename(columns = {"Overall": "Santa Fe"}),
    df_millonarios["Overall"].describe().to_frame().rename(columns = {"Overall": "Millonarios"})
], axis = 1)

In [None]:
# Comparando los valores de jugadores entre diferentes clubes
pd.concat([
    df_real_madrid["Value"].describe().to_frame().rename(columns = {"Value": "Real Madrid"}),
    df_santa_fe["Value"].describe().to_frame().rename(columns = {"Value": "Santa Fe"}),
    df_millonarios["Value"].describe().to_frame().rename(columns = {"Value": "Millonarios"})
], axis = 1)

In [None]:
# Graficando la distribución de valores de jugadores de los clubes colombianos
df_box = pd.DataFrame({"Millonarios": df_millonarios["Value"], "Santa Fe": df_santa_fe["Value"]})
df_box.plot.box(title = "Distribución de los valores de\nlos jugadores entre grupos")

In [None]:
# Graficando la distribución de valores de jugadores de los clubes colombianos en comparación con el Real Madrid
df_box = pd.DataFrame({"Millonarios": df_millonarios["Value"], "Santa Fe": df_santa_fe["Value"], "Real Madrid": df_real_madrid["Value"]})
df_box.plot.box(title = "Distribución de los valores de\nlos jugadores entre grupos")

In [None]:
df_box = pd.DataFrame({"Millonarios": df_millonarios["Overall"], "Santa Fe": df_santa_fe["Overall"], "Real Madrid": df_real_madrid["Overall"]})
df_box.plot.box(title = "Distribución del overall de\nlos jugadores entre grupos")