# **FASE 0: Exploración y limpieza de los datos**

**IMPORTACIÓN DE LIBRERIAS USADAS PARA ESTA PRIMERA FASE**

In [25]:
import pandas as pd
import csv
import os

**CARGA DE LOS DATOS**

A continuación se declarará el siguiente dataframe generado en pandas y cargado a través de un archivo en csv llamado **categorical_data** en la ruta absoluta "../data/categorical_data.csv", donde están contenidas las variables categóricas. 

In [26]:
categorical_data = pd.read_csv('../data/categorical_data.csv')

El siguiente dataframe con variables categóricas se cargarán del csv llamado **numeric_data** a través de la ruta relativa "../data/numeric_data.csv".

In [27]:
numeric_data = pd.read_csv('../data/numeric_data.csv')

Para poder tratar los datos en conjunto se realizará una unión de ambos dataframes por la variable **ID** que dará como resultado un único dataframe llamado **df**.

In [28]:
df = pd.merge(categorical_data, numeric_data, how = 'left', on = 'ID')

**EXPLORACIÓN INICIAL DE LOS DATOS**

**Observación de la información**

Dado que el dataset tiene un número de columnas asequibles, antes de realizar una exploración mas técnica es conveniente entender la información con la que se está trabajando, algo muy importante sobre todo, cuando en este caso concreto hay un gran desconocimiento por el tema a tratar, tanto del deporte al que atañe el videojuego como el funcionamiento de este en sí. Por lo que se realizará una primera visual completa del contenido que ofrece el dataset.

In [29]:
#Función de la librería para que muestre todas las columnas
pd.options.display.max_columns = None

In [1]:
df.head()

In [2]:
#Función para enlistar todas las columnas y poder visualizarlas con mayor facilidad.
df.columns.to_list()

Tras realizarla la primera observación, se ha llevado a cabo una primera investigación para el tratamiento de los datos la cual ha dado como primer resultado la puesta en conocimiento de la columna *Work Rate*. Dicho "ratio" indica el nivel tanto de ataque en primera posición como el de defensa en segunda posición. Para un mejor anáisis será conveniente dividir esta columna en dos nuevas que indiquen esta iformación por separado.

In [32]:
#Dividisión de una cadena o string por el carácter indicado a través de la función split.
df[['Attack', 'Defense']] = df['Work Rate'].str.split('/', expand = True)

Una vez hecho esto se procederá a darles un valor numérico y sumarlas entre ellas para obtener un ratio con el que operar a la hora de realizar la futuras pruebas con el algoritmo de clusterización.

In [33]:
df['Attack'] = df['Attack'].apply(lambda x: str(x).replace('High','3'))
df['Attack'] = df['Attack'].apply(lambda x: str(x).replace('Medium','2'))
df['Attack'] = df['Attack'].apply(lambda x: str(x).replace('Low','1'))

df['Defense'] = df['Defense'].apply(lambda x: str(x).replace('High','3'))
df['Defense'] = df['Defense'].apply(lambda x: str(x).replace('Medium','2'))
df['Defense'] = df['Defense'].apply(lambda x: str(x).replace('Low','1'))

df['Attack'] = df['Attack'].astype(int)
df['Defense'] = df['Defense'].astype(int)

df['Work'] = df["Attack"] + df["Defense"]

df = df.drop(['Attack', 'Defense'], axis=1)

**Comprobación de la existencia de valores duplicados:**

Para asegurar la fiabilidad del dataset, ya que no se han importados los datos directamente desde una consulta a la base de datos sino proporcionados por terceros y corren el riesgo de haber sido manipulados, se hará un control previo en base a la redundancia de información por registros duplicados. Para ello se comprobará la cantidad de valores totales que tenga cada uno de los registros por el identificador de jugador.

In [3]:
x = print(df['ID'].value_counts())

Como se puede comprobar por el primer elemento, no existe tal riesgo ya que mustra los valores ordenados de mayor a menor.

**Comprobación de la existencia de valores nulos**

Se llevará acabo una exploración de aquellos datos nulos que puedan darse en el dataset y caso afirmativo se valorará a posteriori como tratarlos.

In [4]:
#Se comprueba la inexistencia de columnas con valores nulos.
df.isnull().sum()

**LIMPIEZA**

Llegados a este punto se puede coprobar que el dataset apenas requiere de limpieza pero sería conveniente elimiar al menos aquellas columnas que ya sabemos que pueden añadir ruido al futuro análisis. En este caso serán las columnas **ID** y **Work Rate**.

In [36]:
df = df.drop(['Work Rate'], axis=1)

**EXPORTACIÓN DE LOS DATOS**

Finalmente los datos serán exportados en un csv con el nombre de **dataset_fifa2019** a la carpeta *archivos generados FASE 0* contenida en la carperta *data* que se encuentra en el repositorio del proyecto. Ruta relativa "../data/archivos generados FASE 0".

In [50]:
def exportación (df):
    name_file = 'dataset_fifa2019.csv'
    path = '../data/archivos generados FASE 0'
    output = os.path.join(path, name_file)
    df.to_csv(output, index = False)

In [51]:
exportación (df)