# Fase 1. Preanálisis

#### 1. Importamos Pandas con el alias que decidamos y cargamos nuestro primer archivo csv

In [None]:
import pandas as pd
df1 = pd.read_csv("../data/raw_data/clubs.csv")

#### 2. Cargamos nuestro segundo archivo csv

In [None]:
df2 = pd.read_csv("../data/raw_data/club_games.csv")

#### 3. Realizamos el análisis de ambos archivos

In [None]:
# Calculamos el número de filas y de columnas
num_filas, num_columnas = df1.shape
print(f"El primer dataset csv tiene {num_filas} filas y {num_columnas} columnas.")

num_filas, num_columnas = df2.shape
print(f"El segundo dataset csv tiene {num_filas} filas y {num_columnas} columnas.")

#### 4. Analizamos las columnas que tiene cada archivo

In [None]:
# Inspeccionamos las columnas de cada DataFrame
print("Columnas en el archivo CSV 1:")
print(df1.columns)

print("Columnas en el archivo CSV 2:")
print(df2.columns)

#### 5. Obtenemos la columna 'club_id' como coincidente. Verificamos si existen o no valores nulos

In [None]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df1['club_id'].isnull().sum())
print(df2['club_id'].isnull().sum())

#### 6. Analizamos valores nulos y eliminamos esas columnas, para evitar conflictos

In [None]:
# Eliminamos los valores nulos
df2 = df2.dropna(subset=["club_id"])

#### 7. Verificamos que no existen valores nulos en la columna coincidente

In [None]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df1['club_id'].isnull().sum())
print(df2['club_id'].isnull().sum())

#### 8. Comprobamos que las columnas clave no contienen valores duplicados

In [None]:
# De esta manera, mejoramos y optimizamos la eficiencia de nuestro set de datos
print(df1.duplicated().sum())
print(df2.duplicated().sum())

#### 9. Obtenemos la columna 'club_id' como coincidente. Verificamos el tipo de dato de la columna

In [None]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato para que no genere problemas.
print(df1['club_id'].dtype)
print(df2['club_id'].dtype)

#### 10. Cambiamos el tipo de dato de df2 a int, para que coincida con el de df1. Modificando a int, evitamos decimales en nuestra columna clave

In [None]:
df2["club_id"] = df2["club_id"].astype("int64")

#### 11. Verificamos que el tipo de dato ha sido modificado correctamente.

In [None]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato para que no genere problemas.
print(df1['club_id'].dtype)
print(df2['club_id'].dtype)

#### 12. Decidimos hacer un merge, puesto que solo coincide una columna entre los dos archivos, y queremos traer toda la información restante. Realizamos el merge entre el dataframe csv y el de excel, a través de la columna 'club_id'

In [None]:
# Realizamos la unión a través de un inner join, puesto que queremos combinar los archivos a través de la columna id_, y que el resto de información coincidente aparezca en el resultado final.
df = pd.merge(df1, df2, on="club_id", how="inner")

#### 13. Transformamos el dataframe final en un csv, y lo cremoa en la carpeta adecuada

In [None]:
# Especificamos la carpeta exacta donde guardaremos el archivo
ruta_carpeta = '../data/transform_data/'

# Creamos el archivo CSV en la carpeta especificada
df.to_csv(f'{ruta_carpeta}/transform_Data.csv', index=False)

#### 14. Realizamos el preanálisis final con las funciones que aloja Pandas, verificando que los datos se han combinado correctamente

In [None]:
# El .head() nos permite obtener una visualización previa de las 5 primeras filas
df.head()

In [None]:
# El .info() nos aporta información sobre el tipo de dato de cada columna
df.info()

In [None]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

In [None]:
# Comprobamos si existen valores nulos
df.isnull().sum()

In [None]:
# Calculamos el número de filas y de columnas final, comprobando que no hemos perdido información
num_filas, num_columnas = df.shape
print(f"El dataset combinado tiene {num_filas} filas y {num_columnas} columnas.")

#### Conclusiones del Preanálisis

1. **Completitud de los datos**:<br>
   El conjunto de datos tiene valores nulos, que deben ser reemplazados en función de la columna que corresponda (numérica o categórica),
   para que no modifique los valores finales.<br><br>

2. **Tipos de datos**:<br>
   Las columnas clave que nos van a permitir realizar la unión, tienen el mismo tipo de dato.<br><br>

3. **Duplicados**:<br>
   No se encontraron filas duplicadas ni en el archivo, ni en las columnas clave, por lo que la unión se puede realizar correctamente.<br><br>

4. **Estructura de los datos**:<br>
   El archivo contiene **120099 filas** y **27 columnas**. Las columnas parecen ser coherentes y contienen información relevante para el análisis posterior.
