# Fase 1. Preanálisis

#### 1. Importamos Pandas con el alias que decidamos y cargamos nuestro primer archivo csv

In [1]:
import pandas as pd
df1 = pd.read_csv("../data/raw_data/clubs.csv")

#### 2. Cargamos nuestro segundo archivo csv

In [2]:
df2 = pd.read_csv("../data/raw_data/club_games.csv")

#### 3. Realizamos el análisis de ambos archivos

In [3]:
# Calculamos el número de filas y de columnas
num_filas, num_columnas = df1.shape
print(f"El primer dataset csv tiene {num_filas} filas y {num_columnas} columnas.")

num_filas, num_columnas = df2.shape
print(f"El segundo dataset csv tiene {num_filas} filas y {num_columnas} columnas.")

El primer dataset csv tiene 439 filas y 17 columnas.
El segundo dataset csv tiene 144154 filas y 11 columnas.


#### 4. Analizamos las columnas que tiene cada archivo

In [4]:
# Inspeccionamos las columnas de cada DataFrame
print("Columnas en el archivo CSV 1:")
print(df1.columns)

print("Columnas en el archivo CSV 2:")
print(df2.columns)

Columnas en el archivo CSV 1:
Index(['club_id', 'club_code', 'name', 'domestic_competition_id',
       'total_market_value', 'squad_size', 'average_age', 'foreigners_number',
       'foreigners_percentage', 'national_team_players', 'stadium_name',
       'stadium_seats', 'net_transfer_record', 'coach_name', 'last_season',
       'filename', 'url'],
      dtype='object')
Columnas en el archivo CSV 2:
Index(['game_id', 'club_id', 'own_goals', 'own_position', 'own_manager_name',
       'opponent_id', 'opponent_goals', 'opponent_position',
       'opponent_manager_name', 'hosting', 'is_win'],
      dtype='object')


#### 5. Obtenemos la columna 'club_id' como coincidente. Verificamos si existen o no valores nulos

In [5]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df1['club_id'].isnull().sum())
print(df2['club_id'].isnull().sum())

0
18


#### 6. Analizamos valores nulos y eliminamos esas columnas, para evitar conflictos

In [6]:
# Eliminamos los valores nulos
df2 = df2.dropna(subset=["club_id"])

#### 7. Verificamos que no existen valores nulos en la columna coincidente

In [7]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df1['club_id'].isnull().sum())
print(df2['club_id'].isnull().sum())

0
0


#### 8. Comprobamos que las columnas clave no contienen valores duplicados

In [8]:
# De esta manera, mejoramos y optimizamos la eficiencia de nuestro set de datos
print(df1.duplicated().sum())
print(df2.duplicated().sum())

0
0


#### 9. Obtenemos la columna 'club_id' como coincidente. Verificamos el tipo de dato de la columna

In [9]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato para que no genere problemas.
print(df1['club_id'].dtype)
print(df2['club_id'].dtype)

int64
float64


#### 10. Cambiamos el tipo de dato de df2 a int, para que coincida con el de df1. Modificando a int, evitamos decimales en nuestra columna clave

In [10]:
df2["club_id"] = df2["club_id"].astype("int64")

#### 11. Verificamos que el tipo de dato ha sido modificado correctamente.

In [11]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato para que no genere problemas.
print(df1['club_id'].dtype)
print(df2['club_id'].dtype)

int64
int64


#### 12. Decidimos hacer un merge, puesto que solo coincide una columna entre los dos archivos, y queremos traer toda la información restante. Realizamos el merge entre el dataframe csv y el de excel, a través de la columna 'club_id'

In [12]:
# Realizamos la unión a través de un inner join, puesto que queremos combinar los archivos a través de la columna id_, y que el resto de información coincidente aparezca en el resultado final.
df = pd.merge(df1, df2, on="club_id", how="inner")

#### 13. Transformamos el dataframe final en un csv, y lo cremoa en la carpeta adecuada

In [13]:
# Especificamos la carpeta exacta donde guardaremos el archivo
ruta_carpeta = '../data/transform_data/'

# Creamos el archivo CSV en la carpeta especificada
df.to_csv(f'{ruta_carpeta}/transform_Data.csv', index=False)

#### 14. Realizamos el preanálisis final con las funciones que aloja Pandas, verificando que los datos se han combinado correctamente

In [14]:
# El .head() nos permite obtener una visualización previa de las 5 primeras filas
df.head()

Unnamed: 0,club_id,club_code,name,domestic_competition_id,total_market_value,squad_size,average_age,foreigners_number,foreigners_percentage,national_team_players,...,game_id,own_goals,own_position,own_manager_name,opponent_id,opponent_goals,opponent_position,opponent_manager_name,hosting,is_win
0,105,sv-darmstadt-98,SV Darmstadt 98,L1,,27,25.6,13,48.1,1,...,2581153,2.0,10.0,Dirk Schuster,42.0,2.0,9.0,Michael Frontzeck,Home,0
1,105,sv-darmstadt-98,SV Darmstadt 98,L1,,27,25.6,13,48.1,1,...,2581674,2.0,10.0,Dirk Schuster,39.0,3.0,8.0,Martin Schmidt,Home,0
2,105,sv-darmstadt-98,SV Darmstadt 98,L1,,27,25.6,13,48.1,1,...,2704228,1.0,12.0,Norbert Meier,24.0,0.0,9.0,Niko Kovac,Home,1
3,105,sv-darmstadt-98,SV Darmstadt 98,L1,,27,25.6,13,48.1,1,...,4096140,0.0,18.0,Torsten Lieberknecht,15.0,2.0,1.0,Xabi Alonso,Home,0
4,105,sv-darmstadt-98,SV Darmstadt 98,L1,,27,25.6,13,48.1,1,...,2361070,1.0,,Dirk Schuster,33.0,3.0,,Jens Keller,Home,0


In [15]:
# El .info() nos aporta información sobre el tipo de dato de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120099 entries, 0 to 120098
Data columns (total 27 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   club_id                  120099 non-null  int64  
 1   club_code                120099 non-null  object 
 2   name                     120099 non-null  object 
 3   domestic_competition_id  120099 non-null  object 
 4   total_market_value       0 non-null       float64
 5   squad_size               120099 non-null  int64  
 6   average_age              115110 non-null  float64
 7   foreigners_number        120099 non-null  int64  
 8   foreigners_percentage    113684 non-null  float64
 9   national_team_players    120099 non-null  int64  
 10  stadium_name             120099 non-null  object 
 11  stadium_seats            120099 non-null  int64  
 12  net_transfer_record      120099 non-null  object 
 13  coach_name               0 non-null       float64
 14  last

In [16]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

club_id                      int64
club_code                   object
name                        object
domestic_competition_id     object
total_market_value         float64
squad_size                   int64
average_age                float64
foreigners_number            int64
foreigners_percentage      float64
national_team_players        int64
stadium_name                object
stadium_seats                int64
net_transfer_record         object
coach_name                 float64
last_season                  int64
filename                    object
url                         object
game_id                      int64
own_goals                  float64
own_position               float64
own_manager_name            object
opponent_id                float64
opponent_goals             float64
opponent_position          float64
opponent_manager_name       object
hosting                     object
is_win                       int64
dtype: object

In [17]:
# Comprobamos si existen valores nulos
df.isnull().sum()

club_id                         0
club_code                       0
name                            0
domestic_competition_id         0
total_market_value         120099
squad_size                      0
average_age                  4989
foreigners_number               0
foreigners_percentage        6415
national_team_players           0
stadium_name                    0
stadium_seats                   0
net_transfer_record             0
coach_name                 120099
last_season                     0
filename                        0
url                             0
game_id                         0
own_goals                       0
own_position                20025
own_manager_name              508
opponent_id                     0
opponent_goals                  0
opponent_position           20025
opponent_manager_name         508
hosting                         0
is_win                          0
dtype: int64

In [18]:
# Calculamos el número de filas y de columnas final, comprobando que no hemos perdido información
num_filas, num_columnas = df.shape
print(f"El dataset combinado tiene {num_filas} filas y {num_columnas} columnas.")

El dataset combinado tiene 120099 filas y 27 columnas.


#### Conclusiones del Preanálisis

1. **Completitud de los datos**:<br>
   El conjunto de datos tiene valores nulos, que deben ser reemplazados en función de la columna que corresponda (numérica o categórica),
   para que no modifique los valores finales.<br><br>

2. **Tipos de datos**:<br>
   Las columnas clave que nos van a permitir realizar la unión, tienen el mismo tipo de dato.<br><br>

3. **Duplicados**:<br>
   No se encontraron filas duplicadas ni en el archivo, ni en las columnas clave, por lo que la unión se puede realizar correctamente.<br><br>

4. **Estructura de los datos**:<br>
   El archivo contiene **120099 filas** y **27 columnas**. Las columnas parecen ser coherentes y contienen información relevante para el análisis posterior.
