# Fase 1. Preanálisis

#### 1. Importamos pandas con el alias que decidamos y cargamos nuestro archivo csv

In [None]:
import pandas as pd
df_csv = pd.read_csv('../data/raw_data/bank_additional.csv')

#### 2. Cargamos nuestro archivo Excel y leemos todas las hojas

In [None]:
dfs_excel = {sheet: pd.read_excel('../data/raw_data/customer_details.xlsx', sheet_name=sheet) 
            for sheet in pd.ExcelFile('../data/raw_data/customer_details.xlsx').sheet_names}

#### 3. Combinamos las tres hojas del Excel en una única

In [None]:
df_excel_combined = pd.concat(dfs_excel.values(), ignore_index=True)

#### 4. Realizamos el análisis de ambos archivos (csv y xlsx)

In [None]:
# Calculamos el número de filas y de columnas
num_filas, num_columnas = df_csv.shape
print(f"El dataset csv tiene {num_filas} filas y {num_columnas} columnas.")

num_filas, num_columnas = df_excel_combined.shape
print(f"El dataset xlsx tiene {num_filas} filas y {num_columnas} columnas.")

#### 5. Analizamos las columnas que contiene cada archivo.

In [None]:
# Inspeccionar columnas de cada DataFrame
print("Columnas en el archivo CSV:")
print(df_csv.columns)

print("Columnas en el archivo Excel:")
print(df_excel_combined.columns)

#### 6. Obtenemos la columna ID como coincidente. Verificamos el tipo de dato de la columna ID

In [None]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato para que no genere problemas.
print(df_csv['id_'].dtype)
print(df_excel_combined['ID'].dtype)

#### 7. Comprobamos que las columnas clave no contienen valores nulos

In [None]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df_csv['id_'].isnull().sum())
print(df_excel_combined['ID'].isnull().sum())

#### 8. Verificamos que las columnas clave no contienen valores duplicados

In [None]:
# De esta manera, mejoramos y optimizamos la eficiencia de nuestro set de datos
print(df_csv.duplicated().sum())
print(df_excel_combined.duplicated().sum())

#### 9. Analizamos que el archivo excel, contiene una columna que se llama ID, la cual modificaremos el nombre a id_ , para que coincida con la del csv.

In [None]:
df_excel_combined.rename(columns={'ID': 'id_'}, inplace=True)

#### 10. Decidimos hacer un merge, puesto que solo coincide una columna entre los dos archivos, y queremos traer toda la información restante. Realizamos el merge entre el dataframe csv y el de excel, a través de la columna ' id_ '

In [None]:
# Realizamos la unión a través de un outer join, puesto que queremos combinar los archivos a través de la columna id_, y que el resto de información aparezca en el resultado final.
df = df_csv.merge(df_excel_combined, on="id_", how="outer")

#### 11. Transformamos el dataframe final en un csv, y lo creamos en la carpeta adecuada

In [None]:
# Especificamos la carpeta exacta donde guardaremos el archivo
ruta_carpeta = '../data/transform_data'

# Creamos el archivo CSV en la carpeta especificada
df.to_csv(f'{ruta_carpeta}/transform_Data.csv', index=False)

#### 12. Realizamos el preanálisis final con las funciones que aloja Pandas, verificando que los datos se han combinado correctamente

In [None]:
# El .head() nos permite obtener una visualización previa de las 5 primeras filas
df.head()

In [None]:
# El .info() nos aporta información sobre el tipo de dato de cada columna
df.info()

In [None]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

In [None]:
# Comprobamos si existen valores nulos
df.isnull().sum()

In [None]:
# Calculamos el número de filas y de columnas final, comprobando que no hemos perdido información
num_filas, num_columnas = df.shape
print(f"El dataset combinado tiene {num_filas} filas y {num_columnas} columnas.")

#### Conclusiones del Preanálisis

1. **Completitud de los datos**:<br>
   El conjunto de datos tiene valores nulos, que deben ser reemplazados en función de la columna que corresponda (numérica o categórica),
   para que no modifique los valores finales.<br><br>

2. **Tipos de datos**:<br>
   Las columnas clave que nos van a permitir realizar la unión, tienen el mismo tipo de dato.<br><br>

3. **Duplicados**:<br>
   No se encontraron filas duplicadas ni en el archivo, ni en las columnas clave, por lo que la unión se puede realizar correctamente.<br><br>

4. **Estructura de los datos**:<br>
   El archivo contiene **86179 filas** y **29 columnas**. Las columnas parecen ser coherentes y contienen información relevante para el análisis posterior.
