# Fase 1. Preanálisis

#### 1. Importamos pandas con el alias que decidamos y cargamos nuestro archivo csv

In [None]:
import pandas as pd
df_csv = pd.read_csv('../data/raw_data/bank_additional.csv')

#### 2. Cargamos nuestro archivo Excel y leemos todas las hojas

In [None]:
dfs_excel = {sheet: pd.read_excel('../data/raw_data/customer_details.xlsx', sheet_name=sheet) 
            for sheet in pd.ExcelFile('../data/raw_data/customer_details.xlsx').sheet_names}

#### 3. Combinamos las tres hojas del Excel en una única

In [None]:
df_excel_combined = pd.concat(dfs_excel.values(), ignore_index=True)

#### 4. Verificamos el tipo de dato de las columnas clave que vamos a combinar

In [None]:
# Revisamos que las columnas que vamos a combinar, sean del mismo tipo de dato.
print(df_csv['id_'].dtype)
print(df_excel_combined['ID'].dtype)

#### 5. Comprobamos que las columnas clave no contienen valores nulos

In [None]:
# Comprobamos que la columna id, no contiene valores nulos, para que la unión se produzca correctamente.
print(df_csv['id_'].isnull().sum())
print(df_excel_combined['ID'].isnull().sum())

#### 6. Verificamos que las columnas clave no contienen valores duplicados

In [None]:
# De esta manera, mejoramos y optimizamos la eficiencia de nuestro set de datos
print(df_csv.duplicated().sum())
print(df_excel_combined.duplicated().sum())

#### 7. Analizamos que el archivo excel, contiene una columna que se llama ID, la cual modificaremos de nombre a id_ , para que coincida con la del csv, y poder realizar el merge entre los dos dataframes

In [None]:
df_excel_combined.rename(columns={'ID': 'id_'}, inplace=True)

#### 8. Realizamos el merge entre el dataframe csv y el de excel, a través de la columna ' id_ '

In [None]:
df = pd.concat([df_csv, df_excel_combined], ignore_index=True)

#### 9. Transformamos el dataframe final en un csv, y lo creamos en la carpeta adecuada

In [None]:
# Especificamos la carpeta exacta donde guardaremos el archivo
ruta_carpeta = '../data/transform_data'

# Creamos el archivo CSV en la carpeta especificada
df.to_csv(f'{ruta_carpeta}/transform_Data.csv', index=False)

#### 10. Realizamos el preanálisis con las funciones que aloja Pandas: (.head(), .info(), .dtypes)

In [None]:
# El .head() nos permite obtener una visualización previa de las 5 primeras filas
df.head()

In [None]:
# El .info() nos aporta información sobre el tipo de dato de cada columna
df.info()

In [None]:
# Comprobamos el tipo de dato de cada columna
df.dtypes

In [None]:
# Comprobamos si existen valores nulos
df.isnull().sum()

In [None]:
# Calculamos el número de filas y de columnas
num_filas, num_columnas = df.shape
print(f"El dataset combinado tiene {num_filas} filas y {num_columnas} columnas.")

#### Conclusiones del Preanálisis

1. **Completitud de los datos**:<br>
   El conjunto de datos tiene valores nulos, que deben ser reemplazados en función de la columna que corresponda (numérica o categórica),
   para que no modifique los valores finales.<br><br>

2. **Tipos de datos**:<br>
   Las columnas clave que nos van a permitir realizar la unión, tienen el mismo tipo de dato.<br><br>

3. **Duplicados**:<br>
   No se encontraron filas duplicadas ni en el archivo, ni en las columnas clave, por lo que la unión se puede realizar correctamente.<br><br>

4. **Estructura de los datos**:<br>
   El archivo contiene **86179 filas** y **29 columnas**. Las columnas parecen ser coherentes y contienen información relevante para el análisis posterior.
