# 01 - Carga y validación de los datos

## Objetivo:

En este notebook se recoge la carga de datasets y la validación básica de calidad de los datos. Para ello vamos a seguir la siguiente estructura:

1. Configuración inicial.
2. Carga de datasets.
3. Validación básica.
4. Matchin de IDs de los DataFrames generados.
5. Detección de problemas en los datos.
6. Guardado de metadatos.

## CONFIGURACIÓN INICIAL

In [3]:
# ------------------------------------------------------------------
#                           configuración
# ------------------------------------------------------------------

# Cargamos las librerías que vamos a utilizar
# -------------------------------------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import sys
from pathlib import Path

# Configuración de visualización
#plt.style.use('seaborn-v0_8')
#sns.set_palette("husl")
#pd.set_option('display.max_columns', 50)
#pd.set_option('display.width', 1000)

# Configuración de rutas
current_dir = Path.cwd()
raw_data_dir = current_dir  / "data" / "raw" # Ruta de los datos proporcionados por ThePower para el entregable
processed_data_dir = current_dir / "data" / "processed" # Aquí vamos a guardaremos los datos tras procesarlos
scripts_path = current_dir / "scripts" # Ruta donde vamos a guardar los scripts para manejar los datos

# Añadimos los scripts que hemos generado al path
current_dir = Path.cwd()
if current_dir.name == "notebooks":
    # Estamos dentro de notebooks/, subir un nivel
    root_dir = current_dir.parent
    print(f"📁 Notebook ejecutado desde: {current_dir}")
    print(f"📁 Directorio raíz del proyecto: {root_dir}")
else:
    # Estamos en la raíz
    root_dir = current_dir
    print(f"📁 Ejecutando desde raíz: {root_dir}")

# Configuración de paths CORRECTOS
data_raw_path = root_dir / "data" / "raw"
data_processed_path = root_dir / "data" / "processed"
scripts_path = root_dir / "scripts"

# ✅ VERIFICACIÓN Y CONFIGURACIÓN CORRECTA
if scripts_path.exists():
    sys.path.append(str(scripts_path))
    print(f"✅ Carpeta scripts encontrada: {scripts_path}")
else:
    print("❌ Carpeta scripts NO encontrada")
    # Crearla en la ubicación CORRECTA (raíz del proyecto)
    scripts_path.mkdir(exist_ok=True)
    print(f"📁 Carpeta scripts creada en: {scripts_path}")
    sys.path.append(str(scripts_path))

📁 Notebook ejecutado desde: c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\notebooks
📁 Directorio raíz del proyecto: c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA
✅ Carpeta scripts encontrada: c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\scripts


## CARGA DE DATOS

In [4]:
# ------------------------------------------------------------------
#                           carga de datos
# ------------------------------------------------------------------

print("Cargando datasets...")

# Comprobamos que existen los datasets 
bank_file = data_raw_path / "bank-additional.csv"
print(bank_file)
print(f"📦 Bank file exists: {bank_file.exists()}")

customer_file = data_raw_path / "customer-details.xlsx"
print(customer_file)
print(f"📦 Customer file exists: {customer_file.exists()}")

# Cargamos los datasets, haciendo uso de nuestros scripts
from data_loading import data_loading

bank_df = data_loading(data_raw_path, "bank-additional.csv")
customer_df = data_loading(data_raw_path, "customer-details.xlsx", sheet_name=['2012', '2013', '2014'])

# Verificamos que se cargaron correctamente
if bank_df is None:
    raise ValueError("❌ No se pudo cargar bank dataset")
if customer_df is None:
    raise ValueError("❌ No se pudo cargar customer dataset")

print("✅ Datasets cargados correctamente")

Cargando datasets...
c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\data\raw\bank-additional.csv
📦 Bank file exists: True
c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\data\raw\customer-details.xlsx
📦 Customer file exists: True
Cargando datos desde el archivo c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\data\raw\bank-additional.csv...
Se ha generado el dataframe con datos de c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\data\raw\bank-additional.csv...
Cargando datos desde el archivo c:\Users\ASUS\OneDrive\Escritorio\Curso Data Analyst\ThePower\Troncal\7_Python_para_Data\EDA\data\raw\customer-details.xlsx...
Error: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.


ValueError: ❌ No se pudo cargar customer dataset