In [None]:
# Celda 1: Importaciones y configuración del entorno
import pandas as pd
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv

# Cargar variables de entorno para la conexión a la BBDD
load_dotenv()

In [None]:
# Celda 2: Conexión directa a la base de datos
# NOTA: En esta fase exploratoria, nos conectamos directamente.
# En la Fase 2, esto se abstrae con el Repository.
db_user = os.getenv("POSTGRES_USER")
db_password = os.getenv("POSTGRES_PASSWORD")
db_host = os.getenv("POSTGRES_HOST", "localhost")
db_port = os.getenv("POSTGRES_PORT", "5432")
db_name = os.getenv("POSTGRES_DB")

db_url = f"postgresql+psycopg2://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}"
engine = create_engine(db_url)

print("Conexión al motor de la base de datos establecida.")

In [None]:
# Celda 3: Cargar algunas tablas para inspección
print("\nCargando tabla de productos...")
products_df = pd.read_sql("SELECT * FROM products LIMIT 1000", engine)

print("Cargando tabla de ventas...")
sales_df = pd.read_sql("SELECT * FROM sales LIMIT 1000", engine)

In [None]:
# Celda 4: Inspección básica de los datos de Productos
print("\n--- Información de la tabla de Productos ---")
products_df.info()

print("\n--- Primeros 5 productos ---")
display(products_df.head())

In [None]:
# Celda 5: Inspección básica de los datos de Ventas
print("\n--- Información de la tabla de Ventas ---")
sales_df.info()

print("\n--- Primeras 5 ventas ---")
display(sales_df.head())

In [None]:
# Celda 6: Revisar los valores problemáticos de 'SalesDate'
print("\n--- Ejemplos de 'SalesDate' que justifican el tipo TEXT ---")
# Como es texto, podemos usar filtros de texto para encontrar valores extraños
problematic_dates = pd.read_sql("SELECT SalesDate FROM sales WHERE SalesDate LIKE '%:%'", engine)
display(problematic_dates.head())