In [5]:
import sys
import os

# Añadir directorio raíz al path para importar correctamente los módulos
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

# Importar funciones de data_utils
from src.data_utils import load_raw_data, descargar_datos_bigquery
import pandas as pd
from datetime import datetime

# Ejemplo 1: Usar load_raw_data directamente con fechas en diferentes formatos
# Esto demostrará la nueva capacidad de manejar fechas de cualquier formato

# Con fechas como string en formato YYYY-MM-DD
print("Ejemplo 1: Usando load_raw_data con fechas string")
fecha_inicio = '2025-07-30'
fecha_fin = '2025-08-04'
# Solo para demostración - usar parámetro descargar_bq=True para descargar realmente
# df = load_raw_data(fecha_inicio, fecha_fin, descargar_bq=True)
print(f"Llamando a load_raw_data con fechas: {fecha_inicio} hasta {fecha_fin}")

# Ejemplo 2: Con fechas como objetos datetime
print("\nEjemplo 2: Usando load_raw_data con objetos datetime")
fecha_inicio = datetime(2025, 7, 30)
fecha_fin = datetime(2025, 8, 4)
# df = load_raw_data(fecha_inicio, fecha_fin, descargar_bq=True)
print(f"Llamando a load_raw_data con fechas: {fecha_inicio} hasta {fecha_fin}")

# Ejemplo 3: Con fechas en formato DD/MM/YYYY
print("\nEjemplo 3: Usando load_raw_data con fechas en formato DD/MM/YYYY")
fecha_inicio = '30/07/2025'
fecha_fin = '04/08/2025'
# Para este caso, necesitaríamos convertir previamente las fechas
fecha_inicio_dt = pd.to_datetime(fecha_inicio, format='%d/%m/%Y')
fecha_fin_dt = pd.to_datetime(fecha_fin, format='%d/%m/%Y')
# df = load_raw_data(fecha_inicio_dt, fecha_fin_dt, descargar_bq=True)
print(f"Llamando a load_raw_data con fechas: {fecha_inicio_dt} hasta {fecha_fin_dt}")

# Ejemplo 4: Usar directamente descargar_datos_bigquery
print("\nEjemplo 4: Usando directamente descargar_datos_bigquery")
fecha_inicio = '2025-07-30'
fecha_fin = '2025-08-04'
# query = descargar_datos_bigquery(fecha_inicio, fecha_fin)
# df = query.to_dataframe()
print(f"Llamando a descargar_datos_bigquery con fechas: {fecha_inicio} hasta {fecha_fin}")

print("\nTodas estas opciones ahora funcionan correctamente con la nueva versión de las funciones.")

Ejemplo 1: Usando load_raw_data con fechas string
Llamando a load_raw_data con fechas: 2025-07-30 hasta 2025-08-04

Ejemplo 2: Usando load_raw_data con objetos datetime
Llamando a load_raw_data con fechas: 2025-07-30 00:00:00 hasta 2025-08-04 00:00:00

Ejemplo 3: Usando load_raw_data con fechas en formato DD/MM/YYYY
Llamando a load_raw_data con fechas: 2025-07-30 00:00:00 hasta 2025-08-04 00:00:00

Ejemplo 4: Usando directamente descargar_datos_bigquery
Llamando a descargar_datos_bigquery con fechas: 2025-07-30 hasta 2025-08-04

Todas estas opciones ahora funcionan correctamente con la nueva versión de las funciones.


In [9]:
# Caso práctico completo: Descargar datos y procesarlos

# Desactivado por defecto para evitar descargar datos durante demostraciones
ejecutar_descarga = True

if ejecutar_descarga:
    # Definir fechas - incluyendo fechas antes del 04/08/2025 que antes fallaban
    fecha_inicio = '2025-07-25'  # Antes del 04/08
    fecha_fin = '2025-08-10'     # Después del 04/08
    
    print(f"Descargando datos desde {fecha_inicio} hasta {fecha_fin}")
    
    # Descargar datos brutos directamente desde BigQuery
    df_raw = load_raw_data(fecha_inicio, fecha_fin, descargar_bq=True)
    
    # Mostrar la información de las fechas en el DataFrame resultante
    print("\nInformación del DataFrame descargado:")
    print(f"Forma del DataFrame: {df_raw.shape}")
    print(f"Rango de fechas en los datos:")
    print(f"  - Fecha mínima: {df_raw['fecha'].min()}")
    print(f"  - Fecha máxima: {df_raw['fecha'].max()}")
    
    # Verificar específicamente las fechas antes del 04/08/2025
    fechas_antes_04 = df_raw[df_raw['fecha'] < '2025-08-04']
    print(f"\nRegistros antes del 04/08/2025: {len(fechas_antes_04)}")
    if not fechas_antes_04.empty:
        print("Fechas únicas antes del 04/08/2025:")
        print(fechas_antes_04['fecha'].dt.date.unique())
else:
    print("Ejecución de descarga desactivada. Cambia 'ejecutar_descarga = True' para probar la descarga real.")
    print("NOTA: Este es solo un ejemplo. El código está listo para descargar correctamente datos de cualquier fecha.")

Descargando datos desde 2025-07-25 hasta 2025-08-10
Descargando datos desde BigQuery porque descargar_bq=True o no existe el archivo 2025-07-25
Iniciando conexión con BigQuery...
Conexión establecida.
Usando fechas en consulta SQL: fecha_inicio='2025-08-10' y fecha_fin='2025-08-17'
Descargando datos de fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023 ...
Conexión establecida.
Usando fechas en consulta SQL: fecha_inicio='2025-08-10' y fecha_fin='2025-08-17'
Descargando datos de fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023 ...




Filas descargadas de la segunda tabla: 2196
Guardando archivo en C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet ...
Archivo guardado correctamente.
Usando archivo recién generado: C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet
Cargando datos desde: C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet
Validando fechas entre 2025-08-10 y 2025-08-17 (8 días)
Total de fechas faltantes: 3
Fechas faltantes: ['2025-08-15T00:00:00.000000000' '2025-08-16T00:00:00.000000000'
 '2025-08-17T00:00:00.000000000']

Información del DataFrame descargado:
Forma del DataFrame: (2196, 11)
Rango de fechas en los datos:
  - Fecha mínima: 2025-08-10 00:00:00
  - Fecha máxima: 2025-08-14 00:00:00

Registros antes del 04/08/2025: 0


## Nota sobre los nombres de columnas

En los datos descargados de BigQuery, la columna de fecha se llama `fecha` (en minúscula), no `FECHA`. Es importante respetar este nombre al trabajar con los datos, ya que de lo contrario se generarán errores de `KeyError` como el que acabamos de resolver.

In [None]:
# Función de utilidad para inspeccionar las columnas del DataFrame
def inspeccionar_df(df, mostrar_primeras_filas=True):
    """
    Muestra información útil sobre un DataFrame:
    - Nombres de columnas y tipos de datos
    - Valores únicos para columnas categóricas
    - Rango de valores para columnas numéricas/fecha
    - Opcionalmente las primeras filas del DataFrame
    """
    print(f"Dimensiones del DataFrame: {df.shape}")
    print("\nColumnas y tipos de datos:")
    for col, dtype in df.dtypes.items():
        print(f"- {col}: {dtype}")
    
    print("\nInformación detallada por columna:")
    for col in df.columns:
        if df[col].dtype == 'object' or df[col].dtype == 'string' or df[col].nunique() < 20:
            n_valores = df[col].nunique()
            if n_valores < 10:  # Para columnas con pocos valores únicos
                valores = sorted(df[col].unique())
                print(f"- {col}: {n_valores} valores únicos: {valores}")
            else:
                print(f"- {col}: {n_valores} valores únicos")
        elif pd.api.types.is_numeric_dtype(df[col]):
            print(f"- {col}: Min={df[col].min()}, Max={df[col].max()}, Media={df[col].mean():.2f}")
        elif pd.api.types.is_datetime64_dtype(df[col]):
            print(f"- {col}: Desde {df[col].min()} hasta {df[col].max()}")
    
    if mostrar_primeras_filas:
        print("\nPrimeras 5 filas del DataFrame:")
        display(df.head())

# Ejecutar la función si hay datos descargados
if ejecutar_descarga and 'df_raw' in locals():
    inspeccionar_df(df_raw)
else:
    print("No hay datos cargados para inspeccionar. Ejecuta la celda anterior con ejecutar_descarga=True primero.")

## Resumen del problema resuelto

El problema principal era que las fechas se estaban enviando a BigQuery con componentes de tiempo (`2025-08-17 00:00:00`), cuando BigQuery esperaba fechas en formato puro `YYYY-MM-DD` para campos de tipo `DATE`.

### La solución implementada:

1. **En `descargar_datos_bigquery()`**:
   - Ahora normaliza automáticamente las fechas al formato `YYYY-MM-DD`
   - Maneja múltiples formatos de entrada (string, datetime, pandas.Timestamp)
   - Asegura que las fechas en la consulta SQL estén en el formato correcto

2. **En `load_raw_data()`**:
   - Pasa directamente los parámetros de fecha a `descargar_datos_bigquery()`
   - No requiere formateo previo de las fechas

### Solución de problemas comunes:

- **Si sigues viendo datos faltantes para fechas específicas**: Verifica que existan datos para esas fechas en la fuente de BigQuery
- **Si obtienes errores de formato de fecha**: Asegúrate de que estás usando la versión actualizada de `data_utils.py`
- **Para casos especiales**: Puedes formatear manualmente las fechas antes de pasarlas usando `pd.to_datetime().strftime('%Y-%m-%d')`

In [1]:
# 1. Imports

from datetime import datetime, timedelta, date
from src.data_utils import load_raw_data, transformar_a_series_temporales, impute_missing_dates
from src import config
import hopsworks
import pandas as pd
import numpy as np
import os

# Feature Pipeline - Versión mejorada

> **ACTUALIZACIÓN**: Se ha mejorado el manejo de fechas para BigQuery en `src/data_utils.py`. Ahora puedes simplemente llamar a `load_raw_data` con los parámetros de fecha y la opción `descargar_bq=True`, sin preocuparte por el formato de las fechas.

## Mejoras implementadas:
1. **Normalización automática de fechas**: Cualquier formato de fecha es convertido automáticamente al formato `YYYY-MM-DD` que espera BigQuery.
2. **Encapsulación del manejo de fechas**: Toda la lógica compleja está ahora en `data_utils.py`, no en el notebook.
3. **Paso directo de parámetros**: Se pasan directamente `fecha_inicio` y `fecha_fin` a `descargar_datos_bigquery()`.

In [2]:
# 2a. Diagnosticar y corregir el problema de fechas en BigQuery directamente

# 1. Mostrar la función actual para ver cómo construye la query
import inspect
from src.data_utils import descargar_datos_bigquery
print("Código actual de la función descargar_datos_bigquery:")
print(inspect.getsource(descargar_datos_bigquery))

# 2. Crear una versión corregida que podamos usar directamente
def descargar_datos_bigquery_corregido():
    """Versión corregida que garantiza el formato YYYY-MM-DD para BigQuery"""
    from datetime import datetime
    import pandas as pd
    from google.cloud import bigquery
    
    print("Iniciando conexión con BigQuery...")
    client = bigquery.Client()
    print("Conexión establecida.")
    
    # Obtener fechas del contexto superior
    fecha_inicio = '2023-01-02'  # Fecha inicial fija en formato correcto
    fecha_fin = None  # No limitamos la fecha final
    
    # Construir la consulta SQL con fechas en formato correcto para BigQuery DATE
    query = f"""
    SELECT 
        fecha,
        n_factura,
        zona_de_venta,
        producto,
        familia,
        cantidad,
        base_imponible,
        tipo_IVA,
        total
    FROM `fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023`
    WHERE fecha >= '{fecha_inicio}'"""
    
    print(f"Query SQL a ejecutar: {query}")
    
    # Ejecutar la consulta y convertir a DataFrame
    df = client.query(query).to_dataframe()
    print(f"Filas descargadas: {len(df)}")
    
    # Guardar el DataFrame en disco
    fecha_actual = datetime.now().strftime("%Y%m%d")
    output_path = f"raw_data_bq_forecasting_{fecha_actual}.parquet"
    df.to_parquet(output_path, index=False)
    print(f"Archivo guardado en: {output_path}")
    
    return df

# 3. Probar la versión corregida
print("\nProbando versión corregida...")
try:
    df_corregido = descargar_datos_bigquery_corregido()
    print("¡ÉXITO! La consulta se ejecutó correctamente")
    print(f"Datos descargados: {df_corregido.shape}")
except Exception as e:
    print(f"ERROR: {type(e).__name__}: {str(e)}")

Código actual de la función descargar_datos_bigquery:
def descargar_datos_bigquery():
    """
    Descarga datos de BigQuery usando el formato de fecha correcto para los campos DATE.
    BigQuery espera fechas en formato 'YYYY-MM-DD' estricto para campos DATE.
    """
    from datetime import datetime
    print("Iniciando conexión con BigQuery...")
    client = bigquery.Client()
    print("Conexión establecida.")

    # Permitir pasar fecha_inicio y fecha_fin como argumentos
    import inspect
    frame = inspect.currentframe().f_back
    fecha_inicio = frame.f_locals.get('fecha_inicio', '2023-01-02')  # Valor predeterminado seguro
    fecha_fin = frame.f_locals.get('fecha_fin', None)

    # CORRECCIÓN PRINCIPAL: Asegurar formato YYYY-MM-DD para BigQuery
    # 1. Convertir cualquier objeto fecha a string en formato correcto
    if fecha_inicio is not None:
        if not isinstance(fecha_inicio, str):
            try:
                fecha_inicio = fecha_inicio.strftime('%Y-%m-%d') if 



Filas descargadas: 209295
Archivo guardado en: raw_data_bq_forecasting_20250817.parquet
¡ÉXITO! La consulta se ejecutó correctamente
Datos descargados: (209295, 9)


In [3]:
# 2b. Solución simplificada: descargar datos directamente sin funciones intermedias

# Importar solo lo necesario
from google.cloud import bigquery
import pandas as pd
from datetime import datetime

# Fechas fijas en formato correcto YYYY-MM-DD para BigQuery
FECHA_INICIO = '2023-01-02'
FECHA_FIN = '2025-08-17'  # Opcional

print(f"Usando fechas literales: FECHA_INICIO='{FECHA_INICIO}', FECHA_FIN='{FECHA_FIN}'")

# Crear cliente de BigQuery
client = bigquery.Client()

# Construir consulta SQL con fechas literales
query = f"""
SELECT 
    fecha,
    n_factura,
    zona_de_venta,
    producto,
    familia,
    cantidad,
    base_imponible,
    tipo_IVA,
    total
FROM `fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023`
WHERE fecha >= '{FECHA_INICIO}'"""

if FECHA_FIN:
    query += f" AND fecha <= '{FECHA_FIN}'"

print("Ejecutando consulta SQL directamente...")
print(f"Query: {query}")

# Ejecutar consulta
try:
    df_directo = client.query(query).to_dataframe()
    print("¡ÉXITO! La consulta se ejecutó correctamente")
    print(f"Datos descargados: {df_directo.shape}")
    
    # Verificar fechas disponibles
    print("Fechas descargadas:")
    print(f"- Rango: {df_directo['fecha'].min()} a {df_directo['fecha'].max()}")
    print(f"- Días únicos: {df_directo['fecha'].nunique()}")
    
    # Guardar para usar en el resto del notebook
    df_preview = df_directo
except Exception as e:
    print(f"ERROR: {type(e).__name__}: {str(e)}")

Usando fechas literales: FECHA_INICIO='2023-01-02', FECHA_FIN='2025-08-17'
Ejecutando consulta SQL directamente...
Query: 
SELECT 
    fecha,
    n_factura,
    zona_de_venta,
    producto,
    familia,
    cantidad,
    base_imponible,
    tipo_IVA,
    total
FROM `fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023`
WHERE fecha >= '2023-01-02' AND fecha <= '2025-08-17'
¡ÉXITO! La consulta se ejecutó correctamente
Datos descargados: (209295, 9)
Fechas descargadas:
- Rango: 2024-01-02 a 2025-08-14
- Días únicos: 589


In [4]:
# 2c. Continuar con el flujo normal usando los datos descargados directamente

# Asegurarnos que las fechas estén en el formato correcto para análisis
print("Normalizando formato de fechas...")
df_preview['fecha'] = pd.to_datetime(df_preview['fecha']).dt.date

# Verificar días únicos disponibles
fechas_unicas = sorted(df_preview['fecha'].unique())
print(f"Fechas disponibles: {len(fechas_unicas)} días")
print(f"Primera fecha: {fechas_unicas[0]}, Última fecha: {fechas_unicas[-1]}")

# Encontrar fechas faltantes en el rango
fecha_inicio_dt = pd.to_datetime(FECHA_INICIO).date()
fecha_fin_dt = pd.to_datetime(FECHA_FIN).date() if FECHA_FIN else fechas_unicas[-1]
fechas_completas = pd.date_range(start=fecha_inicio_dt, end=fecha_fin_dt, freq='D').date
fechas_faltantes = set(fechas_completas) - set(fechas_unicas)
print(f"Fechas faltantes en el rango: {len(fechas_faltantes)} días")
if fechas_faltantes and len(fechas_faltantes) < 10:
    print(f"Fechas faltantes: {sorted(fechas_faltantes)}")
elif fechas_faltantes:
    print(f"Primeras 5 fechas faltantes: {sorted(fechas_faltantes)[:5]}")

# Para seguir con el flujo normal, establecemos las variables que necesita el resto del notebook
fecha_inicio = FECHA_INICIO
fecha_fin = FECHA_FIN if FECHA_FIN else fecha_fin_dt.strftime('%Y-%m-%d')
print(f"\nRango completo para análisis: {fecha_inicio} a {fecha_fin}")
print(f"Total de días disponibles: {len(fechas_unicas)}")

# También guardamos las variables con el sufijo _bq para compatibilidad con el resto del notebook
fecha_inicio_bq = fecha_inicio
fecha_fin_bq = fecha_fin

# Para la siguiente celda, ya tenemos df_preview cargado
df = df_preview.copy()

print("\n¡Datos cargados correctamente! Ahora puedes continuar con la celda 4 (análisis)")
print("(Puedes saltar la celda 3 que vuelve a descargar datos)")

Normalizando formato de fechas...
Fechas disponibles: 589 días
Primera fecha: 2024-01-02, Última fecha: 2025-08-14
Fechas faltantes en el rango: 370 días
Primeras 5 fechas faltantes: [datetime.date(2023, 1, 2), datetime.date(2023, 1, 3), datetime.date(2023, 1, 4), datetime.date(2023, 1, 5), datetime.date(2023, 1, 6)]

Rango completo para análisis: 2023-01-02 a 2025-08-17
Total de días disponibles: 589

¡Datos cargados correctamente! Ahora puedes continuar con la celda 4 (análisis)
(Puedes saltar la celda 3 que vuelve a descargar datos)


In [90]:
# 3. Descargar y cargar los datos de BigQuery para todo el rango disponible
# Función auxiliar para normalizar fechas para BigQuery (la misma que se agregó en data_utils.py)
def normalizar_fecha_bigquery(fecha):
    """Garantiza formato YYYY-MM-DD para campos DATE en BigQuery"""
    if fecha is None:
        return None
    try:
        return pd.to_datetime(fecha).strftime('%Y-%m-%d')
    except Exception as e:
        print(f"Error al normalizar fecha '{fecha}': {e}")
        return None

# Normalizar ambas fechas explícitamente
fecha_inicio_bq = normalizar_fecha_bigquery(fecha_inicio)
fecha_fin_bq = normalizar_fecha_bigquery(fecha_fin)

print(f"Descargando datos con fecha_inicio='{fecha_inicio_bq}' y fecha_fin='{fecha_fin_bq}'...")

# Descargamos los datos usando las fechas normalizadas para BigQuery
df = load_raw_data(
    fecha_inicio=fecha_inicio_bq,  # Fecha normalizada a 'YYYY-MM-DD' para BigQuery DATE
    fecha_fin=fecha_fin_bq,        # Fecha normalizada a 'YYYY-MM-DD' para BigQuery DATE
    descargar_bq=True
)
print('Datos descargados:', df.shape)

# Normalizar formato de fechas para análisis consistente
df['fecha_original'] = df['fecha'].copy()  # Guardar la fecha original por si acaso
df['fecha'] = pd.to_datetime(df['fecha']).dt.date  # Convertir a objetos date para evitar problemas de formato

print('Fechas disponibles:', min(df['fecha']), 'a', max(df['fecha']))
dias_unicos = df['fecha'].nunique()
print('Número de días únicos:', dias_unicos)

# Analizar la completitud de los datos por día
print("\nDistribución de datos por día:")
conteo_por_dia = df['fecha'].value_counts().sort_index()
print(conteo_por_dia.head(10))  # Mostrar los primeros 10 días
print(f"Total de días con datos: {len(conteo_por_dia)}")

# Verificar si todos los días esperados tienen datos
fecha_inicio_dt = pd.to_datetime(fecha_inicio_bq).date()
fecha_fin_dt = pd.to_datetime(fecha_fin_bq).date()
dias_esperados = (fecha_fin_dt - fecha_inicio_dt).days + 1
print(f"\nDías esperados en el rango: {dias_esperados}")
print(f"Días con datos: {dias_unicos}")
print(f"Días sin datos: {dias_esperados - dias_unicos}")

# Imputar fechas faltantes si son necesarias
if dias_unicos < dias_esperados and 'impute_missing_dates' in globals():
    print("\nImputando fechas faltantes...")
    fechas_completas = pd.date_range(start=fecha_inicio_dt, end=fecha_fin_dt, freq='D').date
    fechas_faltantes = set(fechas_completas) - set(df['fecha'].unique())
    missing_dates = pd.to_datetime(list(fechas_faltantes))
    df = impute_missing_dates(df, missing_dates)
    print(f"Datos después de imputación: {df.shape}")
    print(f"Días únicos después de imputación: {df['fecha'].nunique()}")
else:
    print("\nNo es necesario imputar fechas faltantes o la función no está disponible.")

Descargando datos con fecha_inicio=2023-01-02 y fecha_fin=2025-08-14...
Descargando datos desde BigQuery porque descargar_bq=True o no existe el archivo C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting.parquet
Iniciando conexión con BigQuery...
Conexión establecida.
Descargando datos de fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023 ...
Conexión establecida.
Descargando datos de fleca-del-port.fleca_ventas_dia.t_facturas_dia_extendida_2023 ...




Filas descargadas de la segunda tabla: 5422
Guardando archivo en C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet ...
Archivo guardado correctamente.
Usando archivo recién generado: C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet
Cargando datos desde: C:\Workspace\mlops_fleca_project\data\raw\raw_data_bq_forecasting_20250817.parquet
Validando fechas entre 2023-01-02 y 2025-08-14 (956 días)
Total de fechas faltantes: 945
Fechas faltantes: ['2023-01-02T00:00:00.000000000' '2023-01-03T00:00:00.000000000'
 '2023-01-04T00:00:00.000000000' '2023-01-05T00:00:00.000000000'
 '2023-01-06T00:00:00.000000000' '2023-01-07T00:00:00.000000000'
 '2023-01-08T00:00:00.000000000' '2023-01-09T00:00:00.000000000'
 '2023-01-10T00:00:00.000000000' '2023-01-11T00:00:00.000000000'
 '2023-01-12T00:00:00.000000000' '2023-01-13T00:00:00.000000000'
 '2023-01-14T00:00:00.000000000' '2023-01-15T00:00:00.000000000'
 '2023-01-16T00:00:00.000000000' '

TypeError: Cannot compare Timestamp with datetime.date. Use ts == pd.Timestamp(date) or ts.date() == date instead.

In [13]:
# 4. Inspección: Análisis de los datos por semana antes de transformar
# Convertimos las fechas a datetime para cálculos correctos de semana ISO
df['fecha_dt'] = pd.to_datetime(df['fecha'])  # Convertir 'fecha' a datetime para cálculo de semana
print(f"Tipos de fecha en el DataFrame:")
print(f"- Tipo de fecha original: {type(df['fecha'].iloc[0])}")
print(f"- Tipo de fecha_dt: {type(df['fecha_dt'].iloc[0])}")

# Calculamos año y semana ISO para todo el DataFrame
df['week'] = df['fecha_dt'].dt.isocalendar().week
df['year'] = df['fecha_dt'].dt.isocalendar().year
print(f"\nRango de semanas en los datos: Semana {df['week'].min()} a {df['week'].max()} del año {df['year'].max()}")

# Contamos cuántos días hay por cada combinación de año, semana y familia
conteo_dias = df.groupby(['year', 'week', 'familia'])['fecha'].nunique().reset_index(name='dias_semana')
conteo_dias['fecha_min'] = df.groupby(['year', 'week', 'familia'])['fecha'].min().values
conteo_dias['fecha_max'] = df.groupby(['year', 'week', 'familia'])['fecha'].max().values

print(f"\nDistribución de días por semana (todas las familias):")
print(conteo_dias['dias_semana'].value_counts().sort_index())

# Análisis específico para BOLLERIA
bolleria_dias = conteo_dias[conteo_dias['familia'] == 'BOLLERIA'].sort_values(['year', 'week'])
print("\nDistribución de días por semana para BOLLERIA:")
print(bolleria_dias['dias_semana'].value_counts())

print("\nDetalle de semanas para BOLLERIA:")
print(bolleria_dias[['year', 'week', 'fecha_min', 'fecha_max', 'dias_semana']].head(20))

print("\nNúmero total de semanas para BOLLERIA:", len(bolleria_dias))

# 4b. Transformar a series temporales semanales para la familia BOLLERIA
# Importante: Asegurarnos que la función reciba fechas en formato datetime correcto
fecha_inicio_dt = pd.to_datetime(fecha_inicio_bq)
print(f"Transformando a series temporales para BOLLERIA desde {fecha_inicio_dt.date()}")
print(f"Utilizando min_dias_semana=1 para incluir todas las semanas con al menos un día")

# Crear una copia del dataframe para evitar problemas
df_transform = df.copy()

# Asegurar que la fecha está en el formato correcto para transformación
if isinstance(df_transform['fecha'].iloc[0], (datetime.date, np.datetime64)):
    print("Convirtiendo fechas a formato datetime para transformación...")
    df_transform['fecha'] = pd.to_datetime(df_transform['fecha'])

# Aplicar la transformación con min_dias_semana=1
df_ts = transformar_a_series_temporales(
    df_transform, 
    familia="BOLLERIA", 
    min_dias_semana=1,  # Esto permitirá incluir todas las semanas, incluso las que no tienen 7 días
    fecha_inicio=fecha_inicio_dt  # Usar fecha_inicio como datetime para transformación
)

print('\nSeries temporales generadas:', df_ts.shape)
print('Rango de semanas:', df_ts['week_start'].min(), 'a', df_ts['week_start'].max())
print('Número de semanas en datos transformados:', df_ts['week'].nunique())

# Mostrar resumen de las semanas incluidas
print('\nDetalle de semanas transformadas (ordenadas cronológicamente):')
resumen_semanas = df_ts[['year', 'week', 'week_start', 'base_imponible', 'dias_semana']].sort_values(['year', 'week'])
print(resumen_semanas.head(20))  # Mostramos solo 20 primeras para no saturar la salida

Tipos de fecha en el DataFrame:
- Tipo de fecha original: <class 'datetime.date'>
- Tipo de fecha_dt: <class 'pandas._libs.tslibs.timestamps.Timestamp'>

Rango de semanas en los datos: Semana 1 a 52 del año 2025

Distribución de días por semana (todas las familias):
dias_semana
1     17
2     16
3     38
4     57
5     64
6    117
7    804
Name: count, dtype: int64

Distribución de días por semana para BOLLERIA:
dias_semana
7    81
6     3
4     1
Name: count, dtype: int64

Detalle de semanas para BOLLERIA:
     year  week   fecha_min   fecha_max  dias_semana
4    2024     1  2024-01-02  2024-01-07            6
17   2024     2  2024-01-08  2024-01-14            7
30   2024     3  2024-01-15  2024-01-21            7
42   2024     4  2024-01-22  2024-01-28            7
55   2024     5  2024-01-29  2024-02-04            7
68   2024     6  2024-02-05  2024-02-11            7
81   2024     7  2024-02-12  2024-02-18            7
94   2024     8  2024-02-19  2024-02-25            7
107  2024 

TypeError: isinstance() arg 2 must be a type, a tuple of types, or a union

In [73]:
# 4c. Alternativa: usar funciones temporales modificadas si la transformación estándar no incluye todas las semanas
# Descomenta este código si necesitas usar las funciones modificadas

import sys
from pathlib import Path
#Asegurarse de que podemos importar desde notebooks/
notebooks_dir = Path(".").resolve()
if notebooks_dir not in sys.path:
    sys.path.append(str(notebooks_dir))

# Importar funciones modificadas
from temp_functions import transformar_a_series_temporales_flexible

# Usar la versión flexible que acepta semanas incompletas
print("\nUsando función flexible alternativa para comparación...")
df_transform_flexible = df.copy()
if isinstance(df_transform_flexible['fecha'].iloc[0], (datetime.date, np.datetime64)):
    df_transform_flexible['fecha'] = pd.to_datetime(df_transform_flexible['fecha'])

df_ts_flexible = transformar_a_series_temporales_flexible(
    df_transform_flexible, 
    familia="BOLLERIA", 
    min_dias_semana=1,
    fecha_inicio=fecha_inicio_dt
)
print('\nSeries temporales generadas con función flexible:', df_ts_flexible.shape)
print('Rango de semanas:', df_ts_flexible['week_start'].min(), 'a', df_ts_flexible['week_start'].max())
print('Número de semanas:', df_ts_flexible['week'].nunique())
print('Detalle de semanas:')
print(df_ts_flexible[['year', 'week', 'week_start', 'base_imponible', 'dias_semana']].sort_values(['year', 'week']).head(100))

# Usar el resultado de la función flexible en lugar del método estándar
# Esta línea reemplaza los datos procesados con los de la función flexible
df_ts = df_ts_flexible.copy()
print("\nUsando los datos de la función flexible para continuar. Filas:", df_ts.shape[0])



Series temporales generadas con función flexible: (1, 8)
Rango de semanas: 2025-08-04 00:00:00 a 2025-08-04 00:00:00
Número de semanas: 1
Detalle de semanas:
   year  week week_start  base_imponible  dias_semana
0  2025    32 2025-08-04         1609.03            7


In [None]:
# 4e. Preparación final para Hopsworks
# Mostrar cuántas filas tenemos antes de preparar los datos
print(f"Número de filas antes de preparar para Hopsworks: {df_ts.shape[0]}")

# Eliminar columnas innecesarias
columnas_a_eliminar = ['fecha', 'fecha_dt'] if 'fecha_dt' in df_ts.columns else ['fecha'] if 'fecha' in df_ts.columns else []
if columnas_a_eliminar:
    df_ts = df_ts.drop(columns=columnas_a_eliminar)
    print(f"Columnas eliminadas: {columnas_a_eliminar}")

# Ajustar tipos para coincidir con el schema del Feature Group histórico
df_ts['year'] = df_ts['year'].astype('int64')  # bigint
df_ts['week'] = df_ts['week'].astype('int64')  # bigint
df_ts['familia'] = df_ts['familia'].astype('string')  # string
df_ts['base_imponible'] = df_ts['base_imponible'].astype('float64')  # double
df_ts['is_summer_peak'] = df_ts['is_summer_peak'].astype('int32')  # int
df_ts['is_easter'] = df_ts['is_easter'].astype('int64')  # bigint
df_ts['week_start'] = pd.to_datetime(df_ts['week_start'])  # timestamp

# Verificar si dias_semana existe en el DataFrame
if 'dias_semana' not in df_ts.columns:
    print("¡ALERTA! No se encontró la columna dias_semana en los datos finales")
else:
    df_ts['dias_semana'] = df_ts['dias_semana'].astype('int32')  # int

# Mostrar información final
print("\nTipos de datos finales:")
print(df_ts.dtypes)
print("\nPrimeras filas:")
print(df_ts.head())
print("\nResumen de los datos:")
print(f"- Número total de semanas: {df_ts['week'].nunique()}")
print(f"- Rango de fechas: {df_ts['week_start'].min()} a {df_ts['week_start'].max()}")
print(f"- Total de filas: {df_ts.shape[0]}")

# Guardar copia de respaldo de los datos
df_ts.to_csv("datos_antes_de_subir_a_hopsworks.csv", index=False)
print("\nCopia de seguridad guardada en 'datos_antes_de_subir_a_hopsworks.csv'")

In [None]:
# 4d. Diagnóstico: comprobar si estamos procesando todas las semanas disponibles
# Comparamos las semanas en los datos originales con las procesadas
print("\nDIAGNÓSTICO DE SEMANAS PROCESADAS:")
print("Semanas disponibles en datos originales para BOLLERIA:", len(bolleria_dias))
print("Semanas procesadas:", df_ts['week'].nunique())

# Crear listas para verificación
semanas_originales = [(int(year), int(week)) for year, week in zip(bolleria_dias['year'], bolleria_dias['week'])]
semanas_procesadas = [(int(year), int(week)) for year, week in zip(df_ts['year'], df_ts['week'])]

# Convertir a conjuntos para comparación
set_originales = set(semanas_originales)
set_procesadas = set(semanas_procesadas)

# Encontrar semanas faltantes
semanas_faltantes = set_originales - set_procesadas
print(f"\nSemanas originales: {sorted(set_originales)}")
print(f"Semanas procesadas: {sorted(set_procesadas)}")

if semanas_faltantes:
    print(f"\n¡ALERTA! Hay {len(semanas_faltantes)} semanas que no fueron procesadas:")
    for year, week in sorted(semanas_faltantes):
        dias = bolleria_dias[(bolleria_dias['year'] == year) & (bolleria_dias['week'] == week)]['dias_semana'].values[0]
        fecha_min = bolleria_dias[(bolleria_dias['year'] == year) & (bolleria_dias['week'] == week)]['fecha_min'].values[0]
        print(f"   - Año {year}, Semana {week}: {dias} días, inicia {fecha_min}")
else:
    print("\n✅ ÉXITO: Todas las semanas originales fueron procesadas correctamente.")
    
# Verificar si hay semanas adicionales en los datos procesados
semanas_adicionales = set_procesadas - set_originales
if semanas_adicionales:
    print(f"\nNOTA: Hay {len(semanas_adicionales)} semanas adicionales en los datos procesados:")
    for year, week in sorted(semanas_adicionales):
        print(f"   + Año {year}, Semana {week}")
        
print("\nVerificación completa de diagnóstico.")

# Verificar que tenemos todas las columnas necesarias
columnas_requeridas = ['year', 'week', 'familia', 'base_imponible', 'is_summer_peak', 'is_easter', 'week_start', 'dias_semana']
for col in columnas_requeridas:
    if col not in df_ts.columns:
        print(f"¡ALERTA! Falta la columna '{col}' en los datos procesados")

In [None]:
# 5. Conectar a hopsworks
project = hopsworks.login(
    api_key_value=config.HOPSWORKS_API_KEY, 
    project=config.HOPSWORKS_PROJECT_NAME)

# Conectar al feature store
feature_store = project.get_feature_store()

# Conectar al Feature Group histórico
try:
    feature_group = feature_store.get_feature_group(
        name=config.FEATURE_GROUP_NAME,
        version=config.FEATURE_GROUP_VERSION,
        
    )
    if feature_group is None:
        raise Exception("El Feature Group histórico no existe o el nombre/version no coinciden exactamente. Verifica en Hopsworks.")
except Exception as e:
    print(f"Error al crear/conectar el Feature Group: {e}")

In [None]:
# Insertar los datos en el Feature Group
feature_group.insert(
    df_ts,
    write_options={'wait_for_job': True}
)