## Predicción de tendencia de ventas vs tiempo

### Integrantes
 - Renato Aguilar
 - Juan Diego Bolaños
 - Sebastián Chávez

In [2]:
import pandas as pd

## 1. Limpieza del Dataset

### 1.1 Filtrar familias

El dataset consta de 6 de columnas (id, date, store_nbr, family, sales, onpromotion). Para realizar un ajuste y predicción de tendencia de ventas vs tiempo es necesario depurar algunas datos que no se usarán. En el caso de este proyecto se usarán las siguientes columnas:


- `id`
- `date`
- `family`: específicamente los registros de `BEVERAGES`
- `sales`

Estas columnas permitirán realizar una relación entre ventas y tiempo $V(t)$ que permitirá realizar una predicción de ventas para un tiempo determinado.

In [5]:
DATOS_ENTRADA_CSV = "train.csv"
DATOS_FILTRADOS_CSV = "beverages_filtrado.csv"

def leer_y_filtrar_csv(entrada=DATOS_ENTRADA_CSV, salida=DATOS_FILTRADOS_CSV):
    """
    Lee el archivo CSV original, filtra únicamente los registros donde family == 'BEVERAGES',
    elimina la columna 'onpromotion' y guarda el resultado en otro archivo CSV.
    """
    try:
        df = pd.read_csv(entrada)
    except FileNotFoundError:
        print("Archivo no encontrado:", entrada)
        return None
    except Exception as e:
        print("Error al leer el CSV:", e)
        return None

    columnas_esperadas = {"family", "sales", "date"}
    if not columnas_esperadas.issubset(df.columns):
        print("El CSV no contiene las columnas necesarias:", columnas_esperadas)
        return None

    df_filtrado = df[df["family"] == "BEVERAGES"].copy()

    if "onpromotion" in df_filtrado.columns:
        df_filtrado = df_filtrado.drop(columns=["onpromotion"])

    try:
        df_filtrado.to_csv(salida, index=False, encoding='utf-8')
    except Exception as e:
        print("Error al guardar el archivo filtrado:", e)
        return None

    print(f"Filtro aplicado. Registros guardados: {len(df_filtrado)}")
    print(f"Archivo generado en: {salida}")

    return df_filtrado

leer_y_filtrar_csv()

Filtro aplicado. Registros guardados: 90936
Archivo generado en: beverages_filtrado.csv


Unnamed: 0,id,date,store_nbr,family,sales
3,3,2013-01-01,1,BEVERAGES,0.0
36,36,2013-01-01,10,BEVERAGES,0.0
69,69,2013-01-01,11,BEVERAGES,0.0
102,102,2013-01-01,12,BEVERAGES,0.0
135,135,2013-01-01,13,BEVERAGES,0.0
...,...,...,...,...,...
3000726,3000726,2017-08-15,54,BEVERAGES,4332.0
3000759,3000759,2017-08-15,6,BEVERAGES,2678.0
3000792,3000792,2017-08-15,7,BEVERAGES,3999.0
3000825,3000825,2017-08-15,8,BEVERAGES,3626.0


#### 1.2 Buscar datos datos inválidos y eliminarlos

Para que el Dataset funcione correctamente es necesario buscar datos inválidos (NaN o registros vacíos) los cuales pueden afectar el funcionamiento del programa. Si el programa no encuentra datos inválidos, soltará mensajes avisando que n

In [6]:
DATOS_FILTRADOS_CSV = "beverages_filtrado.csv"

def verificar_dataset(entrada=DATOS_FILTRADOS_CSV):
    """
    Verifica la validez del archivo CSV filtrado:
    - Comprueba si existen valores NaN
    - Identifica registros vacíos
    - Confirma que las columnas necesarias existen
    - Revisa que 'sales' sea numérica
    """

    try:
        df = pd.read_csv(entrada)
    except FileNotFoundError:
        print("Archivo no encontrado:", entrada)
        return None
    except Exception as e:
        print("Error al leer el archivo CSV:", e)
        return None

    print(f"Archivo cargado correctamente: {entrada}")
    print(f"Registros totales: {len(df)}\n")

    columnas_requeridas = {"family", "sales", "date"}
    columnas_faltantes = columnas_requeridas - set(df.columns)

    if columnas_faltantes:
        print("Faltan columnas necesarias:", columnas_faltantes)
    else:
        print("Todas las columnas requeridas están presentes.")

    nan_totales = df.isna().sum()
    if nan_totales.sum() == 0:
        print("No existen valores NaN en el dataset.")
    else:
        print("Existen valores NaN detectados:")
        print(nan_totales)

    vacios = (df == "").sum()
    if vacios.sum() == 0:
        print("No existen registros vacíos ('').")
    else:
        print("Existen campos vacíos detectados:")
        print(vacios)

    try:
        df["sales"] = pd.to_numeric(df["sales"], errors="raise")
        print("La columna 'sales' contiene únicamente valores numéricos.")
    except:
        print("Error: La columna 'sales' contiene valores NO numéricos.")

    print("\nVerificación completa.")
    return df

verificar_dataset()

Archivo cargado correctamente: beverages_filtrado.csv
Registros totales: 90936

Todas las columnas requeridas están presentes.
No existen valores NaN en el dataset.
No existen registros vacíos ('').
La columna 'sales' contiene únicamente valores numéricos.

Verificación completa.


Unnamed: 0,id,date,store_nbr,family,sales
0,3,2013-01-01,1,BEVERAGES,0.0
1,36,2013-01-01,10,BEVERAGES,0.0
2,69,2013-01-01,11,BEVERAGES,0.0
3,102,2013-01-01,12,BEVERAGES,0.0
4,135,2013-01-01,13,BEVERAGES,0.0
...,...,...,...,...,...
90931,3000726,2017-08-15,54,BEVERAGES,4332.0
90932,3000759,2017-08-15,6,BEVERAGES,2678.0
90933,3000792,2017-08-15,7,BEVERAGES,3999.0
90934,3000825,2017-08-15,8,BEVERAGES,3626.0


In [None]:
import pandas as pd
from pathlib import Path

DATOS_FILTRADOS_CSV = "beverages_filtrado.csv"

def verificar_convertir_y_limpiar_dataset(entrada=DATOS_FILTRADOS_CSV, salida=None):
    """
    Verifica y limpia el dataset BEVERAGES:

    1) Verifica si 'sales' es numérica.
       - Si NO lo es, intenta convertirla.
       - Si hay valores no convertibles, se consideran inválidos y se eliminan.

    2) Elimina registros inválidos:
       - NaN en columnas clave (family, sales, date)
       - Campos vacíos ('') o solo espacios en family/date
       - sales NO numéricas (después de intentar convertir)
       - date inválida (no parseable a fecha)

    3) Si hubo limpieza o conversión de tipo, guarda un nuevo CSV.
       Si no hubo cambios, NO genera archivo nuevo.
    """

    entrada = Path(entrada)
    if salida is None:
        salida = entrada.with_name(entrada.stem + "_limpio.csv")
    salida = Path(salida)

    # --- 1) Leer CSV ---
    try:
        df = pd.read_csv(entrada)
    except FileNotFoundError:
        print("Archivo no encontrado:", entrada)
        return None
    except Exception as e:
        print("Error al leer el archivo CSV:", e)
        return None

    print(f"Archivo cargado correctamente: {entrada}")
    print(f"Registros totales antes de limpieza: {len(df)}\n")

    # --- 2) Validar columnas requeridas ---
    columnas_requeridas = {"family", "sales", "date"}
    columnas_faltantes = columnas_requeridas - set(df.columns)

    if columnas_faltantes:
        print("Faltan columnas necesarias:", columnas_faltantes)
        return None
    else:
        print("Todas las columnas requeridas están presentes.\n")

    # --- 3) Verificar si sales es numérica ---
    sales_es_numerica = pd.api.types.is_numeric_dtype(df["sales"])
    conversion_realizada = False

    if not sales_es_numerica:
        print("La columna 'sales' NO es numérica. Se intentará convertir...")
        conversion_realizada = True
        df["sales"] = pd.to_numeric(df["sales"], errors="coerce")
    else:
        print("La columna 'sales' ya es numérica.")

    # --- 4) Detectar registros inválidos ---
    # 4.1 NaN en columnas clave
    mask_nan = df[list(columnas_requeridas)].isna().any(axis=1)

    # 4.2 Campos vacíos o solo espacios en family/date
    mask_vacios = (
        df["family"].astype(str).str.strip().eq("") |
        df["date"].astype(str).str.strip().eq("")
    )

    # 4.3 sales inválidas (NaN tras conversión)
    mask_sales_invalida = df["sales"].isna()

    # 4.4 date inválida (no se puede convertir a fecha)
    date_parsed = pd.to_datetime(df["date"], errors="coerce")
    mask_date_invalida = date_parsed.isna()

    # Unión de invalidez
    mask_invalido = mask_nan | mask_vacios | mask_sales_invalida | mask_date_invalida

    n_invalidos = int(mask_invalido.sum())

    # --- 5) Si no hay inválidos ni conversión, no se guarda nada ---
    if n_invalidos == 0 and not conversion_realizada:
        print("\nNo se encontraron registros inválidos.")
        print("No hubo conversión de tipo. Dataset queda igual.")
        return df

    # --- 6) Limpiar inválidos si existen ---
    if n_invalidos > 0:
        print(f"\nSe encontraron {n_invalidos} registros inválidos. Serán eliminados.")
        df_limpio = df[~mask_invalido].copy()
    else:
        print("\nNo se encontraron inválidos, pero se convirtió 'sales'.")
        df_limpio = df.copy()

    # Asegurar tipos finales correctos
    df_limpio["sales"] = pd.to_numeric(df_limpio["sales"], errors="raise")
    df_limpio["date"] = pd.to_datetime(df_limpio["date"])

    # (Opcional) dejar date como YYYY-MM-DD al guardar
    df_limpio["date"] = df_limpio["date"].dt.strftime("%Y-%m-%d")

    # --- 7) Guardar nuevo CSV limpio ---
    try:
        salida.parent.mkdir(parents=True, exist_ok=True)
        df_limpio.to_csv(salida, index=False, encoding="utf-8")
    except Exception as e:
        print("Error al guardar el archivo limpio:", e)
        return None

    print(f"Registros después de limpieza: {len(df_limpio)}")
    print(f"Archivo limpio generado en: {salida}")

    return df_limpio

verificar_convertir_y_limpiar_dataset()