In [3]:
import pandas as pd
import os

# Paso 1: Verificar si el archivo existe
ruta = "../data/ventas_crudas_2024.csv"
if not os.path.exists(ruta):
    raise FileNotFoundError(f"‚ùå El archivo '{ruta}' no fue encontrado.")

# Paso 2: Cargar el archivo crudo
df_crudo = pd.read_csv(ruta, header=None)

# Paso 3: Extraer los par√°metros (primera fila)
parametros = df_crudo.iloc[0, 0]
print("üìÑ Par√°metros detectados:")
print(parametros)

# Paso 4: Eliminar filas vac√≠as y quedarnos con los datos reales
df_datos = df_crudo[4:].copy()  # Salteamos las primeras 4 filas
df_datos = df_datos[df_datos[0].notnull() & (df_datos[0] != "")]  # Eliminar vac√≠as

# Paso 5: Separar campos por ;
df_datos = df_datos[0].str.split(";", expand=True)

# Validaci√≥n: Verificar que haya 8 columnas esperadas
if df_datos.shape[1] != 8:
    raise ValueError(f"‚ùå Se esperaban 8 columnas despu√©s del split, pero se encontraron {df_datos.shape[1]}.")

# Paso 6: Nombrar columnas
df_datos.columns = [
    "Producto", "Categor√≠a", "Sucursal", "Vendedor",
    "Cantidad", "Precio Unitario", "Total", "Fecha"
]

# Validaci√≥n: Verificar que no haya nulos en columnas clave
columnas_clave = ["Producto", "Cantidad", "Precio Unitario", "Total", "Fecha"]
if df_datos[columnas_clave].isnull().any().any():
    raise ValueError("‚ùå Hay valores nulos en columnas clave.")

# Paso 7: Convertir tipos de datos
df_datos["Cantidad"] = pd.to_numeric(df_datos["Cantidad"], errors="raise")
df_datos["Precio Unitario"] = pd.to_numeric(df_datos["Precio Unitario"], errors="raise")
df_datos["Total"] = pd.to_numeric(df_datos["Total"], errors="raise")
df_datos["Fecha"] = pd.to_datetime(df_datos["Fecha"], errors="raise")

# Paso 8: Guardar el dataset limpio
df_datos.to_csv("ventas_limpias_2024.csv", index=False, sep=';')
print("\n‚úÖ Archivo limpio guardado como 'ventas_limpias_2024.csv'")


üìÑ Par√°metros detectados:
Par√°metros: [Sucursal: Palermo, Fecha: 2024-06-01, Tipo de Venta: Online, Responsable: Juan P√©rez, Canal: Web, Moneda: Pesos]

‚úÖ Archivo limpio guardado como 'ventas_limpias_2024.csv'
