# 0 - Ingesta de Datos (Excel -> CSV)
Este Notebook forma parte del proceso CRISP-DM en la fase **Understanding**.

El objetivo:

- Cargar el fichero Excel original `Base de Datos - Assessment Beletza.xlsx`
- Convertir las 5 hojas a Valores Separados por Coma (CSV) individuales.
- Guardarlas en `data/raw_converted`
- Verificar que los archivos tengan la estructura esperada

Primeramente, se importan las librerías iniciales

In [11]:
import pandas as pd
import os

## 1. Configurar las Rutas

Se definen las rutas donde yace el archivo Excel original y se guardan los ficheros CSV convertidos.

In [12]:
raw_path = "../data/raw"
output_path = "../data/raw_converted"

# Crear la carpeta de salida si no existe
os.makedirs(output_path, exist_ok=True)

excel_file = os.path.join(raw_path, "Base de Datos - Assessment Beletza.xlsx")

## 2. Cargar el Archivo Excel y verificar sus hojas

In [13]:
# Validar la existencia del archivo
if not os.path.isfile(excel_file):
    raise FileNotFoundError(f"El archivo {excel_file} no existe.")

# Cargar Excel
xlsx = pd.ExcelFile(excel_file)
print(f"Hojas encontradas: {xlsx.sheet_names}")

Hojas encontradas: ['ventas', 'clientes', 'inventario', 'marketing', 'web_data']


## 3. Convertir hojas a CSV

In [14]:
for sheet_name in xlsx.sheet_names:
    df = pd.read_excel(excel_file, sheet_name=sheet_name)
    output_file = os.path.join(output_path, f"{sheet_name}.csv")
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"Convertido {sheet_name}.csv - {df.shape[0]} filas, {df.shape[0]} columnas")

Convertido ventas.csv - 1000 filas, 1000 columnas
Convertido clientes.csv - 300 filas, 300 columnas
Convertido inventario.csv - 8 filas, 8 columnas
Convertido marketing.csv - 150 filas, 150 columnas
Convertido web_data.csv - 800 filas, 800 columnas


## 4. Verificación Básica

Se muestran las primeras filas de cada CSV generado.
Esto permite observar si la conversión desde Excel se hizo de manera correcta.

In [15]:
for sheet_name in xlsx.sheet_names:
    csv_path=os.path.join(output_path, f"{sheet_name}.csv")
    print(f"\n=== {sheet_name} ===")
    df = pd.read_csv(csv_path)
    print(df.head(10))



=== ventas ===
        Fecha  Región                Canal  Línea de Producto     SKU  \
0  2024-12-27   Norte  Red de Distribución     Línea Orgánica  LO-002   
1  2024-10-22   Oeste              Directo        Línea Joven  LJ-003   
2  2024-09-08    Este  Red de Distribución  Línea Profesional  LP-002   
3  2024-05-16  Centro              Directo  Línea Profesional  LP-001   
4  2025-04-04  Centro              Directo     Línea Orgánica  LO-003   
5  2024-07-09   Oeste  Red de Distribución     Línea Orgánica  LO-002   
6  2025-01-31     Sur               Online     Línea Orgánica  LO-002   
7  2024-11-07   Oeste  Red de Distribución     Línea Orgánica  LO-003   
8  2024-08-17    Este              Directo     Línea Orgánica  LO-001   
9  2025-03-22  Centro               Online  Línea Profesional  LP-001   

   Unidades Vendidas  Precio Unitario  Descuento (%)  Total Ingresos  
0                 21             1757              0           36897  
1                  1             2013 