In [None]:
#Librerias
import pandas as pd
import glob
import os
import datetime

#Funciones de usuario
import source.aux_functions as fn

# Parámetros de `pd.read_excel()`

---

* **`io`**
    * **Definición:** Ruta del archivo Excel o un objeto similar a un archivo. Es el **parámetro obligatorio**.
    * **Tipo:** `str` o `file-like object`

* **`sheet_name`**
    * **Definición:** Especifica la(s) hoja(s) a leer. Puede ser el nombre (string), el índice (entero, 0-indexado), una lista de nombres/índices, o `None` para todas las hojas.
    * **Tipo:** `str`, `int`, `list`, o `None`

* **`header`**
    * **Definición:** Fila(s) a usar como encabezados de columna. Puede ser el índice de la fila (entero), una lista de índices para encabezados de múltiples niveles, o `None` si no hay encabezados.
    * **Tipo:** `int`, `list of int`, o `None`

* **`names`**
    * **Definición:** Lista de strings para asignar nombres personalizados a las columnas. Útil cuando no hay encabezados o se desean sobrescribir.
    * **Tipo:** `list of str`

* **`index_col`**
    * **Definición:** Columna(s) a usar como índice del DataFrame. Puede ser el índice (entero), el nombre (string), o una lista de ambos.
    * **Tipo:** `int`, `str`, o `list of int/str`

* **`usecols`**
    * **Definición:** Un subconjunto de columnas a leer. Puede ser un string de rango de Excel (ej., `'A:C'`), una lista de índices o nombres de columna, o una función.
    * **Tipo:** `str`, `list of int/str`, o `callable`

* **`dtype`**
    * **Definición:** Un diccionario para especificar tipos de datos para columnas específicas (ej., `{'columna': tipo}`).
    * **Tipo:** `dict`

* **`na_values`**
    * **Definición:** Valor(es) a interpretar como `NaN` (valores nulos).
    * **Tipo:** `scalar` o `list-like`

* **`skiprows`**
    * **Definición:** Número de filas a saltar desde el inicio del archivo, o una lista de índices de filas a omitir.
    * **Tipo:** `int` o `list of int`

* **`nrows`**
    * **Definición:** Número de filas a leer del archivo (después de aplicar `skiprows`).
    * **Tipo:** `int`

In [26]:
# 1.- Crear Ruta dinamica para archivos CSV
    # La ruta se construye con el año actual y la carpeta de datos de ventas
    # Es mejor usar variables dinamicas para ejecuciones futuras sin modificar el codigo   
    # Puedes añador TRY y EXCEPT para manejar errores en la ruta o archivos no encontrados

anio_actual = datetime.datetime.now().strftime("%Y")
ruta_archivo = f"./datos/datos_ventas/{anio_actual}/ventas_multihoja.xlsx"

print(ruta_archivo)

./datos/datos_ventas/2025/ventas_multihoja.xlsx


In [27]:
# 2.- Leer archivos CSV de la ruta especificada
    # Usamos pandas para leer el archivo Excel , especificando las columnas que nos (usecols) interesan y la hoja de ventas (sheet_name) 
    # skiprows se usa para saltar las primeras filas que no contienen datos relevantes
df_ventas = pd.read_excel(ruta_archivo, usecols="A:D",sheet_name='Ventas',skiprows=2)
df_ventas.head()  # Muestra las primeras 5 filas del DataFrame para verificar que se ha cargado correctamente
 


Unnamed: 0,Cliente,Producto,Cantidad,Precio
0,Ana,Libro,2,15.0
1,Luis,Cuaderno,5,3.0
2,María,Lápiz,10,1.0
3,Carlos,Regla,3,2.0
4,Lucía,Bolígrafo,7,1.5


In [23]:
df_ventas.info()  # Muestra información general del DataFrame, como el número de filas y columnas, tipos de datos, etc.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Cliente   5 non-null      object 
 1   Producto  5 non-null      object 
 2   Cantidad  5 non-null      int64  
 3   Precio    5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


In [30]:
# 3.- Leer archivos CSV de la ruta especificada
    # Usamos pandas para leer el archivo Excel , especificando las columnas que nos (usecols) interesan y la hoja de ventas (sheet_name) 
    # skiprows se usa para saltar las primeras filas que no contienen datos relevantes
df_clientes = pd.read_excel(ruta_archivo,sheet_name='Clientes',names=['id_cliente','nombre','email'])
df_clientes.head() 

Unnamed: 0,id_cliente,nombre,email
0,2,Luis,luis@mail.com
1,3,María,maria@mail.com
2,4,Carlos,carlos@mail.com
3,5,Lucía,lucia@mail.com


In [32]:
df_ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Cliente   5 non-null      object 
 1   Producto  5 non-null      object 
 2   Cantidad  5 non-null      int64  
 3   Precio    5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes
