# **PR0301: Lectura de datos de archivos**

## **Objetivo de la Práctica**

Supón que trabajas para una empresa que acaba de fusionar sus operaciones de tres regiones distintas (Norte, Sur y Este). El problema es que cada región gestionaba sus datos de ventas con sistemas diferentes y necesitas un **Dataset Maestro** unificado para el Dashboard de BI.

Las fuentes de datos son:
1. **Región Norte (ventas_norte.csv)**: un sistema legado que exporta archivos de texto separados por punto y coma (**``;``**).
2. **Región Sur (ventas_sur.xlsx)**: el equipo de ventas usa Excel. El archivo contiene **múltiples pestañas** (una por mes).
3. **Región Este (ventas_este.json)**: eatos provenientes de una API moderna. La información del producto y del cliente está **anidada** dentro de diccionarios.

### **Las cosas que tienes que tener en cuenta son:**

1. **Ingesta CSV**: cargar los datos del Norte correctamente.

In [7]:
import pandas as pd

df_norte = pd.read_csv("./ventas_norte.csv", sep=";", parse_dates=["Fecha_Venta"])
print(df_norte.head())

   ID_Transaccion Fecha_Venta Nom_Producto  Cantidad_Vendida  Precio_Unit
0            1000  2023-02-21       Laptop                 4          423
1            1001  2023-01-15       Laptop                 2          171
2            1002  2023-03-13       Laptop                 3           73
3            1003  2023-03-02      Teclado                 1          139
4            1004  2023-01-21      Monitor                 4          692


2. **Ingesta Excel**: leer todas las pestañas del archivo Excel del Sur y combinarlas en un solo DataFrame.

In [3]:
!pip install openpyxl
!pip install xlrd



In [20]:
df_sur_dict = pd.read_excel("./ventas_sur.xlsx", sheet_name=None,engine="openpyxl", header=0 , usecols='A:E', names = {'id', 'fecha', 'producto', 'cantidad', 'precio' }, parse_dates=['date'], dtype={'producto'})

df_sur = pd.concat(df_sur_dict.values(), ignore_index=True)

df_sur

ValueError: Missing column provided to 'parse_dates': 'date' (sheet: Enero)

3. **Ingesta JSON (Semi-estructurado)**: cargar los datos del Este. Deberás usar **``pd.json_normalize``** para aplanar la información anidada (desglosar el diccionario de productos en columnas individuales).

4. **Transformación y Limpieza**:
- Asegúrate de que las columnas tengan nombres estándar en los tres DataFrames (ej: ``fecha``, ``producto``, ``cantidad``, ``precio_unitario``, ``region``). Esto puedes hacerlo con la función **``rename()``** de Pandas.
- Crea una columna nueva llamada region que indique de dónde viene cada fila (“Norte”, “Sur”, “Este”).

5. **Consolidación**: concatena los tres DataFrames en uno solo (``df_total``). Recuerda que puedes concatenar varios dataframes de Pandas con la función **``concat()``**

**Exportación Estandarizada**: guarda el resultado final en un archivo **CSV** llamado ``ventas_consolidadas.csv``. Para ello tienes la función **``to_csv()``** de Pandas. El archivo resultante debe usar coma (``,``) como separador, codificación ``utf-8`` y **no debe incluir el índice** numérico del DataFrame (parámetro ``index=False``).