# Ejercicio de ETL

## Contexto 


Durante la operación normal de una empresa comercializadora de productos importados, se registran en una base de datos transaccional los pedidos realizados por sus clientes. 

Para efectos de registrar el historial de sus ventas de la empresa, cada cierto tiempo (no necesarimente a un intervalo regular), en cada sucursal se generan ficheros de datos XML que registran la información de los pedidos de las ventas que se realizaron en dicho periodo. Esto, se realiza para efectos limitar el acceso a información sensible de la empresa y sus clientes.

Cada fichero XML almacena el siguiente contenido:

- Información del fichero contenida en la etiqueta `<header></header>`
- Datos de cada pedido contenidos en la etiqueta `<pedido></pedido>`
- Detalles de cada pedidio contenidos en la etiqueta `<pedido><detalle></detalle></pedido>`

## Requerimiento

Se requiere diseñar e implementar un sistema de procesamiento de datos (ETL), cuyo flujo de trabajo incorpore las siguientes actividades y procesos,

- Extraer los datos desde su fuente (fichero XML).
- Formatear los datos.
- Insertar los datos requeridos de los pedidos en la base de datos __ventas__.
- Registrar los resultados del procesamiento en una base de datos denominada __control__, la cual contiene la tabla __proceso__, que mantienen un registro actializado de la ejecución de los procesos de extracción de datos. Esta tabla registrar a lo menos, la identificación de los ficheros procesados, la fecha del procesamiento y el estado del procesamiento, es decir, registrar si los datos se procesaron exitosamente o no.

<figure>
<img src="./img/db_ventas.png" width="700px">
<figcaption>Fig. 1 - ERD base de datos <strong>ventas</strong></figcaption>
</figure>

## Instrucciones

1. Formar grupos de 2 estudiantes.
1. Implementar en Python las tareas del flujo. Para esto debe usar un enfoque funcional de programación.
1. Diseñar un diagrama de flujo sobre el cual puedan identificarse todas las tareas (funciones) del flujo del procesamiento ETL, desde la extracción hasta la carga.
1. Preparar una exposición con resultados de la actividad.

# Solución

### Extracción desde XML

In [93]:
import xml.etree.ElementTree as ET

tree = ET.parse('dataset/registro_pedidos/pedidos_20190101_20190131.xml')
raiz = tree.getroot()

In [94]:
for rama in raiz:
    print(rama.tag, rama.attrib)

header {}
pedido {'id': '23221'}
pedido {'id': '23225'}


In [98]:
raiz[1].attrib['id']

'23221'

In [99]:
for ramita in rama:
    print(ramita.tag)

cliente_id
nombre
apellido
fecha
descuento_porcentaje
detalles
