# üß™ LAB ‚Äî Ficheros, Regex y Agregaciones

En este laboratorio trabajar√°s con un conjunto realista de datos compuestos por:

- **Ficheros CSV** con ventas diarias
- **Log de actividad** con eventos de usuarios
- **Regex** para extraer informaci√≥n clave
- **Agregaciones estad√≠sticas** y KPIs
- **Visualizaci√≥n** final

Objetivo: construir un *pipeline* ETL completo combinando ficheros heterog√©neos.

---
## 1Ô∏è‚É£ Preparaci√≥n de ficheros de ejemplo


In [None]:
from pathlib import Path
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
from io import StringIO
%matplotlib inline

Path('lab8').mkdir(exist_ok=True)

# Crear CSV de ventas
for dia in range(1,6):
    df = pd.DataFrame({
        'fecha': [f'2024-01-0{dia}'] * 4,
        'producto': ['A','B','C','D'],
        'unidades': np.random.randint(5,20,4),
        'precio': np.random.randint(10,50,4)
    })
    df.to_csv(f'lab8/ventas_{dia}.csv', index=False)

# Crear log de actividad
log_text = """
INFO user=1 event=login time=120ms
INFO user=2 event=login time=90ms
WARN user=3 event=timeout time=200ms
ERROR user=1 event=crash time=350ms
INFO user=2 event=logout time=100ms
"""

with open('lab8/logs.txt', 'w') as f:
    f.write(log_text)

sorted(Path('lab8').iterdir())

---
## 2Ô∏è‚É£ Cargar todos los CSV de ventas

### Objetivo:
- Unir todos los CSV en un solo DataFrame
- Asegurarse de que la columna `fecha` es datetime


In [None]:
# TU C√ìDIGO AQU√ç


---
## 3Ô∏è‚É£ Procesar logs con expresiones regulares

El formato es:
```
LEVEL user=X event=Y time=Zms
```

### Objetivo:
- Extraer user, event, time
- Crear un DataFrame `df_logs`


In [None]:
# TU C√ìDIGO AQU√ç


---
## 4Ô∏è‚É£ Crear KPIs combinando ventas y logs

### Objetivos:
1. Total de ventas por d√≠a
2. Ingresos diarios (`unidades * precio`)
3. Tiempo medio de eventos por usuario
4. N√∫mero de errores por usuario

Crear DataFrames agregados:
- `ventas_diarias`
- `errores_por_usuario`
- `tiempo_medio_eventos`


In [None]:
# TU C√ìDIGO AQU√ç


---
## 5Ô∏è‚É£ Visualizaci√≥n

### Crea:
1. Gr√°fico de barras ‚Üí ingresos diarios
2. Gr√°fico de l√≠neas ‚Üí unidades totales por d√≠a
3. Gr√°fico horizontal ‚Üí errores por usuario


In [None]:
# TU C√ìDIGO AQU√ç


---
# ‚úÖ Soluciones (ocultas)

<details>
<summary>Mostrar soluciones</summary>

### üîπ 2. Cargar todos los CSV
```python
import glob

df_ventas = pd.concat([
    pd.read_csv(r) for r in glob.glob('lab8/ventas_*.csv')
])
df_ventas['fecha'] = pd.to_datetime(df_ventas['fecha'])
```

### üîπ 3. Logs con regex
```python
patron = re.compile(r'user=(\d+) event=(\w+) time=(\d+)ms')

datos = []
with open('lab8/logs.txt') as f:
    for linea in f:
        m = patron.search(linea)
        if m:
            datos.append({
                'user': int(m.group(1)),
                'event': m.group(2),
                'time_ms': int(m.group(3))
            })

df_logs = pd.DataFrame(datos)
```

### üîπ 4. KPIs
```python
df_ventas['ingresos'] = df_ventas['unidades'] * df_ventas['precio']

ventas_diarias = df_ventas.groupby('fecha').agg({
    'unidades': 'sum',
    'ingresos': 'sum'
})

tiempo_medio_eventos = df_logs.groupby('user')['time_ms'].mean()

errores_por_usuario = df_logs[df_logs['event']=='crash'].groupby('user').size()
```

### üîπ 5. Visualizaci√≥n
```python
ventas_diarias['ingresos'].plot.bar(title='Ingresos diarios')
plt.show()

ventas_diarias['unidades'].plot(title='Unidades por d√≠a')
plt.show()

errores_por_usuario.plot.barh(title='Errores por usuario')
plt.show()
```
</details>