# üìä M√≥dulo 8 ‚Äî Agregaciones y Procesado Masivo de Ficheros

En este notebook aprender√°s t√©cnicas profesionales para procesar archivos y generar estad√≠sticas:

- Leer m√∫ltiples ficheros (`glob`, `pathlib`)
- Procesar logs grandes l√≠nea a l√≠nea
- Agregaciones estad√≠sticas: media, percentiles, extremos
- Cargar m√∫ltiples CSV en un √∫nico DataFrame
- Generar estad√≠sticas por grupo (por fecha, por categor√≠a‚Ä¶)
- Exportar datos a CSV/JSON

---

## 1Ô∏è‚É£ Preparaci√≥n de ficheros de ejemplo
Creamos un directorio con varios CSV simulados.

In [None]:
import os
from pathlib import Path
import pandas as pd
import numpy as np

Path('datos').mkdir(exist_ok=True)

for i in range(1,4):
    df = pd.DataFrame({
        'producto': ['A','B','C','D'],
        'ventas': np.random.randint(10,100,4),
        'precio': np.random.randint(5,20,4)
    })
    df.to_csv(f'datos/ventas_{i}.csv', index=False)

os.listdir('datos')

---
## 2Ô∏è‚É£ Cargar m√∫ltiples CSV con `glob`

`glob` permite buscar ficheros por patr√≥n:

In [None]:
import glob

rutas = glob.glob('datos/ventas_*.csv')
rutas

### Cargar todos los CSV en un solo DataFrame

In [None]:
df_total = pd.concat([pd.read_csv(r) for r in rutas], ignore_index=True)
df_total

---
## 3Ô∏è‚É£ Agregaciones estad√≠sticas

Media, m√≠nimo, m√°ximo, percentiles‚Ä¶

In [None]:
df_total['ventas'].mean(), df_total['ventas'].max(), df_total['ventas'].quantile(0.9)

Resumen completo (`describe()`):

In [None]:
df_total.describe()

---
## 4Ô∏è‚É£ Agrupaciones en datos cargados de m√∫ltiples ficheros

Agrupar ventas totales por producto:

In [None]:
df_total.groupby('producto')['ventas'].sum()

Agrupaciones con varias m√©tricas y m√∫ltiples columnas:

In [None]:
df_total.groupby('producto').agg({'ventas':['sum','mean'], 'precio':['mean','max']})

---
## 5Ô∏è‚É£ Procesado de logs l√≠nea a l√≠nea

Creamos un fichero de logs de ejemplo:

In [None]:
log_text = """
INFO: user=1 evento=login tiempo=120ms
INFO: user=2 evento=login tiempo=80ms
ERROR: user=1 evento=falla tiempo=200ms
INFO: user=3 evento=login tiempo=110ms
"""

with open('datos/logs.txt', 'w') as f:
    f.write(log_text)

with open('datos/logs.txt') as f:
    for linea in f:
        print(linea.strip())

### Extraer informaci√≥n del log con regex

In [None]:
import re

datos_log = []
patron = re.compile(r'user=(\d+) evento=(\w+) tiempo=(\d+)ms')

with open('datos/logs.txt') as f:
    for linea in f:
        m = patron.search(linea)
        if m:
            datos_log.append({
                'user': int(m.group(1)),
                'evento': m.group(2),
                'tiempo_ms': int(m.group(3))
            })

pd.DataFrame(datos_log)

---
## 6Ô∏è‚É£ Exportar resultados

Guardar a CSV y JSON:

In [None]:
df_total.to_csv('datos/resultado.csv', index=False)
df_total.to_json('datos/resultado.json', orient='records')

os.listdir('datos')

---
## 7Ô∏è‚É£ Ejercicio pr√°ctico

Usando los ficheros CSV generados:

### üß© Objetivos
1. Cargar todos los CSV del directorio en un DataFrame √∫nico
2. Calcular el total de ventas por producto
3. Calcular el precio medio por producto
4. Obtener el percentil 90 de ventas
5. Crear una tabla agregada con `agg`
6. Exportar el resultado final a JSON

Escribe tu soluci√≥n abajo:

In [None]:
# TU C√ìDIGO AQU√ç


---
## ‚úÖ Soluciones (ocultas)

<details>
<summary>Mostrar soluciones</summary>

```python
df = pd.concat([pd.read_csv(r) for r in glob.glob('datos/ventas_*.csv')])
```

```python
df.groupby('producto')['ventas'].sum()
```

```python
df.groupby('producto')['precio'].mean()
```

```python
df['ventas'].quantile(0.9)
```

```python
tabla = df.groupby('producto').agg({'ventas':['sum','mean'], 'precio':['mean','max']})
```

```python
tabla.to_json('datos/resultado_final.json', orient='records')
```

</details>