# Aniversario Power BI !

## Integración completa End-to-End (ETL JSON Spotify Extended Streaming History - Power BI) 

Flujo del proyecto:

1. Integración, etiquetado y limpieza de datos de `Spotify Extended Streaming History` de 3 usuarios.
2. Integración de JSON a una lista completa.
3. Carga de ficheros JSON combinado en MongoDB: </br>
    3. 1. Nombre de la base de datos: [Spotify]</br>
    3. 2. Nombre de la colección: [Stream] </br>
    3. 3. Realizamos una validación de datos cargados completamente.</br>
4. Conexión a MongoDB mediante Power BI.
5. Elaboración de Dashaboard en entorno Power BI.

### 1. Integración, etiquetado y limpieza de datos.

## 🗂️ Estructura del proyecto `spotify_etl`

| Carpeta / Archivo | Descripción | Buenas prácticas |
|-------------------|-------------|------------------|
| `data/` | Contiene los JSON originales de **Spotify Extended Streaming History**. | Inclúyela en `.gitignore` para no subir datos sensibles ni grandes. |
| `notebooks/01_etl_spotify.ipynb` | Notebook principal con el flujo **E-T-L → MongoDB**.<br>Incluye secciones *Tarea*, *Por qué lo haces*, *Lógica*, código con TODOs, validación y reflexión. | Ejecuta `Clear All Outputs` antes de commitear para mantener el repo liviano. |
| `src/etl.py` | Funciones reutilizables (lectura de JSON, inserción en MongoDB, utilidades). | Facilita refactorizar el notebook a módulos productivos. |
| `.env.example` | Plantilla con las variables de entorno necesarias: `MONGO_URI`, `DB_NAME`, `COLL_NAME`. | El usuario clona, copia `cp .env.example .env` y completa sus credenciales. |
| `.gitignore` | Excluye `.env`, `/data`, `__pycache__/`, `.venv/`, salidas de notebook, etc. | Protege credenciales y evita archivos innecesarios en Git. |
| `requirements.txt` | Lista de dependencias (`pymongo`, `python-dotenv`, `tqdm`, `jupyter`, …). | Permite reproducir el entorno con `pip install -r requirements.txt`. |
| `README.md` | Guía de instalación, uso del notebook y enlace al dashboard de Power BI. | Primer punto de referencia para colaboradores. |

---

### 🔒 Gestión segura de credenciales

```bash
# .env  (NO se sube al repo)
MONGO_URI=mongodb://usuario:contraseña@localhost:27017
DB_NAME=spotify_history
COLL_NAME=extended_streams


In [2]:
# Preparación de librerías necesarias para el entorno.
# !pip install pymongo tqdm

In [None]:
from pathlib import Path
import json
from pymongo import MongoClient
from tqdm import tqdm   # Barra de progreso opcional

# -------------- Datos --------------
ROOT_DIR = Path.cwd() / "Spotify Extended Streaming History"
assert ROOT_DIR.exists(), f"Carpeta no encontrada: {ROOT_DIR}"

# -------------- MongoDB ------------
# Reemplaza por tu cadena de conexión o usa variables de entorno:
MONGO_URI = "mongodb://localhost:27017"
DB_NAME    = "spotify_history"
COLL_NAME  = "extended_streams"

client = MongoClient(MONGO_URI)
db     = client[DB_NAME]
coll   = db[COLL_NAME]