# Aniversario Power BI !

## Integraci√≥n completa End-to-End (ETL JSON Spotify Extended Streaming History - Power BI) 

Flujo del proyecto:

1. Integraci√≥n, etiquetado y limpieza de datos de `Spotify Extended Streaming History` de 3 usuarios.
2. Integraci√≥n de JSON a una lista completa.
3. Carga de ficheros JSON combinado en MongoDB: </br>
    3. 1. Nombre de la base de datos: [Spotify]</br>
    3. 2. Nombre de la colecci√≥n: [Stream] </br>
    3. 3. Realizamos una validaci√≥n de datos cargados completamente.</br>
4. Conexi√≥n a MongoDB mediante Power BI.
5. Elaboraci√≥n de Dashaboard en entorno Power BI.

# üìí Notebook ETL Spotify ‚Üí MongoDB

---

## 1) Tarea  
**‚ÄúIntegrar todos los JSON de ‚ÄòSpotify Extended Streaming History‚Äô y cargarlos en MongoDB.‚Äù**

---

## 2) Por qu√© lo haces  
- Centralizar tu historial de reproducci√≥n en una base de datos document-oriented.  
- Facilitar consultas, agregaciones y refrescos autom√°ticos desde Power BI.  
- Practicar un pipeline **E**xtract-**L**oad sencillo y reproducible.

---

## 3) L√≥gica  
1. **Cargar variables** desde `.env` (credenciales y paths).  
2. **Conectar** al servidor MongoDB con `pymongo`.  
3. **Recorrer** recursivamente todos los JSON bajo `data/`.  
4. **Leer** cada archivo y acumular registros en una lista.  
5. **Insertar** en bloque (`insert_many`) en la colecci√≥n destino.  
6. **Validar** con conteo de documentos y mostrar muestras.

---

---

## üíª 4) C√≥digo paso a paso


### 1. Instalaci√≥n de librer√≠as (solo la primera vez)
```python
# !pip install pymongo python-dotenv tqdm


### 2. Imports y carga de variables
Objetivo: leer tu .env y obtener toda la configuraci√≥n desde ah√≠.

In [2]:
from pathlib import Path
import os, json
from pymongo import MongoClient
from tqdm import tqdm
from dotenv import load_dotenv

# Carga las variables del .env (sin hardcodear localhost aqu√≠)
load_dotenv()

# Ahora todas las rutas y credenciales vienen de tu .env
MONGO_URI = os.getenv("MONGO_URI")
DB_NAME   = os.getenv("DB_NAME")
COLL_NAME = os.getenv("COLL_NAME")
DATA_ROOT = Path(os.getenv("DATA_ROOT", "data"))

assert MONGO_URI, "üõë Define MONGO_URI en tu .env antes de seguir."
assert DB_NAME,   "üõë Define DB_NAME en tu .env antes de seguir."
assert COLL_NAME, "üõë Define COLL_NAME en tu .env antes de seguir."


### 3. Conexi√≥n y ‚Äúcreaci√≥n‚Äù de DB/colecci√≥n
Objetivo: conectar a Mongo y preparar el objeto coll. Mongo crear√° la base y colecci√≥n al primer insert_many.

In [3]:
# 3) Conectar a MongoDB y preparar colecci√≥n
client = MongoClient(MONGO_URI)

# Refiere la DB; no hace falta crearla manualmente
db   = client[DB_NAME]

# Refiere la colecci√≥n; tampoco es necesario crearla antes
coll = db[COLL_NAME]

# Verificaci√≥n r√°pida
print("‚úÖ Conectado a MongoDB:", client.address)
print("‚ñ∂Ô∏è Base de datos apuntada:", db.name)
print("‚ñ∂Ô∏è Colecci√≥n apuntada:", coll.name)


‚úÖ Conectado a MongoDB: ('localhost', 27017)
‚ñ∂Ô∏è Base de datos apuntada: spotify
‚ñ∂Ô∏è Colecci√≥n apuntada: extended_streams


### 4. Leer todos los JSON (preparaci√≥n)
Objetivo: listar rutas de JSON y contar cu√°ntos archivos hay antes de leerlos.

In [None]:
# Buscamos todos los JSON bajo data/user*/Spotify Extended Streaming History
json_paths = list(DATA_ROOT.glob("user*/Spotify Extended Streaming History/*.json"))

# Mensaje informativo antes de cargar
if not json_paths:
    raise FileNotFoundError(f"üõë No encontr√© ning√∫n JSON en {DATA_ROOT}")
else:
    print(f"üîç Encontrados {len(json_paths)} archivos JSON en total:")
    for p in json_paths:
        print("   ‚Ä¢", p.name)


üîç Encontrados 52 archivos JSON en total:
   ‚Ä¢ Streaming_History_Audio_2017-2018_0.json
   ‚Ä¢ Streaming_History_Audio_2018-2019_3.json
   ‚Ä¢ Streaming_History_Audio_2018_1.json
   ‚Ä¢ Streaming_History_Audio_2018_2.json
   ‚Ä¢ Streaming_History_Audio_2019-2020_7.json
   ‚Ä¢ Streaming_History_Audio_2019_4.json
   ‚Ä¢ Streaming_History_Audio_2019_5.json
   ‚Ä¢ Streaming_History_Audio_2019_6.json
   ‚Ä¢ Streaming_History_Audio_2020-2021_11.json
   ‚Ä¢ Streaming_History_Audio_2020_10.json
   ‚Ä¢ Streaming_History_Audio_2020_8.json
   ‚Ä¢ Streaming_History_Audio_2020_9.json
   ‚Ä¢ Streaming_History_Audio_2021-2022_14.json
   ‚Ä¢ Streaming_History_Audio_2021_12.json
   ‚Ä¢ Streaming_History_Audio_2021_13.json
   ‚Ä¢ Streaming_History_Audio_2022-2023_17.json
   ‚Ä¢ Streaming_History_Audio_2022_15.json
   ‚Ä¢ Streaming_History_Audio_2022_16.json
   ‚Ä¢ Streaming_History_Audio_2023-2024_21.json
   ‚Ä¢ Streaming_History_Audio_2023_18.json
   ‚Ä¢ Streaming_History_Audio_2023_19.json
   ‚Ä¢ 

### 5. Carga de datos e inserci√≥n en MongoDB

In [None]:
from dateutil import parser

records = []

for path in tqdm(json_paths, desc="üì• Cargando registros"):
    user = path.parent.parent.name
    with open(path, encoding="utf-8") as f:
        data = json.load(f)

        def normalize_and_append(rec):
            # 1) Convertir ts de string a datetime
            rec["ts"] = parser.isoparse(rec["ts"])
            # 2) A√±adir etiqueta de usuario
            rec["user"] = user
            records.append(rec)

        if isinstance(data, list):
            for rec in data:
                normalize_and_append(rec)
        else:
            normalize_and_append(data)

print(f"üî¢ Total de registros en memoria: {len(records):,}")

# Limpia colecci√≥n si necesitas rehacer pruebas
# coll.drop()

üì• Cargando registros: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 52/52 [00:05<00:00,  9.72it/s]

üî¢ Total de registros en memoria: 756,564





In [6]:
# Insertar en bloque
if records:
    res = coll.insert_many(records)
    print(f"‚úÖ Insertados {len(res.inserted_ids):,} documentos en '{COLL_NAME}'")
else:
    print("‚ö†Ô∏è No hab√≠a registros para insertar.")

‚úÖ Insertados 756,564 documentos en 'extended_streams'


### 6. Validaci√≥n r√°pida y recomendaciones

In [7]:
# Validaci√≥n
total = coll.count_documents({})
print(f"üìä Documentos totales en la colecci√≥n: {total:,}")

# Mostrar un sample de 5 documentos
print("\nüîç Ejemplo de documentos cargados:")
for doc in coll.find().limit(5):
    print(doc)

üìä Documentos totales en la colecci√≥n: 756,564

üîç Ejemplo de documentos cargados:
{'_id': ObjectId('6882871c274fc8efb3025f68'), 'ts': '2017-10-06T03:44:10Z', 'platform': 'Windows 10 (10.0.15063; x64)', 'ms_played': 285040, 'conn_country': 'EC', 'ip_addr': '190.152.176.16', 'master_metadata_track_name': 'Antes de que cuente diez', 'master_metadata_album_artist_name': 'Fito y Fitipaldis', 'master_metadata_album_album_name': 'Antes de que cuente diez', 'spotify_track_uri': 'spotify:track:3xiNRrrVROKlHrflHGNTfG', 'episode_name': None, 'episode_show_name': None, 'spotify_episode_uri': None, 'audiobook_title': None, 'audiobook_uri': None, 'audiobook_chapter_uri': None, 'audiobook_chapter_title': None, 'reason_start': 'trackdone', 'reason_end': 'trackdone', 'shuffle': False, 'skipped': False, 'offline': False, 'offline_timestamp': None, 'incognito_mode': False, 'user': 'user1'}
{'_id': ObjectId('6882871c274fc8efb3025f69'), 'ts': '2017-10-06T03:49:02Z', 'platform': 'Windows 10 (10.0.1506

### 7. Optimizaci√≥n para consultas desde Power BI.

Para la optimizaci√≥n de consultas desde Power BI creamos un √≠ndice compuesto por user y timestamp (ts)

In [8]:
# Crear √≠ndice compuesto para b√∫squedas por usuario y orden cronol√≥gico
coll.create_index([("user", 1), ("ts", 1)], name="idx_user_ts")


'idx_user_ts'

In [None]:
# Convertir ts de string a Date en toda la colecci√≥n 
from pymongo import MongoClient

update_result = coll.update_many(
    {},  # todos los documentos
    [
        { "$set": { "ts": { "$toDate": "$ts" } } }
    ]
)

print(f"‚úÖ Documentos afectados: {update_result.modified_count:,}")
print(f"   (Total chequeados: {update_result.matched_count:,})")



‚úÖ Documentos afectados: 0
   (Total chequeados: 756,564)


In [None]:
# Validaci√≥n del tipo de campo ts en un documento de ejemplo
sample = coll.find_one({})
print("Tipo de ts:", type(sample["ts"]))
print("Valor de ts:", sample["ts"])


Tipo de ts: <class 'datetime.datetime'>
Valor de ts: 2017-10-06 03:44:10


In [None]:
# Validar que no queden documentos con ts como string

# Cuenta cu√°ntos documentos tienen ts de tipo string
string_count = coll.count_documents({ "ts": { "$type": "string" } })
print(f"Documentos con ts en string: {string_count}")

# Opcional: lanzar error si hay alguno
assert string_count == 0, f"‚ö†Ô∏è A√∫n hay {string_count} documentos con ts como string"


Documentos con ts en string: 0
