# üéµ Spotify Analytics Pipeline - D√©monstration Compl√®te

Ce notebook documente et d√©montre les deux pipelines ETL du projet d'analyse de donn√©es Spotify.

## üìã Table des Mati√®res

1. [Introduction et Configuration](#introduction)
2. [Architecture de l'application](#architecture)
3. [Mod√©lisation conceptuelle des donn√©es](#modelisation)
4. [Pipeline 1 : CSV ‚Üí Oracle ‚Üí XML ‚Üí HTML](#pipeline1)
5. [Pipeline 2 : XML ‚Üí XSD ‚Üí JSON ‚Üí MongoDB](#pipeline2)
6. [Conclusion](#conclusion)

---

## Syst√®mes de Gestion de Bases de Donn√©es Utilis√©s

Ce projet exploite deux types de SGBD compl√©mentaires, illustrant les approches relationnelle et NoSQL de la gestion de donn√©es.

### Oracle Database

<div align="center">
  <img src="./images/oracle_logo.png" alt="Oracle Database" width="200">
</div>

**Type** : Base de donn√©es relationnelle (SQL)  
**Usage dans le projet** : Stockage structur√© et normalis√© des donn√©es Spotify (8 tables interconnect√©es)  
**Avantages** : Int√©grit√© r√©f√©rentielle, transactions ACID, requ√™tes SQL complexes

---

### MongoDB

<div align="center">
  <img src="./images/mongodb_logo.png" alt="MongoDB" width="200">
</div>

**Type** : Base de donn√©es NoSQL orient√©e documents  
**Usage dans le projet** : Stockage flexible des donn√©es JSON converties depuis XML  
**Avantages** : Sch√©ma flexible, scalabilit√© horizontale, performances √©lev√©es pour donn√©es semi-structur√©es

---

<div align="center">
  <table>
    <tr>
      <td align="center" width="50%">
        <img src="./images/oracle_logo.png" width="150"><br>
        <strong>Oracle Database</strong><br>
        <em>Approche relationnelle</em>
      </td>
      <td align="center" width="50%">
        <img src="./images/mongodb_logo.png" width="150"><br>
        <strong>MongoDB</strong><br>
        <em>Approche NoSQL</em>
      </td>
    </tr>
  </table>
</div>

## 1. Introduction et Configuration <a id="introduction"></a>

L'objectif de ce projet est de concevoir et mettre en ≈ìuvre un pipeline complet de traitement de donn√©es, depuis leur acquisition jusqu'√† leur exploitation finale. Ce travail vise √† d√©montrer concr√®tement les diff√©rentes √©tapes et processus n√©cessaires pour transformer des donn√©es brutes en informations exploitables et structur√©es.

Dans le cadre de ce projet, nous avons d√©velopp√© deux pipelines distincts et compl√©mentaires permettant d'illustrer l'ensemble du cycle de vie des donn√©es.


**Pipeline 1 : Relationnel (Oracle)**
```
CSV ‚Üí Normalisation ‚Üí Oracle ‚Üí XML ‚Üí Validation DTD ‚Üí XSLT ‚Üí HTML Dashboard
```

**Pipeline 2 : NoSQL (MongoDB)**
```
XML ‚Üí G√©n√©ration XSD ‚Üí Validation XSD ‚Üí XSLT ‚Üí JSON ‚Üí MongoDB
```

## 2. Architecture de l'application <a id="architecture"></a>

Le projet est organis√© selon une architecture modulaire et structur√©e, facilitant la maintenance et l'√©volutivit√© du code.

### Structure des r√©pertoires
```
DBA_Spotify/
‚îú‚îÄ‚îÄ main.py                      # Point d'entr√©e principal (2 pipelines)
‚îú‚îÄ‚îÄ spotify_pipeline_demo.ipynb  # Jupyter Notebook de d√©monstration (NOUVEAU)
‚îú‚îÄ‚îÄ requirements.txt             # D√©pendances Python
‚îú‚îÄ‚îÄ configs/
‚îÇ   ‚îî‚îÄ‚îÄ config.py               # Configuration (Oracle, MongoDB, chemins)
‚îú‚îÄ‚îÄ DB/
‚îÇ   ‚îú‚îÄ‚îÄ db_manager.py           # Gestionnaire Oracle
‚îÇ   ‚îú‚îÄ‚îÄ mongodb_manager.py      # Gestionnaire MongoDB (NOUVEAU)
‚îÇ   ‚îî‚îÄ‚îÄ db_schema.py            # Sch√©ma des tables Oracle
‚îú‚îÄ‚îÄ services/
‚îÇ   ‚îú‚îÄ‚îÄ data_processor.py       # Traitement et normalisation CSV
‚îÇ   ‚îú‚îÄ‚îÄ xml_exporter.py         # Export vers XML
‚îÇ   ‚îú‚îÄ‚îÄ dtd_creator.py          # G√©n√©ration de DTD
‚îÇ   ‚îú‚îÄ‚îÄ dtd_validator.py        # Validation DTD
‚îÇ   ‚îú‚îÄ‚îÄ xsd_creator.py          # G√©n√©ration de XSD (NOUVEAU)
‚îÇ   ‚îú‚îÄ‚îÄ xsd_validator.py        # Validation XSD (NOUVEAU)
‚îÇ   ‚îú‚îÄ‚îÄ json_converter.py       # Conversion XML ‚Üí JSON (NOUVEAU)
‚îÇ   ‚îî‚îÄ‚îÄ xslt_transformer.py     # Transformation XSLT ‚Üí HTML
‚îî‚îÄ‚îÄ data/
    ‚îú‚îÄ‚îÄ input/
    ‚îÇ   ‚îú‚îÄ‚îÄ high_popularity_spotify_data.csv    # Donn√©es source
    ‚îÇ   ‚îú‚îÄ‚îÄ spotify_transform.xslt              # Template XSLT ‚Üí HTML
    ‚îÇ   ‚îî‚îÄ‚îÄ spotify_to_json.xslt                # Template XSLT ‚Üí JSON (NOUVEAU)
    ‚îî‚îÄ‚îÄ output/
        ‚îú‚îÄ‚îÄ spotify_data_export.xml             # XML g√©n√©r√©
        ‚îú‚îÄ‚îÄ spotify_data.dtd                    # DTD g√©n√©r√©
        ‚îú‚îÄ‚îÄ spotify_data.xsd                    # XSD g√©n√©r√© (NOUVEAU)
        ‚îú‚îÄ‚îÄ spotify_data.json                   # JSON g√©n√©r√© (NOUVEAU)
        ‚îî‚îÄ‚îÄ spotify_data.html                   # Dashboard HTML
```

### Modules principaux

- `data_processor.py` : Extraction, nettoyage et normalisation des donn√©es CSV
- `db_schema.py` : D√©finition du sch√©ma relationnel (8 tables)
- `db_manager.py` : Gestion des connexions et insertions dans Oracle
- `xml_exporter.py` : Export des donn√©es Oracle en format XML structur√©
- `dtd_creator.py` / `dtd_validator.py` : Cr√©ation et validation de la DTD
- `xslt_transformer.py` : Transformation XML ‚Üí HTML via XSLT
- `configs.py` : Param√®tres de connexion √† la base de donn√©es et chemins des fichiers
- `main.py` : Orchestration compl√®te des deux pipelines

Cette architecture modulaire permet une s√©paration claire des responsabilit√©s et facilite les tests unitaires et la maintenance du code.



## 3. Mod√©lisation conceptuelle des donn√©es <a id="modelisation"></a>

Sur la base de l'analyse des donn√©es CSV, nous avons √©labor√© le Mod√®le Conceptuel de Donn√©es suivant, mettant en √©vidence 8 entit√©s principales et leurs cardinalit√©s :

![MCD Spotify](./images/Spotify_modelisation.png)

*Figure 1 : Mod√®le Conceptuel de Donn√©es repr√©sentant les entit√©s et associations du syst√®me Spotify*

Ce MCD met en √©vidence 8 entit√©s principales interconnect√©es par des associations de cardinalit√©s vari√©es (1:N, N:M). Il nous servira de base pour la conception du sch√©ma relationnel normalis√©.

### Imports et Configuration

Le code Python suivant importe les modules n√©cessaires √† l'ex√©cution des deux pipelines du projet.

In [None]:
# Imports standards
import sys
import os
import json
from pathlib import Path
import subprocess
import pandas as pd
from datetime import datetime

# Ajouter le r√©pertoire du projet au PYTHONPATH
project_root = Path.cwd()
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

print(f"üìÅ R√©pertoire de travail : {project_root}")
print(f"üìÖ Date : {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

In [None]:
# Imports des modules du projet
try:
    from DB.db_manager import DatabaseManager
    from DB.mongodb_manager import MongoDBManager
    from services.data_processor import preprocess_csv
    from services.xml_exporter import export_to_xml
    from services.dtd_creator import create_spotify_dtd
    from services.dtd_validator import validate_xml_with_dtd
    from services.xsd_creator import create_spotify_xsd
    from services.xsd_validator import validate_xml_with_xsd
    from services.json_converter import convert_xml_to_json
    from services.xslt_transformer import transform_to_html
    from configs.config import *
    
    print("‚úÖ Tous les modules ont √©t√© import√©s avec succ√®s !")
except ImportError as e:
    print(f"‚ùå Erreur d'import : {e}")
    print("üí° Assurez-vous d'ex√©cuter ce notebook depuis le r√©pertoire racine du projet")

### V√©rification des Fichiers et Dossiers

In [None]:
# V√©rifier la structure du projet
print("üìÇ Structure du projet :\n")

directories = [
    "configs",
    "DB",
    "services",
    "data/input",
    "data/output"
]

for directory in directories:
    path = Path(directory)
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"{status} {directory}")

print("\nüìÑ Fichiers importants :\n")

files = [
    "data/input/high_popularity_spotify_data.csv",
    "data/input/spotify_transform.xslt",
    "data/input/spotify_to_json.xslt",
    "main.py",
    "requirements.txt"
]

for file in files:
    path = Path(file)
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"{status} {file}")

## 4. Pipeline 1 : CSV ‚Üí Oracle ‚Üí XML ‚Üí HTML <a id="pipeline1"></a>

Ce pipeline illustre l'ensemble du processus de transformation des donn√©es, depuis leur √©tat brut jusqu'√† leur pr√©sentation web. Nous d√©taillons ci-apr√®s les quatre √©tapes principales : extraction et normalisation du CSV, insertion dans Oracle, export en XML, et transformation XSLT vers HTML.

### √âtape 1.1 : Extraction et Normalisation des Donn√©es CSV

Le code ci-dessous assure l'extraction des donn√©es depuis le fichier CSV source et leur normalisation en vue de l'insertion dans la base de donn√©es.

In [None]:
print("üîÑ Extraction des donn√©es CSV...\n")

# Pr√©traiter le CSV
data_to_insert = preprocess_csv()

if data_to_insert:
    print("\n‚úÖ Donn√©es extraites et normalis√©es !\n")
    print("üìä Aper√ßu des tables cr√©√©es :\n")
    
    for table_name, df in data_to_insert.items():
        print(f"  ‚Ä¢ {table_name:<25} : {len(df):>6} lignes")
else:
    print("‚ùå √âchec de l'extraction")

### Visualisation des Donn√©es Extraites

In [None]:
# Afficher un √©chantillon de chaque table
if data_to_insert:
    print("üìã √âchantillons de donn√©es :\n")
    
    # Genres
    print("\n=== GENRES ===")
    display(data_to_insert['sp_genres'].head(5))
    
    # Playlists
    print("\n=== PLAYLISTS ===")
    display(data_to_insert['sp_playlists'].head(5))
    
    # Tracks
    print("\n=== TRACKS ===")
    display(data_to_insert['sp_tracks'].head(5))
    
    # Audio Features
    print("\n=== AUDIO FEATURES ===")
    display(data_to_insert['sp_audio_features'].head(5))

### √âtape 1.2 : Test de Connexion √† Oracle

Avant toute op√©ration sur la base de donn√©es, il est essentiel de v√©rifier la connectivit√© avec le serveur Oracle. Cette √©tape teste les param√®tres de connexion (utilisateur, mot de passe, DSN) et s'assure que la base de donn√©es est accessible et op√©rationnelle.

In [None]:
print("üîå Test de connexion √† Oracle...\n")

db_manager = DatabaseManager()

if db_manager.connect():
    print("\n‚úÖ Connexion Oracle √©tablie !")
    
    # Afficher les statistiques si des tables existent
    try:
        stats = db_manager.get_statistics()
        if stats:
            print("\nüìä Tables existantes :")
            for table, count in stats.items():
                print(f"  ‚Ä¢ {table:<25} : {count:>6} lignes")
    except:
        print("\n‚ÑπÔ∏è  Aucune table existante (base vide)")
    
    db_manager.close()
else:
    print("‚ùå √âchec de la connexion Oracle")
    print("üí° V√©rifiez que Oracle est d√©marr√© et les identifiants sont corrects")

### √âtape 1.3 : Insertion des Donn√©es dans Oracle

Une fois les donn√©es normalis√©es et structur√©es, elles sont ins√©r√©es dans la base de donn√©es Oracle en respectant l'ordre des d√©pendances et l'int√©grit√© r√©f√©rentielle. Le module `db_manager.py` g√®re la connexion √† la base de donn√©es, la cr√©ation des tables et l'insertion s√©curis√©e des donn√©es avec gestion automatique des cl√©s √©trang√®res.

In [None]:

print("üîÑ Initialisation de la base de donn√©es Oracle...\n")

db_manager = DatabaseManager()

if db_manager.connect():
    # Initialiser (drop + create tables)
    print("‚ö†Ô∏è  Suppression et recr√©ation des tables...")
    db_manager.initialize_db(drop_first=True)
    
    # Ins√©rer les donn√©es
    print("\nüíæ Insertion des donn√©es...")
    success = db_manager.insert_data(data_to_insert)
    
    if success:
        print("\n‚úÖ Donn√©es ins√©r√©es avec succ√®s !")
        
        # Afficher les statistiques
        stats = db_manager.get_statistics()
        if stats:
            print("\nüìä Statistiques finales :")
            for table, count in stats.items():
                print(f"  ‚Ä¢ {table:<25} : {count:>6} lignes")
    else:
        print("‚ùå √âchec de l'insertion")
    
    db_manager.close()

print("‚ÑπÔ∏è  Cellule comment√©e pour √©viter la suppression accidentelle des donn√©es")
print("üí° D√©commentez le code pour ex√©cuter l'insertion")

### √âtape 1.4 : Export vers XML

Une fois les donn√©es stock√©es dans Oracle, elles sont extraites et export√©es au format XML structur√©. Cette transformation permet d'obtenir une repr√©sentation hi√©rarchique des donn√©es, facilitant leur √©change et leur transformation ult√©rieure vers d'autres formats.

In [None]:
print("üîÑ Export des donn√©es vers XML...\n")

db_manager = DatabaseManager()

if db_manager.connect():
    # R√©cup√©rer les donn√©es pour l'export
    xml_data = db_manager.fetch_data_for_xml()
    
    if xml_data:
        print(f"‚úÖ {len(xml_data)} enregistrements r√©cup√©r√©s\n")
        
        # Exporter vers XML
        xml_file = export_to_xml(xml_data)
        
        if xml_file:
            print(f"\n‚úÖ Fichier XML g√©n√©r√© : {xml_file}")
            
            # Afficher la taille du fichier
            file_size = Path(xml_file).stat().st_size
            print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
    else:
        print("‚ùå Aucune donn√©e √† exporter")
    
    db_manager.close()
else:
    print("‚ùå √âchec de la connexion Oracle")

### √âtape 1.5 : Validation DTD

Apr√®s la g√©n√©ration du fichier XML, il est essentiel de valider sa structure et sa conformit√©. La DTD (Document Type Definition) d√©finit les r√®gles de structure du XML et permet de v√©rifier que le document g√©n√©r√© respecte bien le mod√®le attendu, garantissant ainsi l'int√©grit√© et la coh√©rence des donn√©es export√©es.

In [None]:
print("üîÑ Cr√©ation et validation DTD...\n")

# Cr√©er la DTD
dtd_file = create_spotify_dtd()

if dtd_file:
    print("\n‚úÖ DTD cr√©√©e avec succ√®s\n")
    
    # Valider le XML
    xml_file = XML_OUTPUT_PATH
    
    if Path(xml_file).exists():
        is_valid, errors = validate_xml_with_dtd(xml_file, dtd_file)
        
        if is_valid:
            print("\n‚úÖ Validation DTD r√©ussie !")
        else:
            print(f"\n‚ùå Validation √©chou√©e : {len(errors)} erreur(s)")
    else:
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
else:
    print("‚ùå √âchec de la cr√©ation de la DTD")

### √âtape 1.6 : Transformation XSLT ‚Üí HTML

La derni√®re √©tape du pipeline consiste √† transformer le fichier XML valid√© en une page HTML interactive et visuellement enrichie. La feuille de style XSLT d√©finit les r√®gles de transformation permettant de convertir les donn√©es structur√©es en un format web lisible et esth√©tique, pr√™t √† √™tre consult√© dans un navigateur.

In [None]:
print("üîÑ Transformation XSLT vers HTML...\n")

xml_file = XML_OUTPUT_PATH

if Path(xml_file).exists():
    html_file = transform_to_html(xml_file)
    
    if html_file:
        print(f"\n‚úÖ Dashboard HTML g√©n√©r√© : {html_file}")
        
        # Afficher la taille
        file_size = Path(html_file).stat().st_size
        print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
        
        print("\nüí° Ouvrez le fichier dans votre navigateur pour voir le dashboard")
    else:
        print("‚ùå √âchec de la transformation HTML")
else:
    print(f"‚ùå Fichier XML introuvable : {xml_file}")

---

## 5. Pipeline 2 : XML ‚Üí XSD ‚Üí JSON ‚Üí MongoDB <a id="pipeline2"></a>

Ce second pipeline d√©montre une approche alternative de gestion des donn√©es, orient√©e vers les bases de donn√©es NoSQL. √Ä partir du fichier XML g√©n√©r√© pr√©c√©demment, nous mettons en ≈ìuvre une cha√Æne de transformation compl√®te : validation de la structure avec un sch√©ma XSD, conversion au format JSON, puis stockage dans une base de donn√©es MongoDB. Ce pipeline illustre l'interop√©rabilit√© des formats de donn√©es et la flexibilit√© offerte par les bases de donn√©es documentaires pour le stockage et l'exploitation de donn√©es semi-structur√©es.

### √âtape 2.1 : G√©n√©ration du Sch√©ma 

Le sch√©ma XSD (XML Schema Definition) constitue une alternative plus puissante et expressive que la DTD pour d√©finir la structure d'un document XML. Cette √©tape g√©n√®re automatiquement un sch√©ma XSD √† partir du fichier XML, permettant de sp√©cifier avec pr√©cision les types de donn√©es, les contraintes et les validations applicables √† chaque √©l√©ment.

In [None]:
print("üîÑ G√©n√©ration du sch√©ma XSD...\n")

xsd_file = XSD_PATH

success = create_spotify_xsd(xsd_file)

if success:
    print("\n‚úÖ Sch√©ma XSD cr√©√© avec succ√®s !")
    
    # Afficher la taille
    file_size = Path(xsd_file).stat().st_size
    print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
else:
    print("‚ùå √âchec de la cr√©ation du XSD")

### √âtape 2.2 : Validation XSD

Une fois le sch√©ma XSD g√©n√©r√©, il est n√©cessaire de valider le fichier XML contre ce sch√©ma pour garantir sa conformit√©. Cette validation v√©rifie que toutes les contraintes de types, de cardinalit√©s et de structures d√©finies dans le XSD sont respect√©es, assurant ainsi l'int√©grit√© et la qualit√© des donn√©es avant leur conversion.

In [None]:
print("üîÑ Validation du XML avec le sch√©ma XSD...\n")

xml_file = XML_OUTPUT_PATH
xsd_file = XSD_PATH

if Path(xml_file).exists() and Path(xsd_file).exists():
    is_valid, errors = validate_xml_with_xsd(xml_file, xsd_file)
    
    if is_valid:
        print("\n‚úÖ Validation XSD r√©ussie !")
        print("üìã Le XML est conforme au sch√©ma XSD")
    else:
        print(f"\n‚ùå Validation √©chou√©e : {len(errors)} erreur(s)")
        for error in errors[:5]:  # Afficher les 5 premi√®res erreurs
            print(f"  ‚Ä¢ Ligne {error.get('line', 'N/A')} : {error.get('message', 'N/A')}")
else:
    if not Path(xml_file).exists():
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
    if not Path(xsd_file).exists():
        print(f"‚ùå Fichier XSD introuvable : {xsd_file}")

### √âtape 2.3 : Transformation XML ‚Üí JSON via 

Pour permettre le stockage des donn√©es dans MongoDB, il est n√©cessaire de convertir le format XML en JSON, format natif des bases de donn√©es NoSQL documentaires. Cette transformation est r√©alis√©e √† l'aide d'une feuille de style XSLT sp√©cifique qui convertit la structure hi√©rarchique XML en objets JSON compatibles avec MongoDB.

In [None]:
print("üîÑ Transformation XML ‚Üí JSON via XSLT...\n")

xml_file = XML_OUTPUT_PATH
xslt_file = XSLT_JSON_PATH
json_file = JSON_OUTPUT_PATH

if Path(xml_file).exists() and Path(xslt_file).exists():
    success, json_data = convert_xml_to_json(xml_file, xslt_file, json_file)
    
    if success and json_data:
        print("\n‚úÖ Conversion JSON r√©ussie !")
        
        # Afficher des statistiques
        print(f"\nüìä Statistiques du JSON :")
        print(f"  ‚Ä¢ Total playlists    : {json_data.get('total_playlists', 0)}")
        print(f"  ‚Ä¢ Total tracks       : {json_data.get('total_tracks', 0)}")
        
        # Taille du fichier
        file_size = Path(json_file).stat().st_size
        print(f"  ‚Ä¢ Taille fichier     : {file_size:,} bytes ({file_size/1024:.2f} KB)")
    else:
        print("‚ùå √âchec de la conversion JSON")
else:
    if not Path(xml_file).exists():
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
    if not Path(xslt_file).exists():
        print(f"‚ùå Fichier XSLT introuvable : {xslt_file}")

### √âtape 2.4 : Test de Connexion 


Avant d'ins√©rer les donn√©es converties en JSON, il est indispensable de v√©rifier la connectivit√© avec le serveur MongoDB. Cette √©tape teste les param√®tres de connexion et s'assure que la base de donn√©es NoSQL est accessible et pr√™te √† recevoir les documents JSON.

In [None]:
print("üîå Test de connexion √† MongoDB...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    print("\n‚úÖ Connexion MongoDB √©tablie !")
    
    # Lister les collections existantes
    try:
        collections = mongo_manager.db.list_collection_names()
        if collections:
            print("\nüìä Collections existantes :")
            for collection in collections:
                count = mongo_manager.db[collection].count_documents({})
                print(f"  ‚Ä¢ {collection:<20} : {count:>6} documents")
        else:
            print("\n‚ÑπÔ∏è  Aucune collection existante (base vide)")
    except Exception as e:
        print(f"‚ö†Ô∏è  Erreur : {e}")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")
    print(f"üí° V√©rifiez que MongoDB est d√©marr√© sur {MONGO_HOST}:{MONGO_PORT}")

### √âtape 2.5 : Insertion des Donn√©es dans MongoDB


Une fois la connexion √©tablie et les donn√©es converties au format JSON, elles sont ins√©r√©es dans MongoDB sous forme de documents. Cette √©tape exploite la flexibilit√© du mod√®le NoSQL pour stocker les donn√©es semi-structur√©es de mani√®re efficace, permettant des requ√™tes rapides et une scalabilit√© optimale.

In [None]:
print("üîÑ Insertion des donn√©es dans MongoDB...\n")

json_file = JSON_OUTPUT_PATH

if not Path(json_file).exists():
    print(f"‚ùå Fichier JSON introuvable : {json_file}")
else:
    # Charger le JSON
    with open(json_file, 'r', encoding='utf-8') as f:
        json_data = json.load(f)
    
    # Se connecter √† MongoDB
    mongo_manager = MongoDBManager(
        host=MONGO_HOST,
        port=MONGO_PORT,
        database=MONGO_DATABASE
    )
    
    if mongo_manager.connect():
        # Ins√©rer les playlists (avec suppression de la collection existante)
        success, count = mongo_manager.insert_spotify_playlists(json_data, clear_first=True)
        
        if success:
            print(f"\n‚úÖ {count} playlists ins√©r√©es avec succ√®s !")
            
            # Afficher les statistiques
            stats = mongo_manager.get_collection_stats('playlists')
        else:
            print("‚ùå √âchec de l'insertion")
        
        mongo_manager.close()
    else:
        print("‚ùå √âchec de la connexion MongoDB")

## 6. Dashboard de Visualisation <a id="dashboard"></a>

Pour faciliter l'exploration et l'analyse des donn√©es Spotify, nous avons d√©velopp√© une application web interactive permettant de visualiser les r√©sultats des deux pipelines. Ce dashboard, d√©velopp√© avec Node.js (backend) et React.js (frontend), s'appuie sur MongoDB pour offrir une interface dynamique et responsive.

### Architecture du Dashboard

L'application se compose de trois √©l√©ments principaux :
- **Backend (Node.js)** : API REST exposant les donn√©es sur le port 5000
- **Frontend (React.js)** : Interface utilisateur moderne et interactive sur le port 3000
- **MongoDB** : Base de donn√©es NoSQL stockant les donn√©es converties en JSON

### Lancement du Dashboard


In [None]:
# Chemin vers le dossier spotify-dashboard
dashboard_path = Path("spotify-dashboard")

print("="*50)
print("   Installation et lancement du Dashboard")
print("="*50)
print()

# √âtape 1 : Installation des d√©pendances
print("[1/3] Installation des d√©pendances...")
print()

# Installation backend
print("Installation du backend...")
backend_path = dashboard_path / "backend"
result = subprocess.run(["npm", "install"], cwd=backend_path, shell=True, capture_output=True, text=True)
if result.returncode == 0:
    print("‚úÖ Backend install√© avec succ√®s")
else:
    print(f"‚ùå Erreur backend : {result.stderr}")

# Installation frontend
print("Installation du frontend...")
frontend_path = dashboard_path / "frontend"
result = subprocess.run(["npm", "install"], cwd=frontend_path, shell=True, capture_output=True, text=True)
if result.returncode == 0:
    print("‚úÖ Frontend install√© avec succ√®s")
else:
    print(f"‚ùå Erreur frontend : {result.stderr}")

print()
print("="*50)
print("   Installation termin√©e")
print("="*50)
print()

# Lancement backend (en arri√®re-plan)
print("D√©marrage du backend sur http://localhost:5000")
subprocess.Popen(["npm", "run", "dev"], cwd=backend_path, shell=True)

# Attendre 3 secondes
import time
time.sleep(3)

# Lancement frontend (en arri√®re-plan)
print("D√©marrage du frontend sur http://localhost:3200")
subprocess.Popen(["npm", "run", "dev"], cwd=frontend_path, shell=True)

print()
print("="*50)
print("   Dashboard lanc√© avec succ√®s!")
print("="*50)
print()
print("üåê Backend:  http://localhost:5000")
print("üåê Frontend: http://localhost:3200")

## D√©marrage manuel du Dashboard

### D√©marrage du Backend
```bash
cd spotify-dashboard/backend
npm run dev
```

Le serveur backend d√©marre sur **http://localhost:5000**

---

### D√©marrage du Frontend
```bash
cd spotify-dashboard/frontend
npm run dev
```

L'interface frontend est accessible sur **http://localhost:3200**


## 7. Conclusion <a id="conclusion"></a>

### Synth√®se du projet

Ce projet a permis de mettre en ≈ìuvre deux pipelines complets de traitement de donn√©es, illustrant concr√®tement les processus d'extraction, transformation, stockage et pr√©sentation de donn√©es. Du fichier CSV brut jusqu'aux visualisations web interactives, nous avons d√©montr√© l'ensemble du cycle de vie des donn√©es en exploitant des technologies compl√©mentaires.

### Objectifs atteints

Le **premier pipeline (CSV ‚Üí Oracle ‚Üí XML ‚Üí HTML)** a d√©montr√© l'approche relationnelle avec :
- La normalisation compl√®te des donn√©es brutes (8 tables en 3NF)
- La gestion de l'int√©grit√© r√©f√©rentielle dans Oracle
- La validation structurelle avec DTD
- La transformation XSLT pour la pr√©sentation web

Le **second pipeline (XML ‚Üí XSD ‚Üí JSON ‚Üí MongoDB)** a illustr√© l'approche NoSQL avec :
- La validation avanc√©e par sch√©ma XSD
- La conversion de formats (XML vers JSON)
- Le stockage flexible dans MongoDB
- L'exploitation des donn√©es via une API REST

Le **dashboard de visualisation** a permis de :
- Cr√©er une interface web moderne et interactive
- Exploiter les donn√©es stock√©es dans MongoDB
- Offrir une exp√©rience utilisateur fluide et intuitive

### Comp√©tences acquises

Ce projet a permis de ma√Ætriser :
- La **mod√©lisation de donn√©es** relationnelles et NoSQL
- La **normalisation** et l'optimisation de sch√©mas
- La **manipulation de donn√©es** avec Python (pandas, oracledb)
- Les **formats d'√©change** standardis√©s (XML, JSON)
- Les **technologies de validation** (DTD, XSD)
- Les **transformations de donn√©es** (XSLT)
- Le **d√©veloppement full-stack** (Node.js, React.js)
- L'**int√©gration de syst√®mes** h√©t√©rog√®nes

### Bilan

Ce projet a d√©montr√© qu'une approche m√©thodique et structur√©e permet de transformer efficacement des donn√©es brutes en informations exploitables et visuellement enrichies. L'utilisation compl√©mentaire de bases de donn√©es relationnelles (Oracle) et NoSQL (MongoDB) a illustr√© la flexibilit√© n√©cessaire dans les architectures modernes de gestion de donn√©es. 

Les comp√©tences acquises constituent une base solide pour appr√©hender les probl√©matiques r√©elles de traitement et d'exploitation de donn√©es dans des environnements professionnels.


## Lien github du projet

**https://github.com/kdcl3110/DBA_Spotify**

