# üéµ Spotify Analytics Pipeline - D√©monstration Compl√®te

Ce notebook documente et d√©montre les deux pipelines ETL du projet d'analyse de donn√©es Spotify.

## üìã Table des Mati√®res

1. [Introduction et Configuration](#introduction)
2. [Pipeline 1 : CSV ‚Üí Oracle ‚Üí XML ‚Üí HTML](#pipeline1)
3. [Pipeline 2 : XML ‚Üí XSD ‚Üí JSON ‚Üí MongoDB](#pipeline2)
4. [Analyse et Visualisation des Donn√©es](#analyse)
5. [Requ√™tes Avanc√©es MongoDB](#requetes)
6. [Conclusion](#conclusion)

---

## 1. Introduction et Configuration <a id="introduction"></a>

### Architecture Globale

Ce projet impl√©mente **deux pipelines ETL compl√©mentaires** :

**Pipeline 1 : Relationnel (Oracle)**
```
CSV ‚Üí Normalisation ‚Üí Oracle ‚Üí XML ‚Üí Validation DTD ‚Üí XSLT ‚Üí HTML Dashboard
```

**Pipeline 2 : NoSQL (MongoDB)**
```
XML ‚Üí G√©n√©ration XSD ‚Üí Validation XSD ‚Üí XSLT ‚Üí JSON ‚Üí MongoDB
```

### Imports et Configuration

In [None]:
# Imports standards
import sys
import os
import json
from pathlib import Path
import pandas as pd
from datetime import datetime

# Ajouter le r√©pertoire du projet au PYTHONPATH
project_root = Path.cwd()
if str(project_root) not in sys.path:
    sys.path.insert(0, str(project_root))

print(f"üìÅ R√©pertoire de travail : {project_root}")
print(f"üêç Version Python : {sys.version}")
print(f"üìÖ Date : {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

In [None]:
# Imports des modules du projet
try:
    from DB.db_manager import DatabaseManager
    from DB.mongodb_manager import MongoDBManager
    from services.data_processor import preprocess_csv
    from services.xml_exporter import export_to_xml
    from services.dtd_creator import create_spotify_dtd
    from services.dtd_validator import validate_xml_with_dtd
    from services.xsd_creator import create_spotify_xsd
    from services.xsd_validator import validate_xml_with_xsd
    from services.json_converter import convert_xml_to_json
    from services.xslt_transformer import transform_to_html
    from configs.config import *
    
    print("‚úÖ Tous les modules ont √©t√© import√©s avec succ√®s !")
except ImportError as e:
    print(f"‚ùå Erreur d'import : {e}")
    print("üí° Assurez-vous d'ex√©cuter ce notebook depuis le r√©pertoire racine du projet")

### V√©rification des Fichiers et Dossiers

In [None]:
# V√©rifier la structure du projet
print("üìÇ Structure du projet :\n")

directories = [
    "configs",
    "DB",
    "services",
    "data/input",
    "data/output"
]

for directory in directories:
    path = Path(directory)
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"{status} {directory}")

print("\nüìÑ Fichiers importants :\n")

files = [
    "data/input/high_popularity_spotify_data.csv",
    "data/input/spotify_transform.xslt",
    "data/input/spotify_to_json.xslt",
    "main.py",
    "requirements.txt"
]

for file in files:
    path = Path(file)
    status = "‚úÖ" if path.exists() else "‚ùå"
    print(f"{status} {file}")

---

## 2. Pipeline 1 : CSV ‚Üí Oracle ‚Üí XML ‚Üí HTML <a id="pipeline1"></a>

### √âtape 1.1 : Extraction et Normalisation des Donn√©es CSV

In [None]:
print("üîÑ Extraction des donn√©es CSV...\n")

# Pr√©traiter le CSV
data_to_insert = preprocess_csv()

if data_to_insert:
    print("\n‚úÖ Donn√©es extraites et normalis√©es !\n")
    print("üìä Aper√ßu des tables cr√©√©es :\n")
    
    for table_name, df in data_to_insert.items():
        print(f"  ‚Ä¢ {table_name:<25} : {len(df):>6} lignes")
else:
    print("‚ùå √âchec de l'extraction")

### Visualisation des Donn√©es Extraites

In [None]:
# Afficher un √©chantillon de chaque table
if data_to_insert:
    print("üìã √âchantillons de donn√©es :\n")
    
    # Genres
    print("\n=== GENRES ===")
    display(data_to_insert['sp_genres'].head(5))
    
    # Playlists
    print("\n=== PLAYLISTS ===")
    display(data_to_insert['sp_playlists'].head(5))
    
    # Tracks
    print("\n=== TRACKS ===")
    display(data_to_insert['sp_tracks'].head(5))
    
    # Audio Features
    print("\n=== AUDIO FEATURES ===")
    display(data_to_insert['sp_audio_features'].head(5))

### √âtape 1.2 : Test de Connexion √† Oracle

In [None]:
print("üîå Test de connexion √† Oracle...\n")

db_manager = DatabaseManager()

if db_manager.connect():
    print("\n‚úÖ Connexion Oracle √©tablie !")
    
    # Afficher les statistiques si des tables existent
    try:
        stats = db_manager.get_statistics()
        if stats:
            print("\nüìä Tables existantes :")
            for table, count in stats.items():
                print(f"  ‚Ä¢ {table:<25} : {count:>6} lignes")
    except:
        print("\n‚ÑπÔ∏è  Aucune table existante (base vide)")
    
    db_manager.close()
else:
    print("‚ùå √âchec de la connexion Oracle")
    print("üí° V√©rifiez que Oracle est d√©marr√© et les identifiants sont corrects")

### √âtape 1.3 : Insertion des Donn√©es dans Oracle

‚ö†Ô∏è **Attention** : Cette cellule supprime et recr√©e les tables existantes !

In [None]:
# D√âCOMMENTER POUR EX√âCUTER (supprime les donn√©es existantes !)
# print("üîÑ Initialisation de la base de donn√©es Oracle...\n")

# db_manager = DatabaseManager()

# if db_manager.connect():
#     # Initialiser (drop + create tables)
#     print("‚ö†Ô∏è  Suppression et recr√©ation des tables...")
#     db_manager.initialize_db(drop_first=True)
    
#     # Ins√©rer les donn√©es
#     print("\nüíæ Insertion des donn√©es...")
#     success = db_manager.insert_data(data_to_insert)
    
#     if success:
#         print("\n‚úÖ Donn√©es ins√©r√©es avec succ√®s !")
        
#         # Afficher les statistiques
#         stats = db_manager.get_statistics()
#         if stats:
#             print("\nüìä Statistiques finales :")
#             for table, count in stats.items():
#                 print(f"  ‚Ä¢ {table:<25} : {count:>6} lignes")
#     else:
#         print("‚ùå √âchec de l'insertion")
    
#     db_manager.close()

print("‚ÑπÔ∏è  Cellule comment√©e pour √©viter la suppression accidentelle des donn√©es")
print("üí° D√©commentez le code pour ex√©cuter l'insertion")

### √âtape 1.4 : Export vers XML

In [None]:
print("üîÑ Export des donn√©es vers XML...\n")

db_manager = DatabaseManager()

if db_manager.connect():
    # R√©cup√©rer les donn√©es pour l'export
    xml_data = db_manager.fetch_data_for_xml()
    
    if xml_data:
        print(f"‚úÖ {len(xml_data)} enregistrements r√©cup√©r√©s\n")
        
        # Exporter vers XML
        xml_file = export_to_xml(xml_data)
        
        if xml_file:
            print(f"\n‚úÖ Fichier XML g√©n√©r√© : {xml_file}")
            
            # Afficher la taille du fichier
            file_size = Path(xml_file).stat().st_size
            print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
    else:
        print("‚ùå Aucune donn√©e √† exporter")
    
    db_manager.close()
else:
    print("‚ùå √âchec de la connexion Oracle")

### √âtape 1.5 : Validation DTD

In [None]:
print("üîÑ Cr√©ation et validation DTD...\n")

# Cr√©er la DTD
dtd_file = create_spotify_dtd()

if dtd_file:
    print("\n‚úÖ DTD cr√©√©e avec succ√®s\n")
    
    # Valider le XML
    xml_file = XML_OUTPUT_PATH
    
    if Path(xml_file).exists():
        is_valid, errors = validate_xml_with_dtd(xml_file, dtd_file)
        
        if is_valid:
            print("\n‚úÖ Validation DTD r√©ussie !")
        else:
            print(f"\n‚ùå Validation √©chou√©e : {len(errors)} erreur(s)")
    else:
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
else:
    print("‚ùå √âchec de la cr√©ation de la DTD")

### √âtape 1.6 : Transformation XSLT ‚Üí HTML

In [None]:
print("üîÑ Transformation XSLT vers HTML...\n")

xml_file = XML_OUTPUT_PATH

if Path(xml_file).exists():
    html_file = transform_to_html(xml_file)
    
    if html_file:
        print(f"\n‚úÖ Dashboard HTML g√©n√©r√© : {html_file}")
        
        # Afficher la taille
        file_size = Path(html_file).stat().st_size
        print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
        
        print("\nüí° Ouvrez le fichier dans votre navigateur pour voir le dashboard")
    else:
        print("‚ùå √âchec de la transformation HTML")
else:
    print(f"‚ùå Fichier XML introuvable : {xml_file}")

---

## 3. Pipeline 2 : XML ‚Üí XSD ‚Üí JSON ‚Üí MongoDB <a id="pipeline2"></a>

### √âtape 2.1 : G√©n√©ration du Sch√©ma XSD

In [None]:
print("üîÑ G√©n√©ration du sch√©ma XSD...\n")

xsd_file = XSD_PATH

success = create_spotify_xsd(xsd_file)

if success:
    print("\n‚úÖ Sch√©ma XSD cr√©√© avec succ√®s !")
    
    # Afficher la taille
    file_size = Path(xsd_file).stat().st_size
    print(f"üì¶ Taille : {file_size:,} bytes ({file_size/1024:.2f} KB)")
else:
    print("‚ùå √âchec de la cr√©ation du XSD")

### √âtape 2.2 : Validation XSD

In [None]:
print("üîÑ Validation du XML avec le sch√©ma XSD...\n")

xml_file = XML_OUTPUT_PATH
xsd_file = XSD_PATH

if Path(xml_file).exists() and Path(xsd_file).exists():
    is_valid, errors = validate_xml_with_xsd(xml_file, xsd_file)
    
    if is_valid:
        print("\n‚úÖ Validation XSD r√©ussie !")
        print("üìã Le XML est conforme au sch√©ma XSD")
    else:
        print(f"\n‚ùå Validation √©chou√©e : {len(errors)} erreur(s)")
        for error in errors[:5]:  # Afficher les 5 premi√®res erreurs
            print(f"  ‚Ä¢ Ligne {error.get('line', 'N/A')} : {error.get('message', 'N/A')}")
else:
    if not Path(xml_file).exists():
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
    if not Path(xsd_file).exists():
        print(f"‚ùå Fichier XSD introuvable : {xsd_file}")

### √âtape 2.3 : Transformation XML ‚Üí JSON via XSLT

In [None]:
print("üîÑ Transformation XML ‚Üí JSON via XSLT...\n")

xml_file = XML_OUTPUT_PATH
xslt_file = XSLT_JSON_PATH
json_file = JSON_OUTPUT_PATH

if Path(xml_file).exists() and Path(xslt_file).exists():
    success, json_data = convert_xml_to_json(xml_file, xslt_file, json_file)
    
    if success and json_data:
        print("\n‚úÖ Conversion JSON r√©ussie !")
        
        # Afficher des statistiques
        print(f"\nüìä Statistiques du JSON :")
        print(f"  ‚Ä¢ Total playlists    : {json_data.get('total_playlists', 0)}")
        print(f"  ‚Ä¢ Total tracks       : {json_data.get('total_tracks', 0)}")
        
        # Taille du fichier
        file_size = Path(json_file).stat().st_size
        print(f"  ‚Ä¢ Taille fichier     : {file_size:,} bytes ({file_size/1024:.2f} KB)")
    else:
        print("‚ùå √âchec de la conversion JSON")
else:
    if not Path(xml_file).exists():
        print(f"‚ùå Fichier XML introuvable : {xml_file}")
    if not Path(xslt_file).exists():
        print(f"‚ùå Fichier XSLT introuvable : {xslt_file}")

### Aper√ßu du JSON G√©n√©r√©

In [None]:
# Charger et afficher un √©chantillon du JSON
json_file = JSON_OUTPUT_PATH

if Path(json_file).exists():
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    print("üìã Aper√ßu du JSON (premi√®re playlist) :\n")
    
    if data.get('playlists'):
        first_playlist = data['playlists'][0]
        
        # Afficher avec indentation
        print(json.dumps(first_playlist, indent=2, ensure_ascii=False)[:1000] + "...")
else:
    print(f"‚ùå Fichier JSON introuvable : {json_file}")

### √âtape 2.4 : Test de Connexion MongoDB

In [None]:
print("üîå Test de connexion √† MongoDB...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    print("\n‚úÖ Connexion MongoDB √©tablie !")
    
    # Lister les collections existantes
    try:
        collections = mongo_manager.db.list_collection_names()
        if collections:
            print("\nüìä Collections existantes :")
            for collection in collections:
                count = mongo_manager.db[collection].count_documents({})
                print(f"  ‚Ä¢ {collection:<20} : {count:>6} documents")
        else:
            print("\n‚ÑπÔ∏è  Aucune collection existante (base vide)")
    except Exception as e:
        print(f"‚ö†Ô∏è  Erreur : {e}")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")
    print(f"üí° V√©rifiez que MongoDB est d√©marr√© sur {MONGO_HOST}:{MONGO_PORT}")

### √âtape 2.5 : Insertion des Donn√©es dans MongoDB

‚ö†Ô∏è **Attention** : Cette cellule supprime et recr√©e la collection `playlists` !

In [None]:
print("üîÑ Insertion des donn√©es dans MongoDB...\n")

json_file = JSON_OUTPUT_PATH

if not Path(json_file).exists():
    print(f"‚ùå Fichier JSON introuvable : {json_file}")
else:
    # Charger le JSON
    with open(json_file, 'r', encoding='utf-8') as f:
        json_data = json.load(f)
    
    # Se connecter √† MongoDB
    mongo_manager = MongoDBManager(
        host=MONGO_HOST,
        port=MONGO_PORT,
        database=MONGO_DATABASE
    )
    
    if mongo_manager.connect():
        # Ins√©rer les playlists (avec suppression de la collection existante)
        success, count = mongo_manager.insert_spotify_playlists(json_data, clear_first=True)
        
        if success:
            print(f"\n‚úÖ {count} playlists ins√©r√©es avec succ√®s !")
            
            # Afficher les statistiques
            stats = mongo_manager.get_collection_stats('playlists')
        else:
            print("‚ùå √âchec de l'insertion")
        
        mongo_manager.close()
    else:
        print("‚ùå √âchec de la connexion MongoDB")

---

## 4. Analyse et Visualisation des Donn√©es <a id="analyse"></a>

### Analyse des Donn√©es dans MongoDB

In [None]:
# Imports pour la visualisation
try:
    import matplotlib.pyplot as plt
    import seaborn as sns
    
    # Configuration du style
    plt.style.use('seaborn-v0_8-darkgrid')
    sns.set_palette("husl")
    
    print("‚úÖ Biblioth√®ques de visualisation charg√©es")
except ImportError as e:
    print(f"‚ö†Ô∏è  Erreur d'import : {e}")
    print("üí° Installez les d√©pendances : pip install matplotlib seaborn")

In [None]:
print("üìä R√©cup√©ration des donn√©es depuis MongoDB...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    # R√©cup√©rer toutes les playlists
    collection = mongo_manager.db['playlists']
    playlists = list(collection.find({}))
    
    if playlists:
        print(f"‚úÖ {len(playlists)} playlists r√©cup√©r√©es\n")
        
        # Convertir en DataFrame pour l'analyse
        playlists_df = pd.DataFrame(playlists)
        
        print("üìã Colonnes disponibles :")
        print(playlists_df.columns.tolist())
        
        print("\nüìä Statistiques de base :")
        print(f"  ‚Ä¢ Total playlists    : {len(playlists_df)}")
        print(f"  ‚Ä¢ Genres uniques     : {playlists_df['genre'].nunique()}")
        print(f"  ‚Ä¢ Subgenres uniques  : {playlists_df['subgenre'].nunique()}")
        
        # Total de tracks
        total_tracks = playlists_df['tracks_count'].sum()
        print(f"  ‚Ä¢ Total tracks       : {total_tracks}")
        print(f"  ‚Ä¢ Tracks/playlist (moy) : {total_tracks/len(playlists_df):.2f}")
    else:
        print("‚ö†Ô∏è  Aucune playlist trouv√©e")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")

### Distribution des Genres

In [None]:
if 'playlists_df' in locals():
    # Distribution des genres
    genre_counts = playlists_df['genre'].value_counts()
    
    plt.figure(figsize=(12, 6))
    genre_counts.plot(kind='bar', color='skyblue')
    plt.title('Distribution des Playlists par Genre', fontsize=16, fontweight='bold')
    plt.xlabel('Genre', fontsize=12)
    plt.ylabel('Nombre de Playlists', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
    
    print("\nüìä Top 10 des genres :")
    for genre, count in genre_counts.head(10).items():
        print(f"  ‚Ä¢ {genre:<20} : {count:>3} playlists")
else:
    print("‚ùå Donn√©es non disponibles")

### Distribution des Tracks par Playlist

In [None]:
if 'playlists_df' in locals():
    plt.figure(figsize=(12, 6))
    plt.hist(playlists_df['tracks_count'], bins=20, color='lightcoral', edgecolor='black')
    plt.title('Distribution du Nombre de Tracks par Playlist', fontsize=16, fontweight='bold')
    plt.xlabel('Nombre de Tracks', fontsize=12)
    plt.ylabel('Nombre de Playlists', fontsize=12)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    print("\nüìä Statistiques sur les tracks :")
    print(f"  ‚Ä¢ Minimum  : {playlists_df['tracks_count'].min()} tracks")
    print(f"  ‚Ä¢ Maximum  : {playlists_df['tracks_count'].max()} tracks")
    print(f"  ‚Ä¢ Moyenne  : {playlists_df['tracks_count'].mean():.2f} tracks")
    print(f"  ‚Ä¢ M√©diane  : {playlists_df['tracks_count'].median():.0f} tracks")
else:
    print("‚ùå Donn√©es non disponibles")

### Analyse des Caract√©ristiques Audio

Extraction et analyse des caract√©ristiques audio moyennes par genre.

In [None]:
if 'playlists' in locals():
    # Extraire les caract√©ristiques audio de tous les tracks
    audio_features_list = []
    
    for playlist in playlists:
        genre = playlist.get('genre', 'unknown')
        for track in playlist.get('tracks', []):
            features = track.get('audio_features', {})
            if features:
                audio_features_list.append({
                    'genre': genre,
                    'energy': features.get('energy', 0),
                    'tempo': features.get('tempo', 0),
                    'danceability': features.get('danceability', 0),
                    'loudness': features.get('loudness', 0),
                    'valence': features.get('valence', 0)
                })
    
    audio_df = pd.DataFrame(audio_features_list)
    
    print(f"‚úÖ {len(audio_df)} caract√©ristiques audio extraites\n")
    
    # Moyennes par genre
    audio_by_genre = audio_df.groupby('genre').mean()
    
    print("üìä Caract√©ristiques audio moyennes par genre :\n")
    display(audio_by_genre.round(3))
else:
    print("‚ùå Donn√©es non disponibles")

### Heatmap des Caract√©ristiques Audio par Genre

In [None]:
if 'audio_by_genre' in locals():
    # Normaliser les valeurs pour une meilleure visualisation
    audio_normalized = audio_by_genre.copy()
    audio_normalized['tempo'] = audio_normalized['tempo'] / audio_normalized['tempo'].max()
    audio_normalized['loudness'] = (audio_normalized['loudness'] - audio_normalized['loudness'].min()) / (audio_normalized['loudness'].max() - audio_normalized['loudness'].min())
    
    plt.figure(figsize=(12, 8))
    sns.heatmap(audio_normalized.T, annot=True, fmt='.2f', cmap='YlOrRd', cbar_kws={'label': 'Valeur Normalis√©e'})
    plt.title('Heatmap des Caract√©ristiques Audio par Genre\n(Valeurs normalis√©es)', fontsize=16, fontweight='bold')
    plt.xlabel('Genre', fontsize=12)
    plt.ylabel('Caract√©ristique', fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
else:
    print("‚ùå Donn√©es non disponibles")

---

## 5. Requ√™tes Avanc√©es MongoDB <a id="requetes"></a>

### Exemples de Requ√™tes MongoDB

#### Requ√™te 1 : Playlists par Genre

In [None]:
print("üîç Recherche de playlists latines...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    collection = mongo_manager.db['playlists']
    
    # Requ√™te : playlists du genre "latin"
    latin_playlists = list(collection.find(
        {"genre": "latin"},
        {"nom": 1, "subgenre": 1, "tracks_count": 1, "_id": 0}
    ).limit(10))
    
    if latin_playlists:
        print(f"‚úÖ {len(latin_playlists)} playlists trouv√©es :\n")
        
        latin_df = pd.DataFrame(latin_playlists)
        display(latin_df)
    else:
        print("‚ö†Ô∏è  Aucune playlist trouv√©e")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")

#### Requ√™te 2 : Tracks les Plus Populaires

In [None]:
print("üîç Recherche des tracks les plus populaires...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    collection = mongo_manager.db['playlists']
    
    # Agr√©gation : d√©rouler les tracks et trier par popularit√©
    pipeline = [
        {"$unwind": "$tracks"},
        {"$sort": {"tracks.popularity": -1}},
        {"$limit": 20},
        {"$project": {
            "_id": 0,
            "track_name": "$tracks.name",
            "artist": "$tracks.artist.name",
            "popularity": "$tracks.popularity",
            "genre": "$genre"
        }}
    ]
    
    top_tracks = list(collection.aggregate(pipeline))
    
    if top_tracks:
        print(f"‚úÖ Top 20 des tracks les plus populaires :\n")
        
        top_df = pd.DataFrame(top_tracks)
        display(top_df)
    else:
        print("‚ö†Ô∏è  Aucun track trouv√©")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")

#### Requ√™te 3 : Playlists avec Beaucoup de Tracks

In [None]:
print("üîç Recherche des playlists avec plus de 20 tracks...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    collection = mongo_manager.db['playlists']
    
    # Requ√™te : playlists avec tracks_count > 20
    big_playlists = list(collection.find(
        {"tracks_count": {"$gt": 20}},
        {"nom": 1, "genre": 1, "tracks_count": 1, "_id": 0}
    ).sort("tracks_count", -1))
    
    if big_playlists:
        print(f"‚úÖ {len(big_playlists)} playlists trouv√©es :\n")
        
        big_df = pd.DataFrame(big_playlists)
        display(big_df)
    else:
        print("‚ö†Ô∏è  Aucune playlist trouv√©e")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")

#### Requ√™te 4 : Statistiques Agr√©g√©es par Genre

In [None]:
print("üîç Calcul des statistiques par genre...\n")

mongo_manager = MongoDBManager(
    host=MONGO_HOST,
    port=MONGO_PORT,
    database=MONGO_DATABASE
)

if mongo_manager.connect():
    collection = mongo_manager.db['playlists']
    
    # Agr√©gation : statistiques par genre
    pipeline = [
        {"$group": {
            "_id": "$genre",
            "nombre_playlists": {"$sum": 1},
            "total_tracks": {"$sum": "$tracks_count"},
            "tracks_moyen": {"$avg": "$tracks_count"}
        }},
        {"$sort": {"nombre_playlists": -1}}
    ]
    
    stats_by_genre = list(collection.aggregate(pipeline))
    
    if stats_by_genre:
        print(f"‚úÖ Statistiques par genre :\n")
        
        stats_df = pd.DataFrame(stats_by_genre)
        stats_df.rename(columns={'_id': 'genre'}, inplace=True)
        stats_df['tracks_moyen'] = stats_df['tracks_moyen'].round(2)
        display(stats_df)
    else:
        print("‚ö†Ô∏è  Aucune statistique disponible")
    
    mongo_manager.close()
else:
    print("‚ùå √âchec de la connexion MongoDB")

---

## 6. Conclusion <a id="conclusion"></a>

### R√©sum√© du Projet

Ce notebook a d√©montr√© l'impl√©mentation compl√®te de deux pipelines ETL compl√©mentaires :

#### üî∑ Pipeline 1 : Architecture Relationnelle (Oracle)
- ‚úÖ Extraction et normalisation de donn√©es CSV
- ‚úÖ Stockage structur√© dans Oracle Database
- ‚úÖ Export XML avec validation DTD
- ‚úÖ G√©n√©ration de dashboard HTML interactif

#### üî∂ Pipeline 2 : Architecture NoSQL (MongoDB)
- ‚úÖ Validation XML avec sch√©ma XSD strict
- ‚úÖ Transformation XSLT vers JSON
- ‚úÖ Stockage de documents hi√©rarchiques dans MongoDB
- ‚úÖ Requ√™tes flexibles et agr√©gations puissantes

### Avantages de la Double Architecture

| Aspect | Oracle (Relationnel) | MongoDB (NoSQL) |
|--------|---------------------|------------------|
| Structure | Normalis√©e (3NF) | Hi√©rarchique (documents imbriqu√©s) |
| Int√©grit√© | Contraintes strictes | Sch√©ma flexible |
| Requ√™tes | SQL complexes avec jointures | Agr√©gations MongoDB natives |
| Performance | Optimis√© pour transactions | Optimis√© pour lecture/agr√©gations |
| Use Case | Rapports analytiques pr√©cis | Exploration de donn√©es flexible |

### Technologies Ma√Ætris√©es

- üêç **Python** : Orchestration ETL, traitement de donn√©es
- üóÑÔ∏è **Oracle** : Base de donn√©es relationnelle
- üçÉ **MongoDB** : Base de donn√©es NoSQL
- üìÑ **XML/XSD/DTD** : Formats de donn√©es structur√©es
- üîÑ **XSLT** : Transformation de donn√©es
- üìä **Pandas** : Manipulation de donn√©es
- üìà **Matplotlib/Seaborn** : Visualisation de donn√©es

### Fichiers G√©n√©r√©s

‚úÖ **data/output/spotify_data_export.xml** - Export XML depuis Oracle  
‚úÖ **data/output/spotify_data.dtd** - Sch√©ma DTD  
‚úÖ **data/output/spotify_data.xsd** - Sch√©ma XSD  
‚úÖ **data/output/spotify_data.json** - Export JSON  
‚úÖ **data/output/spotify_data.html** - Dashboard interactif  
‚úÖ **MongoDB : spotify_db.playlists** - 72 documents imbriqu√©s

### Commandes Utiles pour Aller Plus Loin

#### MongoDB Shell
```javascript
// Connexion
use spotify_db

// Compter les documents
db.playlists.countDocuments()

// Recherche par nom
db.playlists.find({ nom: /Rock/i })

// Tracks avec haute √©nergie
db.playlists.aggregate([
  { $unwind: "$tracks" },
  { $match: { "tracks.audio_features.energy": { $gt: 0.8 } } },
  { $project: { 
      track: "$tracks.name",
      artist: "$tracks.artist.name",
      energy: "$tracks.audio_features.energy"
  }},
  { $sort: { energy: -1 } },
  { $limit: 10 }
])
```

#### CLI Python
```bash
# Pipeline complet Oracle
python main.py --full-reset

# Pipeline complet MongoDB
python main.py --mongodb-pipeline

# Tests de connexion
python main.py --test-connection
python main.py --test-mongodb
```

---

### üéâ Fin du Notebook

Ce notebook a d√©montr√© l'utilisation compl√®te des deux pipelines ETL pour l'analyse de donn√©es Spotify.

**Auteur** : Cash  
**Projet** : DBA_Spotify Analytics Pipeline  
**Date** : D√©cembre 2025

---