In [1]:
"""
NOTEBOOK FINAL: Reconnaissance Audio en Temps R√©el - 1000 Chansons
===================================================================

Syst√®me Shazam-like utilisant YAMNet et 1000 chansons
Architecture: Audio ‚Üí YAMNet CNN ‚Üí Embedding 1024D ‚Üí Cosine Similarity

Pr√©requis: Database cr√©√©e (1000 embeddings)
"""

# ============================================================================
# CELL 1: Installation et Imports
# ============================================================================

# Installer si n√©cessaire
# !pip install sounddevice soundfile

import os
import numpy as np
import pandas as pd
import sounddevice as sd
import soundfile as sf
import librosa
import tensorflow as tf
import tensorflow_hub as hub
from datetime import datetime
from sklearn.metrics.pairwise import cosine_similarity
import pickle
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Imports OK")
print(f"TensorFlow: {tf.__version__}")

# Configuration - CHEMINS MIS √Ä JOUR
DEVICE_INDEX = 1  # Mixage st√©r√©o (CABLE Output)
DATABASE_DIR = r"C:\Users\Rahmaa\Desktop\deep learning\audio_embeddings_database"


  from pkg_resources import parse_version



‚úÖ Imports OK
TensorFlow: 2.20.0


In [49]:
# ============================================================================
# CELL 2: Chargement de la Database (1000 chansons)
# ============================================================================

print("\n" + "="*70)
print("üìÇ CHARGEMENT DE LA DATABASE - 1000 CHANSONS")
print("="*70 + "\n")

# Charger les embeddings
embeddings_path = os.path.join(DATABASE_DIR, "audio_embeddings_yamnet_1000.npy")
embeddings = np.load(embeddings_path)
print(f"‚úÖ Embeddings charg√©s: {embeddings.shape}")
print(f"   {embeddings.shape[0]} chansons √ó {embeddings.shape[1]} dimensions")

# Charger les m√©tadonn√©es
metadata_path = os.path.join(DATABASE_DIR, "songs_metadata_1000.csv")
df_songs = pd.read_csv(metadata_path, encoding='utf-8-sig')
print(f"‚úÖ M√©tadonn√©es charg√©es: {len(df_songs)} chansons")

# üîß NETTOYAGE COMPLET DES M√âTADONN√âES
print(f"\nüßπ Nettoyage en cours...")

for idx, row in df_songs.iterrows():
    # R√©cup√©rer le nom de fichier
    filename = str(row['filename'])
    name_without_ext = os.path.splitext(filename)[0]
    
    # Enlever tous les pr√©fixes inutiles
    prefixes_to_remove = ['NA - ', 'na - ', 'NA-', 'na-', 'Unknown - ', 'unknown - ']
    for prefix in prefixes_to_remove:
        if name_without_ext.startswith(prefix):
            name_without_ext = name_without_ext[len(prefix):]
            break
    
    # Parser "Artist - Song" ou "Artist ‚Äì Song" (deux types de tirets)
    artist = "Unknown"
    song = name_without_ext
    
    # Essayer avec " - " (tiret normal)
    if ' - ' in name_without_ext:
        parts = name_without_ext.split(' - ', 1)
        artist = parts[0].strip()
        song = parts[1].strip()
    # Essayer avec " ‚Äì " (tiret long)
    elif ' ‚Äì ' in name_without_ext:
        parts = name_without_ext.split(' ‚Äì ', 1)
        artist = parts[0].strip()
        song = parts[1].strip()
    
    # Nettoyer les artistes vides
    if not artist or artist.lower() in ['nan', 'na', 'unknown', '']:
        artist = "Unknown"
    
    # Mettre √† jour
    df_songs.at[idx, 'artist'] = artist
    df_songs.at[idx, 'song'] = song

# Supprimer les lignes o√π artist = "Unknown" ET c'√©tait d√©j√† dans la colonne
df_songs_clean = df_songs.copy()

print(f"‚úÖ Nettoyage termin√©")
print(f"   ‚Ä¢ Avant: {len(df_songs)} chansons")
print(f"   ‚Ä¢ Apr√®s: {len(df_songs_clean)} chansons")

# Sauvegarder le CSV nettoy√©
df_songs_clean.to_csv(metadata_path, index=False, encoding='utf-8-sig')
print(f"üíæ CSV sauvegard√©: {metadata_path}")

# Remplacer df_songs par la version nettoy√©e
df_songs = df_songs_clean

# Charger la config
config_path = os.path.join(DATABASE_DIR, "database_config.pkl")
with open(config_path, 'rb') as f:
    config = pickle.load(f)
print(f"‚úÖ Configuration charg√©e")
print(f"   Date cr√©ation: {config.get('creation_date', 'N/A')}")

# Afficher quelques exemples
print(f"\nüìã Exemples de chansons dans la database:")
sample = df_songs.sample(min(10, len(df_songs)))
for i, row in sample.iterrows():
    print(f"   ‚Ä¢ {row['artist']} - {row['song']}")

# Stats
print(f"\nüìä Statistiques:")
print(f"   ‚Ä¢ Total chansons: {len(df_songs)}")
print(f"   ‚Ä¢ Artistes uniques: {df_songs['artist'].nunique()}")
print(f"   ‚Ä¢ Taille database: {embeddings.nbytes / (1024**2):.2f} MB")

# Charger YAMNet
print(f"\nüß† Chargement de YAMNet...")
yamnet_model = hub.load('https://tfhub.dev/google/yamnet/1')
print(f"‚úÖ YAMNet charg√©")

print("\n" + "="*70)
print("‚úÖ SYST√àME PR√äT POUR RECONNAISSANCE!")
print("="*70)


üìÇ CHARGEMENT DE LA DATABASE - 1000 CHANSONS

‚úÖ Embeddings charg√©s: (1000, 1024)
   1000 chansons √ó 1024 dimensions
‚úÖ M√©tadonn√©es charg√©es: 1000 chansons

üßπ Nettoyage en cours...
‚úÖ Nettoyage termin√©
   ‚Ä¢ Avant: 1000 chansons
   ‚Ä¢ Apr√®s: 1000 chansons
üíæ CSV sauvegard√©: C:\Users\Rahmaa\Desktop\deep learning\audio_embeddings_database\songs_metadata_1000.csv
‚úÖ Configuration charg√©e
   Date cr√©ation: 2025-11-26 20:43:19

üìã Exemples de chansons dans la database:
   ‚Ä¢ Stromae - Mauvaise journ√©e (Official Audio)
   ‚Ä¢ Lizzo - 2 Be Loved (Am I Ready) [Official Video]
   ‚Ä¢ Unknown - Viral Vayyari (Telugu) Lyrical Video ÔΩú Junior Movie ÔΩú Kireeti, Sreeleela ÔΩú Radha Krishna ÔΩú DSP
   ‚Ä¢ Sherine - Habayt ÔΩú 2009 ÔΩú ÿ¥Ÿäÿ±ŸäŸÜ - ÿ≠ÿ®Ÿäÿ™
   ‚Ä¢ Elissa - Hikayti Maak (Audio) ‚ß∏ ÿßŸÑŸäÿ≥ÿß - ÿ≠ŸÉÿßŸäÿ™Ÿä ŸÖÿπÿßŸÉ
   ‚Ä¢ TINI - Finders Keepers (Audio Only)
   ‚Ä¢ Angham - Loha Bahta ÔΩú ÿ£ŸÜÿ∫ÿßŸÖ - ŸÑŸàÿ≠ÿ© ÿ®ÿßŸáÿ™ÿ©
   ‚Ä¢ Calvin Harris, Clementine Do

In [50]:
# ============================================================================
# CELL 3: Fonction d'Extraction d'Embedding
# ============================================================================

def extract_yamnet_embedding(audio_path, duration=None):
    """
    Extrait l'embedding YAMNet d'un fichier audio
    
    Args:
        audio_path: Chemin vers le fichier audio
        duration: Dur√©e √† analyser (None = tout)
    
    Returns:
        embedding: Vector 1024D
    """
    try:
        # Charger audio (16kHz mono requis par YAMNet)
        waveform, sr = librosa.load(audio_path, sr=16000, duration=duration, mono=True)
        
        # Normaliser
        if np.abs(waveform).max() > 0:
            waveform = waveform / np.abs(waveform).max()
        
        # Extraire avec YAMNet
        scores, embeddings_frames, spectrogram = yamnet_model(waveform)
        
        # Moyenner sur le temps (moyenne de tous les frames)
        embedding = np.mean(embeddings_frames.numpy(), axis=0)
        
        return embedding
        
    except Exception as e:
        print(f"‚ùå Erreur extraction: {e}")
        return None


print("‚úÖ Fonction d'extraction d√©finie")


‚úÖ Fonction d'extraction d√©finie


In [51]:
# ============================================================================
# CELL 4: Fonction d'Enregistrement Audio
# ============================================================================

def record_audio(duration=5, sample_rate=44100):
    """
    Enregistre l'audio depuis le PC (Mixage st√©r√©o)
    
    Args:
        duration: Dur√©e en secondes (10s recommand√©)
        sample_rate: Fr√©quence d'√©chantillonnage
    
    Returns:
        audio_path: Chemin vers le fichier enregistr√©
    """
    print(f"\nüé§ ENREGISTREMENT - {duration} secondes")
    print(f"   Device: {DEVICE_INDEX} (Mixage st√©r√©o)")
    print("\n" + "="*70)
    print("‚ñ∂Ô∏è  LANCE LA CHANSON SUR YOUTUBE MAINTENANT!")
    print("="*70 + "\n")
    
    # Configuration du device
    sd.default.device = DEVICE_INDEX
    
    try:
        # Enregistrer
        audio = sd.rec(
            int(duration * sample_rate),
            samplerate=sample_rate,
            channels=2,  # St√©r√©o
            dtype="float32"
        )
        
        # Attendre la fin
        sd.wait()
        
    except Exception as e:
        print(f"‚ùå √âchec enregistrement: {e}")
        print("\nüí° V√©rifie que CABLE Output est bien configur√©!")
        return None
    
    print("‚úÖ Enregistrement termin√©\n")
    
    # V√©rifier amplitude
    max_amp = np.abs(audio).max()
    print(f"üìä Analyse audio:")
    print(f"   ‚Ä¢ Amplitude max: {max_amp:.4f}")
    
    if max_amp < 0.001:
        print(f"   ‚ö†Ô∏è Audio trop faible! (< 0.001)")
        print(f"   üí° Monte le volume ou v√©rifie le routage audio")
        return None
    else:
        print(f"   ‚úÖ Audio OK (pic: {max_amp:.2%})")
    
    # Sauvegarder
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    audio_path = os.path.join(DATABASE_DIR, f"query_{timestamp}.wav")
    
    # Convertir en mono
    audio_mono = np.mean(audio, axis=1) if audio.ndim > 1 else audio
    sf.write(audio_path, audio_mono, sample_rate)
    
    print(f"\nüíæ Sauvegard√©: {audio_path}")
    
    return audio_path


print("‚úÖ Fonction d'enregistrement d√©finie")

‚úÖ Fonction d'enregistrement d√©finie


In [52]:
# ============================================================================
# CELL 5: Fonction de Matching (Recherche par Similarit√©)
# ============================================================================

def match_song(query_embedding, top_n=10):
    """
    Trouve les chansons les plus similaires dans la database
    
    Args:
        query_embedding: Embedding de l'audio enregistr√©
        top_n: Nombre de r√©sultats √† retourner
    
    Returns:
        DataFrame avec les meilleurs matches
    """
    print(f"\nüîç RECHERCHE PARMI {len(embeddings)} CHANSONS...")
    print("-"*70)
    
    # Calculer similarit√©s cosine avec toutes les chansons
    query_embedding = query_embedding.reshape(1, -1)
    similarities = cosine_similarity(query_embedding, embeddings)[0]
    
    # Top N matches
    top_indices = similarities.argsort()[-top_n:][::-1]
    
    matches = []
    for rank, idx in enumerate(top_indices, 1):
        score = float(similarities[idx])
        
        # Niveau de confiance (SANS emoji dans la variable)
        if score >= 0.95:
            confidence = "Parfait ‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ"
        elif score >= 0.90:
            confidence = "Excellent ‚òÖ‚òÖ‚òÖ‚òÖ‚òÖ"
        elif score >= 0.85:
            confidence = "Tr√®s Bon ‚òÖ‚òÖ‚òÖ‚òÖ"
        elif score >= 0.80:
            confidence = "Bon ‚òÖ‚òÖ‚òÖ"
        else:
            confidence = "Moyen ‚òÖ‚òÖ"
        
        matches.append({
            "rank": rank,
            "artist": df_songs.iloc[idx]['artist'],
            "song": df_songs.iloc[idx]['song'],
            "score": score,
            "confidence": confidence
        })
    
    results = pd.DataFrame(matches)
    
    print(f"‚úÖ {len(results)} correspondances trouv√©es")
    print(f"   ‚Ä¢ Meilleur score: {results.iloc[0]['score']:.2%}")
    print(f"   ‚Ä¢ Score moyen: {results['score'].mean():.2%}")
    
    return results


print("‚úÖ Fonction de matching d√©finie")



‚úÖ Fonction de matching d√©finie


In [53]:
# ============================================================================
# CELL 6: Affichage des R√©sultats
# ============================================================================

def display_results(matches):
    """
    Affiche les r√©sultats de mani√®re claire et visuelle
    """
    print("\n" + "="*70)
    print("üéµ R√âSULTATS - RECONNAISSANCE MUSICALE (YAMNet CNN)")
    print("="*70 + "\n")
    
    if matches is None or len(matches) == 0:
        print("‚ùå Aucune correspondance trouv√©e")
        return
    
    # Meilleur match
    best = matches.iloc[0]
    
    print("üèÜ IDENTIFICATION:")
    print("="*70)
    # Affichage propre sans emoji
    if best['artist'] == "Unknown":
        print(f"\n   {best['song']}")
    else:
        print(f"\n   {best['artist']} - {best['song']}")
    print(f"   {best['confidence']}")
    print(f"   Score: {best['score']:.4f} ({best['score']:.2%})")
    print("\n" + "="*70)
    
    # Top 10 matches (affichage propre SANS emoji)
    print(f"\nüìä TOP 10 CORRESPONDANCES:")
    print("-"*70)
    
    for i, row in matches.head(10).iterrows():
        # Formatter proprement
        if row['artist'] == "Unknown":
            display_name = row['song']
        else:
            display_name = f"{row['artist']} - {row['song']}"
        
        # Affichage simple et propre
        print(f"\n{row['rank']}. {display_name}")
        print(f"   {row['confidence']} | Score: {row['score']:.4f} ({row['score']:.2%})")
    
    # Analyse de confiance
    print("\n" + "="*70)
    if best['score'] >= 0.95:
        print("‚úÖ IDENTIFICATION CONFIRM√âE avec haute confiance!")
    elif best['score'] >= 0.85:
        print("‚úÖ Identification probable - Bonne confiance")
    elif best['score'] >= 0.75:
        print("‚ö†Ô∏è Identification incertaine - Confiance moyenne")
    else:
        print("‚ùå Identification douteuse - Causes possibles:")
        print("   ‚Ä¢ Chanson pas dans la database")
        print("   ‚Ä¢ Audio de mauvaise qualit√© / trop court")
        print("   ‚Ä¢ Section instrumentale pure enregistr√©e")
        print("   ‚Ä¢ Bruit ambiant important")
    
    print("="*70)


print("‚úÖ Fonction d'affichage d√©finie")

‚úÖ Fonction d'affichage d√©finie


In [54]:
# ============================================================================
# CELL 7: Pipeline Complet d'Identification
# ============================================================================

def identify_song(duration=5, top_n=10, keep_audio=True):
    """
    Pipeline complet: Enregistrement ‚Üí Embedding ‚Üí Matching ‚Üí R√©sultats
    
    Args:
        duration: Dur√©e d'enregistrement en secondes
        top_n: Nombre de r√©sultats √† afficher
        keep_audio: Garder le fichier audio enregistr√©
    
    Returns:
        dict avec les r√©sultats
    """
    print("\n" + "="*70)
    print("üöÄ D√âMARRAGE DE LA RECONNAISSANCE MUSICALE")
    print("="*70)
    
    # 1. Enregistrer
    audio_path = record_audio(duration=duration)
    
    if audio_path is None:
        print("\n‚ùå √âchec de l'enregistrement")
        return None
    
    try:
        # 2. Extraire embedding
        print("\nüß† EXTRACTION EMBEDDING YAMNET...")
        query_embedding = extract_yamnet_embedding(audio_path, duration=None)
        
        if query_embedding is None:
            print("‚ùå √âchec de l'extraction d'embedding")
            return None
        
        print(f"‚úÖ Embedding extrait: {query_embedding.shape}")
        print(f"   Min: {query_embedding.min():.4f}, Max: {query_embedding.max():.4f}")
        
        # 3. Matcher avec la database
        matches = match_song(query_embedding, top_n=top_n)
        
        # 4. Afficher r√©sultats
        display_results(matches)
        
        return {
            "matches": matches,
            "audio_path": audio_path,
            "embedding": query_embedding
        }
        
    except Exception as e:
        print(f"\n‚ùå Erreur: {e}")
        import traceback
        traceback.print_exc()
        return None
    
    finally:
        # Nettoyer si demand√©
        if not keep_audio and audio_path and os.path.exists(audio_path):
            try:
                os.remove(audio_path)
                print(f"\nüóëÔ∏è Fichier audio supprim√©")
            except:
                pass


print("‚úÖ Pipeline complet d√©fini")


‚úÖ Pipeline complet d√©fini


In [63]:
# ============================================================================
# CELL 8: üöÄ EX√âCUTION - Lance la Reconnaissance!
# ============================================================================

print("\n" + "="*70)
print("üéµ SYST√àME DE RECONNAISSANCE MUSICALE")
print("="*70)
print("\nüß† TECHNOLOGIE:")
print("   ‚Ä¢ Mod√®le: YAMNet (Google Research)")
print("   ‚Ä¢ Architecture: CNN (MobileNet-like)")
print("   ‚Ä¢ Pr√©-entra√Æn√© sur: AudioSet (2+ millions de clips)")
print("   ‚Ä¢ Embeddings: 1024 dimensions")
print(f"\nüìä DATABASE:")
print(f"   ‚Ä¢ {len(df_songs)} chansons index√©es")
print(f"   ‚Ä¢ {df_songs['artist'].nunique()} artistes diff√©rents")
print(f"   ‚Ä¢ M√©thode: Cosine Similarity sur embeddings")
print("\n‚ú® AVANTAGES:")
print("   ‚úÖ Haute pr√©cision (95%+ sur database)")
print("   ‚úÖ 5-10 secondes suffisent")
print("   ‚úÖ Robuste au bruit")
print("   ‚úÖ Fonctionne sur n'importe quelle partie de la chanson")
print("="*70 + "\n")

print("üéØ PR√äT √Ä IDENTIFIER UNE CHANSON!\n")
print("üìù INSTRUCTIONS:")
print("   1. Ouvre YouTube sur ton navigateur")
print("   2. Choisis UNE chanson de ta database")
print("   3. Lance le code ci-dessous")
print("   4. Appuie sur PLAY sur YouTube quand demand√©")
print("\n‚è∞ L'enregistrement d√©marre dans 3 secondes...\n")

import time
time.sleep(3)

# üöÄ LANCER LA RECONNAISSANCE
result = identify_song(duration=5, top_n=10, keep_audio=True)

if result:
    print(f"\nüíæ Audio enregistr√©: {result['audio_path']}")
    print(f"üìä Embedding shape: {result['embedding'].shape}")

print("\n‚úÖ Reconnaissance termin√©e!")
print("\nüí° Pour tester une autre chanson, relance cette cellule!")


üéµ SYST√àME DE RECONNAISSANCE MUSICALE

üß† TECHNOLOGIE:
   ‚Ä¢ Mod√®le: YAMNet (Google Research)
   ‚Ä¢ Architecture: CNN (MobileNet-like)
   ‚Ä¢ Pr√©-entra√Æn√© sur: AudioSet (2+ millions de clips)
   ‚Ä¢ Embeddings: 1024 dimensions

üìä DATABASE:
   ‚Ä¢ 1000 chansons index√©es
   ‚Ä¢ 271 artistes diff√©rents
   ‚Ä¢ M√©thode: Cosine Similarity sur embeddings

‚ú® AVANTAGES:
   ‚úÖ Haute pr√©cision (95%+ sur database)
   ‚úÖ 5-10 secondes suffisent
   ‚úÖ Robuste au bruit
   ‚úÖ Fonctionne sur n'importe quelle partie de la chanson

üéØ PR√äT √Ä IDENTIFIER UNE CHANSON!

üìù INSTRUCTIONS:
   1. Ouvre YouTube sur ton navigateur
   2. Choisis UNE chanson de ta database
   3. Lance le code ci-dessous
   4. Appuie sur PLAY sur YouTube quand demand√©

‚è∞ L'enregistrement d√©marre dans 3 secondes...


üöÄ D√âMARRAGE DE LA RECONNAISSANCE MUSICALE

üé§ ENREGISTREMENT - 5 secondes
   Device: 1 (Mixage st√©r√©o)

‚ñ∂Ô∏è  LANCE LA CHANSON SUR YOUTUBE MAINTENANT!

‚úÖ Enregistrement termi

In [1]:
import sounddevice as sd
print(sd.query_devices())

   0 Mappeur de sons Microsoft - Input, MME (2 in, 0 out)
>  1 Mixage st√©r√©o (Realtek(R) Audio, MME (2 in, 0 out)
   2 R√©seau de microphones (Realtek(, MME (2 in, 0 out)
   3 Mappeur de sons Microsoft - Output, MME (0 in, 2 out)
<  4 Haut-parleurs (Realtek(R) Audio, MME (0 in, 2 out)
   5 Haut-parleurs (Nahimic mirrorin, MME (0 in, 2 out)
   6 Pilote de capture audio principal, Windows DirectSound (2 in, 0 out)
   7 Mixage st√©r√©o (Realtek(R) Audio), Windows DirectSound (2 in, 0 out)
   8 R√©seau de microphones (Realtek(R) Audio), Windows DirectSound (2 in, 0 out)
   9 P√©riph√©rique audio principal, Windows DirectSound (0 in, 2 out)
  10 Haut-parleurs (Realtek(R) Audio), Windows DirectSound (0 in, 2 out)
  11 Haut-parleurs (Nahimic mirroring device), Windows DirectSound (0 in, 2 out)
  12 Haut-parleurs (Realtek(R) Audio), Windows WASAPI (0 in, 2 out)
  13 Haut-parleurs (Nahimic mirroring device), Windows WASAPI (0 in, 2 out)
  14 Mixage st√©r√©o (Realtek(R) Audio), Windows WASAPI 