# üêõ NSM Debug Notebook (VS Code Local)

**Usage** : D√©veloppement et debug rapide en local
**Device** : CPU (pas besoin GPU pour tester)
**Donn√©es** : Subset r√©duit (10 primitives) pour tests rapides
**Production** : Transf√©rer code valid√© vers NSM_SentenceBERT_Local.ipynb

---

## üéØ Workflow

1. **Tester ici** : Code, structure, logique
2. **D√©boguer** : Breakpoints, variables explorer
3. **Valider** : R√©sultats sur petit dataset
4. **Transf√©rer** : Copier vers notebook Colab
5. **Ex√©cuter** : Full dataset sur GPU gratuit

In [None]:
# Setup minimal (local)
import sys
import os

# Path vers donn√©es NSM (m√™me repo)
notebooks_path = '/home/stephane/GitHub/Panini/research/semantic-primitives/notebooks'
if notebooks_path not in sys.path:
    sys.path.insert(0, notebooks_path)

from donnees_nsm import NSM_PRIMITIVES, COULEURS_CATEGORIES, CARRES_SEMIOTIQUES, CORPUS_TEST

print(f"‚úÖ Donn√©es charg√©es")
print(f"   Primitives : {len(NSM_PRIMITIVES)}")
print(f"   Carr√©s : {len(CARRES_SEMIOTIQUES)}")
print(f"   Corpus : {len(CORPUS_TEST)} phrases")

## üß™ Test 1 : Subset r√©duit (debug rapide)

**Astuce** : Travailler sur 10 primitives au lieu de 60
- CPU : 2 sec vs 30 sec
- It√©ration rapide
- Validation logique code

In [None]:
# Subset pour tests rapides
DEBUG_MODE = True  # Mettre False pour full dataset

if DEBUG_MODE:
    # Prendre 10 primitives vari√©es (2 par cat√©gorie)
    primitives_debug = {
        'JE': NSM_PRIMITIVES['JE'],
        'TU': NSM_PRIMITIVES['TU'],
        'FAIRE': NSM_PRIMITIVES['FAIRE'],
        'ARRIVER': NSM_PRIMITIVES['ARRIVER'],
        'SAVOIR': NSM_PRIMITIVES['SAVOIR'],
        'PENSER': NSM_PRIMITIVES['PENSER'],
        'VOULOIR': NSM_PRIMITIVES['VOULOIR'],
        'SENTIR': NSM_PRIMITIVES['SENTIR'],
        'BON': NSM_PRIMITIVES['BON'],
        'MAL': NSM_PRIMITIVES['MAL']
    }
    print(f"üêõ DEBUG MODE : {len(primitives_debug)} primitives (test rapide)")
else:
    primitives_debug = NSM_PRIMITIVES
    print(f"üöÄ PRODUCTION MODE : {len(primitives_debug)} primitives (full)")

primitives_list = list(primitives_debug.items())
primitives_text = [p.forme_francaise for nom, p in primitives_list]
primitives_noms = [nom for nom, p in primitives_list]
primitives_categories = [p.categorie for nom, p in primitives_list]

print(f"\nüìä Dataset :")
for cat in set(primitives_categories):
    count = primitives_categories.count(cat)
    print(f"   {cat:20s} : {count}")

In [None]:
# Charger mod√®le SentenceBERT (CPU local)
from sentence_transformers import SentenceTransformer
import torch
import time

device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"üñ•Ô∏è Device : {device}")

if device == 'cpu':
    print("   ‚ö†Ô∏è Mode CPU : lent mais parfait pour debug")
    print("   üí° Pour production : utiliser Colab avec GPU T4 gratuit")

print("\nüì• Chargement mod√®le...")
start = time.time()
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2', device=device)
print(f"‚úÖ Charg√© en {time.time()-start:.1f}s")

## üêõ Point de debug : Encodage

**Utilisez breakpoint ici** :
1. Clic gauche sur num√©ro ligne ci-dessous
2. Point rouge appara√Æt
3. Ex√©cutez cellule ‚Üí pause automatique
4. Variables explorer ‚Üí voir `embeddings`, `primitives_text`
5. Step through ‚Üí avancer ligne par ligne

In [None]:
# Encodage avec chronom√®tre
import numpy as np

print(f"üî¢ Encodage {len(primitives_text)} primitives...")
start = time.time()

# POINT DE DEBUG : mettre breakpoint sur ligne suivante
embeddings = model.encode(
    primitives_text,
    batch_size=8,  # Petit batch pour CPU
    show_progress_bar=True,
    convert_to_numpy=True,
    normalize_embeddings=True
)

encode_time = time.time() - start

print(f"\n‚úÖ Encodage termin√© en {encode_time:.2f}s")
print(f"   Shape : {embeddings.shape}")
print(f"   Dtype : {embeddings.dtype}")
print(f"   Range : [{embeddings.min():.3f}, {embeddings.max():.3f}]")
print(f"   Mean norm : {np.mean(np.linalg.norm(embeddings, axis=1)):.3f}")

# V√©rifications sanity check
assert embeddings.shape[0] == len(primitives_text), "Mismatch nombre embeddings"
assert embeddings.shape[1] == 768, "Dimension incorrecte"
assert not np.isnan(embeddings).any(), "NaN d√©tect√© dans embeddings"

print("\n‚úÖ Tous les checks pass√©s")

## üß™ Test clustering rapide

In [None]:
# Clustering K-means
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.optimize import linear_sum_assignment
from sklearn.metrics import confusion_matrix

# Mapper cat√©gories
categories_uniques = sorted(set(primitives_categories))
cat_to_label = {cat: i for i, cat in enumerate(categories_uniques)}
labels_true = [cat_to_label[cat] for cat in primitives_categories]

print(f"üìä Clustering K-means (k={len(categories_uniques)})...")
kmeans = KMeans(n_clusters=len(categories_uniques), random_state=42, n_init=10)
labels_pred = kmeans.fit_predict(embeddings)

# Calcul puret√©
cm = confusion_matrix(labels_true, labels_pred)
row_ind, col_ind = linear_sum_assignment(-cm)
purete = cm[row_ind, col_ind].sum() / len(labels_true)

# Silhouette
silhouette = silhouette_score(embeddings, labels_pred)

print(f"\nüìà R√©sultats (DEBUG MODE) :")
print(f"   Puret√© : {purete:.3f}")
print(f"   Silhouette : {silhouette:.3f}")

if DEBUG_MODE:
    print("\n‚ö†Ô∏è ATTENTION : R√©sultats sur subset (10 primitives)")
    print("   Pour r√©sultats finaux : ex√©cuter sur Colab avec 60 primitives")

## üêõ Debug helpers

In [None]:
# Fonction debug : inspecter embedding d'une primitive
def debug_embedding(nom_primitive):
    """Affiche stats d√©taill√©es d'un embedding"""
    if nom_primitive not in primitives_noms:
        print(f"‚ùå Primitive '{nom_primitive}' introuvable")
        print(f"   Disponibles : {primitives_noms}")
        return
    
    idx = primitives_noms.index(nom_primitive)
    emb = embeddings[idx]
    
    print(f"üîç DEBUG : {nom_primitive}")
    print(f"   Texte : {primitives_text[idx]}")
    print(f"   Cat√©gorie : {primitives_categories[idx]}")
    print(f"   Shape : {emb.shape}")
    print(f"   Norm L2 : {np.linalg.norm(emb):.3f}")
    print(f"   Min/Max : [{emb.min():.3f}, {emb.max():.3f}]")
    print(f"   Mean : {emb.mean():.3f}")
    print(f"   Std : {emb.std():.3f}")
    print(f"   Top 5 dims : {np.argsort(np.abs(emb))[-5:]}")

# Test
debug_embedding('JE')

In [None]:
# Fonction debug : distances entre primitives
def debug_distance(nom1, nom2):
    """Calcule distance cosinus entre 2 primitives"""
    from sklearn.metrics.pairwise import cosine_distances
    
    if nom1 not in primitives_noms or nom2 not in primitives_noms:
        print(f"‚ùå Primitive(s) introuvable(s)")
        return
    
    idx1 = primitives_noms.index(nom1)
    idx2 = primitives_noms.index(nom2)
    
    emb1 = embeddings[idx1]
    emb2 = embeddings[idx2]
    
    dist = cosine_distances([emb1], [emb2])[0][0]
    similarity = 1 - dist
    
    print(f"üîç DISTANCE : {nom1} ‚Üî {nom2}")
    print(f"   Distance cosinus : {dist:.3f}")
    print(f"   Similarit√© : {similarity:.3f}")
    print(f"   Interpr√©tation : {'Proches' if dist < 0.3 else 'Moyennement proches' if dist < 0.6 else '√âloign√©es'}")

# Tests
debug_distance('JE', 'TU')  # Devraient √™tre proches (m√™me cat√©gorie)
print()
debug_distance('JE', 'FAIRE')  # Devraient √™tre √©loign√©es (cat√©gories diff√©rentes)

## ‚úÖ Checklist avant transfert Colab

Avant de copier code vers notebook Colab :

- [ ] ‚úÖ Pas d'erreur Python (syntax, import, etc.)
- [ ] ‚úÖ R√©sultats coh√©rents sur subset
- [ ] ‚úÖ Pas de NaN dans embeddings
- [ ] ‚úÖ Shape correcte (N, 768)
- [ ] ‚úÖ Silhouette > 0 (au moins)
- [ ] ‚úÖ Variables bien nomm√©es
- [ ] ‚úÖ Code comment√©

**Si tout est ‚úÖ** ‚Üí Copier vers `NSM_SentenceBERT_Local.ipynb` et ex√©cuter sur Colab GPU

## üéØ Prochaines √©tapes

1. **Local (ce notebook)** : 
   - Tester nouvelle logique
   - D√©boguer avec breakpoints
   - Valider sur subset

2. **Colab (NSM_SentenceBERT_Local.ipynb)** :
   - Copier code valid√©
   - Ex√©cuter sur full dataset (60 primitives)
   - Utiliser GPU T4 gratuit
   - Sauvegarder r√©sultats

3. **Publication** :
   - Analyser r√©sultats
   - Pr√©parer visualisations
   - √âcrire paper ACL 2026