# üî¨ Analyse Comparative DeepSeek vs NSM-Greimas

**Projet** : Panini Research - Semantic Primitives  
**Date** : 12 novembre 2025  
**Objectif** : Valider convergence entre mod√®le symbolique (NSM-Greimas) et neural (DeepSeek)

---

## üìã Hypoth√®ses Test√©es

| Hypoth√®se | M√©trique | Seuil | Statut |
|-----------|----------|-------|--------|
| **H1** - Clustering cat√©goriel | Puret√© | > 0.7 | üîÑ Test |
| **H2** - Carr√©s s√©miotiques | Validation | > 70% | üîÑ Test |
| **H3** - Isotopies convergentes | Corr√©lation | > 0.6 | üîÑ Test |
| **H4** - Reconstruction lin√©aire | R¬≤ | > 0.5 | üîÑ Test |

---

## ‚ö° Avantages Colab Pro

- **GPU** : NVIDIA A100/V100 (encodage 100x plus rapide)
- **RAM** : 52 GB (corpus 1000+ phrases)
- **Runtime** : 24h continues
- **Stockage** : Google Drive int√©gr√©

## üîß Setup Environnement

In [None]:
# V√©rifier GPU disponible
import torch

if torch.cuda.is_available():
    print(f"‚úÖ GPU disponible : {torch.cuda.get_device_name(0)}")
    print(f"   VRAM : {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
else:
    print("‚ö†Ô∏è Pas de GPU d√©tect√© - Activer GPU dans Runtime > Change runtime type")

In [None]:
# Installer d√©pendances
!pip install -q openai matplotlib seaborn scikit-learn scipy plotly numpy pandas

print("‚úÖ D√©pendances install√©es")

In [None]:
# Monter Google Drive pour sauvegardes
from google.colab import drive
import os

drive.mount('/content/drive')

# Cr√©er dossier r√©sultats
output_dir = '/content/drive/MyDrive/Panini/DeepSeek_Analysis'
os.makedirs(output_dir, exist_ok=True)

print(f"‚úÖ Google Drive mont√©")
print(f"üìÅ R√©sultats : {output_dir}")

In [None]:
# Cloner repo Panini Research
!git clone https://github.com/stephanedenis/Panini-Research.git
%cd Panini-Research/semantic-primitives

print("‚úÖ Repo clon√©")
!ls -la

## üîë Configuration API DeepSeek

**IMPORTANT** : Stocker votre cl√© API dans les secrets Colab :

1. Cliquer sur üîë (ic√¥ne cl√©) dans la barre lat√©rale gauche
2. Ajouter secret : `DEEPSEEK_API_KEY` = votre cl√©
3. Activer "Notebook access"

**Obtenir cl√© API** : https://platform.deepseek.com/api_keys

In [None]:
# Charger cl√© API depuis secrets Colab
from google.colab import userdata

try:
    DEEPSEEK_API_KEY = userdata.get('DEEPSEEK_API_KEY')
    print("‚úÖ Cl√© API DeepSeek charg√©e")
    print(f"   Pr√©fixe : {DEEPSEEK_API_KEY[:8]}...")
except Exception as e:
    print("‚ùå Erreur : Cl√© API non trouv√©e dans secrets Colab")
    print("   ‚Üí Ajouter DEEPSEEK_API_KEY dans les secrets (üîë)")
    DEEPSEEK_API_KEY = None

## üì¶ Import Modules Panini

In [None]:
# Ajouter chemin modules
import sys
sys.path.append('/content/Panini-Research/semantic-primitives/panlang')
sys.path.append('/content/Panini-Research/semantic-primitives/analysis-scripts')

# Imports Panini
from nsm_primitives_complet import NSM_PRIMITIVES
from greimas_nsm_extension import ReconstructeurGreimasNSM
from deepseek_analyzer import (
    ClientDeepSeek, 
    ConfigDeepSeek, 
    ModeleDeepSeek,
    AnalyseurConvergence
)

# Imports standard
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import json
from datetime import datetime

print("‚úÖ Modules import√©s")
print(f"   - NSM primitives : {len(NSM_PRIMITIVES)}")
print(f"   - Reconstructeur Greimas charg√©")
print(f"   - Analyseur convergence pr√™t")

## üöÄ Initialisation Analyseur

In [None]:
# Configuration DeepSeek
config = ConfigDeepSeek(
    api_key=DEEPSEEK_API_KEY,
    base_url="https://api.deepseek.com",
    model=ModeleDeepSeek.CHAT,
    temperature=0.0  # D√©terministe pour reproductibilit√©
)

# Client DeepSeek (mode r√©el si cl√© disponible)
client = ClientDeepSeek(config)

# Analyseur convergence
analyseur = AnalyseurConvergence(client)

print("‚úÖ Analyseur initialis√©")
print(f"   Mode : {'R√âEL (API DeepSeek)' if DEEPSEEK_API_KEY else 'SIMULATION'}")

---

# üî¨ EXP√âRIENCE 1 : Clustering Primitives NSM

**Objectif** : V√©rifier si les 12 cat√©gories NSM sont lin√©airement s√©parables dans l'espace DeepSeek

**Protocole** :
1. Encoder 60 primitives NSM avec DeepSeek
2. R√©duction dimensionnelle t-SNE (4096 ‚Üí 2D)
3. Clustering K-means (k=12 cat√©gories)
4. Mesure puret√© + silhouette

**Seuil validation** : Puret√© > 0.7, Silhouette > 0.5

In [None]:
# Encoder primitives NSM
print("üîÑ Encodage 60 primitives NSM avec DeepSeek...")
print("   (Dur√©e estim√©e : 2-3 min avec GPU)\n")

embeddings_primitives = analyseur.encoder_primitives_nsm()

print(f"\n‚úÖ {len(embeddings_primitives)} primitives encod√©es")
print(f"   Dimension embeddings : {embeddings_primitives[0]['embedding'].shape}")

In [None]:
# Visualisation t-SNE
print("üîÑ Calcul t-SNE et visualisation...\n")

coords_2d, categories = analyseur.visualiser_tsne(
    embeddings_primitives,
    output_path=f"{output_dir}/tsne_primitives_nsm_real.png"
)

plt.show()
print(f"\n‚úÖ Visualisation sauvegard√©e : {output_dir}/tsne_primitives_nsm_real.png")

In [None]:
# √âvaluation clustering
print("üîÑ √âvaluation clustering K-means...\n")

metriques = analyseur.evaluer_clustering(embeddings_primitives)

print(f"\nüìä R√âSULTATS EXP√âRIENCE 1")
print("=" * 50)
print(f"Puret√© clustering    : {metriques['purete']:.3f} (seuil > 0.7)")
print(f"Silhouette score     : {metriques['silhouette']:.3f} (seuil > 0.5)")
print(f"Nombre clusters      : {metriques['n_clusters']}")

# Validation
h1_validee = metriques['purete'] > 0.7 and metriques['silhouette'] > 0.5
print(f"\n{'‚úÖ' if h1_validee else '‚ùå'} H1 - Clustering cat√©goriel : {'VALID√âE' if h1_validee else 'R√âFUT√âE'}")

---

# üî¨ EXP√âRIENCE 2 : Carr√©s S√©miotiques Greimas

**Objectif** : V√©rifier si les oppositions Greimas respectent un ordre g√©om√©trique dans DeepSeek

**Protocole** :
1. Encoder 20 paires de contraires (BON/MAUVAIS, etc.)
2. Calculer 4 positions du carr√© : S1, S2, non-S1, non-S2
3. Mesurer distances cosinus
4. Valider ordre : d(contraire) > d(contradiction) > d(subcontraire)

**Seuil validation** : > 70% des carr√©s valident structure

In [None]:
# Analyser carr√©s s√©miotiques
print("üîÑ Analyse 20 carr√©s s√©miotiques...")
print("   (Dur√©e estim√©e : 3-4 min avec GPU)\n")

analyse_carres = analyseur.analyser_carres_semiotiques()

print(f"\nüìä R√âSULTATS EXP√âRIENCE 2")
print("=" * 50)
print(f"Carr√©s analys√©s      : {len(analyse_carres['resultats'])}")
print(f"Carr√©s valides       : {sum(1 for r in analyse_carres['resultats'] if r['structure_valide'])}")
print(f"Taux validation      : {analyse_carres['taux_validation']:.1%}")

# Validation
h2_validee = analyse_carres['taux_validation'] > 0.7
print(f"\n{'‚úÖ' if h2_validee else '‚ùå'} H2 - Carr√©s s√©miotiques : {'VALID√âE' if h2_validee else 'R√âFUT√âE'}")

In [None]:
# Heatmap carr√©s
print("\nüîÑ G√©n√©ration heatmap carr√©s s√©miotiques...\n")

analyseur.visualiser_heatmap_carres(
    analyse_carres,
    output_path=f"{output_dir}/heatmap_carres_real.png"
)

plt.show()
print(f"‚úÖ Heatmap sauvegard√©e : {output_dir}/heatmap_carres_real.png")

---

# üî¨ EXP√âRIENCE 3 : Isotopies Corpus Litt√©raire

**Objectif** : Comparer isotopies NSM avec features principales DeepSeek

**Protocole** :
1. Corpus litt√©raire (Camus, Hugo, Proust, Saint-Exup√©ry)
2. D√©tection isotopies NSM (fr√©quences primitives)
3. Encodage DeepSeek + PCA
4. Corr√©lation isotopies NSM ‚Üî features PCA

**Seuil validation** : Corr√©lation > 0.6

In [None]:
# Charger corpus litt√©raire
sys.path.append('/content/Panini-Research/semantic-primitives/tests')
from test_corpus_litteraire import CORPUS_CAMUS, CORPUS_HUGO, CORPUS_PROUST, CORPUS_EXUPERY

# Corpus complet (105 phrases)
corpus_complet = CORPUS_CAMUS + CORPUS_HUGO + CORPUS_PROUST + CORPUS_EXUPERY

print(f"üìö Corpus litt√©raire charg√©")
print(f"   - Camus : {len(CORPUS_CAMUS)} phrases")
print(f"   - Hugo : {len(CORPUS_HUGO)} phrases")
print(f"   - Proust : {len(CORPUS_PROUST)} phrases")
print(f"   - Saint-Exup√©ry : {len(CORPUS_EXUPERY)} phrases")
print(f"   - TOTAL : {len(corpus_complet)} phrases")

In [None]:
# Analyser isotopies (avec GPU)
print("\nüîÑ Analyse isotopies corpus complet...")
print("   (Dur√©e estim√©e : 5-7 min avec GPU)\n")

analyse_isotopies = analyseur.analyser_isotopies_corpus(
    corpus_complet,
    nom_corpus="Corpus Litt√©raire Complet (105 phrases)"
)

print(f"\nüìä R√âSULTATS EXP√âRIENCE 3")
print("=" * 50)
print(f"Phrases analys√©es    : {len(corpus_complet)}")
print(f"Isotopies d√©tect√©es  : {len(analyse_isotopies['isotopies_nsm'])}")
print(f"Variance PCA         : {analyse_isotopies['variance_expliquee'].sum():.1%}")

# Top isotopies avec corr√©lations
print(f"\nüîç Top 10 isotopies NSM :")
top_isotopies = sorted(
    analyse_isotopies['isotopies_nsm'].items(),
    key=lambda x: x[1],
    reverse=True
)[:10]

for prim, freq in top_isotopies:
    if prim in analyse_isotopies['correlations']:
        corr = analyse_isotopies['correlations'][prim]['max_correlation']
        print(f"  {prim:15s} : freq={freq:3d}, corr={corr:.3f}")

# Validation
correlations_fortes = [c['max_correlation'] for c in analyse_isotopies['correlations'].values() if c['max_correlation'] > 0.6]
h3_validee = len(correlations_fortes) >= len(analyse_isotopies['correlations']) * 0.5

print(f"\n{'‚úÖ' if h3_validee else '‚ùå'} H3 - Isotopies convergentes : {'VALID√âE' if h3_validee else 'R√âFUT√âE'}")
print(f"   Isotopies r > 0.6 : {len(correlations_fortes)}/{len(analyse_isotopies['correlations'])}")

---

# üìä Visualisation 3D Interactive (Plotly)

Projection t-SNE 3D des primitives NSM dans l'espace DeepSeek

In [None]:
import plotly.graph_objects as go
from sklearn.manifold import TSNE

# t-SNE 3D
print("üîÑ Calcul t-SNE 3D (peut prendre 2-3 min)...\n")

embeddings_array = np.array([item['embedding'] for item in embeddings_primitives])
labels = [item['primitive'] for item in embeddings_primitives]
categories = [item['categorie'] for item in embeddings_primitives]

tsne_3d = TSNE(n_components=3, perplexity=30, max_iter=1000, random_state=42)
coords_3d = tsne_3d.fit_transform(embeddings_array)

# Couleurs par cat√©gorie
categories_uniques = list(set(categories))
color_map = {cat: i for i, cat in enumerate(categories_uniques)}
colors = [color_map[cat] for cat in categories]

# Graphique 3D interactif
fig = go.Figure(data=[go.Scatter3d(
    x=coords_3d[:, 0],
    y=coords_3d[:, 1],
    z=coords_3d[:, 2],
    mode='markers+text',
    text=labels,
    marker=dict(
        size=8,
        color=colors,
        colorscale='Viridis',
        showscale=True,
        colorbar=dict(title="Cat√©gorie", tickvals=list(range(len(categories_uniques))), ticktext=categories_uniques)
    ),
    textposition="top center",
    textfont=dict(size=8)
)])

fig.update_layout(
    title="Primitives NSM dans l'espace DeepSeek (3D interactif)",
    scene=dict(
        xaxis_title='Dimension 1',
        yaxis_title='Dimension 2',
        zaxis_title='Dimension 3'
    ),
    width=1000,
    height=800
)

fig.show()

# Sauvegarder HTML interactif
html_path = f"{output_dir}/viz_3d_interactive.html"
fig.write_html(html_path)
print(f"\n‚úÖ Visualisation 3D sauvegard√©e : {html_path}")
print("   ‚Üí Ouvrir ce fichier dans navigateur pour interaction compl√®te")

---

# üíæ Sauvegarde R√©sultats

In [None]:
# Pr√©parer r√©sultats pour sauvegarde
resultats_complets = {
    'metadata': {
        'date': datetime.now().isoformat(),
        'mode': 'R√âEL' if DEEPSEEK_API_KEY else 'SIMULATION',
        'modele': 'deepseek-chat',
        'corpus_size': len(corpus_complet)
    },
    'experience_1': {
        'purete': float(metriques['purete']),
        'silhouette': float(metriques['silhouette']),
        'n_clusters': int(metriques['n_clusters']),
        'hypothese_validee': h1_validee
    },
    'experience_2': {
        'taux_validation': float(analyse_carres['taux_validation']),
        'carres_valides': sum(1 for r in analyse_carres['resultats'] if r['structure_valide']),
        'carres_total': len(analyse_carres['resultats']),
        'hypothese_validee': h2_validee
    },
    'experience_3': {
        'isotopies_detectees': len(analyse_isotopies['isotopies_nsm']),
        'variance_pca': float(analyse_isotopies['variance_expliquee'].sum()),
        'correlations_fortes': len(correlations_fortes),
        'hypothese_validee': h3_validee,
        'top_isotopies': dict(top_isotopies)
    }
}

# Sauvegarder JSON
json_path = f"{output_dir}/resultats_deepseek_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json"
with open(json_path, 'w', encoding='utf-8') as f:
    json.dump(resultats_complets, f, indent=2, ensure_ascii=False)

print(f"‚úÖ R√©sultats sauvegard√©s : {json_path}")

# Sauvegarder embeddings (pour analyses futures)
embeddings_path = f"{output_dir}/embeddings_primitives.npy"
np.save(embeddings_path, embeddings_array)
print(f"‚úÖ Embeddings sauvegard√©s : {embeddings_path}")

---

# üìä RAPPORT FINAL

In [None]:
print("\n" + "=" * 70)
print("üî¨ ANALYSE COMPARATIVE DEEPSEEK vs NSM-GREIMAS")
print("=" * 70)

print(f"\nüìÖ Date : {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üñ•Ô∏è Mode : {'R√âEL (API DeepSeek)' if DEEPSEEK_API_KEY else 'SIMULATION'}")
print(f"üìö Corpus : {len(corpus_complet)} phrases litt√©raires")

print("\n" + "=" * 70)
print("R√âSULTATS EXP√âRIENCES")
print("=" * 70)

print(f"\n{'‚úÖ' if h1_validee else '‚ùå'} EXP√âRIENCE 1 : Clustering Primitives NSM")
print(f"   Puret√©          : {metriques['purete']:.3f} (seuil > 0.7)")
print(f"   Silhouette      : {metriques['silhouette']:.3f} (seuil > 0.5)")
print(f"   ‚Üí H1 : {'VALID√âE' if h1_validee else 'R√âFUT√âE'}")

print(f"\n{'‚úÖ' if h2_validee else '‚ùå'} EXP√âRIENCE 2 : Carr√©s S√©miotiques Greimas")
print(f"   Taux validation : {analyse_carres['taux_validation']:.1%} (seuil > 70%)")
print(f"   Carr√©s valides  : {sum(1 for r in analyse_carres['resultats'] if r['structure_valide'])}/{len(analyse_carres['resultats'])}")
print(f"   ‚Üí H2 : {'VALID√âE' if h2_validee else 'R√âFUT√âE'}")

print(f"\n{'‚úÖ' if h3_validee else '‚ùå'} EXP√âRIENCE 3 : Isotopies Corpus Litt√©raire")
print(f"   Isotopies r>0.6 : {len(correlations_fortes)}/{len(analyse_isotopies['correlations'])}")
print(f"   Variance PCA    : {analyse_isotopies['variance_expliquee'].sum():.1%}")
print(f"   ‚Üí H3 : {'VALID√âE' if h3_validee else 'R√âFUT√âE'}")

print("\n" + "=" * 70)
print("CONCLUSION")
print("=" * 70)

hypotheses_validees = sum([h1_validee, h2_validee, h3_validee])
print(f"\nHypoth√®ses valid√©es : {hypotheses_validees}/3")

if hypotheses_validees >= 2:
    print("\n‚úÖ CONVERGENCE VALID√âE")
    print("   Les mod√®les NSM-Greimas et DeepSeek convergent significativement.")
elif hypotheses_validees == 1:
    print("\n‚ö†Ô∏è CONVERGENCE PARTIELLE")
    print("   Les mod√®les convergent partiellement, divergences importantes.")
else:
    print("\n‚ùå DIVERGENCE")
    print("   Les mod√®les capturent des r√©alit√©s s√©mantiques diff√©rentes.")

print("\n" + "=" * 70)
print("FICHIERS G√âN√âR√âS")
print("=" * 70)
print(f"\nüìÅ Dossier : {output_dir}")
print("\nVisualisations :")
print("  - tsne_primitives_nsm_real.png")
print("  - heatmap_carres_real.png")
print("  - viz_3d_interactive.html (ouvrir dans navigateur)")
print("\nDonn√©es :")
print("  - resultats_deepseek_YYYYMMDD_HHMMSS.json")
print("  - embeddings_primitives.npy")

print("\n" + "=" * 70)
print("‚úÖ ANALYSE TERMIN√âE")
print("=" * 70)

---

# üöÄ Prochaines √âtapes

## Actions Recommand√©es

1. **T√©l√©charger r√©sultats** depuis Google Drive
2. **Mettre √† jour rapport** avec r√©sultats API r√©elle
3. **Analyser divergences** (si hypoth√®ses r√©fut√©es)
4. **Exp√©rience 4** : Reconstruction lin√©aire (r√©gression DeepSeek ‚Üí NSM)
5. **Publication** : R√©diger article ACL 2026

## Corpus √âtendu (Optionnel)

Pour analyse plus robuste, charger corpus large :

```python
# T√©l√©charger depuis Google Drive
corpus_1000 = pd.read_csv('/content/drive/MyDrive/Panini/corpus_1000_phrases.csv')

# Relancer Exp√©rience 3
analyse_large = analyseur.analyser_isotopies_corpus(
    corpus_1000['phrase'].tolist(),
    nom_corpus="Corpus Large (1000+ phrases)"
)
```

## Comparaison Multi-Mod√®les

Tester convergence avec autres LLMs :

- OpenAI GPT-4
- Anthropic Claude
- Google Gemini
- Meta Llama 3

**Question** : Quel mod√®le converge le plus vers NSM-Greimas ?