## Application de GSP sur BMS1

In [22]:
import subprocess
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from collections import Counter

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 12


#### Analyse exploratoire

In [23]:
# %% Cell 2 - Analyse exploratoire BMS1
print("=" * 80)
print("ANALYSE EXPLORATOIRE - DATASET BMS1")
print("=" * 80)

def analyze_original_file(filename):
    """Analyse complète du fichier original"""
    print(" Lecture du fichier original...")
    
    sequences = []
    all_items = []
    sequence_lengths = []
    
    with open(filename, 'r') as f:
        for line in f:
            line = line.strip()
            if line:
                items = [item for item in line.split() if item not in ['-1', '-2']]
                sequences.append(items)
                all_items.extend(items)
                sequence_lengths.append(len(items))
    
    total_sequences = len(sequences)
    total_items = len(all_items)
    unique_items = len(set(all_items))
    
    print(f" Statistiques générales:")
    print(f"   • Séquences: {total_sequences:,}")
    print(f"   • Items totaux: {total_items:,}")
    print(f"   • Items uniques: {unique_items:,}")
    print(f"   • Longueur moyenne: {np.mean(sequence_lengths):.2f} items")
    print(f"   • Longueur médiane: {np.median(sequence_lengths):.2f} items")
    
    return sequences, all_items, sequence_lengths

# Analyse du fichier
sequences, all_items, seq_lengths = analyze_original_file("BMS1.txt")
total_sequences = len(sequences)

# Top 20 items
print("\n Top 20 des items les plus fréquents:")
item_counts = Counter(all_items)
top_items = item_counts.most_common(20)
for i, (item, count) in enumerate(top_items, 1):
    percentage = (count / total_sequences) * 100
    print(f"   {i:2d}. Item {item}: {count:>5} séquences ({percentage:5.2f}%)")

ANALYSE EXPLORATOIRE - DATASET BMS1
 Lecture du fichier original...
 Statistiques générales:
   • Séquences: 77,512
   • Items totaux: 358,278
   • Items uniques: 3,340
   • Longueur moyenne: 4.62 items
   • Longueur médiane: 3.00 items

 Top 20 des items les plus fréquents:
    1. Item 55267:  3766 séquences ( 4.86%)
    2. Item 55323:  3417 séquences ( 4.41%)
    3. Item 55319:  2497 séquences ( 3.22%)
    4. Item 55271:  2284 séquences ( 2.95%)
    5. Item 55351:  2249 séquences ( 2.90%)
    6. Item 55315:  2248 séquences ( 2.90%)
    7. Item 55327:  2150 séquences ( 2.77%)
    8. Item 55283:  2093 séquences ( 2.70%)
    9. Item 56761:  2048 séquences ( 2.64%)
   10. Item 55291:  2003 séquences ( 2.58%)
   11. Item 55295:  1834 séquences ( 2.37%)
   12. Item 55387:  1608 séquences ( 2.07%)
   13. Item 56769:  1602 séquences ( 2.07%)
   14. Item 55287:  1477 séquences ( 1.91%)
   15. Item 55543:  1434 séquences ( 1.85%)
   16. Item 55551:  1423 séquences ( 1.84%)
   17. Item 55875:  

#### Conversion au format SPMF

In [17]:
# %% Cell 3 - Conversion format SPMF
print("=" * 50)
print("CONVERSION FORMAT SPMF")
print("=" * 50)

def convert_to_spmf_format():
    """Convertit BMS1.txt en format SPMF"""
    print("🔄 Conversion du format...")
    
    input_count = 0
    output_count = 0
    
    with open("BMS1.txt", 'r') as fin, open("BMS1_spmf.txt", 'w') as fout:
        for line in fin:
            input_count += 1
            items = line.strip().split()
            if items:
                # Format SPMF standard
                fout.write(' '.join(items) + ' -2\n')
                output_count += 1
    
    print(f"✅ Conversion terminée:")
    print(f"   • Lignes lues: {input_count}")
    print(f"   • Séquences converties: {output_count}")
    
    # Aperçu du fichier généré
    print("\n📄 Aperçu du fichier converti:")
    with open("BMS1_spmf.txt", 'r') as f:
        for i, line in enumerate(f):
            if i < 3:
                print(f"   Ligne {i+1}: {line.strip()}")
            else:
                break

# Exécution
convert_to_spmf_format()

CONVERSION FORMAT SPMF
🔄 Conversion du format...
✅ Conversion terminée:
   • Lignes lues: 77512
   • Séquences converties: 77512

📄 Aperçu du fichier converti:
   Ligne 1: 82475 -1 84211 -1 86919 -1 86927 -1 86943 -1 -2 -2
   Ligne 2: 56109 -1 222699 -1 -2 -2
   Ligne 3: 55455 -1 -2 -2


In [11]:

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 12

#print("=" * 80)
#print("ANALYSE AVEC ALGORITHME GSP - DATASET BMS1")
#print("=" * 80)


In [12]:

# 1. EXÉCUTION DE GSP


def run_gsp_analysis():
    """Exécute GSP via SPMF"""
    
    # 1. Convertir le format pour SPMF (si pas déjà fait)
    if not os.path.exists("BMS1_spmf.txt"):
        print("📋 Conversion du format pour SPMF...")
        with open("BMS1.txt", 'r') as fin, open("BMS1_spmf.txt", 'w') as fout:
            for line in fin:
                items = line.strip().split()
                if items:
                    fout.write(' '.join(items) + ' -2\n')
    
    # 2. Exécuter GSP
    print(" Exécution de GSP...")
    
    # Paramètres GSP :
    min_support = 0.001      # Support minimal (0.1%)
    max_sequence_length = 10 # Longueur maximale des séquences
    
    command = [
        'java', '-jar', 'spmf.jar', 'run', 
        'GSP', 
        'BMS1_spmf.txt',      # Fichier d'entrée
        'output_gsp.txt',     # Fichier de sortie
        str(min_support),     # Support minimal
        str(max_sequence_length)  # Longueur max des séquences
    ]
    
    print(f"   Support: {min_support}")
    print(f"   Longueur max: {max_sequence_length}")
    print(f"   Commande: {' '.join(command)}")
    
    try:
        result = subprocess.run(command, capture_output=True, text=True, timeout=300)
        print(f" Code retour: {result.returncode}")
        
        if result.returncode == 0:
            print(" GSP exécuté avec succès!")
            if result.stdout:
                print(f"   Sortie: {result.stdout[:500]}...")
            
            if os.path.exists('output_gsp.txt'):
                file_size = os.path.getsize('output_gsp.txt')
                print(f" Fichier résultats: output_gsp.txt ({file_size} octets)")
                return True
        else:
            print(f" Erreur GSP: {result.stderr}")
            return False
            
    except subprocess.TimeoutExpired:
        print(" Timeout - GSP trop long")
        return False
    except Exception as e:
        print(f" Exception: {e}")
        return False



In [13]:

# 2. ANALYSE DES RÉSULTATS GSP



def analyze_gsp_results(filename, total_sequences):
    """Analyse des résultats de GSP"""
    print("📋 Analyse du fichier de résultats GSP...")
    
    patterns = []
    supports = []
    pattern_lengths = []
    
    with open(filename, 'r') as f:
        for line in f:
            line = line.strip()
            if line and '#SUP:' in line:
                # Extraire le pattern et le support
                pattern_part, sup_part = line.rsplit('#SUP:', 1)
                pattern = pattern_part.strip()
                support = int(sup_part.strip())
                
                patterns.append(pattern)
                supports.append(support)
                
                # Calculer la longueur du motif
                items = pattern.split()
                length = len([item for item in items if item != '-1'])
                pattern_lengths.append(length)
    
    if not patterns:
        print(" Aucun motif trouvé par GSP")
        return [], [], []
    
    print(f"   • Nombre total de motifs trouvés: {len(patterns):,}")
    print(f"   • Support moyen: {np.mean(supports):.1f}")
    print(f"   • Support médian: {np.median(supports):.1f}")
    print(f"   • Support maximum: {np.max(supports)}")
    print(f"   • Support minimum: {np.min(supports)}")
    print(f"   • Longueur moyenne des motifs: {np.mean(pattern_lengths):.2f} items")
    
    # Top 15 des motifs par support
    pattern_data = list(zip(patterns, supports, pattern_lengths))
    pattern_data.sort(key=lambda x: x[1], reverse=True)
    
    print("\n Top 15 des motifs les plus fréquents (GSP):")
    for i, (pattern, sup, length) in enumerate(pattern_data[:15], 1):
        percentage = (sup / total_sequences) * 100
        print(f"   {i:2d}. Support: {sup:>5} ({percentage:5.2f}%) | Longueur: {length} | Motif: {pattern}")
    
    return patterns, supports, pattern_lengths




In [14]:


# 3. VISUALISATION DES RÉSULTATS GSP
def visualize_gsp_results(patterns, supports, pattern_lengths):
    """Crée des visualisations pour les résultats GSP"""
    print("\n" + "="*50)
    print("4. VISUALISATION DES RÉSULTATS GSP")
    print("="*50)
    
    if not patterns:
        print("❌ Aucune donnée à visualiser")
        return
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('ANALYSE DES RÉSULTATS GSP - DATASET BMS1', fontsize=16, fontweight='bold')
    
    # Graphique 1: Distribution des supports
    axes[0,0].hist(supports, bins=50, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0,0].set_xlabel('Support')
    axes[0,0].set_ylabel('Nombre de motifs')
    axes[0,0].set_title('Distribution des supports des motifs (GSP)')
    axes[0,0].grid(True, alpha=0.3)
    
    # Graphique 2: Distribution des longueurs de motifs
    length_counts = Counter(pattern_lengths)
    lengths, counts = zip(*sorted(length_counts.items()))
    axes[0,1].bar(lengths, counts, color='lightcoral', alpha=0.7)
    axes[0,1].set_xlabel('Longueur des motifs (nombre d\'items)')
    axes[0,1].set_ylabel('Nombre de motifs')
    axes[0,1].set_title('Distribution des longueurs de motifs (GSP)')
    axes[0,1].grid(True, alpha=0.3)
    
    # Graphique 3: Top 15 motifs par support
    top_15 = sorted(zip(patterns, supports), key=lambda x: x[1], reverse=True)[:15]
    top_patterns, top_supports = zip(*top_15)
    
    truncated_patterns = [p[:40] + '...' if len(p) > 40 else p for p in top_patterns]
    
    y_pos = np.arange(len(truncated_patterns))
    axes[1,0].barh(y_pos, top_supports, color='lightgreen', alpha=0.7)
    axes[1,0].set_yticks(y_pos)
    axes[1,0].set_yticklabels(truncated_patterns)
    axes[1,0].set_xlabel('Support')
    axes[1,0].set_title('Top 15 des motifs par support (GSP)')
    axes[1,0].grid(True, alpha=0.3)
    
    # Graphique 4: Relation support vs longueur
    axes[1,1].scatter(pattern_lengths, supports, alpha=0.5, color='purple')
    axes[1,1].set_xlabel('Longueur du motif')
    axes[1,1].set_ylabel('Support')
    axes[1,1].set_title('Relation Support vs Longueur des motifs')
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('resultats_gsp.png', dpi=300, bbox_inches='tight')
    plt.show()



In [15]:
# EXÉCUTION PRINCIPALE
if __name__ == "__main__":
    # Compter le nombre total de séquences pour les pourcentages
    total_sequences = 77512  # Valeur connue de BMS1
    
    # 1. Exécuter GSP
    success = run_gsp_analysis()
    
    if success:
        # 2. Analyser les résultats
        patterns, supports, pattern_lengths = analyze_gsp_results('output_gsp.txt', total_sequences)
        
        # 3. Comparer avec CM-SPADE (si disponible)
        compare_gsp_cmspade()
        
        # 4. Visualisations
        if patterns:
            visualize_gsp_results(patterns, supports, pattern_lengths)
        
        # 5. Statistiques avancées
        print("\n" + "="*50)
        print("5. STATISTIQUES AVANCÉES GSP")
        print("="*50)
        
        if pattern_lengths:
            length_dist = Counter(pattern_lengths)
            print("📏 Distribution détaillée des longueurs:")
            for length, count in sorted(length_dist.items()):
                percentage = (count / len(patterns)) * 100
                print(f"   {length} item(s): {count:>5} motifs ({percentage:5.1f}%)")
            
            # Motifs les plus longs
            max_length = max(pattern_lengths)
            long_patterns = [(p, s) for p, s, l in zip(patterns, supports, pattern_lengths) if l == max_length]
            print(f"\n🔍 Motifs les plus longs ({max_length} items):")
            for i, (pattern, sup) in enumerate(long_patterns[:5], 1):
                print(f"   {i}. Support: {sup} | Motif: {pattern[:100]}...")
    
    print("\n" + "="*80)
    print("✅ ANALYSE GSP TERMINÉE!")
    print("="*80)

 Exécution de GSP...
   Support: 0.001
   Longueur max: 10
   Commande: java -jar spmf.jar run GSP BMS1_spmf.txt output_gsp.txt 0.001 10
 Code retour: 0
 GSP exécuté avec succès!
   Sortie: >/home/mlee/Documents/semestre1/INF4117/TP/Annalyse_exploratrice_Wine/devoir02/spmf.jar
An error while trying to run the algorithm. 
 ERROR MESSAGE = java.lang.IllegalArgumentException: 

 The 2nd parameter value of this algorithm 'Show sequence ids?' is of an incorrect type. The provided value is '10' but it should be of type: Boolean.
...

✅ ANALYSE GSP TERMINÉE!
