In [1]:
import pandas as pd
import os
import re
from pathlib import Path
import numpy as np

def parse_filename(filename):
    """
    Estrae operation, sparsity e run dal nome del file
    Es: 'matmul_50_1.csv' -> operation='matmul', sparsity=50, run=1
    """
    # Rimuovi l'estensione .csv
    name = filename.replace('.csv', '')
    
    # Split per underscore
    parts = name.split('_')
    
    if len(parts) >= 3:
        operation = parts[0]
        try:
            sparsity = int(parts[1])
            run = int(parts[2])
        except ValueError:
            sparsity = np.nan
            run = np.nan
    else:
        operation = parts[0] if parts else ''
        sparsity = np.nan
        run = np.nan
    
    return operation, sparsity, run

def extract_vl_from_path(path):
    """
    Estrae il valore VL dal path della directory
    Es: 'mlir_files_results_vector_16/' -> 16
    """
    # Cerca pattern che termina con _numero
    match = re.search(r'_(\d+)/?$', str(path))
    if match:
        return int(match.group(1))
    return np.nan

def parse_perf_csv(filepath):
    """
    Analizza un file CSV di perf e restituisce un dizionario con le metriche
    """
    metrics = {}
    
    try:
        with open(filepath, 'r') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                
                parts = line.split(',')
                if len(parts) < 3:
                    continue
                
                # Il formato è: valore,unità,nome_metrica,...
                try:
                    value = float(parts[0])
                    metric_name = parts[2]
                    
                    # Pulisci il nome della metrica
                    metric_name = metric_name.replace('-', '_')
                    
                    # Gestisci casi speciali per nomi di metriche
                    if metric_name == 'task_clock':
                        metrics['task_clock'] = value
                    elif metric_name == 'context_switches':
                        metrics['context_switches'] = value
                    elif metric_name == 'cpu_migrations':
                        metrics['cpu_migrations'] = value
                    elif metric_name == 'page_faults':
                        metrics['page_faults'] = value
                    elif metric_name == 'cycles':
                        metrics['cycles'] = value
                    elif metric_name == 'instructions':
                        metrics['instructions'] = value
                    elif metric_name == 'branches':
                        metrics['branches'] = value
                    elif metric_name == 'branch_misses':
                        metrics['branch_misses'] = value
                    else:
                        # Per altre metriche, usa il nome così com'è
                        metrics[metric_name] = value
                        
                except (ValueError, IndexError):
                    continue
    
    except Exception as e:
        print(f"Errore nel leggere {filepath}: {e}")
    
    # Calcola IPC se abbiamo sia instructions che cycles
    if 'instructions' in metrics and 'cycles' in metrics and metrics['cycles'] > 0:
        metrics['ipc'] = metrics['instructions'] / metrics['cycles']
    
    return metrics

def analyze_performance_data():
    """
    Funzione principale per analizzare i dati di performance
    """
    # Directory principali da analizzare
    base_dirs = ['results_scalar/', 'results_vector/']
    
    all_data = []
    
    for base_dir in base_dirs:
        if not os.path.exists(base_dir):
            print(f"Directory {base_dir} non trovata, salto...")
            continue
        
        # Determina il mode dalla directory
        mode = 'scalar' if 'scalar' in base_dir else 'vector'
        
        # Attraversa ricorsivamente la directory
        for root, dirs, files in os.walk(base_dir):
            for file in files:
                if file.endswith('.csv'):
                    filepath = os.path.join(root, file)
                    
                    # Estrai informazioni dal nome del file
                    operation, sparsity, run = parse_filename(file)
                    
                    # Estrai VL se siamo in mode vector
                    vl = np.nan
                    if mode == 'vector':
                        vl = extract_vl_from_path(root)
                    
                    # Analizza il file CSV
                    metrics = parse_perf_csv(filepath)
                    
                    # Crea il record
                    record = {
                        'operation': operation,
                        'sparsity': sparsity,
                        'run': run,
                        'mode': mode,
                        'vl': vl,
                        **metrics  # Aggiungi tutte le metriche
                    }
                    
                    all_data.append(record)
    
    # Crea il DataFrame
    df = pd.DataFrame(all_data)
    
    # Riordina le colonne mettendo i metadati per primi
    meta_cols = ['operation', 'sparsity', 'run', 'mode', 'vl']
    metric_cols = [col for col in df.columns if col not in meta_cols]
    
    # Ordina le colonne metriche alfabeticamente
    metric_cols.sort()
    
    df = df[meta_cols + metric_cols]
    
    return df

# Esegui l'analisi
print("Inizio analisi dei file di performance...")
df = analyze_performance_data()

print(f"\nDataFrame creato con {len(df)} righe e {len(df.columns)} colonne")
print(f"Colonne: {list(df.columns)}")

print("\nPrime 5 righe del DataFrame:")
print(df.head())

print("\nInformazioni sul DataFrame:")
print(df.info())

print("\nStatistiche descrittive per le colonne numeriche:")
print(df.describe())

Inizio analisi dei file di performance...

DataFrame creato con 467 righe e 14 colonne
Colonne: ['operation', 'sparsity', 'run', 'mode', 'vl', 'branch_misses', 'branches', 'context_switches', 'cpu_migrations', 'cycles', 'instructions', 'ipc', 'page_faults', 'task_clock']

Prime 5 righe del DataFrame:
     operation  sparsity  run    mode  vl  branch_misses  branches  \
0  elementwise      60.0  2.0  scalar NaN        13571.0  131346.0   
1  elementwise      60.0  3.0  scalar NaN        13577.0  131097.0   
2  elementwise      60.0  1.0  scalar NaN        13511.0  132040.0   
3  elementwise      80.0  1.0  scalar NaN        13659.0  128395.0   
4  elementwise      80.0  2.0  scalar NaN        13426.0  127347.0   

   context_switches  cpu_migrations     cycles  instructions       ipc  \
0               0.0             0.0  3704796.0     1055763.0  0.284972   
1               0.0             0.0  3669426.0     1052681.0  0.286879   
2               0.0             0.0  3713228.0     1060

In [4]:
import pandas as pd
import numpy as np
import re

def clean_and_process_dataframe(df):
    """
    Pulisce e processa il DataFrame di performance
    """
    # Crea una copia per non modificare l'originale
    df_clean = df.copy()
    
    print("=== PULIZIA E CONVERSIONE DATI ===")
    print(f"DataFrame originale: {df_clean.shape}")
    print(f"Colonne originali: {list(df_clean.columns)}")
    
    # 1. Identifica e rimuovi colonne inutili/ridondanti
    columns_to_remove = []
    
    # Pattern per identificare colonne da rimuovere
    remove_patterns = [
        r'.*\/sec$',  # Colonne che finiscono con /sec
        r'.*CPUs.*utilized.*',  # CPUs utilized
        r'.*percentage.*',  # Percentuali
        r'.*ratio.*',  # Rapporti ridondanti
        r'.*time.*unit.*',  # Unità di tempo ridondanti
    ]
    
    for col in df_clean.columns:
        if any(re.search(pattern, str(col), re.IGNORECASE) for pattern in remove_patterns):
            columns_to_remove.append(col)
    
    # Rimuovi colonne identificate
    if columns_to_remove:
        print(f"Rimozione colonne: {columns_to_remove}")
        df_clean = df_clean.drop(columns=columns_to_remove)
    
    # 2. Converti colonne numeriche da stringa a float
    # Identifica colonne che dovrebbero essere numeriche (esclusi metadati)
    # Prima verifica quali colonne di metadati esistono effettivamente
    possible_metadata_cols = ['operation', 'sparsity', 'run', 'mode', 'vl']
    metadata_cols = [col for col in possible_metadata_cols if col in df_clean.columns]
    
    numeric_cols = [col for col in df_clean.columns if col not in metadata_cols]
    
    print(f"Conversione di {len(numeric_cols)} colonne numeriche...")
    
    for col in numeric_cols:
        if col in df_clean.columns:
            # Converti a stringa prima per gestire eventuali NaN
            df_clean[col] = df_clean[col].astype(str)
            
            # Rimuovi caratteri non numerici (tranne punto e segno meno)
            df_clean[col] = df_clean[col].str.replace(r'[^\d.-]', '', regex=True)
            
            # Sostituisci stringhe vuote con NaN
            df_clean[col] = df_clean[col].replace('', np.nan)
            
            # Converti a float
            df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')
    
    # 3. Calcola IPC se non presente e se abbiamo instructions e cycles
    if 'ipc' not in df_clean.columns:
        if 'instructions' in df_clean.columns and 'cycles' in df_clean.columns:
            print("Calcolo IPC = instructions / cycles...")
            df_clean['ipc'] = df_clean['instructions'] / df_clean['cycles']
            # Sostituisci infiniti con NaN
            df_clean['ipc'] = df_clean['ipc'].replace([np.inf, -np.inf], np.nan)
    
    # 4. Calcola altre metriche derivate utili
    # Calcola miss rate per branch se abbiamo entrambe le metriche
    if 'branch_misses' in df_clean.columns and 'branches' in df_clean.columns:
        print("Calcolo branch_miss_rate = branch_misses / branches...")
        df_clean['branch_miss_rate'] = df_clean['branch_misses'] / df_clean['branches']
        df_clean['branch_miss_rate'] = df_clean['branch_miss_rate'].replace([np.inf, -np.inf], np.nan)
    
    # Calcola frequenza media se abbiamo cycles e task_clock
    if 'cycles' in df_clean.columns and 'task_clock' in df_clean.columns:
        print("Calcolo frequency_ghz = cycles / (task_clock * 1e9)...")
        # task_clock è in secondi, vogliamo GHz
        df_clean['frequency_ghz'] = df_clean['cycles'] / (df_clean['task_clock'] * 1e9)
        df_clean['frequency_ghz'] = df_clean['frequency_ghz'].replace([np.inf, -np.inf], np.nan)
    
    print(f"DataFrame pulito: {df_clean.shape}")
    print(f"Colonne disponibili dopo pulizia: {list(df_clean.columns)}")
    return df_clean

def aggregate_dataframe(df_clean):
    """
    Aggrega il DataFrame facendo la media sui run
    """
    print("\n=== AGGREGAZIONE DATI ===")
    
    # Colonne di raggruppamento - usa solo quelle che esistono nel DataFrame
    possible_groupby_cols = ['operation', 'sparsity', 'vl', 'mode', 'run']
    groupby_cols = [col for col in possible_groupby_cols if col in df_clean.columns]
    
    if not groupby_cols:
        print("Nessuna colonna di raggruppamento trovata - restituisco DataFrame non aggregato")
        return df_clean
    
    # Identifica colonne numeriche per l'aggregazione
    numeric_cols = df_clean.select_dtypes(include=[np.number]).columns.tolist()
    
    # Rimuovi le colonne di raggruppamento dalle numeriche
    metric_cols = [col for col in numeric_cols if col not in groupby_cols]
    
    print(f"Raggruppamento per: {groupby_cols}")
    print(f"Calcolo media per {len(metric_cols)} metriche: {metric_cols}")
    
    # Esegui il groupby e calcola la media
    df_grouped = df_clean.groupby(groupby_cols)[metric_cols].mean().reset_index()
    
    # Aggiungi informazioni sui run aggregati se esiste la colonna 'run'
    if 'run' in df_clean.columns:
        run_counts = df_clean.groupby(groupby_cols)['run'].agg(['count', 'nunique']).reset_index()
        run_counts.columns = groupby_cols + ['total_runs', 'unique_runs']
        
        # Merge con il DataFrame aggregato
        df_grouped = df_grouped.merge(run_counts, on=groupby_cols, how='left')
    
    print(f"DataFrame aggregato: {df_grouped.shape}")
    print(f"Combinazioni uniche: {len(df_grouped)}")
    
    return df_grouped

# Esegui la pulizia e il processing
print("Inizio elaborazione del DataFrame...")
df_clean = clean_and_process_dataframe(df)

print(f"\nTipi di dati:")
print(df_clean.dtypes)

# Mostra alcune statistiche pre-aggregazione solo per le colonne esistenti
print("\n=== DISTRIBUZIONI ===")
for col in ['operation', 'mode', 'sparsity', 'vl']:
    if col in df_clean.columns:
        print(f"\nDistribuzione per {col}:")
        print(df_clean[col].value_counts())
    else:
        print(f"\nColonna '{col}' non presente nel DataFrame")

# Esegui l'aggregazione
df_grouped = aggregate_dataframe(df_clean)

print(f"\n=== RISULTATO FINALE ===")
print(f"DataFrame finale: {df_grouped.shape}")
print(f"Colonne: {list(df_grouped.columns)}")

if len(df_grouped) > 0:
    print(f"\nPrime 5 righe del DataFrame aggregato:")
    print(df_grouped.head())

    print(f"\nStatistiche descrittive delle metriche aggregate:")
    numeric_cols = df_grouped.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(df_grouped[numeric_cols].describe())
    else:
        print("Nessuna colonna numerica disponibile per le statistiche")

    # Salva anche una versione ordinata
    sort_cols = [col for col in ['operation', 'mode', 'sparsity', 'vl'] if col in df_grouped.columns]
    if sort_cols:
        df_grouped = df_grouped.sort_values(sort_cols).reset_index(drop=True)
        print(f"\nDataFrame ordinato per {sort_cols}")
        
        if 'operation' in df_grouped.columns and 'mode' in df_grouped.columns:
            print(f"\nRaggruppamento per operation-mode:")
            print(df_grouped.groupby(['operation', 'mode']).size())
else:
    print("\nDataFrame aggregato vuoto")

Inizio elaborazione del DataFrame...
=== PULIZIA E CONVERSIONE DATI ===
DataFrame originale: (467, 14)
Colonne originali: ['operation', 'sparsity', 'run', 'mode', 'vl', 'branch_misses', 'branches', 'context_switches', 'cpu_migrations', 'cycles', 'instructions', 'ipc', 'page_faults', 'task_clock']
Rimozione colonne: ['operation', 'cpu_migrations']
Conversione di 8 colonne numeriche...
Calcolo branch_miss_rate = branch_misses / branches...
Calcolo frequency_ghz = cycles / (task_clock * 1e9)...
DataFrame pulito: (467, 14)
Colonne disponibili dopo pulizia: ['sparsity', 'run', 'mode', 'vl', 'branch_misses', 'branches', 'context_switches', 'cycles', 'instructions', 'ipc', 'page_faults', 'task_clock', 'branch_miss_rate', 'frequency_ghz']

Tipi di dati:
sparsity            float64
run                 float64
mode                 object
vl                  float64
branch_misses       float64
branches            float64
context_switches    float64
cycles              float64
instructions        