In [None]:
import os
import pandas as pd
import glob
from iocsearcher.searcher import Searcher
from tqdm import tqdm

# ==============================================================================
# CONFIGURAZIONE
# ==============================================================================
INPUT_FOLDER = "./Results_CSV"  
OUTPUT_FILE = "FINAL_IOC_REPORT.csv"

# Inizializza il cercatore di IoC
searcher = Searcher()

# ==============================================================================
# LOGICA DI ESTRAZIONE
# ==============================================================================
print(f"üîç Inizio estrazione IoC dalla cartella: {INPUT_FOLDER}")

# Trova tutti i file CSV nella cartella
csv_files = glob.glob(os.path.join(INPUT_FOLDER, "*.csv"))
print(f"üìã Trovati {len(csv_files)} file CSV da analizzare.")

all_iocs = []
total_messages_scanned = 0

for file_path in tqdm(csv_files, desc="Analisi File"):
    try:
        # Leggiamo il CSV del gruppo (contiene solo messaggi gi√† classificati come Cyber)
        df_group = pd.read_csv(file_path)
        
        if df_group.empty: continue
        
        # Nome del gruppo dal nome del file (per tracciabilit√†)
        group_name = os.path.basename(file_path).replace(".csv", "").replace("_", " ")
        
        total_messages_scanned += len(df_group)
        
        # Iteriamo su ogni messaggio
        for _, row in df_group.iterrows():
            text = str(row.get('text', '')) # Colonna 'text' contiene l'originale
            msg_date = row.get('date', '')
            user_id = row.get('user_id', '')
            
            if len(text) < 5: continue
            
            # --- ESTRAZIONE IOC (La parte che volevi recuperare) ---
            try:
                # search_raw restituisce una lista di tuple: [('URL', 'http://...'), ('IPv4', '1.2.3.4')]
                iocs_found = searcher.search_raw(text)
                
                if iocs_found:
                    for ioc_type, ioc_value in iocs_found:
                        # Salviamo l'IoC trovato
                        all_iocs.append({
                            "group_name": group_name,
                            "date": msg_date,
                            "user_id": user_id,
                            "ioc_type": ioc_type,   # Es: 'IPv4', 'URL', 'Bitcoin', 'Email'
                            "ioc_value": ioc_value, # Es: '192.168.1.1'
                            "context_text": text    # Utile per capire il contesto (es. "Attack target: [IOC]")
                        })
            except Exception as e:
                # A volte parser regex complessi possono fallire su caratteri strani
                continue
                
    except Exception as e:
        print(f"‚ö†Ô∏è Errore leggendo {file_path}: {e}")

# ==============================================================================
# SALVATAGGIO FINALE
# ==============================================================================
print("\n" + "="*50)
print("üìä STATISTICHE ESTRAZIONE")
print(f"- Messaggi Cyber Analizzati: {total_messages_scanned}")
print(f"- IoC Totali Estratti:       {len(all_iocs)}")

if all_iocs:
    # Creiamo DataFrame finale
    df_iocs = pd.DataFrame(all_iocs)
    
    # Rimozione duplicati (stesso IoC nello stesso messaggio = inutile)
    df_iocs = df_iocs.drop_duplicates(subset=['ioc_value', 'group_name', 'date'])
    
    print(f"- IoC Unici (dopo pulizia):  {len(df_iocs)}")
    
    # Salvataggio
    df_iocs.to_csv(OUTPUT_FILE, index=False)
    print(f"\n‚úÖ REPORT COMPLETATO: {OUTPUT_FILE}")
    
    # Anteprima top IoC types
    print("\nTop IoC Types found:")
    print(df_iocs['ioc_type'].value_counts().head())
else:
    print("\n‚ùå Nessun IoC trovato nei messaggi.")

In [1]:
import os
import glob
import pandas as pd
from tqdm import tqdm

# ==============================================================================
# CONFIGURAZIONE
# ==============================================================================
CARTELLA_INPUT = "./Results_CSV"
NOME_FILE_OUTPUT = "FULL_CYBER_DATASET_MERGED.csv"

# ==============================================================================
# LOGICA DI UNIONE
# ==============================================================================
print(f"üìÇ Cerco file CSV nella cartella: {CARTELLA_INPUT}...")

# Trova tutti i file .csv usando glob
files = glob.glob(os.path.join(CARTELLA_INPUT, "*.csv"))

if not files:
    print("‚ùå ERRORE: Nessun file CSV trovato. Controlla il percorso.")
    exit()

print(f"üìã Trovati {len(files)} file. Inizio unione...")

lista_dataframe = []
totale_messaggi = 0

# Ciclo su ogni file con barra di progresso
for file in tqdm(files, desc="Merging"):
    try:
        # Legge il singolo CSV
        df_temp = pd.read_csv(file)
        
        # Se il file non √® vuoto, lo aggiungiamo alla lista
        if not df_temp.empty:
            lista_dataframe.append(df_temp)
            totale_messaggi += len(df_temp)
            
    except Exception as e:
        print(f"‚ö†Ô∏è Errore leggendo il file {file}: {e}")

# ==============================================================================
# CONCATENAZIONE E SALVATAGGIO
# ==============================================================================
if lista_dataframe:
    print("\nüîÑ Concatenazione in corso...")
    # Unisce tutti i pezzi in un unico DataFrame gigante
    df_finale = pd.concat(lista_dataframe, ignore_index=True)
    
    # (Opzionale) Rimuove eventuali duplicati esatti se lo stesso messaggio √® stato salvato due volte
    df_finale = df_finale.drop_duplicates()
    
    print(f"üìä Statistiche Finali:")
    print(f"   - File uniti: {len(files)}")
    print(f"   - Totale righe grezze: {totale_messaggi}")
    print(f"   - Totale righe uniche: {len(df_finale)}")
    print(f"   - Colonne: {list(df_finale.columns)}")
    
    # Salvataggio
    df_finale.to_csv(NOME_FILE_OUTPUT, index=False)
    print(f"\n‚úÖ SUCCESS! Dataset completo salvato come: {NOME_FILE_OUTPUT}")
    
else:
    print("‚ùå Nessun dato valido trovato da unire.")

üìÇ Cerco file CSV nella cartella: ./Results_CSV...
üìã Trovati 12 file. Inizio unione...


Merging: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 12/12 [00:02<00:00,  5.33it/s]



üîÑ Concatenazione in corso...
üìä Statistiche Finali:
   - File uniti: 12
   - Totale righe grezze: 219727
   - Totale righe uniche: 219727
   - Colonne: ['message_id', 'date', 'user', 'text', 'score']

‚úÖ SUCCESS! Dataset completo salvato come: FULL_CYBER_DATASET_MERGED.csv
