# üîç Classificatore Messaggi Cyber - MongoDB Scanner

Questo notebook analizza **messaggi Telegram da MongoDB** per identificare contenuti relativi alla **cybersecurity** utilizzando il modello `modello_finale`.

## üìã Funzionalit√†

### Prima cella (Ottimizzata):
- ‚ö° **Early stopping**: Salta gruppi irrilevanti dopo i primi 200 messaggi
- üîë **Keyword filtering**: Pre-filtra messaggi senza parole chiave tecniche
- üìä **Statistiche avanzate**: Mostra messaggi risparmiati per velocit√†

### Seconda cella (Completa):
- üéØ **Analisi completa**: Processa TUTTI i messaggi senza filtri keyword
- üî¨ **Massima precisione**: Nessun messaggio viene saltato
- üìà **Pi√π affidabile**: Per gruppi ad alta rilevanza cyber

## ‚öôÔ∏è Configurazione Rapida

```python
GRUPPI_DA_ANALIZZARE = ["Nome Gruppo"]  # Lascia [] per analizzare tutti
SOGLIA_CYBER = 0.5                      # Soglia di confidenza (0.5 = 50%)
LIMITE_MESSAGGI_PER_GRUPPO = None       # None = tutti, oppure un numero
```

## üíæ Output
- **MongoDB**: Collection `cyber_messages_classified`
- **CSV**: File `report_cti_YYYYMMDD_HHMM.csv` con tutti i risultati

---

**Scegli la cella da eseguire in base alle tue esigenze di velocit√†/precisione!**


In [3]:
import os
import re
import torch
import emoji
import csv
from pymongo import MongoClient
from transformers import RobertaTokenizer, RobertaForSequenceClassification
from deep_translator import GoogleTranslator
from datetime import datetime
from tqdm import tqdm

# ==============================================================================
# 1. CONFIGURAZIONE
# ==============================================================================
MONGO_URI = "mongodb://DPA_Project_ReadOnly:DPA_sd_2025@130.192.238.49:27015/?authSource=admin"
DB_NAME = "GroupMonitoringRelease"
PERCORSO_MODELLO = "./modello_finale"
SOGLIA_CYBER = 0.5

# --- PARAMETRI DI OTTIMIZZAZIONE VELOCIT√Ä ---
NUM_MESSAGGI_TEST = 200        # Analizza i primi X messaggi per capire il topic del gruppo
SOGLIA_RILEVANZA_GRUPPO = 0.02 # Se meno del 2% √® cyber, salta tutto il gruppo
# Filtro leggero: se il messaggio non contiene nessuna di queste, non chiamiamo l'AI (risparmio tempo)
PAROLE_CHIAVE_LIGHT = [
    "http", "www", "t.me", "telegram", "cve", "ip", "attack", "hack", "ddos", 
    "malware", "bot", "ransomware", "security", "vulnerab", "exploit", "0day", 
    "port", "root", "admin", "leak", "database", "breach", "c2", "command", 
    "control", "phishing", "payload", "apt", "group", "killnet", "anonymous"
]

# Gruppi specifici (lascia vuoto per tutti)
GRUPPI_DA_ANALIZZARE = ["Bounty Detective Community"] 
LIMITE_MESSAGGI_PER_GRUPPO = None # None = tutti i messaggi del gruppo (se rilevante)

# ==============================================================================
# 2. CARICAMENTO MODELLO
# ==============================================================================
print(f"‚öôÔ∏è Caricamento modello da: {PERCORSO_MODELLO}...")
try:
    tokenizer = RobertaTokenizer.from_pretrained(PERCORSO_MODELLO)
    model = RobertaForSequenceClassification.from_pretrained(PERCORSO_MODELLO)
    model.eval()
    print("‚úÖ Modello caricato!\n")
except Exception as e:
    print(f"‚ùå ERRORE: Impossibile caricare il modello. {e}")
    exit()

# ==============================================================================
# 3. FUNZIONI (Clean, Mask, Classify)
# ==============================================================================
def clean_and_mask(text):
    if not isinstance(text, str): return ""
    text = emoji.replace_emoji(text, replace='')
    text = re.sub(r'CVE-\d{4}-\d+', '[CVE]', text, flags=re.IGNORECASE)
    text = re.sub(r'(?:https?://)?(?:www\.)?(?:t\.me|telegram\.me)/[a-zA-Z0-9_]+', '[TG_LINK]', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '[URL]', text)
    text = re.sub(r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b', '[IP]', text)
    text = re.sub(r'\b(?:[a-zA-Z0-9-]+\.)+(?:com|org|net|io|ru|cn|it|uk|gov)\b', '[DOMAIN]', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def classifica_messaggio(testo_originale):
    if not testo_originale or len(testo_originale) < 5: return 0.0, "", ""
    
    # 1. Traduzione
    try:
        testo_tradotto = GoogleTranslator(source='auto', target='en').translate(testo_originale)
    except:
        testo_tradotto = testo_originale
        
    # 2. Masking
    testo_processato = clean_and_mask(testo_tradotto)
    
    # 3. AI Prediction
    try:
        inputs = tokenizer(testo_processato, return_tensors="pt", truncation=True, max_length=128)
        with torch.no_grad():
            outputs = model(**inputs)
            probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
        return probs[0][1].item(), testo_tradotto, testo_processato
    except:
        return 0.0, testo_tradotto, testo_processato

# ==============================================================================
# 4. CONNESSIONE DB & SELEZIONE GRUPPI
# ==============================================================================
print("üîå Connessione a MongoDB...")
client = MongoClient(MONGO_URI)
db = client[DB_NAME]
groups_coll = db["groups"]

# Filtro gruppi
query_gruppi = {"chat_name": {"$in": GRUPPI_DA_ANALIZZARE}} if GRUPPI_DA_ANALIZZARE else {}
target_groups = list(groups_coll.find(query_gruppi))

print(f"üìã Trovati {len(target_groups)} gruppi da analizzare.")

# ==============================================================================
# 5. CORE LOGIC (OTTIMIZZATA)
# ==============================================================================
risultati_cyber = []
stats = {"analizzati": 0, "cyber": 0, "saltati_keyword": 0, "saltati_early_stop": 0}

for group_doc in target_groups:
    coll_name = group_doc.get("collection_name")
    chat_name = group_doc.get("chat_name", "Unknown")
    
    if not coll_name: continue

    print(f"\n{'='*60}")
    print(f"üìÇ Gruppo: {chat_name}")
    
    # Prendiamo i messaggi (dal pi√π recente al pi√π vecchio per capire il trend attuale)
    msg_coll = db[coll_name]
    cursor = msg_coll.find({}).sort("date", -1)
    if LIMITE_MESSAGGI_PER_GRUPPO: cursor = cursor.limit(LIMITE_MESSAGGI_PER_GRUPPO)
    
    msgs = list(cursor)
    total_msgs = len(msgs)
    print(f"   Messaggi totali: {total_msgs}")
    
    if total_msgs == 0: continue

    # Variabili per questo gruppo
    count_cyber_gruppo = 0
    early_stop_triggered = False
    
    # --- CICLO SUI MESSAGGI ---
    for i, msg_doc in enumerate(tqdm(msgs, desc="Processing", leave=False)):
        
        # A. EARLY STOPPING CHECK
        # Se siamo arrivati al messaggio X, controlliamo se il gruppo vale la pena
        if i == NUM_MESSAGGI_TEST:
            ratio = count_cyber_gruppo / NUM_MESSAGGI_TEST
            print(f"\n   üîç Checkpoint: {count_cyber_gruppo} minacce nei primi {NUM_MESSAGGI_TEST} messaggi ({ratio:.1%})")
            
            if ratio < SOGLIA_RILEVANZA_GRUPPO:
                messaggi_restanti = total_msgs - i
                print(f"   ‚õî GRUPPO IRRILEVANTE (Sotto soglia {SOGLIA_RILEVANZA_GRUPPO:.1%}). Salto {messaggi_restanti} messaggi.")
                stats["saltati_early_stop"] += messaggi_restanti
                early_stop_triggered = True
                break # ESCI DAL CICLO MESSAGGI, VAI AL PROSSIMO GRUPPO
            else:
                print("   ‚úÖ GRUPPO RILEVANTE. Continuo analisi completa...")

        # B. RECUPERO TESTO
        text = msg_doc.get("message", "")
        if not text or len(text) < 5: continue
        
        # C. KEYWORD PRE-FILTERING (Velocit√† 100x)
        # Se non c'√® manco una parola tecnica, √® inutile chiamare l'AI costosa
        text_lower = text.lower()
        has_keyword = any(k in text_lower for k in PAROLE_CHIAVE_LIGHT)
        
        if not has_keyword:
            stats["saltati_keyword"] += 1
            # Contiamo come analizzato ma non cyber
            stats["analizzati"] += 1
            continue 

        # D. AI CLASSIFICATION (Lenta ma precisa)
        score, tradotto, processato = classifica_messaggio(text)
        stats["analizzati"] += 1
        
        if score >= SOGLIA_CYBER:
            count_cyber_gruppo += 1
            stats["cyber"] += 1
            
            # Aggiungi ai risultati
            risultati_cyber.append({
                "group_name": chat_name,
                "username": group_doc.get("username"),
                "message_date": msg_doc.get("date"),
                "original": text,
                "translated": tradotto,
                "score": score,
                "found_at": datetime.now()
            })

    if not early_stop_triggered:
        print(f"   ‚úÖ Gruppo completato. Trovate {count_cyber_gruppo} minacce.")

# ==============================================================================
# 6. SALVATAGGIO & REPORT
# ==============================================================================
print("\n" + "="*60)
print("üíæ SALVATAGGIO RISULTATI")

# MongoDB Save
if risultati_cyber:
    try:
        db["cyber_messages_classified"].insert_many(risultati_cyber)
        print(f"‚úì Salvati {len(risultati_cyber)} messaggi su MongoDB.")
    except Exception as e:
        print(f"‚ö† Errore Mongo: {e}")

# CSV Save
filename = f"report_cti_{datetime.now().strftime('%Y%m%d_%H%M')}.csv"
try:
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        if risultati_cyber:
            writer = csv.DictWriter(f, fieldnames=risultati_cyber[0].keys())
            writer.writeheader()
            writer.writerows(risultati_cyber)
            print(f"‚úì Backup CSV creato: {filename}")
except:
    pass

print("\n" + "="*60)
print("üìä STATISTICHE FINALI")
print(f"Messaggi Processati (Totale): {stats['analizzati']}")
print(f"Minacce Rilevate (AI):        {stats['cyber']}")
print(f"Saltati (No Keywords):        {stats['saltati_keyword']} (Risparmio Tempo)")
print(f"Saltati (Gruppi Irrilevanti): {stats['saltati_early_stop']} (Risparmio Tempo)")
print("="*60)

client.close()

‚öôÔ∏è Caricamento modello da: ./modello_finale...
‚úÖ Modello caricato!

üîå Connessione a MongoDB...
‚úÖ Modello caricato!

üîå Connessione a MongoDB...
üìã Trovati 1 gruppi da analizzare.

üìÇ Gruppo: Bounty Detective Community
üìã Trovati 1 gruppi da analizzare.

üìÇ Gruppo: Bounty Detective Community
   Messaggi totali: 5833
   Messaggi totali: 5833


                                                              


   üîç Checkpoint: 2 minacce nei primi 200 messaggi (1.0%)
   ‚õî GRUPPO IRRILEVANTE (Sotto soglia 2.0%). Salto 5633 messaggi.

üíæ SALVATAGGIO RISULTATI
‚ö† Errore Mongo: not authorized on GroupMonitoringRelease to execute command { insert: "cyber_messages_classified", ordered: true, lsid: { id: UUID("f2627c22-daf9-4efb-8ede-dc92676d9633") }, $db: "GroupMonitoringRelease" }, full error: {'ok': 0.0, 'errmsg': 'not authorized on GroupMonitoringRelease to execute command { insert: "cyber_messages_classified", ordered: true, lsid: { id: UUID("f2627c22-daf9-4efb-8ede-dc92676d9633") }, $db: "GroupMonitoringRelease" }', 'code': 13, 'codeName': 'Unauthorized'}
‚úì Backup CSV creato: report_cti_20251124_2019.csv

üìä STATISTICHE FINALI
Messaggi Processati (Totale): 163
Minacce Rilevate (AI):        2
Saltati (No Keywords):        148 (Risparmio Tempo)
Saltati (Gruppi Irrilevanti): 5633 (Risparmio Tempo)




In [1]:
import os
import re
import torch
import emoji
import csv
from pymongo import MongoClient
from transformers import RobertaTokenizer, RobertaForSequenceClassification
from deep_translator import GoogleTranslator
from datetime import datetime
from tqdm import tqdm

# ==============================================================================
# 1. CONFIGURAZIONE
# ==============================================================================
MONGO_URI = "mongodb://DPA_Project_ReadOnly:DPA_sd_2025@130.192.238.49:27015/?authSource=admin"
DB_NAME = "GroupMonitoringRelease"
PERCORSO_MODELLO = "./modello_finale"

# Soglia: Se il modello √® sicuro al 50% o pi√π, lo teniamo.
# SUGGERIMENTO: Visti i falsi positivi, potresti volerla alzare a 0.85 (85%)
SOGLIA_CYBER = 0.5 

# Gruppi specifici (lascia vuoto per tutti)
GRUPPI_DA_ANALIZZARE = ["Bounty Detective Community"] 
LIMITE_MESSAGGI_PER_GRUPPO = None 

# ==============================================================================
# 2. CARICAMENTO MODELLO
# ==============================================================================
print(f"‚öôÔ∏è Caricamento modello da: {PERCORSO_MODELLO}...")
try:
    tokenizer = RobertaTokenizer.from_pretrained(PERCORSO_MODELLO)
    model = RobertaForSequenceClassification.from_pretrained(PERCORSO_MODELLO)
    model.eval()
    print("‚úÖ Modello caricato!\n")
except Exception as e:
    print(f"‚ùå ERRORE: Impossibile caricare il modello. {e}")
    exit()

# ==============================================================================
# 3. FUNZIONI
# ==============================================================================
def clean_and_mask(text):
    if not isinstance(text, str): return ""
    text = emoji.replace_emoji(text, replace='')
    text = re.sub(r'CVE-\d{4}-\d+', '[CVE]', text, flags=re.IGNORECASE)
    text = re.sub(r'(?:https?://)?(?:www\.)?(?:t\.me|telegram\.me)/[a-zA-Z0-9_]+', '[TG_LINK]', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '[URL]', text)
    text = re.sub(r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b', '[IP]', text)
    text = re.sub(r'\b(?:[a-zA-Z0-9-]+\.)+(?:com|org|net|io|ru|cn|it|uk|gov)\b', '[DOMAIN]', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def classifica_messaggio(testo_originale):
    if not testo_originale or len(testo_originale) < 5: return 0.0, "", ""
    
    # 1. Traduzione
    try:
        testo_tradotto = GoogleTranslator(source='auto', target='en').translate(testo_originale)
    except:
        testo_tradotto = testo_originale
        
    # 2. Masking
    testo_processato = clean_and_mask(testo_tradotto)
    
    # 3. AI Prediction
    try:
        inputs = tokenizer(testo_processato, return_tensors="pt", truncation=True, max_length=128)
        with torch.no_grad():
            outputs = model(**inputs)
            probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
        return probs[0][1].item(), testo_tradotto, testo_processato
    except:
        return 0.0, testo_tradotto, testo_processato

# ==============================================================================
# 4. CONNESSIONE DB
# ==============================================================================
print("üîå Connessione a MongoDB...")
client = MongoClient(MONGO_URI)
db = client[DB_NAME]
groups_coll = db["groups"]

query_gruppi = {"chat_name": {"$in": GRUPPI_DA_ANALIZZARE}} if GRUPPI_DA_ANALIZZARE else {}
target_groups = list(groups_coll.find(query_gruppi))
print(f"üìã Trovati {len(target_groups)} gruppi da analizzare.")

# ==============================================================================
# 5. CORE LOGIC (SENZA FILTRI KEYWORD)
# ==============================================================================
risultati_cyber = []
stats = {"analizzati": 0, "cyber": 0}

for group_doc in target_groups:
    coll_name = group_doc.get("collection_name")
    chat_name = group_doc.get("chat_name", "Unknown")
    if not coll_name: continue

    print(f"\n{'='*60}")
    print(f"üìÇ Gruppo: {chat_name}")
    
    msg_coll = db[coll_name]
    cursor = msg_coll.find({}).sort("date", -1)
    if LIMITE_MESSAGGI_PER_GRUPPO: cursor = cursor.limit(LIMITE_MESSAGGI_PER_GRUPPO)
    
    msgs = list(cursor)
    print(f"   Messaggi totali: {len(msgs)}")
    
    count_cyber_gruppo = 0
    
    # --- CICLO PURO ---
    for msg_doc in tqdm(msgs, desc="Analisi AI in corso", leave=False):
        
        text = msg_doc.get("message", "")
        # Unico filtro rimasto: lunghezza minima per evitare stringhe vuote
        if not text or len(text) < 5: continue
        
        # NESSUN FILTRO KEYWORD QUI! CHIAMIAMO DIRETTAMENTE L'AI
        
        score, tradotto, processato = classifica_messaggio(text)
        stats["analizzati"] += 1
        
        if score >= SOGLIA_CYBER:
            count_cyber_gruppo += 1
            stats["cyber"] += 1
            
            risultati_cyber.append({
                "group_name": chat_name,
                "username": group_doc.get("username"),
                "message_date": msg_doc.get("date"),
                "original": text,
                "translated": tradotto,
                "score": score,
                "found_at": datetime.now()
            })

    print(f"   ‚úÖ Gruppo completato. Trovate {count_cyber_gruppo} possibili minacce.")

# ==============================================================================
# 6. SALVATAGGIO
# ==============================================================================
print("\n" + "="*60)
print("üíæ SALVATAGGIO RISULTATI")

filename = f"report_cti_{datetime.now().strftime('%Y%m%d_%H%M')}.csv"

if risultati_cyber:
    try:
        with open(filename, 'w', newline='', encoding='utf-8') as f:
            keys = risultati_cyber[0].keys()
            writer = csv.DictWriter(f, fieldnames=keys)
            writer.writeheader()
            writer.writerows(risultati_cyber)
            print(f"‚úì File CSV creato: {filename}")
            print(f"‚úì Totale righe: {len(risultati_cyber)}")
    except Exception as e:
        print(f"‚ùå Errore salvataggio: {e}")
else:
    print("‚ö† Nessun risultato trovato.")

print("\n" + "="*60)
print("üìä STATISTICHE FINALI")
print(f"Messaggi Processati: {stats['analizzati']}")
print(f"Minacce Rilevate:    {stats['cyber']}")
print("="*60)

client.close()

  from .autonotebook import tqdm as notebook_tqdm


‚öôÔ∏è Caricamento modello da: ./modello_finale...
‚úÖ Modello caricato!

üîå Connessione a MongoDB...
‚úÖ Modello caricato!

üîå Connessione a MongoDB...
üìã Trovati 1 gruppi da analizzare.

üìÇ Gruppo: Bounty Detective Community
üìã Trovati 1 gruppi da analizzare.

üìÇ Gruppo: Bounty Detective Community
   Messaggi totali: 5833
   Messaggi totali: 5833


                                                                        

   ‚úÖ Gruppo completato. Trovate 60 possibili minacce.

üíæ SALVATAGGIO RISULTATI
‚úì File CSV creato: report_cti_20251125_1054.csv
‚úì Totale righe: 60

üìä STATISTICHE FINALI
Messaggi Processati: 2563
Minacce Rilevate:    60


