In [1]:
import pandas as pd
import os

# --- CONFIGURAZIONE ---
DATA_DIR = '../dataset'
# Carica l'ultimo file che hai generato
INPUT_FILE = os.path.join(DATA_DIR, 'VAERS_PRE_TARGET.csv')
OUTPUT_FILE = os.path.join(DATA_DIR, 'VAERS_POST_DUPLICATI.csv')

print(f"1. Caricamento file: {INPUT_FILE}...")
df = pd.read_csv(INPUT_FILE, low_memory=False)

righe_iniziali = len(df)
print(f"   Righe totali iniziali: {righe_iniziali}")

# --- OPERAZIONE 1: RIMOZIONE DUPLICATI IDENTICI ---
# Elimina le righe dove OGNI colonna Ã¨ identica
print("2. Rimozione duplicati esatti (righe identiche)...")
df = df.drop_duplicates(keep='first')

righe_dopo_exact = len(df)
rimosse_exact = righe_iniziali - righe_dopo_exact
print(f"   Rimosse {rimosse_exact} righe identiche.")

# --- OPERAZIONE 2: RIMOZIONE DUPLICATI PER ID (Cruciale per ML) ---
# Assicura che ogni VAERS_ID appaia una sola volta.
# Se ci sono ancora duplicati di ID (es. per errori di merge precedenti), tiene la prima occorrenza.
print("3. Rimozione duplicati di ID (Un Paziente = Una Riga)...")

# Prima ci assicuriamo che l'ID sia trattato uniformemente
df['VAERS_ID'] = df['VAERS_ID'].astype(str)

df = df.drop_duplicates(subset=['VAERS_ID'], keep='first')

righe_finali = len(df)
rimosse_id = righe_dopo_exact - righe_finali
print(f"   Rimosse {rimosse_id} righe con ID duplicato.")

# --- SALVATAGGIO ---
print(f"4. Salvataggio in {OUTPUT_FILE}...")
df.to_csv(OUTPUT_FILE, index=False)

print("-" * 30)
print(f"OPERAZIONE COMPLETATA.")
print(f"Siamo passati da {righe_iniziali} a {righe_finali} righe.")

1. Caricamento file: data/VAERS_PRE_TARGET.csv...
   Righe totali iniziali: 1012894
2. Rimozione duplicati esatti (righe identiche)...
   Rimosse 0 righe identiche.
3. Rimozione duplicati di ID (Un Paziente = Una Riga)...
   Rimosse 0 righe con ID duplicato.
4. Salvataggio in data/VAERS_POST_DUPLICATI.csv...
------------------------------
OPERAZIONE COMPLETATA.
Siamo passati da 1012894 a 1012894 righe.
