In [1]:
import pandas as pd
import os

# --- CONFIGURAZIONE ---
DATA_DIR = '../dataset'
# Usa l'ultimo file che hai salvato (es. quello senza duplicati)
INPUT_FILE = os.path.join(DATA_DIR, 'VAERS_POST_DUPLICATI.csv')
OUTPUT_FILE = os.path.join(DATA_DIR, 'VAERS_NULL_AGE.csv')

print(f"1. Caricamento file: {INPUT_FILE}...")
df = pd.read_csv(INPUT_FILE, low_memory=False)
righe_iniziali = len(df)

print(f"   Righe iniziali: {righe_iniziali}")

# --- OPERAZIONE SULL'ETÀ ---
print("2. Pulizia AGE_YRS...")

# 1. Forziamo la conversione in numero.
# 'coerce' significa: se trovi testo (es. "Unknown"), trasformalo in NaN.
df['AGE_YRS'] = pd.to_numeric(df['AGE_YRS'], errors='coerce')

# 2. Eliminiamo le righe dove l'età è NULL (NaN)
df = df.dropna(subset=['AGE_YRS'])

# 3. Trasformiamo in INTERI (int)
# Questo toglie la virgola (es. 45.0 diventa 45)
df['AGE_YRS'] = df['AGE_YRS'].astype(int)

# (Opzionale ma consigliato) Rimuoviamo età negative o impossibili (>120)
df = df[(df['AGE_YRS'] >= 0) & (df['AGE_YRS'] <= 120)]

# --- SALVATAGGIO ---
print(f"3. Salvataggio in {OUTPUT_FILE}...")
df.to_csv(OUTPUT_FILE, index=False)

righe_finali = len(df)
perse = righe_iniziali - righe_finali

print("-" * 30)
print("OPERAZIONE COMPLETATA.")
print(f"Righe eliminate (età mancante o errata): {perse}")
print(f"Righe rimaste: {righe_finali}")
print(f"Esempio valori Età: {df['AGE_YRS'].head().tolist()}")

1. Caricamento file: data/VAERS_POST_DUPLICATI.csv...
   Righe iniziali: 1012894
2. Pulizia AGE_YRS...
3. Salvataggio in data/VAERS_NULL_AGE.csv...
------------------------------
OPERAZIONE COMPLETATA.
Righe eliminate (età mancante o errata): 103286
Righe rimaste: 909608
Esempio valori Età: [56, 35, 55, 42, 60]
