In [3]:
import pandas as pd
from pathlib import Path

# --- Caminho base ---
CSV_PATH = "/Users/augusto/Library/Mobile Documents/com~apple~CloudDocs/git/avalensurance-bia/data"

# --- Arquivo completo ---
file_path = f"{CSV_PATH}/onlyfulldata.csv"

# --- Ler o CSV ---
df = pd.read_csv(file_path)

# --- Filtrar linhas com valores inválidos ---
mask_valid = ~df.isin([-1, "-1", "no_data", "NAO"])
df_clean = df[mask_valid.all(axis=1)].copy()

# --- Remover outliers numéricos usando método IQR ---
numeric_cols = df_clean.select_dtypes(include="number").columns

for col in numeric_cols:
    Q1 = df_clean[col].quantile(0.05)
    Q3 = df_clean[col].quantile(0.95)
    IQR = Q3 - Q1

    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR

    df_clean = df_clean[(df_clean[col] >= lower) & (df_clean[col] <= upper)]

# --- Exportar resultado ---
out_path = Path(f"{CSV_PATH}/onlyfulldata_sem_outliers.csv")
df_clean.to_csv(out_path, index=False)

# --- Mostrar resumo ---
print("✅ Nova tabela criada com sucesso!")
print(f"Linhas originais: {df.shape[0]}")
print(f"Linhas após limpeza sem inválidos: {mask_valid.all(axis=1).sum()}")
print(f"Linhas após remover outliers: {df_clean.shape[0]}")
print(f"Arquivo salvo em: {out_path}")


✅ Nova tabela criada com sucesso!
Linhas originais: 21315
Linhas após limpeza sem inválidos: 21315
Linhas após remover outliers: 17705
Arquivo salvo em: /Users/augusto/Library/Mobile Documents/com~apple~CloudDocs/git/avalensurance-bia/data/onlyfulldata_sem_outliers.csv
