In [1]:
import pandas as pd
import numpy as np
# Importa a classe MissForest
from missforest.missforest import MissForest

# Nomes dos arquivos
nome_arquivo_entrada = "BaseSO.csv"
nome_arquivo_saida = "BaseMissForestFinal.csv"

print(f"--- 1. Carregando a Base de Dados: {nome_arquivo_entrada} ---")
try:
    # Tenta ler o arquivo CSV
    df_original = pd.read_csv(nome_arquivo_entrada)
    
    # Seleciona colunas numéricas
    df_numerico = df_original.select_dtypes(include=np.number).copy()
    
    if df_numerico.empty:
        print("❌ ERRO: Não há colunas numéricas no seu DataFrame para aplicar o MissForest.")
    else:
        # Exibe a contagem de valores ausentes antes da imputação
        print("Valores ausentes (NaN) nas colunas numéricas antes da imputação:")
        print(df_numerico.isnull().sum())
        print("-" * 50)

        # --- 2. Imputação com MissForest (CORRIGIDO: Removendo 'random_state') ---
        # Inicializa o MissForest sem o parâmetro 'random_state'
        mf_imputer = MissForest() 

        # Realiza a imputação. Retorna um array numpy
        dados_imputados_array = mf_imputer.fit_transform(df_numerico)

        # Converte o array imputado de volta para um DataFrame Pandas
        df_imputado_numerico = pd.DataFrame(
            dados_imputados_array, 
            columns=df_numerico.columns,
            index=df_numerico.index
        )
        
        # --- 2.1 Arredondamento e Conversão para Inteiro (SUA SOLUÇÃO) ---
        print("--- 2.1 Arredondando e Convertendo Colunas Imputadas para Inteiro ---")
        # .round() para arredondar para o inteiro mais próximo (0.5 para cima, < 0.5 para baixo)
        # .astype(int) para garantir que não haja casas decimais.
        df_imputado_numerico = df_imputado_numerico.round().astype(int)
        print(f"Arredondamento aplicado. Tipos de dados após arredondamento: {df_imputado_numerico.dtypes.unique()}")
        print("-" * 50)
        
        # Cria o DataFrame final, substituindo as colunas numéricas
        df_final = df_original.copy()
        for col in df_imputado_numerico.columns:
            df_final[col] = df_imputado_numerico[col]


        print("Valores ausentes (NaN) DEPOIS da imputação nas colunas numéricas:")
        print(df_final.select_dtypes(include=np.number).isnull().sum())
        print("-" * 50)

        # --- 3. Salvando a Base Imputada ---
        df_final.to_csv(nome_arquivo_saida, index=False)
        print(f"✅ Base imputada salva com sucesso em: **{nome_arquivo_saida}**")
        print("-" * 50)
        

except FileNotFoundError:
    print(f"❌ ERRO: O arquivo '{nome_arquivo_entrada}' não foi encontrado. Certifique-se de que ele está no mesmo diretório de execução do script.")
except ImportError:
    print("❌ ERRO: A biblioteca 'missforest' não foi encontrada. Por favor, execute: pip install MissForest")
except Exception as e:
    print(f"❌ Ocorreu um erro durante o processamento: {e}")

--- 1. Carregando a Base de Dados: BaseSO.csv ---
Valores ausentes (NaN) nas colunas numéricas antes da imputação:
LIMITAÇÃOC             23047
EXERCICIO FISICOC          0
LEITEC                     0
FRUTAC                     0
FEIJÃOC                    0
CARNEC                     0
PEIXEC                     0
SUCOC                      0
VEGETAISC                  0
TIPOTRABALHOC           6223
ALCOOLC                16858
BISCOITOC                  0
DESLOC VZSC             6962
ESCOLARIDADEC              0
FAIXARENDAC                6
FASTFOODC                  0
REFRIC                     0
DEPRESSÃOC                 0
SEXOC                      0
DOENÇASC                   0
TEM PLANOC                 0
FUMAC                      0
DESLOCAMENTO TEMPOC     8952
COND OCUPAÇÃOC          6223
SEDENTARISMOC              0
IMC                        0
IDADECC                    0
ALTURAC                    0
PESOC                      0
ARTRITEC                   0
dtype: int64
--

 80%|████████  | 4/5 [00:51<00:12, 12.98s/it]
100%|██████████| 4/4 [00:01<00:00,  2.98it/s]


--- 2.1 Arredondando e Convertendo Colunas Imputadas para Inteiro ---
Arredondamento aplicado. Tipos de dados após arredondamento: [dtype('int64')]
--------------------------------------------------
Valores ausentes (NaN) DEPOIS da imputação nas colunas numéricas:
LIMITAÇÃOC             0
EXERCICIO FISICOC      0
LEITEC                 0
FRUTAC                 0
FEIJÃOC                0
CARNEC                 0
PEIXEC                 0
SUCOC                  0
VEGETAISC              0
TIPOTRABALHOC          0
ALCOOLC                0
BISCOITOC              0
DESLOC VZSC            0
ESCOLARIDADEC          0
FAIXARENDAC            0
FASTFOODC              0
REFRIC                 0
DEPRESSÃOC             0
SEXOC                  0
DOENÇASC               0
TEM PLANOC             0
FUMAC                  0
DESLOCAMENTO TEMPOC    0
COND OCUPAÇÃOC         0
SEDENTARISMOC          0
IMC                    0
IDADECC                0
ALTURAC                0
PESOC                  0
ARTRITEC  