In [2]:
import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer

# Nome do arquivo de entrada
nome_arquivo_entrada = "BaseSO.csv"
# Nome do arquivo de saída
nome_arquivo_saida = "BaseKNNImputerFinal.csv" # Nome de saída alterado para refletir o ajuste

print(f"--- 1. Carregando a Base de Dados: {nome_arquivo_entrada} ---")
try:
    # Tenta ler o arquivo CSV
    df_com_nan = pd.read_csv(nome_arquivo_entrada)

    # Verifica se a leitura foi bem-sucedida e se há dados
    if df_com_nan.empty:
        print("❌ ERRO: O DataFrame está vazio. Verifique o conteúdo do seu arquivo CSV.")
    else:
        # Exibe a contagem de valores ausentes antes da imputação
        print("Valores ausentes (NaN) antes da imputação por coluna:")
        print(df_com_nan.isnull().sum())
        print("-" * 50)

        # Seleciona as colunas numéricas para imputação
        df_numerico = df_com_nan.select_dtypes(include=np.number)
        
        if df_numerico.empty:
             print("❌ ERRO: Não há colunas numéricas no seu DataFrame para aplicar o KNNImputer.")
        else:
            # --- 2. Imputação com KNNImputer ---
            # Inicializa o KNNImputer (k=5 é o padrão)
            imputer = KNNImputer(n_neighbors=5)

            # Realiza a imputação: O fit_transform retorna um array numpy
            dados_imputados_array = imputer.fit_transform(df_numerico)

            # Converte o array imputado de volta para um DataFrame Pandas
            df_imputado_numerico = pd.DataFrame(
                dados_imputados_array, 
                columns=df_numerico.columns,
                index=df_numerico.index
            )

            # --- 2.1 Arredondamento e Conversão para Inteiro (SUA SOLUÇÃO) ---
            print("--- 2.1 Arredondando e Convertendo Colunas Imputadas para Inteiro ---")
            # Arredonda para o inteiro mais próximo (0.5 para cima, < 0.5 para baixo)
            # e converte o tipo de dados para inteiro (int).
            df_imputado_numerico = df_imputado_numerico.round().astype(int)
            print(f"Arredondamento aplicado. Tipos de dados após arredondamento: {df_imputado_numerico.dtypes.unique()}")
            print("-" * 50)

            # Combina as colunas numéricas imputadas com as colunas não-numéricas originais
            df_final = df_com_nan.copy()
            for col in df_imputado_numerico.columns:
                df_final[col] = df_imputado_numerico[col]

            print("Valores ausentes (NaN) DEPOIS da imputação nas colunas numéricas:")
            # Esta verificação é importante: o KNNImputer garante 0 NaN nas colunas numéricas.
            print(df_final.select_dtypes(include=np.number).isnull().sum())
            print("-" * 50)

            # --- 3. Salvando a Base Imputada ---
            df_final.to_csv(nome_arquivo_saida, index=False)
            print(f"✅ Base imputada salva com sucesso em: **{nome_arquivo_saida}**")
            print("-" * 50)
            

except FileNotFoundError:
    print(f"❌ ERRO: O arquivo '{nome_arquivo_entrada}' não foi encontrado. Certifique-se de que ele está no mesmo diretório de execução do script.")
except Exception as e:
    print(f"❌ Ocorreu um erro durante o processamento: {e}")

--- 1. Carregando a Base de Dados: BaseSO.csv ---
Valores ausentes (NaN) antes da imputação por coluna:
LIMITAÇÃOC             23047
EXERCICIO FISICOC          0
LEITEC                     0
FRUTAC                     0
FEIJÃOC                    0
CARNEC                     0
PEIXEC                     0
SUCOC                      0
VEGETAISC                  0
TIPOTRABALHOC           6223
ALCOOLC                16858
BISCOITOC                  0
DESLOC VZSC             6962
ESCOLARIDADEC              0
FAIXARENDAC                6
FASTFOODC                  0
REFRIC                     0
DEPRESSÃOC                 0
SEXOC                      0
DOENÇASC                   0
TEM PLANOC                 0
FUMAC                      0
DESLOCAMENTO TEMPOC     8952
COND OCUPAÇÃOC          6223
SEDENTARISMOC              0
IMC                        0
IDADECC                    0
ALTURAC                    0
PESOC                      0
ARTRITEC                   0
dtype: int64
-------------