In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.impute import KNNImputer



pd.set_option('display.max_columns', None)

df_alcohol = pd.read_sas('P_ALQ.XPT', format='xport')

df_alcohol = df_alcohol[['SEQN', 'ALQ121','ALQ130' ]]

# Separando o identificador dos dados a serem imputados
df_identifiers = df_alcohol[['SEQN']]  # Mantém o identificador intacto
df_categorical = df_alcohol[['ALQ121', 'ALQ130']]  # Colunas a serem imputadas

# Instanciando o imputador KNN com 7 vizinhos
imputer = KNNImputer(n_neighbors=7)

# Convertendo colunas para float (necessário para imputação com KNN)
df_categorical_float = df_categorical.astype(float)

# Imputando valores para as colunas categóricas
df_categorical_imputed = imputer.fit_transform(df_categorical_float)

# Convertendo o array resultante de volta para DataFrame
df_categorical_imputed = pd.DataFrame(df_categorical_imputed, columns=df_categorical.columns)

# Arredondando as colunas imputadas e convertendo de volta para categórico
df_categorical_imputed = df_categorical_imputed.round().astype('int')

# Convertendo as colunas de volta para categórico
df_categorical_imputed['ALQ121'] = df_categorical_imputed['ALQ121'].astype('category')
df_categorical_imputed['ALQ130'] = df_categorical_imputed['ALQ130'].astype('category')

# Concatenando o identificador com as colunas imputadas
df_alcohol_imputed = pd.concat([df_identifiers, df_categorical_imputed], axis=1)

df_alcohol = df_alcohol_imputed

df_alcohol = df_alcohol.rename(columns ={'ALQ121': 'ALCOHOL_FREQUENCY', 'ALQ130': 'ALCOHOL_QUANTITY'})

df_alcohol

df_alcohol.to_csv('dados_alcool_tratados.csv', index=False)
