In [13]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import random

# 1. Carregar e preparar os dados
file_path = 'data/glass.data'
columns = ['Id', 'RI', 'Na', 'Mg', 'Al', 'Si', 'K', 'Ca', 'Ba', 'Fe', 'Type_of_glass']

df = pd.read_csv(file_path, header=None, names=columns)
df.drop(columns=['Id'], inplace=True)

# Salvar os dados originais para avaliação
df_original = df.copy()

random.seed(100)

# 2. Inserir valores ausentes (MCAR) em Type_of_glass
missing_frac = 0.2
n_missing = int(missing_frac * len(df))
missing_indices = random.sample(list(df.index), n_missing)
df.loc[missing_indices, 'Type_of_glass'] = np.nan


# 1. Separar dados com e sem valores ausentes
df_notnull = df[df['Type_of_glass'].notnull()]
df_null = df[df['Type_of_glass'].isnull()]

# 2. Separar variáveis preditoras (X) e alvo (y)
X_train = df_notnull.drop(columns=['Type_of_glass'])
y_train = df_notnull['Type_of_glass']

X_pred = df_null.drop(columns=['Type_of_glass'])

# 3. Treinar o modelo Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# 4. Imputar os valores ausentes
y_pred = rf.predict(X_pred)

# 5. Comparar com os valores originais
# Índices dos dados com valor ausente
indices_ausentes = df_null.index
valores_reais = df_original.loc[indices_ausentes, 'Type_of_glass']

# 6. Calcular acurácia da imputação
acuracia = accuracy_score(valores_reais, y_pred)
print(f'Taxa de acerto da imputação por Random Forest: {acuracia:.4f}')


Taxa de acerto da imputação por Random Forest: 0.7381
