In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
from sklearn.impute import KNNImputer

In [10]:
#  Carregar o dataset
# O arquivo "Housing.csv" está disponível
from google.colab import drive
drive.mount('/content/drive')
path = '/content/drive/MyDrive/housing'
df = pd.read_csv(path+'/Housing.csv')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [11]:
df_original = df.copy()

In [14]:
# Identificar e calcular a porcentagem de valores ausentes
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

print("Valores ausentes e porcentagem deles")
missing_info = pd.DataFrame({
    'Total de valores ausentes': missing_values,
    'Porcentagem (%)': missing_percentage
})

# Filtrar apenas colunas com valores ausentes > 0
print(missing_info[missing_info['Total de valores ausentes'] > 0].sort_values(by='Porcentagem (%)', ascending=False))
print("-" * 40)

Valores ausentes e porcentagem deles
Empty DataFrame
Index: []
----------------------------------------


In [15]:
# Visualizar padrões de valores ausentes (A visualização só é útil se houver NaNs no dataset)
# msno.matrix(df)
# plt.title('Padrões de Valores Ausentes')
# plt.show()
print("A visualização do missingno.matrix(df) deve ser executada para observar padrões.")
print("-" * 40)

# Selecionar colunas numéricas (assumindo que estas são as colunas relevantes para imputação)
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

A visualização do missingno.matrix(df) deve ser executada para observar padrões.
----------------------------------------


In [16]:
# Implementar três estratégias diferentes:

# Estratégia 1: Remoção das linhas com valores ausentes
df_dropped = df_original.dropna()
print(f"Estratégia 1: Remoção de linhas")
print(f"Registros antes da remoção: {len(df_original)}")
print(f"Registros após remoção: {len(df_dropped)}")
print("-" * 40)

# Estratégia 2: Imputação usando Média/Mediana
df_mean_imputed = df_original.copy()
df_median_imputed = df_original.copy()

# Imputar com a Média
for col in numeric_cols:
    df_mean_imputed[col].fillna(df_mean_imputed[col].mean(), inplace=True)

# Imputar com a Mediana
for col in numeric_cols:
    df_median_imputed[col].fillna(df_median_imputed[col].median(), inplace=True)

print("Estratégia 2: Imputação com Média/Mediana (aplicada a colunas numéricas)")
print(f"Valores ausentes em df_mean_imputed: {df_mean_imputed.isnull().sum().sum()}")
print(f"Valores ausentes em df_median_imputed: {df_median_imputed.isnull().sum().sum()}")
print("-" * 40)

# Estratégia 3: Imputação usando KNN
df_knn_imputed = df_original.copy()

# Aplicar o KNNImputer apenas nas colunas numéricas
imputer = KNNImputer(n_neighbors=5)
# Transforma o resultado da imputação, que é um numpy array, de volta para DataFrame
df_knn_imputed[numeric_cols] = imputer.fit_transform(df_knn_imputed[numeric_cols])

print("Estratégia 3: Imputação com KNN (aplicada a colunas numéricas)")
print(f"Valores ausentes em df_knn_imputed: {df_knn_imputed.isnull().sum().sum()}")
print("-" * 40)


Estratégia 1: Remoção de linhas
Registros antes da remoção: 545
Registros após remoção: 545
----------------------------------------
Estratégia 2: Imputação com Média/Mediana (aplicada a colunas numéricas)
Valores ausentes em df_mean_imputed: 0
Valores ausentes em df_median_imputed: 0
----------------------------------------
Estratégia 3: Imputação com KNN (aplicada a colunas numéricas)
Valores ausentes em df_knn_imputed: 0
----------------------------------------


In [17]:
# Comparar os resultados das diferentes estratégias
print("Comparação de Resultados ")
print(f"Original: {len(df_original)} registros")
print(f"Após Remoção (Estratégia 1): {len(df_dropped)} registros")
print(f"Após Imputação (Estratégia 2, Média): {len(df_mean_imputed)} registros (Valores ausentes: {df_mean_imputed.isnull().sum().sum()})")
print(f"Após Imputação (Estratégia 3, KNN): {len(df_knn_imputed)} registros (Valores ausentes: {df_knn_imputed.isnull().sum().sum()})")


Comparação de Resultados 
Original: 545 registros
Após Remoção (Estratégia 1): 545 registros
Após Imputação (Estratégia 2, Média): 545 registros (Valores ausentes: 0)
Após Imputação (Estratégia 3, KNN): 545 registros (Valores ausentes: 0)
