<a href="https://colab.research.google.com/github/Spyke2022/AI-Assisted-Programming-Book/blob/main/C%C3%B3pia_de_AVALIACAO_IMOVEIS_TESTE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Ignorar avisos
import warnings
warnings.filterwarnings("ignore")

# Bibliotecas essenciais
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Ferramentas de machine learning
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import VotingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor


In [None]:
# Carregar os dados
df = pd.read_csv("/content/kc_house_data_SI.csv")

# Mostrar primeiras linhas
display(df.head())


Unnamed: 0,id,data,preço,quartos,banheiros,área_útil,área_do_lote,andares,frente_para_o_mar,vista,...,classificação,área_acima,área_do_porão,ano_de_construção,ano_de_reforma,código_postal,latitude,longitude,área_útil_2015,área_do_lote_2015
0,7129300520,20141013T000000,221900.0,3,1.0,109.62554,524.90195,1.0,0,0,...,7,109.62554,0.0,1955,0,98178,47.5112,-122.257,124.49002,524.90195
1,6414100192,20141209T000000,538000.0,3,2.25,238.76071,672.803526,2.0,0,0,...,7,201.59951,37.1612,1951,1991,98125,47.721,-122.319,157.00607,709.686017
2,5631500400,20150225T000000,180000.0,2,1.0,71.53531,929.03,1.0,0,0,...,6,71.53531,0.0,1933,0,98028,47.7379,-122.233,252.69616,748.983986
3,2487200875,20141209T000000,604000.0,4,3.0,182.08988,464.515,1.0,0,0,...,7,97.54815,84.54173,1965,0,98136,47.5208,-122.393,126.34808,464.515
4,1954400510,20150218T000000,510000.0,3,2.0,156.07704,750.65624,1.0,0,0,...,8,156.07704,0.0,1987,0,98074,47.6168,-122.045,167.2254,697.051209


In [None]:
df.drop(["área_do_porão"], axis=1, inplace=True)

In [None]:
display(df.head())

Unnamed: 0,id,data,preço,quartos,banheiros,área_útil,área_do_lote,andares,frente_para_o_mar,vista,condição,classificação,área_acima,área_do_porão,ano_de_construção,ano_de_reforma,código_postal,área_útil_2015,área_do_lote_2015
0,7129300520,20141013T000000,221900.0,3,1.0,10.184542,48.764966,1.0,0,0,3,7,10.184542,0.0,1955,0,98178,11.565496,48.764966
1,6414100192,20141209T000000,538000.0,3,2.25,22.181586,62.505466,2.0,0,0,3,7,18.729199,3.452387,1951,1991,98125,14.586335,65.93196
2,5631500400,20150225T000000,180000.0,2,1.0,6.645845,86.309674,1.0,0,0,3,6,6.645845,0.0,1933,0,98028,23.476231,69.582859
3,2487200875,20141209T000000,604000.0,4,3.0,16.916696,43.154837,1.0,0,0,5,7,9.062516,7.85418,1965,0,98136,11.738116,43.154837
4,1954400510,20150218T000000,510000.0,3,2.0,14.500025,69.738217,1.0,0,0,3,8,14.500025,0.0,1987,0,98074,15.535741,64.758148


In [None]:
# Dicionário de tradução
translation_dict = {
    "id": "id",
    "date": "data",
    "price": "preço",
    "bedrooms": "quartos",
    "bathrooms": "banheiros",
    "sqft_living": "área_útil",
    "sqft_lot": "área_do_lote",
    "floors": "andares",
    "waterfront": "frente_para_o_mar",
    "view": "vista",
    "condition": "condição",
    "grade": "classificação",
    "sqft_above": "área_acima",
    "sqft_basement": "área_do_porão",
    "yr_built": "ano_de_construção",
    "yr_renovated": "ano_de_reforma",
    "zipcode": "código_postal",
    "lat": "latitude",
    "long": "longitude",
    "sqft_living15": "área_útil_2015",
    "sqft_lot15": "área_do_lote_2015"
}

df.rename(columns=translation_dict, inplace=True)


In [None]:
conversion_factor = 0.092903
columns_to_convert = ["área_útil", "área_do_lote", "área_acima", "área_do_porão", "área_útil_2015", "área_do_lote_2015"]

for col in columns_to_convert:
    df[col] = df[col] * conversion_factor

# Salvar versão atualizada do CSV
df.to_csv("/content/kc_house_data_SI.csv", index=False)


In [None]:
X = df.drop(columns=["preço", "id", "data", "ano_de_reforma", "código_postal"])
Y = df["preço"]


In [None]:
scaler = StandardScaler()
X_treino, X_teste, y_treino, y_teste = train_test_split(X, Y, test_size=0.2, random_state=26)

X_columns = X.columns
X_treino_df = pd.DataFrame(X_treino, columns=X_columns)
X_treino_scaled = scaler.fit_transform(X_treino_df)


In [None]:
# Modelo KNN
modelo_knn = KNeighborsRegressor(n_neighbors=3, metric="euclidean")
modelo_knn.fit(X_treino_scaled, y_treino)
y_pred_knn = modelo_knn.predict(scaler.transform(X_teste))

# Modelo Ensemble (Regressão Linear + Random Forest)
reg1 = LinearRegression()
reg2 = RandomForestRegressor(n_estimators=10, random_state=26)
modelo_ensemble = VotingRegressor([("LR", reg1), ("RF", reg2)])
modelo_ensemble.fit(X_treino_scaled, y_treino)
y_pred_ensemble = modelo_ensemble.predict(scaler.transform(X_teste))


In [None]:
# Avaliação com R2, MAE, MSE, RMSE
r2_knn = r2_score(y_teste, y_pred_knn)
r2_ensemble = r2_score(y_teste, y_pred_ensemble)

mae_knn = mean_absolute_error(y_teste, y_pred_knn)
mae_ensemble = mean_absolute_error(y_teste, y_pred_ensemble)

mse_knn = mean_squared_error(y_teste, y_pred_knn)
mse_ensemble = mean_squared_error(y_teste, y_pred_ensemble)

rmse_knn = np.sqrt(mse_knn)
rmse_ensemble = np.sqrt(mse_ensemble)

# Tabela de resultados
df_results = pd.DataFrame({
    "Modelo": ["KNN", "Ensemble"],
    "R2": [r2_knn, r2_ensemble],
    "MAE": [mae_knn, mae_ensemble],
    "MSE": [mse_knn, mse_ensemble],
    "RMSE": [rmse_knn, rmse_ensemble]
})

display(df_results)


Unnamed: 0,Modelo,R2,MAE,MSE,RMSE
0,KNN,0.791614,93856.667438,28802010000.0,169711.548067
1,Ensemble,0.839709,87561.896743,22154480000.0,148843.811714


In [None]:
# Coleta de dados do usuário
novo_imovel_dados = {}
for col in X_columns:
    valor = float(input(f"Insira o valor para '{col.replace('_', ' ')}': "))
    novo_imovel_dados[col] = valor

# Criar DataFrame e alinhar colunas
novo_imovel_df = pd.DataFrame([novo_imovel_dados])
novo_imovel_df = novo_imovel_df.reindex(columns=X_columns).fillna(0)

# Limite entre 1º e 99º percentil para evitar valores extremos
novo_imovel_df = novo_imovel_df.clip(
    lower=np.percentile(X_treino_df, 1, axis=0),
    upper=np.percentile(X_treino_df, 99, axis=0)
)

# Normalizar e prever preço
novo_imovel_normalizado = scaler.transform(novo_imovel_df)
preco_previsto = modelo_ensemble.predict(novo_imovel_normalizado)[0]

# Exibir resultado
print(f"\n💰 O preço estimado para o novo imóvel é: R$ {preco_previsto:,.2f}")


Insira o valor para 'quartos': 3
Insira o valor para 'banheiros': 2
Insira o valor para 'área útil': 87
Insira o valor para 'área do lote': 250
Insira o valor para 'andares': 2
Insira o valor para 'frente para o mar': 1
Insira o valor para 'vista': 2
Insira o valor para 'condição': 1
Insira o valor para 'classificação': 4
Insira o valor para 'área acima': 40
Insira o valor para 'área do porão': 20
Insira o valor para 'ano de construção': 2023
Insira o valor para 'latitude': -5.847087
Insira o valor para 'longitude': -35.209815
Insira o valor para 'área útil 2015': 87
Insira o valor para 'área do lote 2015': 250

💰 O preço estimado para o novo imóvel é: R$ 575,227.59
