<a href="https://colab.research.google.com/github/lis-r-barreto/ml-case-studies/blob/main/02_regressao_analise_preditiva_preco_casas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **King County House Price Predictor: Uma Análise Preditiva com Modelos de Regressão**

## **0. Setup Inicial**

In [None]:
!pip install --quiet numpy pandas scikit-learn kagglehub

import kagglehub
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor

## **1. Introdução**

Este notebook tem como objetivo explorar e comparar o desempenho de diferentes modelos de **regressão** no conjunto de dados **House Sales in King County, USA**, com foco na previsão de preços de casas na região. O dataset abrange informações sobre vendas de imóveis no Condado de King, que inclui a cidade de Seattle, ocorridas entre maio de 2014 e maio de 2015.

Esse conjunto de dados é amplamente utilizado para avaliar tanto modelos de regressão simples quanto complexos, tornando-o uma excelente escolha para experimentação e comparação de algoritmos. Ele contém diversas características relevantes dos imóveis, como tamanho, número de quartos, localização geográfica e outras variáveis que influenciam diretamente o preço de venda.

O dataset inclui as seguintes colunas principais:

- **Preço da casa**: Variável alvo, representando o valor de venda do imóvel.
- **Quartos**: Número de quartos no imóvel.
- **Banheiros**: Número de banheiros.
- **Área construída (sqft)**: Tamanho total da área construída do imóvel.
- **Localização**: Coordenadas geográficas (latitude e longitude) que indicam onde o imóvel está situado.
- **Ano de construção**: Ano em que a casa foi construída.
- **Área do terreno**: Tamanho total do terreno associado ao imóvel.
- **Andares**: Número de andares na casa.
- **Vista para água**: Indica se o imóvel possui vista para a água (sim ou não).
- **Outras características**: Incluem informações como reformas recentes, classificação do imóvel e outros atributos relevantes.

<img src="https://miro.medium.com/v2/resize:fit:640/1*lU8nD0goCPP8Y_atONQm7g.jpeg" alt="House Sales dataset" width="600"/>


Nosso objetivo é comparar diferentes modelos de regressão para prever o preço de venda das casas com base nas características fornecidas pelo dataset. Para isso, testaremos os seguintes algoritmos:

1. **Regressão Linear**: Um modelo clássico e interpretável, ideal para problemas de regressão.
2. **KNN Regressor**: Modelo baseado na proximidade dos vizinhos mais próximos.
3. **SVR (Support Vector Regression)**: Uma abordagem robusta que utiliza máquinas de vetores de suporte.
4. **Regressão de Árvore de Decisão**: Modelo baseado em regras de decisão hierárquicas.
5. **Gradient Boosting (XGBoost ou LightGBM)**: Um modelo poderoso de ensemble que combina múltiplos modelos fracos para melhorar o desempenho.


Os modelos serão avaliados utilizando as seguintes métricas:

- **Erro Médio Absoluto (MAE)**: Mede o erro médio absoluto entre os valores previstos e reais, fornecendo uma visão direta da precisão do modelo.
- **Erro Quadrático Médio (MSE)**: Penaliza erros maiores de forma quadrática, destacando desvios significativos.
- **R² (Coeficiente de Determinação)**: Indica quão bem o modelo explica a variabilidade dos dados, sendo uma medida de ajuste global.

Ao final deste estudo, analisaremos os resultados obtidos por cada modelo e identificaremos qual abordagem apresenta o melhor desempenho para prever os preços de casas no Condado de King. Isso permitirá uma compreensão mais profunda sobre a aplicabilidade e eficácia de diferentes técnicas de regressão neste contexto.

## **2. Metodologia**

Neste projeto, adotaremos a metodologia **CRISP-DM** (*Cross Industry Standard Process for Data Mining*), um dos frameworks mais utilizados em projetos de ciência de dados.

<img src="https://cdn.prod.website-files.com/625af9ac050b6e6379b3c444/6791115bc23efadebc44f017_6480acb9f030976b53cf48bd_1-crisp-dm-as-etapas-da-metodologia.png" alt="CRISP-DM" width="500"/>

🔗 Saiba mais: [Entenda o CRISP-DM](https://www.preditiva.ai/blog/entenda-o-crisp-dm-suas-etapas-e-como-de-fato-gerar-valor-com-essa-metodologia)

Como o *dataset* **House Sales in King County, USA** já está estruturado e amplamente estudado, **as fases de "Business Understanding" e "Data Understanding" já foram concluídas**. Dessa forma, daremos continuidade a partir da etapa de **Preparação dos Dados**, realizando:

- **Tratamento de valores ausentes**: Identificação e correção de dados faltantes.
- **Normalização ou padronização**: Se necessário, ajustaremos as escalas das variáveis para melhorar o desempenho dos modelos.
- **Transformação e codificação de variáveis**: Conversão de variáveis categóricas em numéricas (se aplicável).
- **Divisão dos dados em treino e teste**: Separação do dataset para treinamento e validação dos modelos.

Na fase de **Modelagem**, aplicaremos diferentes algoritmos de aprendizado de máquina para prever os preços das casas, incluindo:
1. **Regressão Linear**: Modelo clássico e interpretável.
2. **KNN Regressor**: Modelo baseado na proximidade dos vizinhos mais próximos.
3. **SVR (Support Vector Regression)**: Abordagem robusta com máquinas de vetores de suporte.
4. **Regressão de Árvore de Decisão**: Modelo baseado em regras de decisão hierárquicas.
5. **Gradient Boosting (XGBoost ou LightGBM)**: Modelo poderoso de ensemble.

Avaliaremos o desempenho dos modelos utilizando métricas como:
- **MAE (Erro Médio Absoluto)**: Erro médio entre valores reais e previstos.
- **MSE (Erro Quadrático Médio)**: Penaliza erros maiores.
- **R² (Coeficiente de Determinação)**: Mede o ajuste do modelo aos dados.

A etapa de **Avaliação** nos permitirá comparar os modelos e identificar a abordagem mais eficaz para prever os preços de casas no Condado de King.

Embora a **implantação (Deployment)** não seja o foco deste estudo, a análise contribuirá para entender qual modelo poderia ser utilizado em uma aplicação real, como sistemas de recomendação de preços para o mercado imobiliário.

## **3. Preparação dos Dados**



In [70]:
# Download latest version
path = kagglehub.dataset_download("harlfoxem/housesalesprediction")

print("Path to dataset files:", path)

df = pd.read_csv(f'{path}/kc_house_data.csv')
df.head()

Path to dataset files: /root/.cache/kagglehub/datasets/harlfoxem/housesalesprediction/versions/1


Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [None]:
df = df[['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'waterfront']]

colunas_para_remover = ['id', 'date']
df = df.drop(colunas_para_remover, axis=1)

rows, cols = df.shape
print(f'Linhas: {rows}. Colunas: {cols}')

Linhas: 21613. Colunas: 7


In [None]:
x = df.drop('price', axis=1)
y = df['price']

In [None]:
# normalização dos dados
min_max_scaler = StandardScaler()
x = min_max_scaler.fit_transform(x)

In [None]:
def split_data(x, y):
  x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=23)
  return x_train, x_test, y_train, y_test

x_train, x_test, y_train, y_test = split_data(x, y)

## **4. Modelagem**

### **4.1. Regressão Linear**

In [52]:
def linear_regression_predict(x_train, y_train, x_test):
  model = LinearRegression()
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

  y_pred = linear_regression_predict(x_train, y_train, x_test)
  y_pred

In [55]:
def calculate_metrics(y_test, y_pred):
  mae = mean_absolute_error(y_test, y_pred)
  mse = mean_squared_error(y_test, y_pred)
  rmse = np.sqrt(mse)
  mape = mean_absolute_percentage_error(y_test, y_pred)

  metrics = {
      'MAE': mae,
      'MSE': mse,
      'RMSE': rmse,
      'MAPE': mape
  }

  return metrics

print(calculate_metrics(y_test, y_pred))

{'MAE': 160510.7450030845, 'MSE': 60204595255.74538, 'RMSE': 245366.24718111777, 'MAPE': 0.33017072836739464}


### **4.2. KNN Regressor**

In [56]:
def knn_regressor_predict(x_train, y_train, x_test):
  model = KNeighborsRegressor(n_neighbors=5, metric='euclidean')
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

y_pred = knn_regressor_predict(x_train, y_train, x_test)

print(calculate_metrics(y_test, y_pred))

{'MAE': 160510.7450030845, 'MSE': 60204595255.74538, 'RMSE': 245366.24718111777, 'MAPE': 0.33017072836739464}


### **4.3. SVR**

In [59]:
def svr_predict(x_train, y_train, x_test):
  model = SVR()
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

y_pred = svr_predict(x_train, y_train, x_test)
print(calculate_metrics(y_test, y_pred))

{'MAE': 219091.7766652537, 'MSE': 130199624138.9766, 'RMSE': 360831.85022802046, 'MAPE': 0.4214532788664194}


In [60]:
def svr_predict(x_train, y_train, x_test):
  model = SVR(kernel='linear', C=100)
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

pred = svr_predict(x_train, y_train, x_test)
print(calculate_metrics(y_test, y_pred))

{'MAE': 219091.7766652537, 'MSE': 130199624138.9766, 'RMSE': 360831.85022802046, 'MAPE': 0.4214532788664194}


### **4.4. Regressão de Árvore de Decisão**

In [61]:
def decision_tree_predict(x_train, y_train, x_test):
  model = DecisionTreeRegressor()
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

y_pred = decision_tree_predict(x_train, y_train, x_test)
print(calculate_metrics(y_test, y_pred))

{'MAE': 205185.1878213037, 'MSE': 100599298711.26344, 'RMSE': 317173.9250179047, 'MAPE': 0.4113402874330715}


### **4.5. XGBoost**

In [62]:
def xgboost_predict(x_train, y_train, x_test):
  model = XGBRegressor()
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

y_pred = xgboost_predict(x_train, y_train, x_test)
print(calculate_metrics(y_test, y_pred))

{'MAE': 151281.9136359693, 'MSE': 54032402381.69808, 'RMSE': 232448.70914181924, 'MAPE': 0.3115478188030054}


In [63]:
params = {"n_estimators": 100,
           "max_depth": 6,
           "learning_rate": 0.1}

def xgboost_predict(x_train, y_train, x_test):
  model = XGBRegressor(**params)
  model.fit(x_train, y_train)
  y_pred = model.predict(x_test)
  return y_pred

y_pred = xgboost_predict(x_train, y_train, x_test)
print(calculate_metrics(y_test, y_pred))

{'MAE': 147379.14162505785, 'MSE': 50099948746.49795, 'RMSE': 223830.17836408466, 'MAPE': 0.30671574201583884}


## **5. Automatização do Treino e Validação**

In [78]:
def load_and_prepare_data():
    # Download do dataset (se necessário) - Adapte o caminho conforme sua necessidade
    path = kagglehub.dataset_download("harlfoxem/housesalesprediction")
    df = pd.read_csv(f'{path}/kc_house_data.csv')

    df = df[['price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'waterfront']]

    # Separando features e target
    X = df.drop('price', axis=1)
    y = df['price']

    # Dividindo em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=23)

    # Normalizando os dados
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    return X_train, X_test, y_train, y_test


def train_and_evaluate_models(models, X_train, X_test, y_train, y_test):
    results = []

    for name, model in models.items():
        print(f"Treinando modelo: {name}")
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

        metrics = {
            "Modelo": name,
            "MAE": mean_absolute_error(y_test, y_pred),
            "MAPE": mean_absolute_percentage_error(y_test, y_pred),
            "MSE": mean_squared_error(y_test, y_pred),
            "RMSE": np.sqrt(mean_squared_error(y_test, y_pred)),
            "R²": r2_score(y_test, y_pred)
        }

        results.append(metrics)

    return pd.DataFrame(results)

models = {
    "Regressão Linear": LinearRegression(),
    "KNN": KNeighborsRegressor(n_neighbors=5, metric='euclidean'),
    "SVR": SVR(),
    "Árvore de Decisão": DecisionTreeRegressor(),
    "XGBoost": XGBRegressor()
}

# Carregar os dados
X_train, X_test, y_train, y_test = load_and_prepare_data()

# Treinar e avaliar os modelos
df_results = train_and_evaluate_models(models, X_train, X_test, y_train, y_test)

# Exibir resultados
print(df_results)

Treinando modelo: Regressão Linear
Treinando modelo: KNN
Treinando modelo: SVR
Treinando modelo: Árvore de Decisão
Treinando modelo: XGBoost
              Modelo            MAE      MAPE           MSE           RMSE  \
0   Regressão Linear  165904.065105  0.346891  5.829043e+10  241434.112635   
1                KNN  160295.107557  0.329886  6.008402e+10  245120.425500   
2                SVR  219095.949913  0.421456  1.302043e+11  360838.284089   
3  Árvore de Decisão  205872.119422  0.412778  1.028603e+11  320718.346298   
4            XGBoost  151281.913636  0.311548  5.403240e+10  232448.709142   

         R²  
0  0.525175  
1  0.510565  
2 -0.060624  
3  0.162116  
4  0.559860  
