Autores: Bruno Leal Fonseca & Guilherme Namen Pimenta

Repositório: https://github.com/Nagi0/airbnb-price-regression

## Business Understanding

### **Objetivo do Dataset**
O objetivo do dataset é analisar e prever o preço (`price`) de acomodações listadas em uma plataforma (possivelmente similar a Airbnb), com base em diversas variáveis explicativas que descrevem as características das propriedades, dos anfitriões e da experiência oferecida. Esse tipo de dataset pode ser usado para resolver problemas de negócios, como:

1. **Otimização de Preços**: Identificar padrões e determinar os fatores que influenciam no preço das acomodações para implementar estratégias de precificação dinâmica.
2. **Análise de Competitividade**: Comparar preços de propriedades similares por localização, tipo de acomodação e características específicas.
3. **Tomada de Decisões de Negócio**: Ajudar anfitriões ou administradores da plataforma a ajustar preços com base na demanda, localização e outras variáveis.
4. **Estudo de Mercado**: Identificar tendências e comportamentos do mercado de acomodações em diferentes regiões ou bairros.

O dataset, portanto, é útil tanto para anfitriões (indivíduos ou empresas) quanto para a plataforma (no caso de ajuste de taxas ou taxas de serviço baseadas no preço das propriedades).


### **Origem dos Dados**
A origem do dataset não foi explicitamente mencionada, mas, com base na estrutura apresentada, ele aparenta ser extraído de plataformas de hospedagem e aluguel de curta duração, como o Airbnb. Algumas possibilidades sobre como esses dados podem ter sido coletados:

1. **Extração via Web Scraping**: Dados coletados diretamente da plataforma em um determinado intervalo de tempo.
2. **Base de Dados Pública ou de Pesquisa**: Um dataset disponibilizado por instituições acadêmicas, de pesquisa ou pelo próprio setor, visando análises de mercado.
3. **Parceria com a Plataforma**: Se os dados forem oficiais, eles podem ter sido fornecidos diretamente pela plataforma.

Se for uma base pública, como as bases disponibilizadas no *Inside Airbnb*, é importante citar a fonte e os direitos de uso dos dados.


### **Características do Dataset**
Com base nas informações compartilhadas, o dataset apresenta uma grande quantidade de variáveis. Segue a descrição das colunas mais relevantes e suas possíveis funções no contexto do negócio:

#### **Variável-Alvo**
- **`price`**: Representa o preço de uma acomodação. Essa é a variável que queremos prever.

#### **Variáveis Explicativas**
As variáveis explicativas podem ser divididas em grupos para facilitar a compreensão:

1. **Identificação e Metadados**:
   - **`id`**: Identificação única da listagem.
   - **`listing_url`**: URL da página da propriedade.
   - **`scrape_id` e `last_scraped`**: Informações sobre o momento em que os dados foram coletados.

2. **Informações sobre a Propriedade**:
   - **`property_type`**: Tipo da propriedade (e.g., apartamento, loft, casa).
   - **`room_type`**: Tipo de quarto (e.g., imóvel inteiro, quarto privado, quarto compartilhado).
   - **`accommodates`**: Número de pessoas que a propriedade acomoda.
   - **`bathrooms`, `bedrooms`, `beds`**: Informações sobre o número de banheiros, quartos e camas.
   - **`amenities`**: Lista de comodidades oferecidas (e.g., Wi-Fi, ar-condicionado, TV, etc.).
   - **`square_feet`**: Área da propriedade (caso disponível).
   - **`is_location_exact`**: Indica se a localização fornecida é exata.

3. **Localização**:
   - **`latitude` e `longitude`**: Coordenadas geográficas da propriedade.
   - **`neighbourhood` e `neighbourhood_cleansed`**: Nome do bairro e sua versão padronizada.
   - **`city`, `state`, `zipcode`, `country`**: Cidade, estado, código postal e país.
   - **`smart_location`**: Localização formatada (cidade e bairro juntos).

4. **Informações sobre o Anfitrião**:
   - **`host_id`**: Identificação única do anfitrião.
   - **`host_name`**: Nome do anfitrião.
   - **`host_since`**: Data em que o anfitrião começou a oferecer a propriedade.
   - **`host_location`**: Localização do anfitrião.
   - **`host_response_time`**: Tempo médio de resposta do anfitrião.
   - **`host_response_rate` e `host_acceptance_rate`**: Taxas de resposta e de aceitação de reservas.
   - **`host_is_superhost`**: Indica se o anfitrião é considerado "Superhost" (um indicador de qualidade do serviço).

5. **Preços e Taxas**:
   - **`price`**: Preço por diária.
   - **`weekly_price`, `monthly_price`**: Preço semanal e mensal (se aplicável).
   - **`security_deposit` e `cleaning_fee`**: Taxas adicionais, como depósito de segurança e taxa de limpeza.
   - **`extra_people`**: Taxa cobrada por hóspedes adicionais.
   - **`minimum_nights` e `maximum_nights`**: Número mínimo e máximo de noites para reserva.

6. **Disponibilidade e Ocupação**:
   - **`availability_30`, `availability_60`, `availability_90`, `availability_365`**: Dias disponíveis para reserva nos próximos períodos.
   - **`has_availability`**: Indica se a propriedade está disponível para reservas.
   - **`number_of_reviews` e `reviews_per_month`**: Quantidade de avaliações e a média mensal.

7. **Avaliações e Qualidade**:
   - **`review_scores_rating`**: Nota geral da propriedade (1 a 100).
   - **`review_scores_cleanliness`, `review_scores_location`, `review_scores_value`, etc.**: Avaliações detalhadas (limpeza, localização, custo-benefício, etc.).


### **Relação com o Problema de Negócio**
A escolha desse dataset é extremamente relevante para o problema de análise de precificação por várias razões:

1. **Complexidade e Riqueza dos Dados**:
   O dataset inclui um grande número de variáveis que influenciam o preço, como localização, tipo de propriedade, comodidades, avaliações e taxas adicionais. Isso permite a criação de modelos preditivos detalhados e com boa capacidade de explicação.

2. **Diversidade Temporal e Geográfica**:
   Por conter dados de várias localizações e períodos, ele é útil para entender tendências sazonais, variações de mercado e diferenças de preço por região.

3. **Previsão Personalizada**:
   A partir dos dados, é possível criar modelos que ajudam os anfitriões a definir preços competitivos e atrativos para maximizar suas receitas.

4. **Otimização de Receita da Plataforma**:
   Para a plataforma (caso seja um marketplace como Airbnb), o dataset pode ser utilizado para ajustar taxas de serviço ou fornecer recomendações de preço aos anfitriões.

## Data Understanding & Data Preparation

Analisando as descrições e dados das colunas presentes, foi realizada uma seleção dos atributos que apresentam informações semânticas ricas. Levando em conta que muitos atributos apresentam diversos valores nulos, procurou-se selecionar aquelas que também tinham uma boa quantidade de valores não nulos. Contudo, atributos como `review_scores_rating` que são muito relevantes, pois levam em conta a avaliação de outros usuários tinham diversos valores nulos, mas com grande teor de informações que contribuem para a avaliação de um Airbnb, portanto esse trade-off manual foi levado em conta e os seguintes atributos foram selecionados:

```.env
SELECTED_COLUMNS=["host_since", "host_is_superhost", "host_listings_count", "host_verifications", "host_identity_verified", "neighbourhood_cleansed", "latitude", "longitude", "is_location_exact", "property_type", "room_type", "accommodates", "bathrooms", "bedrooms", "beds", "bed_type", "amenities", "price", "guests_included", "extra_people", "minimum_nights", "maximum_nights", "number_of_reviews", "review_scores_accuracy", "review_scores_rating", "review_scores_cleanliness", "review_scores_checkin", "review_scores_communication", "review_scores_location", "review_scores_value", "instant_bookable", "is_business_travel_ready", "cancellation_policy", "month"]
```

Esse valor foi armazenado em uma variável de ambiente que o código de leitura dos dados irá usar para filtrar os atributos do dataset original. Optou-se por não fazer o preenchimento de algumas das amostras com colunas vazias, pois as informações delas não poderiam simplesmente serem preenchidas por algum valor estatístico ou arbitrário, afinal são informações sensíveis e podem conduzir o modelo a aprender padrões incorretos. Portanto, foram removidas as colunas que apresentavam valores vazios.

Um ponto de melhoria que poderia ser implementado posteriormente é usar os atributos de avaliação com texto, usando embeddings e RNN's pode-se extrair informações sobre as reviews dos usuários extraindo o quão positivas/negativas elas são.

Por fim, foram feitos alguns processamentos básicos necessários para o treinamento dos modelos, como:
- Criação de atributos dummy para os atributos categóricos; 
- Conversão das colunas em formato de moeda (com R$XX,xx) para valores flutuantes;
- Engenharia de features com alguns atributos relevantes como `host_verifications` e `amenities` que eram listas com diversas listagens verificações que o host havia realizado e a listagem de comodidades que o imóvel apresentava. Como era muito variado o que os hosts poderiam colocar nesses atributos, impossibilitando o uso de dummies sem aumentar drasticamente as dimensões do dataset, foi feita simplesmente uma contagem de itens nessas listagens e usados como atributos no lugar delas;
- Conversão de atributos booleans que tinham valore em string, `t` e `f`, para inteiros, `1` e `0`.

O código com todas essas implementações segue abaixo:

````python DataLoading/utils.py
import polars as pl


class PolarsUtils:

    @staticmethod
    def data_clean(p_df: pl.DataFrame):
        return p_df.lazy().drop_nulls().drop_nans().collect()

    @staticmethod
    def column_to_datetime(p_df: pl.DataFrame, p_column: str):
        return p_df.lazy().with_columns(pl.col(p_column).str.to_datetime("%Y-%m-%d")).collect()

    @staticmethod
    def replace_value(p_df: pl.DataFrame, p_column: str, p_old_value, p_new_value):
        return p_df.lazy().with_columns(pl.col(p_column).replace(p_old_value, p_new_value)).collect()

    @staticmethod
    def count_elements(p_df: pl.DataFrame, p_column: str, p_sep: str, p_alias: str):
        return p_df.with_columns(
            pl.col(p_column).str.split(p_sep).map_elements(lambda x: len(x), return_dtype=pl.Int32).alias(p_alias)
        )

    @staticmethod
    def price_to_float(p_df: pl.DataFrame, p_column: str):
        return (
            p_df.lazy()
            .with_columns(
                pl.col(p_column).map_elements(
                    lambda x: float(x.replace("$", "").replace(",", "")), return_dtype=pl.Float32
                )
            )
            .collect()
        )
````

````python DataLoading/data_loader.py
import os
from ast import literal_eval
from dataclasses import dataclass
from dotenv import load_dotenv
import polars as pl
from kagglehub import dataset_download
from airbnbPriceRegression.humanAttempt.DataLoading.utils import PolarsUtils


@dataclass()
class DataLoader:
    data: pl.DataFrame = pl.DataFrame

    def __post_init__(self):
        load_dotenv("./airbnbPriceRegression/config/.env")
        path = dataset_download(os.environ["DATA_PATH"])
        selected_columns_list = literal_eval(os.environ["SELECTED_COLUMNS"])
        self.data = pl.read_csv(f"{path}/total_data.csv").select(selected_columns_list)

    def data_clean(self):
        self.data = PolarsUtils.data_clean(self.data)

    def feature_eng(self):
        self.data = PolarsUtils.column_to_datetime(self.data, "host_since")
        most_recent_year = self.data.select(pl.col("host_since").max()).to_pandas()["host_since"][0].year
        self.data = (
            self.data.lazy()
            .with_columns((most_recent_year - pl.col("host_since").dt.year()).alias("host_since_years"))
            .collect()
        ).drop("host_since")

        self.data = PolarsUtils.replace_value(self.data, "host_is_superhost", "f", 0)
        self.data = PolarsUtils.replace_value(self.data, "host_is_superhost", "t", 1)
        self.data = self.data.with_columns(pl.col("host_is_superhost").cast(pl.Int8))

        self.data = PolarsUtils.replace_value(self.data, "host_identity_verified", "f", 0)
        self.data = PolarsUtils.replace_value(self.data, "host_identity_verified", "t", 1)
        self.data = self.data.with_columns(pl.col("host_identity_verified").cast(pl.Int8))

        self.data = PolarsUtils.replace_value(self.data, "is_location_exact", "f", 0)
        self.data = PolarsUtils.replace_value(self.data, "is_location_exact", "t", 1)
        self.data = self.data.with_columns(pl.col("is_location_exact").cast(pl.Int8))

        self.data = PolarsUtils.replace_value(self.data, "instant_bookable", "f", 0)
        self.data = PolarsUtils.replace_value(self.data, "instant_bookable", "t", 1)
        self.data = self.data.with_columns(pl.col("instant_bookable").cast(pl.Int8))

        self.data = PolarsUtils.replace_value(self.data, "is_business_travel_ready", "f", 0)
        self.data = PolarsUtils.replace_value(self.data, "is_business_travel_ready", "t", 1)
        self.data = self.data.with_columns(pl.col("is_business_travel_ready").cast(pl.Int8))

        self.data = PolarsUtils.count_elements(self.data, "host_verifications", ",", "host_verifications_number").drop(
            "host_verifications"
        )
        self.data = PolarsUtils.count_elements(self.data, "amenities", ",", "amenities_number").drop("amenities")

        self.data = PolarsUtils.price_to_float(self.data, "price")
        self.data = PolarsUtils.price_to_float(self.data, "extra_people")

    def create_dummies(self, p_dummy_columns: list):
        self.data = self.data.to_dummies(columns=p_dummy_columns)

    def preprocess(self, p_dummy_columns: list):
        self.data_clean()
        self.feature_eng()
        self.create_dummies(p_dummy_columns)


if __name__ == "__main__":
    data_loader = DataLoader()
    dummy_columns = literal_eval(os.environ["DUMMY_COLUMNS"])
    data_loader.preprocess(dummy_columns)
    print(data_loader)
    data_loader.data.write_csv("dataset.csv")
````


![image.png](attachment:image.png)

Algo notado durante a análise dos dados é que existem alguns outlier no atributo alvo `price`, são valores os hosts cobram por imóveis de luxo que ficam muito além do que um consumidor comum ou acima da média poderiam pagar. Esse valore ficam inclusive do 99º quartil do atributo alvo, portanto, foi feita uma filtragem para pegar valores abaixo desse quartil, removendo os outliers. O mesmo foi feito para outro atributo de preço, no caso o `extra_people`, que indica o preço cobrado por hóspedes extras.

![image.png](attachment:image.png)
![image-3.png](attachment:image-3.png)

![image-2.png](attachment:image-2.png)
![image-4.png](attachment:image-4.png)


![image-5.png](attachment:image-5.png)
![image-7.png](attachment:image-7.png)

![image-6.png](attachment:image-6.png)
![image-8.png](attachment:image-8.png)

## Modelling

O objetivo dos modelos de regressão é encontrar um padrão nos dados que permita prever uma variável contínua com base em um conjunto de variáveis independentes. No caso da previsão de preços de imóveis no Airbnb, os modelos tentam aprender a relação entre características dos imóveis (como localização, número de quartos, avaliações) e o preço final.

Em seguida foi iniciado o processo de modelagem, onde são propostos alguns algoritmos e métodos de avaliação para performar a tarefa de regressão. O objetivo aqui é obter um modelo de regressão capaz de performar bem em um banco de treino e de teste, mas também garantir sua robustez realizando alguns testes.

Utilizando o conhecimento passados nas aulas, e pesquisando em bibliotecas e frameworks de aprendizado de máquinas/mineração de dados, são propostos os seguintes modelos:
- Linear Regression (scikit-learn)
- Random Forest Regressor (scikit-learn)
- Ridge Regression (scikit-learn)
- Lasso Regression (scikit-learn)
- MLP (scikit-learn)
- Deep MLP (tensorflow)

Aplicando o código anterior para carregar a base de dados preprocessada, pode-se executar os algoritmos

### **1. Regressão Linear**
A **Regressão Linear** assume que existe uma relação linear entre as variáveis preditoras \( X \) e a variável alvo \( y \). O modelo é expresso como:

![image.png](attachment:image.png)

**Interpretação**

- O modelo busca minimizar a soma dos erros quadráticos (OLS - Ordinary Least Squares).
- É útil para entender a influência de cada variável sobre o preço do imóvel.
- Assume independência entre as variáveis preditoras e linearidade nos dados.

---

### **2. Regressão Ridge**
A **Regressão Ridge** é uma variante da regressão linear que adiciona um termo de regularização L2 à função de custo para penalizar coeficientes grandes:

![image-2.png](attachment:image-2.png)

Onde lambda é um hiperparâmetro que controla a penalização dos coeficientes.

**Interpretação**
- Reduz a complexidade do modelo, prevenindo overfitting.
- É útil quando há colinearidade entre as variáveis preditoras.
- Mantém todos os coeficientes no modelo, mas reduz sua magnitude.

---

### **3. Regressão Lasso**
A **Regressão Lasso** (Least Absolute Shrinkage and Selection Operator) adiciona uma penalização L1 à função de custo:

![image-3.png](attachment:image-3.png)

**Interpretação**
- Além de reduzir overfitting, pode zerar coeficientes irrelevantes, realizando seleção de variáveis.
- Útil quando há muitas variáveis e queremos um modelo mais interpretável.
- Separa variáveis realmente relevantes das menos significativas.

---

### **4. Random Forest Regressor**
O **Random Forest Regressor** é um modelo baseado em árvores de decisão que combina várias árvores para melhorar a precisão da previsão. Ele funciona da seguinte maneira:

1. Cria múltiplas árvores de decisão em subconjuntos aleatórios dos dados, nesses subconjuntos também são escolhidos subconjuntos aleatórios de atributos, amenizando a característica gulosa das árvores de Decisão.
2. Cada árvore gera uma previsão.
3. A previsão final é obtida pela média das previsões individuais.

**Interpretação**
- Reduz o overfitting em comparação com uma única árvore de decisão.
- Captura relações não lineares entre as variáveis.
- Resistente a outliers e valores ausentes.
- Pode ser computacionalmente caro para conjuntos de dados grandes.

---

### **5. Multi-layer Perceptron (MLP) Regressor**
O **MLPRegressor** usa redes neurais artificiais para modelar relações complexas entre as variáveis. Ele contém:
- **Camadas ocultas** com neurônios que processam informações não lineares.
- **Funções de ativação** como ReLU para aprender padrões complexos.
- **Backpropagation** para otimizar os pesos dos neurônios.

**Interpretação**
- Funciona bem para problemas complexos sem uma relação linear clara.
- Pode sofrer com overfitting, mas isso pode ser mitigado com regularização e dropout.
- Exige mais dados e tempo de treinamento do que os modelos anteriores.

---

### **6. TensorFlow MLP (Rede Neural Profunda)**
Este modelo é uma versão mais customizável do **MLPRegressor**, implementado com TensorFlow/Keras. Ele segue uma estrutura similar, mas permite maior controle sobre:
- O número de camadas e neurônios.
- Otimização com **Adam** e **Early Stopping**.
- Função de perda utiliza a métrica de qualidade **MSE** que será mais detalhada a seguir.
- Ajustes finos na arquitetura para melhor desempenho.

**Interpretação**
- Melhor para grandes volumes de dados e padrões altamente não lineares.
- Pode aprender representações mais complexas do que o **MLPRegressor** tradicional.
- Exige tuning cuidadoso de hiperparâmetros para evitar overfitting ou underfitting.

---

### **Comparação dos Modelos**
| Modelo | Interpretação | Overfitting | Não-linearidade | Seleção de Variáveis | Tempo de Treinamento |
|--------|--------------|-------------|-----------------|----------------------|----------------------|
| **Regressão Linear** | Fácil | Alto | Não | Não | Rápido |
| **Ridge** | Moderado | Baixo | Não | Não | Rápido |
| **Lasso** | Moderado | Baixo | Não | Sim | Rápido |
| **Random Forest** | Difícil | Baixo | Sim | Não | Médio |
| **MLPRegressor** | Difícil | Alto | Sim | Não | Alto |
| **TensorFlow MLP** | Muito difícil | Alto | Sim | Não | Muito Alto |

---

Os modelos de regressão utilizados apresentam diferentes vantagens e desvantagens. A escolha do melhor modelo depende das características dos dados:

- **Se o objetivo for interpretabilidade**, a **Regressão Linear, Ridge ou Lasso** são boas opções.
- **Se houver muitas variáveis e colinearidade**, a **Regressão Lasso** pode ajudar na seleção de variáveis.
- **Se houver padrões não lineares complexos**, **Random Forest ou Redes Neurais** são mais indicadas.
- **Se houver grande volume de dados**, redes neurais profundas com TensorFlow podem fornecer melhores resultados.

````python Modelling/models.py
from dataclasses import dataclass
import keras
import polars as pl
import pandas as pd
import pickle as pkl
from tqdm import tqdm
import tensorflow as tf
from keras import layers
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.neural_network import MLPRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from keras.callbacks import ModelCheckpoint, EarlyStopping, TensorBoard
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, root_mean_squared_error, r2_score


@dataclass
class Models:
    dataset: pl.DataFrame
    test_size: float

    def __post_init__(self):
        dataset = self.dataset.to_pandas()
        dataset_index = dataset.index
        dataset_columns = dataset.columns

        self.scaler = StandardScaler()
        dataset = pd.DataFrame(self.scaler.fit_transform(dataset), index=dataset_index, columns=dataset_columns)
        self.dataset = pl.from_pandas(dataset)

        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            dataset.drop(columns=["price"]), dataset["price"], test_size=self.test_size, random_state=42
        )

    def load_model(self, p_path: str):
        if "h5" in p_path:
            model = keras.models.load_model(f"{p_path}")
            model.summary()

        else:
            with open(f"{p_path}", "rb") as f:
                model = pkl.load(f)

        self.model = model

    def evaluate_model(self, p_model: LinearRegression | RandomForestRegressor):
        y_pred = p_model.predict(self.X_test)

        mae = mean_absolute_error(self.y_test, y_pred)
        rmse = root_mean_squared_error(self.y_test, y_pred)
        r2 = r2_score(self.y_test, y_pred)

        print("Results:")
        print(f"MAE: {mae:.2f}, RMSE: {rmse:.2f}, R²: {r2:.2f}")

    def cross_validation(self, p_k_folds: int = 5):
        dataset = self.dataset.to_pandas()
        dataset_index = dataset.index
        dataset_columns = dataset.columns

        self.scaler = StandardScaler()
        dataset = pd.DataFrame(self.scaler.fit_transform(dataset), index=dataset_index, columns=dataset_columns)
        self.dataset = pl.from_pandas(dataset)

        results = []
        for idx in tqdm(range(p_k_folds)):
            _, X_test, _, y_test = train_test_split(
                dataset.drop(columns=["price"]), dataset["price"], test_size=self.test_size, random_state=idx
            )
            y_pred = self.model.predict(X_test)

            mae = mean_absolute_error(y_test, y_pred)
            rmse = root_mean_squared_error(y_test, y_pred)
            r2 = r2_score(y_test, y_pred)
            results.append({"mae": mae, "rmse": rmse, "r2": r2})

        return pd.DataFrame(results)

    def train_model(self, p_model: str, p_verbose: bool = True) -> LinearRegression | RandomForestRegressor:
        if p_model == "linear":
            model = LinearRegression()
            model.fit(self.X_train, self.y_train)

        elif p_model == "random_forest":
            model = RandomForestRegressor(random_state=42, verbose=p_verbose)
            model.fit(self.X_train, self.y_train)

        elif p_model == "ridge":
            model = Ridge(random_state=42)
            model.fit(self.X_train, self.y_train)

        elif p_model == "lasso":
            model = Lasso(alpha=0.001, random_state=42)
            model.fit(self.X_train, self.y_train)

        elif p_model == "mlp":
            model = MLPRegressor(
                hidden_layer_sizes=(10, 20, 100, 20, 10), activation="relu", solver="adam", verbose=p_verbose
            )
            model.fit(self.X_train, self.y_train)

        elif p_model == "tensorflow_mlp":
            gpus_list = tf.config.experimental.list_physical_devices("GPU")
            for gpu in gpus_list:
                tf.config.experimental.set_memory_growth(gpu, True)

            model = keras.Sequential(
                [
                    layers.Dense(64, activation="relu", input_shape=[len(self.X_train.keys())]),
                    layers.Dense(64, activation="relu"),
                    layers.Dense(1),
                ]
            )
            callbacks = [
                ModelCheckpoint(
                    "tensorflow_mlp.{epoch:02d}-{val_loss:.4f}--0fold.h5",
                    verbose=p_verbose,
                    metric="val_loss",
                    save_best_only=True,
                ),
                EarlyStopping(patience=10, monitor="val_loss"),
                TensorBoard(
                    log_dir="C:\\GitHub\\airbnb-price-regression\\airbnbPriceRegression\\humanAttempt\\tensorflow_logs"
                ),
            ]
            model.compile(loss="mse", optimizer="adam", metrics=["mae", "mse"])
            model.fit(
                self.X_train,
                self.y_train,
                validation_data=(self.X_test, self.y_test),
                epochs=100,
                verbose=p_verbose,
                callbacks=callbacks,
            )

        self.evaluate_model(model)
        self.model = model
````

Foram selecionadas algumas métricas de avaliação que foram vistas no curso para algoritmos de regressão, detre elas estão:
- Mean Squared Error (MSE): Mede a média dos erros quadráticos entre os valores reais e as previsões do modelo. Ele é calculado como

    ![image.png](attachment:image.png)

    - O MSE sempre retorna um valor não negativo, pois os erros são elevados ao quadrado.
    - Quanto menor o MSE, melhor o modelo, pois indica que os erros das previsões são menores.
    - Como o erro é elevado ao quadrado, erros maiores têm um impacto desproporcionalmente alto, tornando o MSE sensível a outliers.

- Root Mean Squared Error (RMSE): É simplesmente a raiz quadrada do MSE

    ![image-2.png](attachment:image-2.png)

    - O RMSE tem a mesma unidade dos valores da variável dependente (no caso, preços de imóveis), o que facilita a interpretação em comparação ao MSE.
    - Assim como o MSE, valores menores indicam um modelo mais preciso.
    - Como mantém a propriedade de penalizar erros maiores mais fortemente, é útil quando queremos evitar grandes erros em previsões.

- Coeficiente de Determinação (R²): Mede o quão bem o modelo explica a variabilidade dos dados em comparação a um modelo base (como a média dos preços). Ele é calculado como

    ![image-3.png](attachment:image-3.png)

    - Um valor próximo de 1 indica que o modelo explica bem a variação nos preços dos imóveis.
    - Um valor próximo de 0 indica que o modelo não está capturando bem a variabilidade dos preços e não é muito melhor do que simplesmente usar a média dos preços como previsão.


- MSE e RMSE são boas métricas para avaliar o erro absoluto das previsões.
- RMSE é frequentemente preferido pois é mais interpretável (está na mesma escala dos preços).
- R² é útil para entender o quão bem o modelo explica a variabilidade dos preços, mas deve ser analisado junto com outras métricas.

| Métrica | Faixa de Valores | Unidade | Sensível a Outliers? | Interpretação |
|---------|----------------|---------|----------------------|---------------|
| **MSE** | [0, +\infty] | Quadrado da unidade da variável alvo | Sim | Penaliza erros grandes; útil para otimização matemática. |
| **RMSE** | [0, +\infty] | Mesma unidade da variável alvo | Sim | Mais interpretável do que o MSE. Útil para comparar erros diretamente. |
| **R²** | [-infty, 1] | Sem unidade | Não diretamente | Mede o ajuste do modelo em relação à variabilidade dos dados. |


````python Modelling/main.py
import os
import pickle
import polars as pl
from ast import literal_eval
from dotenv import load_dotenv
from airbnbPriceRegression.humanAttempt.Modelling.models import Models
from airbnbPriceRegression.humanAttempt.DataLoading.data_loader import DataLoader
from airbnbPriceRegression.humanAttempt.Modelling.visualization import Visualization


if __name__ == "__main__":
    load_dotenv("airbnbPriceRegression/config/.env")
    VIEW_PLOTS = literal_eval(os.environ["VIEW_PLOTS"])

    dataset = DataLoader()
    dataset.preprocess(literal_eval(os.environ["DUMMY_COLUMNS"]))
    dataset = dataset.data

    if VIEW_PLOTS:
        Visualization().histogram(dataset, "price", p_title="Price Histogram")
        Visualization().histogram(dataset, "extra_people", p_title="Extra People Histogram")
        Visualization().boxplot(dataset, "price", p_title="Price Boxplot")
        Visualization().boxplot(dataset, "extra_people", p_title="Extra People Boxplot")

    dataset = dataset.filter(pl.col("price") <= pl.col("price").quantile(0.99))
    dataset = dataset.filter(pl.col("extra_people") <= pl.col("extra_people").quantile(0.99))

    if VIEW_PLOTS:
        Visualization().histogram(dataset, "price", p_title="Price Histogram")
        Visualization().histogram(dataset, "extra_people", p_title="Extra People Histogram")
        Visualization().boxplot(dataset, "price", p_title="Price Boxplot")
        Visualization().boxplot(dataset, "extra_people", p_title="Extra People Boxplot")

    model_type = "random_forest"
    modeling = Models(dataset, 0.20)
    modeling.train_model(f"{model_type}")

    k_fold_results = modeling.cross_validation()
    print(k_fold_results)
````

## Evaluation

Devido ao elevado custo computacional dos algoritmos e o fato da base de dados ser muito extensa, realizar o processo de validação cruzada, onde é necessário treinar o modelo diversas vezes não é muito viável. Portanto, para validar se o modelo conseguiu ser bem regularizado para performar em bases de dados que não sejam de treino, os modelos foram treinados com a mesma base de dados, usando `random_state=42`, e em seguida bases de dados de teste foram escolhidas aleatoriamente a partir da base de dados original.

Esse processo está descrito na função abaixo que foi adicionada na classe `Models`:

````python
def cross_validation(self, p_k_folds: int = 5):
        dataset = self.dataset.to_pandas()
        dataset_index = dataset.index
        dataset_columns = dataset.columns

        self.scaler = StandardScaler()
        dataset = pd.DataFrame(self.scaler.fit_transform(dataset), index=dataset_index, columns=dataset_columns)
        self.dataset = pl.from_pandas(dataset)

        results = []
        for idx in tqdm(range(p_k_folds)):
            _, X_test, _, y_test = train_test_split(
                dataset.drop(columns=["price"]), dataset["price"], test_size=self.test_size, random_state=idx
            )
            y_pred = self.model.predict(X_test)

            mae = mean_absolute_error(y_test, y_pred)
            rmse = root_mean_squared_error(y_test, y_pred)
            r2 = r2_score(y_test, y_pred)
            results.append({"mae": mae, "rmse": rmse, "r2": r2})

        return pd.DataFrame(results)
````

Linear Regression:
````Linear Regression
        mae      rmse        r2
0  0.488651  0.780482  0.393011
1  0.488254  0.777159  0.396506
2  0.489504  0.784145  0.388278
3  0.482643  0.766738  0.403672
4  0.486691  0.778574  0.394485
````

Ridge:
````Ridge
        mae      rmse        r2
0  0.488651  0.780482  0.393011
1  0.488254  0.777159  0.396506
2  0.489504  0.784145  0.388278
3  0.482643  0.766738  0.403672
4  0.486691  0.778574  0.394485
````

Lasso:
````Lasso
        mae      rmse        r2
0  0.488201  0.780846  0.392446
1  0.487791  0.777359  0.396195
2  0.488989  0.784466  0.387776
3  0.482103  0.767012  0.403246
4  0.486132  0.778782  0.394160`
`````

MLP:
````MLP
        mae      rmse        r2
0  0.330240  0.533124  0.716789
1  0.327991  0.531514  0.717718
2  0.330491  0.537675  0.712392
3  0.327608  0.524963  0.720458
4  0.329514  0.533810  0.715358
````

Deep MLP:
````Deep MLP
        mae      rmse        r2
0  0.264343  0.415424  0.828036
1  0.264611  0.418294  0.825170
2  0.266137  0.420336  0.824226
3  0.265341  0.417603  0.823104
4  0.266245  0.422899  0.821351
````

Random Forest:
````Random Forest
        mae      rmse        r2
0  0.029514  0.107229  0.988543
1  0.030128  0.111477  0.987583
2  0.029767  0.107650  0.988471
3  0.030179  0.116275  0.986286
4  0.030481  0.117570  0.986192
````

## Conclusão

O objetivo principal foi comprido, com a seleção e o preprocessamento dos atributos da base de dados original, foi possível obter modelos de regressão capazes de apontarem o preço de um imóvel com uma boa performance. Alguns fatores são dignos de nota, o modelo treinado, muito possivelmente, só irá desempenhar bem na cidade em questão; também existe o fato da época em que esses preço foram estimados, que se datava um pouco antes e até o começo da pandemia do Covid-19; além de poderem haver casos onde o modelo pode não performar bem, realizando uma generalização baseado no que foi aprendido.

De toda forma, os modelos podem indicar uma ideia de quais atributos podem ter mais peso na decisão do preço de um imóvel, mostrando o que os usuário geralmente procuram em cidades parecidas a da base de dados.

A base de dados parece ser altamente estruturada e previsível, conforme evidenciado pelo desempenho dos modelos, especialmente pelo Random Forest Regressor. Algumas observações importantes:

- A base de dados parece ter forte relação entre as variáveis preditoras e o preço dos imóveis. Isso é indicado pelos altos valores de R² nos modelos mais complexos, sugerindo que as variáveis utilizadas explicam bem a variação nos preços.
- Os dados podem não conter muito ruído ou outliers significativos, já que todos os modelos (incluindo os lineares) apresentam resultados relativamente estáveis e consistentes.
- Pode haver relações não lineares importantes, pois os modelos não lineares (Random Forest e Redes Neurais) superam significativamente os modelos lineares.

### **Modelos Lineares: Regressão Linear, Ridge e Lasso**
- Os três modelos apresentaram **resultados idênticos** ou muito próximos.
- Como o Ridge e o Lasso não trouxeram melhoria significativa sobre a regressão linear simples, podemos concluir que:
  - **Não há alta colinearidade entre as variáveis preditoras**, pois o Ridge geralmente melhora quando há colinearidade.
  - **Poucas variáveis irrelevantes** estão presentes, já que o Lasso não conseguiu melhorar os resultados removendo features, podendo indicar que a seleção de atributos no preprocessamento foi eficaz.
- O R² na faixa de **0.39 - 0.40** indica que os modelos lineares explicam **cerca de 40% da variabilidade do preço dos imóveis**, o que não é um bom desempenho.

Portanto, os modelos lineares não são adequados para a tarefa, sugerindo que **a relação entre as features e o preço do imóvel não é estritamente linear**.

### **Modelos Não Lineares: MLP e Deep MLP**
Os modelos baseados em redes neurais melhoraram significativamente os resultados.

- O **MLP** aumentou o R² para **0.71 - 0.72**, mostrando que há padrões não lineares importantes nos dados.
- O **Deep MLP** trouxe ainda mais melhorias, atingindo um R² na faixa de **0.82 - 0.83**, indicando que esse modelo é capaz de capturar relações ainda mais complexas.

- A base de dados possui **relações não lineares significativas**, que as redes neurais conseguem capturar melhor que os modelos lineares.
- Modelos baseados em **Deep Learning** são uma opção viável para melhorar a performance, mas **exigem maior poder computacional e podem ser mais difíceis de interpretar**.


### **Random Forest: O Melhor Desempenho**
O **Random Forest Regressor** apresentou os melhores resultados, atingindo um R² **acima de 0.98** e **RMSE muito baixo**. Isso indica que:

1. **O modelo capturou quase toda a variabilidade nos dados**, sugerindo que os padrões são bem definidos e os dados possuem boa qualidade.
2. **O problema pode ser mais adequado para modelos baseados em árvores**, já que ele supera todas as abordagens de redes neurais.

- O **Random Forest funciona extremamente bem** e pode ser a melhor escolha **caso o objetivo seja apenas alta acurácia**.
- No entanto, é necessário verificar se esse desempenho **se mantém em novos dados**, pois pode estar superajustado. Esse fator é complicado de analisar devido o elevado custo computacional que foi executar esses modelos em um processo de validação cruzada tradicional, onde o modelo é treinado e testado diversas vezes. No caso foi necessário treinar uma vez e testar com diversos bancos de teste variados, portanto, esse processo de validação seria necessário para o Random Forest, mas também para os demais algoritmos.