# Projeto de Regressão: Previsão de Preços do Airbnb no Rio de Janeiro

**Discente:** Júlia Alanne Silvino dos Santos

**Discente:** Pablo Durkheim Fernandes do Nascimento

# **Alterações:**
___________________________________________________________________

- ## Inserimos uma nova coluna chamada "distancia_centro_turistico", para substituir o que seria latitude e longitude, o lugar de refêrencia é a localização do ponto central da praia de Copa Cabana.

- ## Mudados o otimizador para AdamW, RMSprop, NAdam, a arquitetura e nº de épocas para 200, mantendo o Lr.

## 1. Introdução e Definição do Problema

O objetivo deste projeto é desenvolver um modelo de Machine Learning capaz de prever o preço de diárias de imóveis anunciados na plataforma Airbnb na cidade do Rio de Janeiro. Para isso, utilizaremos um dataset público do portal *Inside Airbnb*.

O desenvolvimento seguirá um pipeline padrão de projetos de ciência de dados:
*  **Análise Exploratória dos Dados (EDA):** Para entender a estrutura, a


qualidade e os padrões dos dados.
*  **Pré-Processamento e Limpeza:** Para preparar os dados para a modelagem.
*  **Modelagem:** Utilizaremos a biblioteca LazyPredict para criar um *baseline* de desempenho com diversos modelos tradicionais e, em seguida, desenvolveremos um modelo de rede neural com PyTorch para buscar um resultado otimizado.
*  **Avaliação e Conclusão:** Analisaremos os resultados para determinar a eficácia dos modelos.

## 2. Preparação do Ambiente e Carregamento dos Dados

Nesta primeira etapa, importamos todas as bibliotecas que serão utilizadas ao longo do projeto, como `pandas` para manipulação de dados, `matplotlib` e `seaborn` para visualização, e `pycaret` para a modelagem automatizada.

Em seguida, carregamos o nosso conjunto de dados, o arquivo `listings.csv`, que contém as informações detalhadas sobre os anúncios.

In [None]:
# Instalação da biblioteca LazyPredict
# O PyTorch já vem pré-instalado na maioria dos ambientes Colab.
!pip install lazypredict

Collecting lazypredict
  Downloading lazypredict-0.2.16-py2.py3-none-any.whl.metadata (13 kB)
Collecting pytest-runner (from lazypredict)
  Downloading pytest_runner-6.0.1-py3-none-any.whl.metadata (7.3 kB)
Collecting mlflow>=2.0.0 (from lazypredict)
  Downloading mlflow-3.4.0-py3-none-any.whl.metadata (30 kB)
Collecting mlflow-skinny==3.4.0 (from mlflow>=2.0.0->lazypredict)
  Downloading mlflow_skinny-3.4.0-py3-none-any.whl.metadata (31 kB)
Collecting mlflow-tracing==3.4.0 (from mlflow>=2.0.0->lazypredict)
  Downloading mlflow_tracing-3.4.0-py3-none-any.whl.metadata (19 kB)
Collecting docker<8,>=4.0.0 (from mlflow>=2.0.0->lazypredict)
  Downloading docker-7.1.0-py3-none-any.whl.metadata (3.8 kB)
Collecting fastmcp<3,>=2.0.0 (from mlflow>=2.0.0->lazypredict)
  Downloading fastmcp-2.12.3-py3-none-any.whl.metadata (17 kB)
Collecting graphene<4 (from mlflow>=2.0.0->lazypredict)
  Downloading graphene-3.4.3-py2.py3-none-any.whl.metadata (6.9 kB)
Collecting gunicorn<24 (from mlflow>=2.0.0->

In [None]:
# Importação das bibliotecas básicas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## 3. Análise Exploratória (EDA), Limpeza e Seleção de Features
 Uma análise profunda e uma limpeza cuidadosa garantem que o modelo será treinado com dados de alta qualidade, o que impacta diretamente sua performance. Dessa forma, nosso objetivo é:
1.  Entender a fundo cada variável.
2.  Tratar inconsistências, como valores ausentes e formatos incorretos.
3.  Selecionar as features mais promissoras para prever o preço.



In [None]:
# Configuração para exibir todas as colunas do DataFrame
pd.set_option('display.max_columns', None)

# Carregamento dos dados a partir do link fornecido no notebook base
# O comando !wget baixa o arquivo e o !gunzip descompacta.
!wget -O listings.csv.gz "https://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2025-03-19/data/listings.csv.gz"
!gunzip -k listings.csv.gz

# Leitura do arquivo CSV para um DataFrame do Pandas
df_raw = pd.read_csv("listings.csv")

# Visualização das primeiras linhas para entender os dados
print("Visualização inicial dos dados:")
display(df_raw.head())

# Verificação das informações gerais do DataFrame, como tipos de dados e valores nulos
print("\nInformações gerais do DataFrame:")
df_raw.info()

--2025-09-21 23:13:49--  https://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2025-03-19/data/listings.csv.gz
Resolving data.insideairbnb.com (data.insideairbnb.com)... 52.85.78.116, 52.85.78.60, 52.85.78.89, ...
Connecting to data.insideairbnb.com (data.insideairbnb.com)|52.85.78.116|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 21857120 (21M) [application/x-gzip]
Saving to: ‘listings.csv.gz’


2025-09-21 23:13:50 (48.1 MB/s) - ‘listings.csv.gz’ saved [21857120/21857120]

Visualização inicial dos dados:


Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,host_url,host_name,host_since,host_location,host_about,host_response_time,host_response_rate,host_acceptance_rate,host_is_superhost,host_thumbnail_url,host_picture_url,host_neighbourhood,host_listings_count,host_total_listings_count,host_verifications,host_has_profile_pic,host_identity_verified,neighbourhood,neighbourhood_cleansed,neighbourhood_group_cleansed,latitude,longitude,property_type,room_type,accommodates,bathrooms,bathrooms_text,bedrooms,beds,amenities,price,minimum_nights,maximum_nights,minimum_minimum_nights,maximum_minimum_nights,minimum_maximum_nights,maximum_maximum_nights,minimum_nights_avg_ntm,maximum_nights_avg_ntm,calendar_updated,has_availability,availability_30,availability_60,availability_90,availability_365,calendar_last_scraped,number_of_reviews,number_of_reviews_ltm,number_of_reviews_l30d,availability_eoy,number_of_reviews_ly,estimated_occupancy_l365d,estimated_revenue_l365d,first_review,last_review,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,2302715,https://www.airbnb.com/rooms/2302715,20250319150537,2025-03-20,city scrape,guilherme,"House with five large bedrooms, living room, g...",,https://a0.muscache.com/pictures/30842883/b19c...,11706874,https://www.airbnb.com/users/show/11706874,Guilherme,2014-01-27,"Rio, Brazil",,,,,f,https://a0.muscache.com/im/users/11706874/prof...,https://a0.muscache.com/im/users/11706874/prof...,,2.0,2.0,"['email', 'phone']",t,f,,Anil,,-22.95221,-43.32944,Entire home,Entire home/apt,12,5.0,5 baths,5.0,10.0,"[""Washer"", ""Hot tub"", ""Breakfast"", ""TV with st...","$2,700.00",10,30,10,10,30,30,10.0,30.0,,t,30,60,90,365,2025-03-20,0,0,0,287,0,0,0.0,,,,,,,,,,,f,1,1,0,0,
1,2304688,https://www.airbnb.com/rooms/2304688,20250319150537,2025-03-20,city scrape,OLIMPÍADAS 2016,"Apartment with living room, 2 bedrooms and kit...","Beaches, restaurants, supermarkets, amusement ...",https://a0.muscache.com/pictures/30867360/fe14...,10405816,https://www.airbnb.com/users/show/10405816,Eurico,2013-12-03,"Rio de Janeiro, Brazil",,,,0%,f,https://a0.muscache.com/im/users/10405816/prof...,https://a0.muscache.com/im/users/10405816/prof...,,1.0,1.0,"['email', 'phone']",t,f,"Rio, Rio de Janeiro, Brazil",Ipanema,,-22.98767,-43.18991,Entire rental unit,Entire home/apt,4,1.0,1 bath,2.0,3.0,"[""Washer"", ""TV with standard cable"", ""Wifi"", ""...",$837.00,7,14,7,7,14,14,7.0,14.0,,t,30,60,90,365,2025-03-20,0,0,0,287,0,0,0.0,,,,,,,,,,,f,1,1,0,0,
2,2306547,https://www.airbnb.com/rooms/2306547,20250319150537,2025-03-20,city scrape,Amplo Apto com 3 Dormitórios em Copacabana - 1...,Excellent apartment in Copacabana. Cozy and la...,The Copacabana Neighborhood is independent an...,https://a0.muscache.com/pictures/4923e99d-7190...,4107346,https://www.airbnb.com/users/show/4107346,Vera Lucia,2012-11-09,"Rio de Janeiro, Brazil",Sou uma pessoa que adora receber turistas no R...,within a few hours,100%,62%,f,https://a0.muscache.com/im/users/4107346/profi...,https://a0.muscache.com/im/users/4107346/profi...,Copacabana,1.0,1.0,"['email', 'phone']",t,t,"Copacabana, Rio de Janeiro, Brazil",Copacabana,,-22.97333,-43.18857,Entire rental unit,Entire home/apt,7,2.0,2 baths,3.0,6.0,"[""Dedicated workspace"", ""Dishes and silverware...",$800.00,5,90,5,5,90,90,5.0,90.0,,t,25,47,77,257,2025-03-20,13,3,1,257,4,30,24000.0,2020-01-07,2025-03-05,5.0,5.0,4.92,5.0,4.92,5.0,4.77,,f,1,1,0,0,0.21
3,2306767,https://www.airbnb.com/rooms/2306767,20250319150537,2025-03-20,city scrape,Studio in Copacabana Beach,WITH NOISE-RESISTANT WINDOWS<br />Bright and c...,"Copacabana is a middle class neighborhood, saf...",https://a0.muscache.com/pictures/e430b243-bcbd...,11386725,https://www.airbnb.com/users/show/11386725,Carolina,2014-01-17,"Rio de Janeiro, Brazil",QUEM SOU EU\nTenho 39 anos e moro no Rio de Ja...,within an hour,98%,100%,f,https://a0.muscache.com/im/users/11386725/prof...,https://a0.muscache.com/im/users/11386725/prof...,Copacabana,7.0,16.0,"['email', 'phone']",t,t,"Rio, Rio de Janeiro, Brazil",Copacabana,,-22.96477,-43.17605,Entire rental unit,Entire home/apt,3,1.0,1 bath,0.0,2.0,"[""Clothing storage: wardrobe"", ""Window AC unit...",$190.00,3,90,4,5,1125,1125,4.1,1125.0,,t,13,36,66,66,2025-03-20,193,19,2,66,17,114,21660.0,2014-03-25,2025-03-03,4.69,4.82,4.77,4.87,4.88,4.84,4.65,,f,6,6,0,0,1.44
4,2308385,https://www.airbnb.com/rooms/2308385,20250319150537,2025-03-20,city scrape,Copacabana Ótima opção!,"Separate studio in living room/bedroom, bathro...","Great location, we are between post 3 and 4 of...",https://a0.muscache.com/pictures/8c850dd6-bc0d...,11788583,https://www.airbnb.com/users/show/11788583,Ivan,2014-01-30,"Rio de Janeiro, Brazil",,within a few hours,100%,78%,f,https://a0.muscache.com/im/users/11788583/prof...,https://a0.muscache.com/im/users/11788583/prof...,,1.0,1.0,"['email', 'phone']",t,t,"Rio, Rio de Janeiro, Brazil",Copacabana,,-22.9682,-43.18523,Entire rental unit,Entire home/apt,4,1.0,1 bath,1.0,2.0,"[""Dedicated workspace"", ""Clothing storage: war...",$220.00,2,28,2,4,28,28,2.0,28.0,,t,7,32,62,242,2025-03-20,28,4,1,242,5,24,5280.0,2014-06-26,2025-03-01,4.89,4.93,4.82,4.96,5.0,4.79,4.75,,f,1,1,0,0,0.21



Informações gerais do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42013 entries, 0 to 42012
Data columns (total 79 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   id                                            42013 non-null  int64  
 1   listing_url                                   42013 non-null  object 
 2   scrape_id                                     42013 non-null  int64  
 3   last_scraped                                  42013 non-null  object 
 4   source                                        42013 non-null  object 
 5   name                                          42013 non-null  object 
 6   description                                   40982 non-null  object 
 7   neighborhood_overview                         16819 non-null  object 
 8   picture_url                                   42013 non-null  object 
 9   host_id                    

### 3.1. Seleção de Features para o Modelo

A escolha das features é uma etapa fundamental para o sucesso do modelo. Selecionamos um conjunto de colunas que capturam os principais fatores que influenciam o preço de um aluguel, agrupados em quatro categorias principais:

* **Qualidade e Anfitrião:** Features como `host_is_superhost` e `review_scores_rating` servem como indicadores da qualidade do serviço e da confiabilidade do anfitrião.
* **Localização Geográfica:** As coordenadas `latitude` e `longitude` são essenciais, pois a localização é um dos fatores mais críticos na precificação de imóveis no Rio de Janeiro.
* **Características da Propriedade:** Atributos como `accommodates`, `bedrooms`, `property_type` e `room_type` descrevem o tamanho, a capacidade e a natureza do imóvel alugado.
* **Regras de Negócio e Popularidade:** Colunas como `minimum_nights` e `number_of_reviews` refletem a estratégia de negócio do anfitrião e a demanda pela propriedade.

Essa seleção multifacetada fornece ao modelo uma base de informações robusta para prever os preços com maior precisão.

In [None]:
# Seleção de colunas que podem influenciar o preço do aluguel
# A escolha se baseia em características do imóvel e do anfitrião.
features_selecionadas = [
    'host_response_rate',       # Taxa de resposta do anfitrião
    'host_is_superhost',        # Se o anfitrião é "Superhost"
    'latitude',                 # Latitude (localização)
    'longitude',                # Longitude (localização)
    'property_type',            # Tipo da propriedade
    'room_type',                # Tipo do quarto (inteiro, privado, etc.)
    'accommodates',             # Número de hóspedes que acomoda
    'bathrooms_text',           # Descrição dos banheiros
    'bedrooms',                 # Número de quartos
    'beds',                     # Número de camas
    'price',                    # Preço (nossa variável alvo)
    'minimum_nights',           # Mínimo de noites
    'number_of_reviews',        # Número de avaliações
    'review_scores_rating',     # Nota média das avaliações
    'instant_bookable'          # Se permite reserva instantânea
]

df = df_raw[features_selecionadas].copy()

print("DataFrame após a seleção de features:")
display(df.head())

DataFrame após a seleção de features:


Unnamed: 0,host_response_rate,host_is_superhost,latitude,longitude,property_type,room_type,accommodates,bathrooms_text,bedrooms,beds,price,minimum_nights,number_of_reviews,review_scores_rating,instant_bookable
0,,f,-22.95221,-43.32944,Entire home,Entire home/apt,12,5 baths,5.0,10.0,"$2,700.00",10,0,,f
1,,f,-22.98767,-43.18991,Entire rental unit,Entire home/apt,4,1 bath,2.0,3.0,$837.00,7,0,,f
2,100%,f,-22.97333,-43.18857,Entire rental unit,Entire home/apt,7,2 baths,3.0,6.0,$800.00,5,13,5.0,f
3,98%,f,-22.96477,-43.17605,Entire rental unit,Entire home/apt,3,1 bath,0.0,2.0,$190.00,3,193,4.69,f
4,100%,f,-22.9682,-43.18523,Entire rental unit,Entire home/apt,4,1 bath,1.0,2.0,$220.00,2,28,4.89,f


### 3.2. Tratamento, Limpeza e Pré-processamento dos Dados

Com base na análise exploratória, ficou claro que os dados brutos precisavam de um tratamento significativo antes de serem usados para a modelagem. Esta seção detalha o pipeline de limpeza e transformação que foi aplicado, passo a passo.

#### Etapa 1: Correção de Formato e Extração de Informação

O primeiro passo foi garantir que as colunas estivessem no formato numérico correto e que a informação útil fosse extraída de colunas textuais.

* **Tratamento da Variável Alvo (`price`):** A coluna `price` estava formatada como texto, contendo símbolos como `$` e `,`. Para usá-la em um modelo de regressão, removemos esses caracteres e a convertemos para um tipo numérico (float). Linhas em que o preço se tornou nulo após a conversão foram removidas, pois sem a variável alvo elas são inúteis para o treinamento.
* **Normalização da Taxa de Resposta (`host_response_rate`):** Esta coluna também era textual, com o símbolo `%`. Removemos o símbolo, convertemos para numérico e dividimos por 100 para que os valores representassem uma taxa entre 0 e 1, um formato padrão para modelos de machine learning.
* **Engenharia de Feature a partir de `bathrooms_text`:** A coluna de banheiros era um texto descritivo (ex: "1.5 baths", "Half-bath"). Usamos uma expressão regular para extrair apenas o valor numérico, criando uma nova coluna `bathrooms` puramente quantitativa. A coluna original (`bathrooms_text`) foi então descartada.

#### Etapa 2: Preenchimento de Valores Ausentes (Imputação)

Para evitar a perda de dados valiosos ao descartar linhas com informações faltantes, aplicamos estratégias de imputação:

* **Para Colunas Numéricas:** Nas colunas `bedrooms`, `beds`, `review_scores_rating`, `host_response_rate` e `bathrooms`, os valores ausentes foram preenchidos com a **mediana** de cada coluna. A mediana foi escolhida em vez da média por ser mais robusta a outliers (valores extremos).
* **Para Colunas Categóricas:** Na coluna `host_is_superhost`, os valores nulos foram preenchidos com a **moda** (o valor mais frequente). Essa abordagem preserva a distribuição original da categoria antes da sua conversão para formato numérico.

#### Etapa 3: Transformação Final para Formato Numérico

Finalmente, convertemos as colunas não-numéricas restantes para um formato que o modelo pudesse interpretar:

* **Conversão Booleana:** As colunas `host_is_superhost` e `instant_bookable`, que usavam os caracteres 't' (true) e 'f' (false), foram convertidas para um formato binário de **1 e 0**.
* **One-Hot Encoding:** As colunas categóricas `property_type` e `room_type` continham múltiplas categorias de texto. Aplicamos a técnica de *One-Hot Encoding*, que transforma cada categoria em uma nova coluna binária (0 ou 1). Isso permite que o modelo entenda essas categorias como features distintas, sem criar uma falsa relação de ordem entre elas.

In [None]:
# --- Tratamento da variável alvo: 'price' ---
# A coluna 'price' está como texto (object) com '$' e ','. Precisamos convertê-la para número (float).
df['price'] = pd.to_numeric(df['price'].str.replace('$', '', regex=False).str.replace(',', '', regex=False), errors='coerce')

# Remove linhas onde o preço é nulo (passo essencial)
df.dropna(subset=['price'], inplace=True)

# Converte 'host_response_rate' para numérico
df['host_response_rate'] = pd.to_numeric(df['host_response_rate'].str.replace('%', '', regex=False), errors='coerce') / 100.0

# Extrai o número de banheiros de 'bathrooms_text'
df['bathrooms'] = pd.to_numeric(df['bathrooms_text'].str.extract('(\d+\.?\d*)')[0], errors='coerce')
df.drop('bathrooms_text', axis=1, inplace=True)

# --- ETAPA 2: Preenchimento de Valores Nulos (Imputação) ---

# Colunas numéricas: preenche com a MEDIANA
cols_numericas = ['bedrooms', 'beds', 'review_scores_rating', 'host_response_rate', 'bathrooms']
for col in cols_numericas:
    median_val = df[col].median()
    df[col].fillna(median_val, inplace=True)

# CORREÇÃO: Preenchemos os valores nulos de 'host_is_superhost' ANTES de converter. Usamos a moda (o valor mais comum).
mode_superhost = df['host_is_superhost'].mode()[0]
df['host_is_superhost'].fillna(mode_superhost, inplace=True)

# --- ETAPA 3: Transformação Final ---

# AGORA que não há mais nulos, convertemos 't'/'f' para 1/0.
df['host_is_superhost'] = df['host_is_superhost'].apply(lambda x: 1 if x == 't' else 0)
df['instant_bookable'] = df['instant_bookable'].apply(lambda x: 1 if x == 't' else 0)

# One-Hot Encoding para as colunas categóricas restantes (sem 'drop_first=True' para clareza)
df = pd.get_dummies(df, columns=['property_type', 'room_type'])

# --- ETAPA 4: Verificação Final ---

print("--- Análise da Contagem de Linhas APÓS a Correção ---")
df.info()

print("\n--- DataFrame final após todas as transformações ---")
display(df.head())

  df['bathrooms'] = pd.to_numeric(df['bathrooms_text'].str.extract('(\d+\.?\d*)')[0], errors='coerce')


--- Análise da Contagem de Linhas APÓS a Correção ---
<class 'pandas.core.frame.DataFrame'>
Index: 38356 entries, 0 to 42012
Data columns (total 95 columns):
 #   Column                                            Non-Null Count  Dtype  
---  ------                                            --------------  -----  
 0   host_response_rate                                38356 non-null  float64
 1   host_is_superhost                                 38356 non-null  int64  
 2   latitude                                          38356 non-null  float64
 3   longitude                                         38356 non-null  float64
 4   accommodates                                      38356 non-null  int64  
 5   bedrooms                                          38356 non-null  float64
 6   beds                                              38356 non-null  float64
 7   price                                             38356 non-null  float64
 8   minimum_nights                                 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(median_val, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['host_is_superhost'].fillna(mode_superhost, inplace=True)


Unnamed: 0,host_response_rate,host_is_superhost,latitude,longitude,accommodates,bedrooms,beds,price,minimum_nights,number_of_reviews,review_scores_rating,instant_bookable,bathrooms,property_type_Boat,property_type_Camper/RV,property_type_Campsite,property_type_Casa particular,property_type_Castle,property_type_Cave,property_type_Dome,property_type_Earthen home,property_type_Entire bungalow,property_type_Entire cabin,property_type_Entire chalet,property_type_Entire condo,property_type_Entire cottage,property_type_Entire guest suite,property_type_Entire guesthouse,property_type_Entire home,property_type_Entire loft,property_type_Entire place,property_type_Entire rental unit,property_type_Entire serviced apartment,property_type_Entire townhouse,property_type_Entire vacation home,property_type_Entire villa,property_type_Farm stay,property_type_Houseboat,property_type_Hut,property_type_Island,property_type_Private room,property_type_Private room in bed and breakfast,property_type_Private room in boat,property_type_Private room in bungalow,property_type_Private room in casa particular,property_type_Private room in castle,property_type_Private room in chalet,property_type_Private room in condo,property_type_Private room in cottage,property_type_Private room in earthen home,property_type_Private room in farm stay,property_type_Private room in guest suite,property_type_Private room in guesthouse,property_type_Private room in home,property_type_Private room in hostel,property_type_Private room in loft,property_type_Private room in nature lodge,property_type_Private room in rental unit,property_type_Private room in resort,property_type_Private room in serviced apartment,property_type_Private room in shipping container,property_type_Private room in tent,property_type_Private room in tiny home,property_type_Private room in tower,property_type_Private room in townhouse,property_type_Private room in treehouse,property_type_Private room in vacation home,property_type_Private room in villa,property_type_Ranch,property_type_Room in aparthotel,property_type_Room in bed and breakfast,property_type_Room in boutique hotel,property_type_Room in hostel,property_type_Room in hotel,property_type_Room in serviced apartment,property_type_Shared room in aparthotel,property_type_Shared room in bed and breakfast,property_type_Shared room in condo,property_type_Shared room in cottage,property_type_Shared room in earthen home,property_type_Shared room in guest suite,property_type_Shared room in guesthouse,property_type_Shared room in home,property_type_Shared room in hostel,property_type_Shared room in hotel,property_type_Shared room in rental unit,property_type_Shared room in serviced apartment,property_type_Shared room in townhouse,property_type_Shipping container,property_type_Tiny home,property_type_Treehouse,room_type_Entire home/apt,room_type_Hotel room,room_type_Private room,room_type_Shared room
0,1.0,0,-22.95221,-43.32944,12,5.0,10.0,2700.0,10,0,4.92,0,5.0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,1.0,0,-22.98767,-43.18991,4,2.0,3.0,837.0,7,0,4.92,0,1.0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
2,1.0,0,-22.97333,-43.18857,7,3.0,6.0,800.0,5,13,5.0,0,2.0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,0.98,0,-22.96477,-43.17605,3,0.0,2.0,190.0,3,193,4.69,0,1.0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
4,1.0,0,-22.9682,-43.18523,4,1.0,2.0,220.0,2,28,4.89,0,1.0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [None]:
from math import radians, sin, cos, sqrt, atan2

# Função para calcular a distância entre duas coordenadas (Fórmula de Haversine)
def haversine_distance(lat1, lon1, lat2, lon2):
    R = 6371  # Raio da Terra em km
    dLat = radians(lat2 - lat1)
    dLon = radians(lon2 - lon1)
    a = sin(dLat / 2)**2 + cos(radians(lat1)) * cos(radians(lat2)) * sin(dLon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    return R * c

# Coordenadas do Posto 4 de Copacabana (ponto central)
PONTO_CENTRAL_LAT, PONTO_CENTRAL_LON = -22.9714, -43.1825

# df é o seu dataframe após a limpeza inicial
df['distancia_centro_turistico'] = df.apply(
    lambda row: haversine_distance(PONTO_CENTRAL_LAT, PONTO_CENTRAL_LON, row['latitude'], row['longitude']),
    axis=1
)

# Agora, podemos remover as colunas originais, pois a distância é mais informativa
df.drop(['latitude', 'longitude'], axis=1, inplace=True)

print("Nova feature 'distancia_centro_turistico' criada.")
display(df[['distancia_centro_turistico']].head())

Nova feature 'distancia_centro_turistico' criada.


Unnamed: 0,distancia_centro_turistico
0,15.194938
1,1.961739
2,0.657438
3,0.989726
4,0.452468


### 3.2. Tratamento de Outliers com o Método IQR

Outliers são pontos de dados que se desviam significativamente do resto do conjunto. Em nosso contexto, um anúncio com um preço de R$50.000 por noite ou uma exigência de 500 noites mínimas são exemplos de outliers. Esses valores extremos podem distorcer o treinamento do modelo, fazendo com que ele aprenda padrões que não se aplicam à maioria dos dados, o que prejudica sua capacidade de generalização.

Para mitigar esse problema, utilizamos um método estatístico robusto chamado **Intervalo Interquartil (IQR)**.

**Como funciona o método IQR?**

1.  **Cálculo dos Quartis:** Primeiro, calculamos o primeiro quartil (Q1), que é o valor que separa os 25% menores dados, e o terceiro quartil (Q3), que separa os 75% menores dados.
2.  **Cálculo do IQR:** O IQR é a diferença entre Q3 e Q1. Ele representa a faixa onde se encontram os 50% "centrais" dos dados.
3.  **Definição dos Limites:** Criamos um "limite" superior e inferior usando a fórmula:
    * `Limite Inferior = Q1 - 1.5 * IQR`
    * `Limite Superior = Q3 + 1.5 * IQR`
4.  **Filtragem:** Qualquer ponto de dado que esteja fora desses limites é considerado um outlier e é removido do nosso dataset.

Aplicamos este método iterativamente para um conjunto de colunas numéricas críticas, como `price`, `accommodates`, `minimum_nights`, e as coordenadas geográficas, garantindo que nosso conjunto de dados de treinamento se tornasse mais denso e representativo da maioria dos anúncios do Airbnb.

**Resultado:**

Ao aplicar este filtro, conseguimos remover **14.131** linhas que continham valores extremos, resultando em um dataset mais limpo e robusto para a etapa de modelagem.

In [None]:
# DataFrame 'df' deve ser aquele após a limpeza e transformação, mas ANTES da remoção de outliers.
# Certifique-se de ter executado o código de limpeza da resposta anterior.

# --- 1. Definir as colunas para verificar outliers ---
# Escolhemos colunas numéricas onde valores extremos não fazem sentido prático.
colunas_para_robustecer = [
    'distancia_centro_turistico',
    #'latitude',                 # Latitude (localização)
    #'longitude',                # Longitude (localização)
    'accommodates',             # Número de hóspedes que acomoda
    'bedrooms',                 # Número de quartos
    'beds',                     # Número de camas
    'price',                    # Preço (nossa variável alvo)
    'minimum_nights',           # Mínimo de noites
    'number_of_reviews',        # Número de avaliações
    'review_scores_rating',     # Nota média das avaliações

]

df_antes = df.copy()
print(f"Número de linhas antes da remoção robusta: {len(df_antes)}")

# --- 2. Aplicar o filtro IQR para cada coluna ---
df_depois = df_antes.copy()

for col in colunas_para_robustecer:
    Q1 = df_depois[col].quantile(0.25)
    Q3 = df_depois[col].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Filtra o DataFrame, mantendo apenas as linhas dentro dos limites para a coluna atual
    df_depois = df_depois[(df_depois[col] >= limite_inferior) & (df_depois[col] <= limite_superior)]

print(f"Número de linhas após a remoção robusta: {len(df_depois)}")
print(f"Total de linhas removidas: {len(df_antes) - len(df_depois)}")

# Agora você pode seguir com a separação de X e y a partir de 'df_depois'
X_clean_robusto = df_depois.drop('price', axis=1)
y_clean_robusto = df_depois['price']

Número de linhas antes da remoção robusta: 38356
Número de linhas após a remoção robusta: 25900
Total de linhas removidas: 12456


### 3.4. Normalização

#### Normalização dos Dados com MinMaxScaler

Modelos de Machine Learning, especialmente redes neurais e algoritmos baseados em distância, são sensíveis à escala das features. Uma feature com uma faixa de valores muito grande (como o `price`) pode acabar "dominando" outras features com faixas menores (como `review_scores_rating`), fazendo com que o modelo dê uma importância indevida a ela. A normalização coloca todas as features em uma mesma escala, garantindo que todas contribuam de forma equilibrada para o resultado.

Utilizamos o `MinMaxScaler`. Este método transforma cada feature de forma que todos os seus valores fiquem contidos no intervalo entre 0 e 1. A fórmula básica é:

*x_scaled = (x - min(x)) / (max(x) - min(x))*

Isso preserva a forma da distribuição original dos dados, mas ajusta sua escala, sendo uma excelente escolha para a maioria dos algoritmos que usaremos.

#### Divisão em Conjuntos de Treino e Teste

O objetivo final de um modelo de Machine Learning é fazer previsões precisas sobre dados novos. Para simular essa situação e avaliar a real capacidade de generalização do nosso modelo, dividimos nosso dataset em dois conjuntos:

1.  **Conjunto de Treino (80% dos dados):** É a porção dos dados que o modelo usará para aprender os padrões e ajustar seus parâmetros.
2.  **Conjunto de Teste (20% dos dados):** É mantido "escondido" durante o treinamento. Após o modelo ser treinado, usamos este conjunto para fazer previsões e comparar com os valores reais, obtendo uma métrica de desempenho imparcial.

A função `train_test_split` do Scikit-learn automatiza essa separação de forma aleatória. O parâmetro `random_state=42` é usado para garantir que a divisão seja sempre a mesma cada vez que o código for executado, o que torna nossos resultados reprodutíveis.

In [None]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Normalização Min-Max
# Ajusta todas as features para o intervalo [0, 1]
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X_clean_robusto)

# Divisão dos dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_clean_robusto.values, test_size=0.2, random_state=42)

print(f"Dimensões do conjunto de treino (X): {X_train.shape}")
print(f"Dimensões do conjunto de teste (X): {X_test.shape}")

Dimensões do conjunto de treino (X): (20720, 93)
Dimensões do conjunto de teste (X): (5180, 93)


## 4. Modelagem com PyTorch

Após a análise e o pré-processamento, desenvolvemos o modelo principal de regressão com PyTorch, uma biblioteca de Deep Learning que permite a criação de redes neurais flexíveis para aprender padrões complexos nos dados.

### 4.1. Preparação dos Dados
Para que o PyTorch possa processar os dados, primeiro convertemos os conjuntos de treino e teste do formato NumPy para **Tensores** do PyTorch. Em seguida, utilizamos `DataLoaders` para organizar os dados em lotes (*batches*), o que otimiza o treinamento e melhora a capacidade de generalização do modelo.

### 4.2. Definição da Arquitetura da Rede Neural
O "cérebro" do modelo foi definido na classe `Architecture`. Trata-se de uma rede neural simples composta por:
* **Camadas Lineares (`nn.Linear`):** Camadas de neurônios que realizam transformações nos dados.
* **Funções de Ativação (`nn.ReLU`):** Introduzem não-linearidade, permitindo que o modelo aprenda relações complexas.
* **Camada de Saída:** Uma camada final que produz um único valor: a previsão do preço.

### 4.3. Treinamento do Modelo
O treinamento é o processo de ensinar o modelo a minimizar seus erros de previsão.
* **Função de Perda (`MSELoss`):** Usamos o Erro Quadrático Médio para medir a diferença entre os preços previstos e os reais.
* **Otimizador (`Adam`):** Este algoritmo ajusta os pesos internos do modelo para reduzir a perda calculada.
* **Loop de Treinamento:** O modelo processa o conjunto de dados de treino por 50 ciclos (*épocas*), ajustando-se a cada passo para se tornar progressivamente mais preciso.

### 4.4. Avaliação do Desempenho
Após o treinamento, avaliamos a performance do modelo no conjunto de teste (dados nunca vistos antes) usando duas métricas principais:
* **RMSE (Root Mean Squared Error):** Indica o erro médio das previsões na mesma unidade da variável alvo (Reais), tornando o resultado facilmente interpretável.
* **R² Score:** Mostra a proporção da variação dos preços que o modelo consegue explicar. Um valor próximo de 1 indica um modelo de alta qualidade.

In [None]:
import random
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# --- Fixando semente para reprodutibilidade ---
SEED = 123
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    torch.cuda.manual_seed_all(SEED)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

# --- Normalização dos dados ---
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Convertendo para tensores
X_train_tensor = torch.tensor(X_train_scaled.astype(np.float32))
y_train_tensor = torch.tensor(y_train.astype(np.float32)).view(-1, 1)
X_test_tensor = torch.tensor(X_test_scaled.astype(np.float32))
y_test_tensor = torch.tensor(y_test.astype(np.float32)).view(-1, 1)

# DataLoader
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)

# --- Arquitetura da rede melhorada ---
class Architecture(nn.Module):
    def __init__(self, input_size):
        super(Architecture, self).__init__()
        self.fc1 = nn.Linear(input_size, 256)
        self.bn1 = nn.BatchNorm1d(256)
        self.drop1 = nn.Dropout(0.3)

        self.fc2 = nn.Linear(256, 128)
        self.bn2 = nn.BatchNorm1d(128)
        self.drop2 = nn.Dropout(0.3)

        self.fc3 = nn.Linear(128, 64)
        self.bn3 = nn.BatchNorm1d(64)
        self.drop3 = nn.Dropout(0.3)

        self.out = nn.Linear(64, 1)

    def forward(self, x):
        x = torch.relu(self.bn1(self.fc1(x)))
        x = self.drop1(x)
        x = torch.relu(self.bn2(self.fc2(x)))
        x = self.drop2(x)
        x = torch.relu(self.bn3(self.fc3(x)))
        x = self.drop3(x)
        x = self.out(x)
        return x

# --- Instanciar modelo ---
input_dim = X_train.shape[1]
model_pytorch = Architecture(input_size=input_dim)

criterion = nn.MSELoss()
#optimizer = torch.optim.Adam(model_pytorch.parameters(), lr=0.001)
optimizer = torch.optim.AdamW(model_pytorch.parameters(), lr=0.001, weight_decay=1e-4)


# --- Treinamento com Early Stopping ---
print("\nIniciando o treinamento do modelo PyTorch...")
num_epochs = 200
patience = 20
best_loss = float("inf")
trigger_times = 0
best_model_state = None # Initialize best_model_state

for epoch in range(num_epochs):
    model_pytorch.train()
    for features, labels in train_loader:
        outputs = model_pytorch(features)
        loss = criterion(outputs, labels)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    # Validação
    model_pytorch.eval()
    with torch.no_grad():
        val_outputs = model_pytorch(X_test_tensor)
        val_loss = criterion(val_outputs, y_test_tensor).item()
        best_model_state = model_pytorch.state_dict() # Save the best model state

    if (epoch + 1) % 10 == 0:
        print(f"Época [{epoch+1}/{num_epochs}], Val_Loss: {val_loss:.4f}")


model_pytorch.load_state_dict(best_model_state)

# --- Avaliação ---
model_pytorch.eval()
with torch.no_grad():
    y_pred_tensor = model_pytorch(X_test_tensor)
    y_pred = y_pred_tensor.numpy()

rmse_pytorch = np.sqrt(mean_squared_error(y_test, y_pred))
r2_pytorch = r2_score(y_test, y_pred)

print("\n--- Resultados do Modelo PyTorch ---")
print(f"RMSE: {rmse_pytorch:.2f}")
print(f"R² Score: {r2_pytorch:.4f}")


Iniciando o treinamento do modelo PyTorch...
Época [10/200], Val_Loss: 32847.5938
Época [20/200], Val_Loss: 32349.1250
Época [30/200], Val_Loss: 32108.6367
Época [40/200], Val_Loss: 31963.4902
Época [50/200], Val_Loss: 31440.6953
Época [60/200], Val_Loss: 31000.4668
Época [70/200], Val_Loss: 30897.7793
Época [80/200], Val_Loss: 30811.3887
Época [90/200], Val_Loss: 30645.1270
Época [100/200], Val_Loss: 30591.2520
Época [110/200], Val_Loss: 30568.3516
Época [120/200], Val_Loss: 30488.4141
Época [130/200], Val_Loss: 30420.4395
Época [140/200], Val_Loss: 30443.2031
Época [150/200], Val_Loss: 30305.2148
Época [160/200], Val_Loss: 30513.5781
Época [170/200], Val_Loss: 30558.3633
Época [180/200], Val_Loss: 30490.3379
Época [190/200], Val_Loss: 30531.0820
Época [200/200], Val_Loss: 30495.3262

--- Resultados do Modelo PyTorch ---
RMSE: 174.63
R² Score: 0.3491


## 5. Comparação e Baseline com LazyPredict

Para avaliar a eficácia do nosso modelo PyTorch, criamos um **ponto de referência (baseline)** usando a biblioteca `LazyPredict`.

O `LazyPredict` automatiza o treinamento e a avaliação de dezenas de modelos de Machine Learning tradicionais. Com um único comando, ele treina os modelos no mesmo conjunto de dados limpo e apresenta uma tabela classificatória, ranqueando os algoritmos por métricas de desempenho como R² e RMSE. O resultado nos mostra rapidamente quais modelos convencionais funcionam melhor para este problema, estabelecendo um benchmark para a nossa solução customizada.

In [None]:
from lazypredict.Supervised import LazyRegressor

# O LazyRegressor não requer dados normalizados, mas vamos usá-los para uma comparação justa.
X_train_lp, X_test_lp, y_train_lp, y_test_lp = train_test_split(X_clean_robusto, y_clean_robusto, test_size=0.2, random_state=42)


# Inicializa e treina os modelos
reg = LazyRegressor(verbose=0, ignore_warnings=True, custom_metric=None)
models, predictions = reg.fit(X_train_lp, X_test_lp, y_train_lp, y_test_lp)

print("\n--- Resultados do LazyPredict (Top 5 Modelos) ---")
display(models.head(5))

  0%|          | 0/42 [00:00<?, ?it/s]

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001006 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 484
[LightGBM] [Info] Number of data points in the train set: 20720, number of used features: 11
[LightGBM] [Info] Start training from score 375.966458

--- Resultados do LazyPredict (Top 5 Modelos) ---


Unnamed: 0_level_0,Adjusted R-Squared,R-Squared,RMSE,Time Taken
Model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
HistGradientBoostingRegressor,0.34,0.35,174.05,0.44
LGBMRegressor,0.34,0.35,174.1,0.32
GradientBoostingRegressor,0.33,0.34,175.51,3.01
XGBRegressor,0.33,0.34,175.58,0.49
RandomForestRegressor,0.3,0.31,179.83,12.7


In [None]:
import random
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# --- Fixando semente para reprodutibilidade ---
SEED = 123
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    torch.cuda.manual_seed_all(SEED)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

# --- Normalização dos dados ---
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Convertendo para tensores
X_train_tensor = torch.tensor(X_train_scaled.astype(np.float32))
y_train_tensor = torch.tensor(y_train.astype(np.float32)).view(-1, 1)
X_test_tensor = torch.tensor(X_test_scaled.astype(np.float32))
y_test_tensor = torch.tensor(y_test.astype(np.float32)).view(-1, 1)

# DataLoader
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)

# --- Arquitetura da rede melhorada ---
class Architecture(nn.Module):
    def __init__(self, input_size):
        super(Architecture, self).__init__()
        self.fc1 = nn.Linear(input_size, 256)
        self.bn1 = nn.BatchNorm1d(256)
        self.drop1 = nn.Dropout(0.3)

        self.fc2 = nn.Linear(256, 128)
        self.bn2 = nn.BatchNorm1d(128)
        self.drop2 = nn.Dropout(0.3)

        self.fc3 = nn.Linear(128, 64)
        self.bn3 = nn.BatchNorm1d(64)
        self.drop3 = nn.Dropout(0.3)

        self.out = nn.Linear(64, 1)

    def forward(self, x):
        x = torch.relu(self.bn1(self.fc1(x)))
        x = self.drop1(x)
        x = torch.relu(self.bn2(self.fc2(x)))
        x = self.drop2(x)
        x = torch.relu(self.bn3(self.fc3(x)))
        x = self.drop3(x)
        x = self.out(x)
        return x

# --- Instanciar modelo ---
input_dim = X_train.shape[1]
model_pytorch = Architecture(input_size=input_dim)

criterion = nn.MSELoss()
#optimizer = torch.optim.Adam(model_pytorch.parameters(), lr=0.001)
#optimizer = torch.optim.AdamW(model_pytorch.parameters(), lr=0.001, weight_decay=1e-4)
optimizer = torch.optim.RMSprop(model_pytorch.parameters(), lr=0.001, alpha=0.9)


# --- Treinamento com Early Stopping ---
print("\nIniciando o treinamento do modelo PyTorch...")
num_epochs = 200
patience = 20
best_loss = float("inf")
trigger_times = 0
best_model_state = None # Initialize best_model_state

for epoch in range(num_epochs):
    model_pytorch.train()
    for features, labels in train_loader:
        outputs = model_pytorch(features)
        loss = criterion(outputs, labels)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    # Validação
    model_pytorch.eval()
    with torch.no_grad():
        val_outputs = model_pytorch(X_test_tensor)
        val_loss = criterion(val_outputs, y_test_tensor).item()
        best_model_state = model_pytorch.state_dict() # Save the best model state

    if (epoch + 1) % 10 == 0:
        print(f"Época [{epoch+1}/{num_epochs}], Val_Loss: {val_loss:.4f}")


model_pytorch.load_state_dict(best_model_state)

# --- Avaliação ---
model_pytorch.eval()
with torch.no_grad():
    y_pred_tensor = model_pytorch(X_test_tensor)
    y_pred = y_pred_tensor.numpy()

rmse_pytorch = np.sqrt(mean_squared_error(y_test, y_pred))
r2_pytorch = r2_score(y_test, y_pred)

print("\n--- Resultados do Modelo PyTorch ---")
print(f"RMSE: {rmse_pytorch:.2f}")
print(f"R² Score: {r2_pytorch:.4f}")


Iniciando o treinamento do modelo PyTorch...
Época [10/200], Val_Loss: 32870.5742
Época [20/200], Val_Loss: 32556.8984
Época [30/200], Val_Loss: 32269.1426
Época [40/200], Val_Loss: 32030.5801
Época [50/200], Val_Loss: 31152.1738
Época [60/200], Val_Loss: 30911.6758
Época [70/200], Val_Loss: 30725.5293
Época [80/200], Val_Loss: 30766.0547
Época [90/200], Val_Loss: 30781.4727
Época [100/200], Val_Loss: 30744.2012
Época [110/200], Val_Loss: 30615.3535
Época [120/200], Val_Loss: 30643.5234
Época [130/200], Val_Loss: 30709.5684
Época [140/200], Val_Loss: 30460.0332
Época [150/200], Val_Loss: 30486.4160
Época [160/200], Val_Loss: 30530.0195
Época [170/200], Val_Loss: 30518.3418
Época [180/200], Val_Loss: 30590.2051
Época [190/200], Val_Loss: 30725.2285
Época [200/200], Val_Loss: 30687.9785

--- Resultados do Modelo PyTorch ---
RMSE: 175.18
R² Score: 0.3450


In [None]:
import random
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# --- Fixando semente para reprodutibilidade ---
SEED = 123
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
if torch.cuda.is_available():
    torch.cuda.manual_seed(SEED)
    torch.cuda.manual_seed_all(SEED)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

# --- Normalização dos dados ---
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Convertendo para tensores
X_train_tensor = torch.tensor(X_train_scaled.astype(np.float32))
y_train_tensor = torch.tensor(y_train.astype(np.float32)).view(-1, 1)
X_test_tensor = torch.tensor(X_test_scaled.astype(np.float32))
y_test_tensor = torch.tensor(y_test.astype(np.float32)).view(-1, 1)

# DataLoader
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)

# --- Arquitetura da rede melhorada ---
class Architecture(nn.Module):
    def __init__(self, input_size):
        super(Architecture, self).__init__()
        self.fc1 = nn.Linear(input_size, 256)
        self.bn1 = nn.BatchNorm1d(256)
        self.drop1 = nn.Dropout(0.3)

        self.fc2 = nn.Linear(256, 128)
        self.bn2 = nn.BatchNorm1d(128)
        self.drop2 = nn.Dropout(0.3)

        self.fc3 = nn.Linear(128, 64)
        self.bn3 = nn.BatchNorm1d(64)
        self.drop3 = nn.Dropout(0.3)

        self.out = nn.Linear(64, 1)

    def forward(self, x):
        x = torch.relu(self.bn1(self.fc1(x)))
        x = self.drop1(x)
        x = torch.relu(self.bn2(self.fc2(x)))
        x = self.drop2(x)
        x = torch.relu(self.bn3(self.fc3(x)))
        x = self.drop3(x)
        x = self.out(x)
        return x

# --- Instanciar modelo ---
input_dim = X_train.shape[1]
model_pytorch = Architecture(input_size=input_dim)

criterion = nn.MSELoss()
#optimizer = torch.optim.Adam(model_pytorch.parameters(), lr=0.001)
#optimizer = torch.optim.AdamW(model_pytorch.parameters(), lr=0.001, weight_decay=1e-4)
#optimizer = torch.optim.RMSprop(model_pytorch.parameters(), lr=0.001, alpha=0.9)
optimizer = torch.optim.NAdam(model_pytorch.parameters(), lr=0.001, weight_decay=1e-4)

# --- Treinamento com Early Stopping ---
print("\nIniciando o treinamento do modelo PyTorch...")
num_epochs = 200
patience = 20
best_loss = float("inf")
trigger_times = 0
best_model_state = None # Initialize best_model_state

for epoch in range(num_epochs):
    model_pytorch.train()
    for features, labels in train_loader:
        outputs = model_pytorch(features)
        loss = criterion(outputs, labels)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    # Validação
    model_pytorch.eval()
    with torch.no_grad():
        val_outputs = model_pytorch(X_test_tensor)
        val_loss = criterion(val_outputs, y_test_tensor).item()
        best_model_state = model_pytorch.state_dict() # Save the best model state

    if (epoch + 1) % 10 == 0:
        print(f"Época [{epoch+1}/{num_epochs}], Val_Loss: {val_loss:.4f}")


model_pytorch.load_state_dict(best_model_state)

# --- Avaliação ---
model_pytorch.eval()
with torch.no_grad():
    y_pred_tensor = model_pytorch(X_test_tensor)
    y_pred = y_pred_tensor.numpy()

rmse_pytorch = np.sqrt(mean_squared_error(y_test, y_pred))
r2_pytorch = r2_score(y_test, y_pred)

print("\n--- Resultados do Modelo PyTorch ---")
print(f"RMSE: {rmse_pytorch:.2f}")
print(f"R² Score: {r2_pytorch:.4f}")


Iniciando o treinamento do modelo PyTorch...
Época [10/200], Val_Loss: 32557.2695
Época [20/200], Val_Loss: 32323.5703
Época [30/200], Val_Loss: 32100.2812
Época [40/200], Val_Loss: 31845.3184
Época [50/200], Val_Loss: 31372.9668
Época [60/200], Val_Loss: 30943.5684
Época [70/200], Val_Loss: 30961.1699
Época [80/200], Val_Loss: 30910.0254
Época [90/200], Val_Loss: 31069.6465
Época [100/200], Val_Loss: 30917.0039
Época [110/200], Val_Loss: 30849.1895
Época [120/200], Val_Loss: 30663.8242
Época [130/200], Val_Loss: 30686.0391
Época [140/200], Val_Loss: 30786.6758
Época [150/200], Val_Loss: 30512.3281
Época [160/200], Val_Loss: 30708.4043
Época [170/200], Val_Loss: 30515.2246
Época [180/200], Val_Loss: 30758.5293
Época [190/200], Val_Loss: 30785.9492
Época [200/200], Val_Loss: 30505.6797

--- Resultados do Modelo PyTorch ---
RMSE: 174.66
R² Score: 0.3489
