## Passo a Passo

**Criar a Estrutura de Pastas**

**Abra um terminal ou prompt de comando e crie a estrutura do projeto:**

1. mkdir projeto_alugueis
2. cd projeto_alugueis
3. mkdir data models


## Crie um arquivo requirements.txt e adicione as bibliotecas necessárias:

pandas
numpy
matplotlib
seaborn
scikit-learn
xgboost
jupyter

## No terminal, dentro da pasta projeto_alugueis, rode:

pip install -r requirements.txt

# Previsão de Preços de Aluguéis Temporários em Nova York

## Objetivo
Este notebook tem como objetivo desenvolver um modelo preditivo para estimar preços de aluguéis temporários em Nova York com base em dados históricos. O processo inclui:

1. Análise exploratória de dados (EDA) para entender as variáveis e seus impactos.
2. Pré-processamento para limpar e transformar os dados.
3. Modelagem preditiva, com testes e avaliação de diferentes algoritmos.
4. Geração de previsões e salvamento do modelo final.

## Qual é o tipo de problema?  

Esse desafio é um **problema de regressão**, pois quero prever um valor contínuo (**preço do aluguel**).  

Se eu estivesse classificando os preços em categorias como "Alto", "Médio" e "Baixo", seria um problema de **classificação**.  

## Pré-processamento dos Dados

**O que foi feito?**

1. Tratamento de valores ausentes: Preenchidos com a mediana (evita viés extremo).
2. Transformação de variáveis categóricas: Usei One-Hot Encoding para converter texto em números.
3. Escalonamento de variáveis numéricas: Usei StandardScaler para normalizar os valores.
4. Remoção de outliers: Excluí imóveis com preços muito altos ou muito baixos.

**O pré-processamento garante que os dados estejam prontos para alimentar o modelo.**

1.  O One-Hot Encoding permite que o modelo interprete categorias como "bairro_group".
2.  A normalização dos dados melhora a performance de algoritmos sensíveis a escalas.
3.  Remover outliers melhora a precisão da previsão e evita distorções no modelo.

## Como fiz a previsão do preço?  

Para prever o preço dos aluguéis temporários, segui um processo de modelagem preditiva com as seguintes etapas:  

**Carregamento dos Dados**  

- Utilizei um dataset, fornecido, que contém informações como localização, tipo de acomodação e disponibilidade ao longo do ano.  

**Análise Exploratória (EDA)**  

- Explorei as distribuições de preços, a relação com os tipos de imóveis e as correlações entre variáveis.  
- Também identifiquei possíveis outliers e padrões nos dados.  

**Pré-processamento**  

- Tratei valores ausentes preenchendo com a mediana.  
- Transformei **variáveis categóricas** em números usando **One-Hot Encoding**.  
- Padronizei **variáveis numéricas** com **StandardScaler** para evitar distorções.  

**Treinamento do Modelo**  

- Testei três modelos de Machine Learning: **Regressão Linear, Random Forest e XGBoost**.  
- O **XGBoost apresentou o melhor desempenho**, pois conseguiu capturar melhor as variações no preço dos aluguéis.  

## Avaliação do Modelo 

**O que foi feito?**

Usei três métricas para medir a qualidade das previsões:
1. Erro Absoluto Médio (MAE) → Mede o erro médio em dólares.
2. aiz do Erro Quadrático Médio (RMSE) → Penaliza erros grandes.
3. Coeficiente de Determinação (R²) → Mede o quão bem o modelo explica os preços reais.

Comparei os valores dessas métricas entre os modelos para identificar o melhor.

**Usar múltiplas métricas permite uma avaliação mais confiável do modelo.**

1. MAE baixo → Indica que o modelo tem bons acertos.
2. RMSE baixo → Mostra que grandes erros são minimizados.
3. R² próximo de 1 → Significa que o modelo explica bem a variação dos preços.

## O XGBoost teve o menor erro e melhor precisão.

## Previsão para um Novo Imóvel

**O que foi feito?**

1. Peguei um exemplo de imóvel em Manhattan e processei seus dados.
2. Usei o modelo treinado para prever o preço desse imóvel.
3. O modelo retornou um preço estimado com base nas características fornecidas.

**O objetivo final éfoi usar o modelo para prever preços com base em novas informações.**

1. O modelo permite prever preços futuros para investidores e usuários da plataforma.
2.  A previsão pode ser usada para ajustar preços automaticamente na plataforma de aluguel.

## Quais variáveis utilizei?  

Escolhi variáveis que impactam diretamente o preço do aluguel:  

**Variáveis Numéricas (Escalonadas com StandardScaler)**  

- Latitude e Longitude (localização do imóvel)  
- Número mínimo de noites  
- Número de avaliações  
- Disponibilidade ao longo do ano  

 **Variáveis Categóricas (Convertidas via One-Hot Encoding)**  

- Grupo de bairros (`bairro_group`)  
- Tipo de acomodação (`room_type`)  

**Variáveis Criadas**  

- `possui_palavras_chave`: Verifiquei se o nome do anúncio contém palavras como *"luxury"*, *"modern"*, *"cozy"*, pois podem indicar preços mais altos.  

## Qual modelo funcionou melhor?  

Para resolver o problema testei três modelos e comparei os resultados:  

### **Regressão Linear**  
Simples e fácil de interpretar  
Não captura bem relações complexas  

### **Random Forest**  
Melhor para dados não-lineares e robusto a outliers  
Pode ser mais lento para grandes volumes de dados  

### **XGBoost (Modelo Escolhido)**  
Melhor desempenho e mais preciso  
Lida bem com diferentes tipos de dados e variações nos preços  
Requer ajuste fino dos hiperparâmetros para melhores resultados  

**No final, o XGBoost foi o modelo escolhido por oferecer previsões mais precisas.**  


## Como avaliei o desempenho do modelo?  
Escolhi métricas que me ajudaram a entender os erros das previsões:  

**Erro Absoluto Médio (MAE)** → Mede o erro médio das previsões  
**Raiz do Erro Quadrático Médio (RMSE)** → Penaliza erros maiores  
**Coeficiente de Determinação (R²)** → Mede o quão bem o modelo explica os preços reais  

Quanto **menor o MAE e o RMSE**, melhor a precisão do modelo.  
Quanto **mais próximo de 1 for o R²**, melhor o modelo explica a variação dos preços.  

## Conclusão  

Seguindo esse fluxo estruturado, consegui:

* Entender os dados e identificar padrões.
* Pré-processar os dados corretamente para evitar erros.
* Treinar e comparar diferentes modelos de Machine Learning.
* Criar um modelo pronto para uso e salvei em `.pkl` para previsões futuras. 
* Escolher o melhor modelo (XGBoost) com base no desempenho.
* O **XGBoost foi o melhor modelo** para prever preços de aluguéis temporários.  
* Descobri que **localização, tipo de imóvel e disponibilidade** impactam diretamente o preço.  

 ## Respostas às Perguntas do Desafio

## Onde seria mais indicada a compra de um apartamento para alugar?

**Para responder essa pergunta, analisei:**

1. O preço médio dos aluguéis em diferentes bairros.
2. A demanda pelos imóveis (número de avaliações e disponibilidade).
3. A valorização do mercado com base em regiões mais procuradas.
4. Melhor Localização para Investir

**Os dados mostraram que bairros em Manhattan são os mais indicados para compra, pois:**

1. Possuem preços médios de aluguel mais altos.
2. São mais procurados pelos turistas, garantindo alta ocupação.
3. Têm maior número de avaliações por mês, indicando boa aceitação.
4. Melhor estratégia para investimento

Comprar um apartamento em Manhattan, especialmente em bairros como Midtown e Upper East Side, pode gerar maior retorno financeiro devido à alta demanda e valorização do mercado.

## O número mínimo de noites e a disponibilidade ao longo do ano interferem no preço?

**Para entender essa relação, comparei os preços dos aluguéis com:**

1. O número mínimo de noites exigidas.
2. A quantidade de dias que o imóvel está disponível no ano.

## Resultados

**Imóveis com menor número mínimo de noites tendem a ter preços mais altos.**

    Apartamentos que aceitam reservas curtas (1 a 3 noites) geralmente cobram diárias mais caras, pois atendem turistas que preferem flexibilidade.

**A disponibilidade ao longo do ano influencia o faturamento total, mas não o preço por noite.**

    Imóveis com baixa disponibilidade (menos de 100 dias/ano) não necessariamente cobram preços maiores.
    Alta disponibilidade (300+ dias/ano) aumenta a chance de aluguel frequente, mas não impacta diretamente no preço por noite.

## Sendo assim, é possivel concluir que:

1. Se o objetivo é maximizar o valor da diária, o ideal é permitir reservas de curto prazo.
2. Se o foco for ocupação constante, disponibilizar o imóvel o ano inteiro pode ser mais vantajoso.

## Existe algum padrão no texto do nome do local para lugares de mais alto valor?

**Para responder a questão analisei os sequintes aspectos:**

1. Extraí palavras-chave dos títulos dos anúncios.
2. Comparei os preços médios dos anúncios que continham certas palavras.
3. Padrões encontrados

**Os imóveis mais caros geralmente incluem palavras como:**

🔹 "Luxury"
🔹 "Exclusive"
🔹 "Modern"
🔹 "Cozy"
🔹 "Penthouse"

**Para citar um exemplo:**

Um anúncio chamado "Luxury Penthouse in Manhattan" tem um preço médio muito maior do que um chamado "Simple Room for Rent".

1. Em suma, pude concluir que anuncios que destacam termos como "luxury" e "exclusive" no título conseguem cobrar valores mais altos.
2. Usar um título estratégico pode aumentar o valor percebido do imóvel.

In [10]:
# Importação de Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.impute import SimpleImputer
from xgboost import XGBRegressor
import pickle

# Configurações Gerais
sns.set(style="whitegrid", palette="muted", font_scale=1.2)
plt.rcParams["figure.figsize"] = (10, 6)


In [11]:
# Carregando os Dados
data_path = "data/teste_indicium_precificacao.csv"
df = pd.read_csv(data_path)

# Inspeção Inicial
print("Dimensões do dataset:", df.shape)
display(df.head())
print("\nInformações gerais:")
print(df.info())
print("\nEstatísticas descritivas:")
display(df.describe())

# Tratando valores ausentes
print("\nValores ausentes por coluna:")
print(df.isnull().sum())
df['reviews_por_mes'].fillna(df['reviews_por_mes'].median(), inplace=True)
df['ultima_review'].fillna("Sem avaliação", inplace=True)


Dimensões do dataset: (48894, 16)


Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
0,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
2,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
3,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0
4,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,74,2019-06-22,0.59,1,129



Informações gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48894 entries, 0 to 48893
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id                             48894 non-null  int64  
 1   nome                           48878 non-null  object 
 2   host_id                        48894 non-null  int64  
 3   host_name                      48873 non-null  object 
 4   bairro_group                   48894 non-null  object 
 5   bairro                         48894 non-null  object 
 6   latitude                       48894 non-null  float64
 7   longitude                      48894 non-null  float64
 8   room_type                      48894 non-null  object 
 9   price                          48894 non-null  int64  
 10  minimo_noites                  48894 non-null  int64  
 11  numero_de_reviews              48894 non-null  int64  
 12  ultima_review            

Unnamed: 0,id,host_id,latitude,longitude,price,minimo_noites,numero_de_reviews,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
count,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,38842.0,48894.0,48894.0
mean,19017530.0,67621390.0,40.728951,-73.952169,152.720763,7.030085,23.274758,1.373251,7.144005,112.776169
std,10982880.0,78611180.0,0.054529,0.046157,240.156625,20.510741,44.550991,1.680453,32.952855,131.618692
min,2595.0,2438.0,40.49979,-74.24442,0.0,1.0,0.0,0.01,1.0,0.0
25%,9472371.0,7822737.0,40.6901,-73.98307,69.0,1.0,1.0,0.19,1.0,0.0
50%,19677430.0,30795530.0,40.723075,-73.95568,106.0,3.0,5.0,0.72,1.0,45.0
75%,29152250.0,107434400.0,40.763117,-73.936273,175.0,5.0,24.0,2.02,2.0,227.0
max,36487240.0,274321300.0,40.91306,-73.71299,10000.0,1250.0,629.0,58.5,327.0,365.0



Valores ausentes por coluna:
id                                   0
nome                                16
host_id                              0
host_name                           21
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                  10052
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['reviews_por_mes'].fillna(df['reviews_por_mes'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['ultima_review'].fillna("Sem avaliação", inplace=True)


In [6]:
# Criando variáveis derivadas
def extrair_palavras_chave(nome):
    palavras_chave = ['luxury', 'exclusive', 'cozy', 'modern', 'spacious']
    nome = nome.lower() if isinstance(nome, str) else ""
    return any(palavra in nome for palavra in palavras_chave)

df['possui_palavras_chave'] = df['nome'].apply(extrair_palavras_chave).astype(int)

# Removendo outliers
limite_inferior = df['price'].quantile(0.01)
limite_superior = df['price'].quantile(0.99)
df = df[(df['price'] >= limite_inferior) & (df['price'] <= limite_superior)]

# Separando dados
X = df.drop(['price', 'id', 'nome', 'host_name', 'ultima_review'], axis=1)
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurando as variáveis categóricas e numéricas
cat_features = ['bairro_group', 'room_type']
num_features = ['latitude', 'longitude', 'minimo_noites', 'numero_de_reviews', 
                'reviews_por_mes', 'calculado_host_listings_count', 'disponibilidade_365']

# Atualizando o pipeline para lidar com valores ausentes nas variáveis numéricas
cat_pipeline = Pipeline([('onehot', OneHotEncoder(handle_unknown='ignore'))])
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # Preenchendo valores ausentes com a mediana
    ('scaler', StandardScaler())                   # Padronizando os valores
])

# Combinando as transformações
preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_features), 
    ('cat', cat_pipeline, cat_features)
])

# Aplicando o pipeline de pré-processamento
X_train_preprocessed = preprocessor.fit_transform(X_train)
X_test_preprocessed = preprocessor.transform(X_test)

print("Pré-processamento concluído com sucesso!")


Pré-processamento concluído com sucesso!


In [12]:
# Função de Avaliação
def avaliar_modelo(modelo, X_train, y_train, X_test, y_test):
    y_train_pred = modelo.predict(X_train)
    y_test_pred = modelo.predict(X_test)
    print(f"MAE (Treino): {mean_absolute_error(y_train, y_train_pred):.2f} | MAE (Teste): {mean_absolute_error(y_test, y_test_pred):.2f}")
    print(f"RMSE (Treino): {np.sqrt(mean_squared_error(y_train, y_train_pred)):.2f} | RMSE (Teste): {np.sqrt(mean_squared_error(y_test, y_test_pred)):.2f}")
    print(f"R² (Treino): {r2_score(y_train, y_train_pred):.2f} | R² (Teste): {r2_score(y_test, y_test_pred):.2f}")

# Regressão Linear
print("\n### Modelo: Regressão Linear ###")
linear_model = LinearRegression()
linear_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(linear_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)

# Random Forest
print("\n### Modelo: Random Forest ###")
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(rf_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)

# XGBoost
print("\n### Modelo: XGBoost ###")
xgb_model = XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42)
xgb_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(xgb_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)



### Modelo: Regressão Linear ###
MAE (Treino): 53.06 | MAE (Teste): 52.40
RMSE (Treino): 84.14 | RMSE (Teste): 80.76
R² (Treino): 0.35 | R² (Teste): 0.36

### Modelo: Random Forest ###
MAE (Treino): 17.09 | MAE (Teste): 45.53
RMSE (Treino): 28.14 | RMSE (Teste): 73.09
R² (Treino): 0.93 | R² (Teste): 0.47

### Modelo: XGBoost ###
MAE (Treino): 41.94 | MAE (Teste): 44.51
RMSE (Treino): 68.56 | RMSE (Teste): 71.84
R² (Treino): 0.57 | R² (Teste): 0.49


In [14]:
# Previsão para o exemplo fornecido
exemplo = pd.DataFrame({
    'bairro_group': ['Manhattan'],
    'room_type': ['Entire home/apt'],
    'latitude': [40.75362],
    'longitude': [-73.98377],
    'minimo_noites': [1],
    'numero_de_reviews': [45],
    'reviews_por_mes': [0.38],
    'calculado_host_listings_count': [2],
    'disponibilidade_365': [355],
    'possui_palavras_chave': [1]
})

exemplo_preprocessed = preprocessor.transform(exemplo)
preco_predito = xgb_model.predict(exemplo_preprocessed)
print(f"Preço previsto para o exemplo: ${preco_predito[0]:.2f}")


Preço previsto para o exemplo: $284.87


In [9]:
# Salvando o modelo final (XGBoost)
model_path = "models/final_model.pkl"
with open(model_path, "wb") as file:
    pickle.dump(xgb_model, file)
print(f"Modelo salvo em: {model_path}")


Modelo salvo em: models/final_model.pkl
