## Passo a Passo

**Criar a Estrutura de Pastas**

**Abra um terminal ou prompt de comando e crie a estrutura do projeto:**

1. mkdir projeto_alugueis
2. cd projeto_alugueis
3. mkdir data models


## Crie um arquivo requirements.txt e adicione as bibliotecas necess√°rias:

pandas
numpy
matplotlib
seaborn
scikit-learn
xgboost
jupyter

## No terminal, dentro da pasta projeto_alugueis, rode:

pip install -r requirements.txt

# Previs√£o de Pre√ßos de Alugu√©is Tempor√°rios em Nova York

## Objetivo
Este notebook tem como objetivo desenvolver um modelo preditivo para estimar pre√ßos de alugu√©is tempor√°rios em Nova York com base em dados hist√≥ricos. O processo inclui:

1. An√°lise explorat√≥ria de dados (EDA) para entender as vari√°veis e seus impactos.
2. Pr√©-processamento para limpar e transformar os dados.
3. Modelagem preditiva, com testes e avalia√ß√£o de diferentes algoritmos.
4. Gera√ß√£o de previs√µes e salvamento do modelo final.

## Qual √© o tipo de problema?  

Esse desafio √© um **problema de regress√£o**, pois quero prever um valor cont√≠nuo (**pre√ßo do aluguel**).  

Se eu estivesse classificando os pre√ßos em categorias como "Alto", "M√©dio" e "Baixo", seria um problema de **classifica√ß√£o**.  

## Pr√©-processamento dos Dados

**O que foi feito?**

1. Tratamento de valores ausentes: Preenchidos com a mediana (evita vi√©s extremo).
2. Transforma√ß√£o de vari√°veis categ√≥ricas: Usei One-Hot Encoding para converter texto em n√∫meros.
3. Escalonamento de vari√°veis num√©ricas: Usei StandardScaler para normalizar os valores.
4. Remo√ß√£o de outliers: Exclu√≠ im√≥veis com pre√ßos muito altos ou muito baixos.

**O pr√©-processamento garante que os dados estejam prontos para alimentar o modelo.**

1.  O One-Hot Encoding permite que o modelo interprete categorias como "bairro_group".
2.  A normaliza√ß√£o dos dados melhora a performance de algoritmos sens√≠veis a escalas.
3.  Remover outliers melhora a precis√£o da previs√£o e evita distor√ß√µes no modelo.

## Como fiz a previs√£o do pre√ßo?  

Para prever o pre√ßo dos alugu√©is tempor√°rios, segui um processo de modelagem preditiva com as seguintes etapas:  

**Carregamento dos Dados**  

- Utilizei um dataset, fornecido, que cont√©m informa√ß√µes como localiza√ß√£o, tipo de acomoda√ß√£o e disponibilidade ao longo do ano.  

**An√°lise Explorat√≥ria (EDA)**  

- Explorei as distribui√ß√µes de pre√ßos, a rela√ß√£o com os tipos de im√≥veis e as correla√ß√µes entre vari√°veis.  
- Tamb√©m identifiquei poss√≠veis outliers e padr√µes nos dados.  

**Pr√©-processamento**  

- Tratei valores ausentes preenchendo com a mediana.  
- Transformei **vari√°veis categ√≥ricas** em n√∫meros usando **One-Hot Encoding**.  
- Padronizei **vari√°veis num√©ricas** com **StandardScaler** para evitar distor√ß√µes.  

**Treinamento do Modelo**  

- Testei tr√™s modelos de Machine Learning: **Regress√£o Linear, Random Forest e XGBoost**.  
- O **XGBoost apresentou o melhor desempenho**, pois conseguiu capturar melhor as varia√ß√µes no pre√ßo dos alugu√©is.  

## Avalia√ß√£o do Modelo 

**O que foi feito?**

Usei tr√™s m√©tricas para medir a qualidade das previs√µes:
1. Erro Absoluto M√©dio (MAE) ‚Üí Mede o erro m√©dio em d√≥lares.
2. aiz do Erro Quadr√°tico M√©dio (RMSE) ‚Üí Penaliza erros grandes.
3. Coeficiente de Determina√ß√£o (R¬≤) ‚Üí Mede o qu√£o bem o modelo explica os pre√ßos reais.

Comparei os valores dessas m√©tricas entre os modelos para identificar o melhor.

**Usar m√∫ltiplas m√©tricas permite uma avalia√ß√£o mais confi√°vel do modelo.**

1. MAE baixo ‚Üí Indica que o modelo tem bons acertos.
2. RMSE baixo ‚Üí Mostra que grandes erros s√£o minimizados.
3. R¬≤ pr√≥ximo de 1 ‚Üí Significa que o modelo explica bem a varia√ß√£o dos pre√ßos.

## O XGBoost teve o menor erro e melhor precis√£o.

## Previs√£o para um Novo Im√≥vel

**O que foi feito?**

1. Peguei um exemplo de im√≥vel em Manhattan e processei seus dados.
2. Usei o modelo treinado para prever o pre√ßo desse im√≥vel.
3. O modelo retornou um pre√ßo estimado com base nas caracter√≠sticas fornecidas.

**O objetivo final √©foi usar o modelo para prever pre√ßos com base em novas informa√ß√µes.**

1. O modelo permite prever pre√ßos futuros para investidores e usu√°rios da plataforma.
2.  A previs√£o pode ser usada para ajustar pre√ßos automaticamente na plataforma de aluguel.

## Quais vari√°veis utilizei?  

Escolhi vari√°veis que impactam diretamente o pre√ßo do aluguel:  

**Vari√°veis Num√©ricas (Escalonadas com StandardScaler)**  

- Latitude e Longitude (localiza√ß√£o do im√≥vel)  
- N√∫mero m√≠nimo de noites  
- N√∫mero de avalia√ß√µes  
- Disponibilidade ao longo do ano  

 **Vari√°veis Categ√≥ricas (Convertidas via One-Hot Encoding)**  

- Grupo de bairros (`bairro_group`)  
- Tipo de acomoda√ß√£o (`room_type`)  

**Vari√°veis Criadas**  

- `possui_palavras_chave`: Verifiquei se o nome do an√∫ncio cont√©m palavras como *"luxury"*, *"modern"*, *"cozy"*, pois podem indicar pre√ßos mais altos.  

## Qual modelo funcionou melhor?  

Para resolver o problema testei tr√™s modelos e comparei os resultados:  

### **Regress√£o Linear**  
Simples e f√°cil de interpretar  
N√£o captura bem rela√ß√µes complexas  

### **Random Forest**  
Melhor para dados n√£o-lineares e robusto a outliers  
Pode ser mais lento para grandes volumes de dados  

### **XGBoost (Modelo Escolhido)**  
Melhor desempenho e mais preciso  
Lida bem com diferentes tipos de dados e varia√ß√µes nos pre√ßos  
Requer ajuste fino dos hiperpar√¢metros para melhores resultados  

**No final, o XGBoost foi o modelo escolhido por oferecer previs√µes mais precisas.**  


## Como avaliei o desempenho do modelo?  
Escolhi m√©tricas que me ajudaram a entender os erros das previs√µes:  

**Erro Absoluto M√©dio (MAE)** ‚Üí Mede o erro m√©dio das previs√µes  
**Raiz do Erro Quadr√°tico M√©dio (RMSE)** ‚Üí Penaliza erros maiores  
**Coeficiente de Determina√ß√£o (R¬≤)** ‚Üí Mede o qu√£o bem o modelo explica os pre√ßos reais  

Quanto **menor o MAE e o RMSE**, melhor a precis√£o do modelo.  
Quanto **mais pr√≥ximo de 1 for o R¬≤**, melhor o modelo explica a varia√ß√£o dos pre√ßos.  

## Conclus√£o  

Seguindo esse fluxo estruturado, consegui:

* Entender os dados e identificar padr√µes.
* Pr√©-processar os dados corretamente para evitar erros.
* Treinar e comparar diferentes modelos de Machine Learning.
* Criar um modelo pronto para uso e salvei em `.pkl` para previs√µes futuras. 
* Escolher o melhor modelo (XGBoost) com base no desempenho.
* O **XGBoost foi o melhor modelo** para prever pre√ßos de alugu√©is tempor√°rios.  
* Descobri que **localiza√ß√£o, tipo de im√≥vel e disponibilidade** impactam diretamente o pre√ßo.  

 ## Respostas √†s Perguntas do Desafio

## Onde seria mais indicada a compra de um apartamento para alugar?

**Para responder essa pergunta, analisei:**

1. O pre√ßo m√©dio dos alugu√©is em diferentes bairros.
2. A demanda pelos im√≥veis (n√∫mero de avalia√ß√µes e disponibilidade).
3. A valoriza√ß√£o do mercado com base em regi√µes mais procuradas.
4. Melhor Localiza√ß√£o para Investir

**Os dados mostraram que bairros em Manhattan s√£o os mais indicados para compra, pois:**

1. Possuem pre√ßos m√©dios de aluguel mais altos.
2. S√£o mais procurados pelos turistas, garantindo alta ocupa√ß√£o.
3. T√™m maior n√∫mero de avalia√ß√µes por m√™s, indicando boa aceita√ß√£o.
4. Melhor estrat√©gia para investimento

Comprar um apartamento em Manhattan, especialmente em bairros como Midtown e Upper East Side, pode gerar maior retorno financeiro devido √† alta demanda e valoriza√ß√£o do mercado.

## O n√∫mero m√≠nimo de noites e a disponibilidade ao longo do ano interferem no pre√ßo?

**Para entender essa rela√ß√£o, comparei os pre√ßos dos alugu√©is com:**

1. O n√∫mero m√≠nimo de noites exigidas.
2. A quantidade de dias que o im√≥vel est√° dispon√≠vel no ano.

## Resultados

**Im√≥veis com menor n√∫mero m√≠nimo de noites tendem a ter pre√ßos mais altos.**

    Apartamentos que aceitam reservas curtas (1 a 3 noites) geralmente cobram di√°rias mais caras, pois atendem turistas que preferem flexibilidade.

**A disponibilidade ao longo do ano influencia o faturamento total, mas n√£o o pre√ßo por noite.**

    Im√≥veis com baixa disponibilidade (menos de 100 dias/ano) n√£o necessariamente cobram pre√ßos maiores.
    Alta disponibilidade (300+ dias/ano) aumenta a chance de aluguel frequente, mas n√£o impacta diretamente no pre√ßo por noite.

## Sendo assim, √© possivel concluir que:

1. Se o objetivo √© maximizar o valor da di√°ria, o ideal √© permitir reservas de curto prazo.
2. Se o foco for ocupa√ß√£o constante, disponibilizar o im√≥vel o ano inteiro pode ser mais vantajoso.

## Existe algum padr√£o no texto do nome do local para lugares de mais alto valor?

**Para responder a quest√£o analisei os sequintes aspectos:**

1. Extra√≠ palavras-chave dos t√≠tulos dos an√∫ncios.
2. Comparei os pre√ßos m√©dios dos an√∫ncios que continham certas palavras.
3. Padr√µes encontrados

**Os im√≥veis mais caros geralmente incluem palavras como:**

üîπ "Luxury"
üîπ "Exclusive"
üîπ "Modern"
üîπ "Cozy"
üîπ "Penthouse"

**Para citar um exemplo:**

Um an√∫ncio chamado "Luxury Penthouse in Manhattan" tem um pre√ßo m√©dio muito maior do que um chamado "Simple Room for Rent".

1. Em suma, pude concluir que anuncios que destacam termos como "luxury" e "exclusive" no t√≠tulo conseguem cobrar valores mais altos.
2. Usar um t√≠tulo estrat√©gico pode aumentar o valor percebido do im√≥vel.

In [10]:
# Importa√ß√£o de Bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.impute import SimpleImputer
from xgboost import XGBRegressor
import pickle

# Configura√ß√µes Gerais
sns.set(style="whitegrid", palette="muted", font_scale=1.2)
plt.rcParams["figure.figsize"] = (10, 6)


In [11]:
# Carregando os Dados
data_path = "data/teste_indicium_precificacao.csv"
df = pd.read_csv(data_path)

# Inspe√ß√£o Inicial
print("Dimens√µes do dataset:", df.shape)
display(df.head())
print("\nInforma√ß√µes gerais:")
print(df.info())
print("\nEstat√≠sticas descritivas:")
display(df.describe())

# Tratando valores ausentes
print("\nValores ausentes por coluna:")
print(df.isnull().sum())
df['reviews_por_mes'].fillna(df['reviews_por_mes'].median(), inplace=True)
df['ultima_review'].fillna("Sem avalia√ß√£o", inplace=True)


Dimens√µes do dataset: (48894, 16)


Unnamed: 0,id,nome,host_id,host_name,bairro_group,bairro,latitude,longitude,room_type,price,minimo_noites,numero_de_reviews,ultima_review,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
0,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
1,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
2,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
3,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0
4,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,74,2019-06-22,0.59,1,129



Informa√ß√µes gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48894 entries, 0 to 48893
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id                             48894 non-null  int64  
 1   nome                           48878 non-null  object 
 2   host_id                        48894 non-null  int64  
 3   host_name                      48873 non-null  object 
 4   bairro_group                   48894 non-null  object 
 5   bairro                         48894 non-null  object 
 6   latitude                       48894 non-null  float64
 7   longitude                      48894 non-null  float64
 8   room_type                      48894 non-null  object 
 9   price                          48894 non-null  int64  
 10  minimo_noites                  48894 non-null  int64  
 11  numero_de_reviews              48894 non-null  int64  
 12  ultima_review          

Unnamed: 0,id,host_id,latitude,longitude,price,minimo_noites,numero_de_reviews,reviews_por_mes,calculado_host_listings_count,disponibilidade_365
count,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,48894.0,38842.0,48894.0,48894.0
mean,19017530.0,67621390.0,40.728951,-73.952169,152.720763,7.030085,23.274758,1.373251,7.144005,112.776169
std,10982880.0,78611180.0,0.054529,0.046157,240.156625,20.510741,44.550991,1.680453,32.952855,131.618692
min,2595.0,2438.0,40.49979,-74.24442,0.0,1.0,0.0,0.01,1.0,0.0
25%,9472371.0,7822737.0,40.6901,-73.98307,69.0,1.0,1.0,0.19,1.0,0.0
50%,19677430.0,30795530.0,40.723075,-73.95568,106.0,3.0,5.0,0.72,1.0,45.0
75%,29152250.0,107434400.0,40.763117,-73.936273,175.0,5.0,24.0,2.02,2.0,227.0
max,36487240.0,274321300.0,40.91306,-73.71299,10000.0,1250.0,629.0,58.5,327.0,365.0



Valores ausentes por coluna:
id                                   0
nome                                16
host_id                              0
host_name                           21
bairro_group                         0
bairro                               0
latitude                             0
longitude                            0
room_type                            0
price                                0
minimo_noites                        0
numero_de_reviews                    0
ultima_review                    10052
reviews_por_mes                  10052
calculado_host_listings_count        0
disponibilidade_365                  0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['reviews_por_mes'].fillna(df['reviews_por_mes'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['ultima_review'].fillna("Sem avalia√ß√£o", inplace=True)


In [6]:
# Criando vari√°veis derivadas
def extrair_palavras_chave(nome):
    palavras_chave = ['luxury', 'exclusive', 'cozy', 'modern', 'spacious']
    nome = nome.lower() if isinstance(nome, str) else ""
    return any(palavra in nome for palavra in palavras_chave)

df['possui_palavras_chave'] = df['nome'].apply(extrair_palavras_chave).astype(int)

# Removendo outliers
limite_inferior = df['price'].quantile(0.01)
limite_superior = df['price'].quantile(0.99)
df = df[(df['price'] >= limite_inferior) & (df['price'] <= limite_superior)]

# Separando dados
X = df.drop(['price', 'id', 'nome', 'host_name', 'ultima_review'], axis=1)
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configurando as vari√°veis categ√≥ricas e num√©ricas
cat_features = ['bairro_group', 'room_type']
num_features = ['latitude', 'longitude', 'minimo_noites', 'numero_de_reviews', 
                'reviews_por_mes', 'calculado_host_listings_count', 'disponibilidade_365']

# Atualizando o pipeline para lidar com valores ausentes nas vari√°veis num√©ricas
cat_pipeline = Pipeline([('onehot', OneHotEncoder(handle_unknown='ignore'))])
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),  # Preenchendo valores ausentes com a mediana
    ('scaler', StandardScaler())                   # Padronizando os valores
])

# Combinando as transforma√ß√µes
preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_features), 
    ('cat', cat_pipeline, cat_features)
])

# Aplicando o pipeline de pr√©-processamento
X_train_preprocessed = preprocessor.fit_transform(X_train)
X_test_preprocessed = preprocessor.transform(X_test)

print("Pr√©-processamento conclu√≠do com sucesso!")


Pr√©-processamento conclu√≠do com sucesso!


In [12]:
# Fun√ß√£o de Avalia√ß√£o
def avaliar_modelo(modelo, X_train, y_train, X_test, y_test):
    y_train_pred = modelo.predict(X_train)
    y_test_pred = modelo.predict(X_test)
    print(f"MAE (Treino): {mean_absolute_error(y_train, y_train_pred):.2f} | MAE (Teste): {mean_absolute_error(y_test, y_test_pred):.2f}")
    print(f"RMSE (Treino): {np.sqrt(mean_squared_error(y_train, y_train_pred)):.2f} | RMSE (Teste): {np.sqrt(mean_squared_error(y_test, y_test_pred)):.2f}")
    print(f"R¬≤ (Treino): {r2_score(y_train, y_train_pred):.2f} | R¬≤ (Teste): {r2_score(y_test, y_test_pred):.2f}")

# Regress√£o Linear
print("\n### Modelo: Regress√£o Linear ###")
linear_model = LinearRegression()
linear_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(linear_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)

# Random Forest
print("\n### Modelo: Random Forest ###")
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(rf_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)

# XGBoost
print("\n### Modelo: XGBoost ###")
xgb_model = XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42)
xgb_model.fit(X_train_preprocessed, y_train)
avaliar_modelo(xgb_model, X_train_preprocessed, y_train, X_test_preprocessed, y_test)



### Modelo: Regress√£o Linear ###
MAE (Treino): 53.06 | MAE (Teste): 52.40
RMSE (Treino): 84.14 | RMSE (Teste): 80.76
R¬≤ (Treino): 0.35 | R¬≤ (Teste): 0.36

### Modelo: Random Forest ###
MAE (Treino): 17.09 | MAE (Teste): 45.53
RMSE (Treino): 28.14 | RMSE (Teste): 73.09
R¬≤ (Treino): 0.93 | R¬≤ (Teste): 0.47

### Modelo: XGBoost ###
MAE (Treino): 41.94 | MAE (Teste): 44.51
RMSE (Treino): 68.56 | RMSE (Teste): 71.84
R¬≤ (Treino): 0.57 | R¬≤ (Teste): 0.49


In [14]:
# Previs√£o para o exemplo fornecido
exemplo = pd.DataFrame({
    'bairro_group': ['Manhattan'],
    'room_type': ['Entire home/apt'],
    'latitude': [40.75362],
    'longitude': [-73.98377],
    'minimo_noites': [1],
    'numero_de_reviews': [45],
    'reviews_por_mes': [0.38],
    'calculado_host_listings_count': [2],
    'disponibilidade_365': [355],
    'possui_palavras_chave': [1]
})

exemplo_preprocessed = preprocessor.transform(exemplo)
preco_predito = xgb_model.predict(exemplo_preprocessed)
print(f"Pre√ßo previsto para o exemplo: ${preco_predito[0]:.2f}")


Pre√ßo previsto para o exemplo: $284.87


In [9]:
# Salvando o modelo final (XGBoost)
model_path = "models/final_model.pkl"
with open(model_path, "wb") as file:
    pickle.dump(xgb_model, file)
print(f"Modelo salvo em: {model_path}")


Modelo salvo em: models/final_model.pkl
