# Desafio Lighthouse Indicium - Cientista de Dados

Esse projeto foi desenvolvido em parceria com o programa Lighthouse Indicium, no contexto de um cliente que está criando uma plataforma de aluguéis temporários na cidade de Nova York. O principal objetivo é realizar uma análise exploratória de dados do maior concorrente e, com base nesses dados, desenvolver e validar um modelo preditivo de preços.

A estratégia do projeto inclui:

- Análise Exploratória de Dados (EDA): Identificação de padrões, tendências e variáveis relevantes para a precificação.
- Desenvolvimento do Modelo: Construção de um modelo preditivo para estimar preços com base nos dados fornecidos.
- Validação e Avaliação: Aplicação de métricas de avaliação apropriadas ao problema, garantindo que o modelo seja confiável e interprete os dados corretamente.
  
O resultado final será uma base sólida para a estratégia de precificação da plataforma, oferecendo insights competitivos e suporte à tomada de decisão do cliente.

---

## 1. Importação de Bibliotecas

In [6]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns
import statistics as sts
import category_encoders as ce # enconding de variáveis
from sklearn.preprocessing import LabelEncoder # enconding de variáveis
import import_ipynb # navegar entre notebooks do jupyter

ModuleNotFoundError: No module named 'import_ipynb'

---

## 2. Importação Dataset

In [None]:
data = pd.read_csv('data/teste_indicium_precificacao.csv')
data.head(5)

### 2.1 - Resumo de Dados

    - id: Atua como uma chave exclusiva para cada anúncio nos dados do aplicativo
    - nome: Representa o nome do anúncio
    - host_id: Representa o id do usuário que hospedou o anúncio
    - host_name: Contém o nome do usuário que hospedou o anúncio
    - bairro_group: Contém o nome do bairro onde o anúncio está localizado
    - bairro: Contém o nome da área onde o anúncio está localizado
    - latitude: Contém a latitude do local
    - longitude: Contém a longitude do local
    - room_type: Contém o tipo de espaço de cada anúncio
    - price: Contém o preço por noite em dólares listado pelo antrião
    - minimo_noites: Contém o número mínimo de noites que o usuário deve reservar
    - numero_de_reviews: Contém o número de comentários dados a cada listagem
    - ultima_review: Contém a data da última revisão dada à listagem
    - reviews_por_mes: Contém o número de avaliações fornecidas por mês
    - calculado_host_listings_count: Contém a quantidade de listagem por host
    - disponibilidade_365: Contém o número de dias em que o anúncio está disponível para reserva


---

## 3. Análise Exploratória dos Dados (EDA)

In [None]:
data.shape

In [None]:
data.info()

In [None]:
data.isnull().sum()

#### Analisar valores ausentes em:

- 'nome'
- 'host_name'
- 'ultima_review'
- 'reviews_por_mes'

In [None]:
data.describe()

#### Analisar possíveis outliers em:

- 'price'
- 'minimo_noites'
- 'numero_de_reviews'
- 'reviews_por_mes'
- 'calculado_host_listings_count'

---
### 3.1 - Análise e Tratamento de Valores Ausentes

#### • 'nome': coluna de variáveis qualitativas nominais

In [None]:
data['nome'].isnull().sum()

In [None]:
nome_counts = data['nome'].value_counts()
nome_counts

In [None]:
from notebooks.eda.graficos_valores_ausentes import plot_top_names

plot_top_names(data, column='nome', top_n=20)

##### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'nome', ou seja, o valor mais frequente que nesse caso é 'Hillside Hotel'

In [None]:
moda_nomes = sts.mode(data['nome'])
moda_nomes

In [None]:
data['nome'] = data['nome'].fillna(moda_nomes)
data['nome'].isnull().sum()


#### • 'host_name': coluna de variáveis qualitativas nominais

In [None]:
data['host_name'].isnull().sum()

In [None]:
host_name_counts = data['host_name'].value_counts()
host_name_counts

In [None]:
from notebooks.eda.graficos_valores_ausentes import plot_top_host_names

plot_top_host_names(data, column='host_name', top_n=20)

##### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'host_name', ou seja, o valor mais frequente que nesse caso é 'Michael'

In [None]:
moda_host_name = sts.mode(data['host_name'])
moda_host_name

In [None]:
data['host_name'].fillna(moda_host_name)
data['host_name'].isnull().sum()


#### • 'ultima_review': coluna de variáveis qualitativas ordinais

In [None]:
data['ultima_review'].isnull().sum()

In [None]:
# converter a coluna para o tipo datetime
data['ultima_review'] = pd.to_datetime(data['ultima_review'], errors='coerce')

In [None]:
ultima_review_counts = data['ultima_review'].value_counts()
ultima_review_counts

In [None]:
from notebooks.eda.graficos_valores_ausentes import plot_ultimo_review

plot_ultimo_review(data, column='ultima_review')

##### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'ultima_review', ou seja, o valor mais frequente que nesse caso é '2019-06-23'. Percebe-se a crescente ao longo dos anos do número de comentários dados a cada listagem.

In [None]:
moda_ultima_review = data['ultima_review'].mode()[0]
print(moda_ultima_review)

In [None]:
data['ultima_review'] = data['ultima_review'].fillna(moda_ultima_review)
data['ultima_review'].isnull().sum()


#### • 'reviews_por_mes': coluna de variáveis quantitativas contínuas

In [None]:
data['reviews_por_mes'].isnull().sum()

In [None]:
data['reviews_por_mes'].value_counts()

In [None]:
agrupado_reviews_mensais = data.groupby(['reviews_por_mes']).size()
agrupado_reviews_mensais.sort_values(ascending=False)

In [None]:
from notebooks.eda.graficos_valores_ausentes import plot_reviews_distribuicao

plot_reviews_distribuicao(data, column='reviews_por_mes', bins=30)

##### Com base nessa análise, iremos filtrar os valores ausentes com a média da coluna 'reviews_por_mes', nesse caso é aproximadamente 1.37

In [None]:
media_reviews_mensais = data['reviews_por_mes'].mean()
media_reviews_mensais

In [None]:
data['reviews_por_mes'] = data['reviews_por_mes'].fillna(media_reviews_mensais)
data['reviews_por_mes'].isnull().sum()

In [None]:
data.isnull().sum()

#### O tratamento de valores ausentes foi concluído com base na categoria das colunas, aplicando métodos distintos para variáveis qualitativas e quantitativas.

---

### 3.2 - Análise e Tratamento de Outliers

#### • 'price': coluna de variáveis quantitativas discretas

In [None]:
from notebooks.eda.outliers import price_outliers

price_outliers(data, column='price')

---

#### • 'minimo_noites': coluna de variáveis quantitativas discretas

In [None]:
from notebooks.eda.outliers import noite_outliers

noite_outliers(data, column='minimo_noites')

---

#### • 'numero_de_reviews': coluna de variáveis quantitativas discretas

In [None]:
from notebooks.eda.outliers import reviews_outliers

reviews_outliers(data, column='numero_de_reviews')

---

#### • 'reviews_por_mes': coluna de variáveis quantitativas contínuas

In [None]:
from notebooks.eda.outliers import reviews_por_mes_outliers

reviews_por_mes_outliers(data, column='reviews_por_mes')

---

#### • 'calculado_host_listings_count': coluna de variáveis quantitativas discretas

In [None]:
from notebooks.eda.outliers import host_listings_outliers

host_listings_outliers(data, column='calculado_host_listings_count')

#### O tratamento de outlier foi concluído com base no intervalo interquartil (IQR), aplicando o método de substituir os valores outliers pelos limites.

---

### 3.2 Encoding de Variáveis

Essa etapa busca transformar as variáveis categóricas em 'numéricas' com o objetivo de calcular a correlação de todas as variáveis e depois treinar um modelo com base em todas as variáveis, como pedido no teste do desafio.

In [None]:
print(data.select_dtypes(include=['object', 'category']).nunique())

As variáveis 'nome', 'host_name e 'bairro' possuem alta cardinalidade, ou seja, possuem muitos valores únicos. Aplicar One-Hot Encoding a essas variáveis criaria um grande número de colunas, resultando em problemas de dimensionalidade e alto consumo de memória. Para lidar com isso será utilizada a técnica de Target Encoding que substitui os valores categóricos por estatísticas da variável-alvo, nesse caso 'price', preservando a relação dessas variáveis com o objetivo do modelo.


Obs: Antes disso vou fazer uma cópia dos bairros porque vai ser importante o nome deles posteriormente.

In [None]:
bairros_originais = data['bairro'].copy()

In [None]:
from notebooks.eda.encoding import target_encoding

data = target_encoding(data, ['nome', 'host_name', 'bairro'])

Já as variáveis 'bairro_group' e 'room_type' possuem baixa cardinalidade, por isso a melhor técnica a se aplicar é One-Hot-Encoding

Obs: Antes disso vou fazer uma cópia dos bairros por grupo porque vai ser importante o nome deles posteriormente também.

In [None]:
bairros_group_originais = data['bairro_group'].copy()

In [None]:
from notebooks.eda.encoding import one_hot_encoding

data = one_hot_encoding(data, ['bairro_group', 'room_type'])

---

### 3.3 - Análise de Correlação das Variáveis

In [None]:
matriz_correlacao = data.corr(numeric_only=True)
matriz_correlacao

In [None]:
plt.figure(figsize=(12, 10)) 
sns.heatmap(
    matriz_correlacao,
    annot=False,
    cmap='coolwarm',
    fmt=".2f",
    linewidths=0.5,
    annot_kws={"size": 10},  # ajuste do tamanho do texto nas células
    cbar_kws={"shrink": 0.8},  # reduz o tamanho da barra de cores
)

plt.title('Gráfico de Correlação', fontsize=18, pad=20)  
plt.xticks(rotation=45, ha='right', fontsize=10)  # rotaciona os rótulos e ajusta o alinhamento
plt.yticks(rotation=0, fontsize=10)  
plt.tight_layout()  

plt.show()

---


### 4. Análise Específica 

As análises a seguir serão cruciais para responder as perguntas do item '2' do desafio. As explicações estarão em um relatório a parte.

#### 4.1 Análise de Área Indicada - Investimento Apartamento

In [None]:
from notebooks.analise.analise_investimento_imovel import criar_mapa_apartamentos, analisar bairros

mapa_final = criar_mapa_apartamentos(data)
mapa_final

In [None]:
# chamada da cópia dos nomes dos bairros para análise
data['bairro_original'] = bairros_originais

resumo_bairros, resumo_percentual = analisar_bairros(data)

#### 4.2 Análise Padrão Textual - Lugares de Maior Valor

In [None]:
from notebooks.analise.analise_padrao_local_valor import analisar_precos_por_bairro

data['bairro_group_original'] = bairros_group_originais # uso da cópia dos nomes dos bairros originais
    
media_bairros, media_primeira_palavra = analisar_precos_por_bairro(data, bairros_originais, bairros_group_originais)

#### Exclusão das colunas criadas para esses procedimentos

In [None]:
data.drop(columns=['bairro_original', 'cor', 'bairro_group_original'], inplace=True)

---

### 5. Modelo de Machine Learning

Elaboração do modelo de previsão do preço a partir do dataset