# Desafio Lighthouse Indicium - Cientista de Dados

Esse projeto foi desenvolvido em parceria com o programa Lighthouse Indicium, no contexto de um cliente que está criando uma plataforma de aluguéis temporários na cidade de Nova York. O principal objetivo é realizar uma análise exploratória de dados do maior concorrente e, com base nesses dados, desenvolver e validar um modelo preditivo de preços.

A estratégia do projeto inclui:

- Análise Exploratória de Dados (EDA): Identificação de padrões, tendências e variáveis relevantes para a precificação.
- Desenvolvimento do Modelo: Construção de um modelo preditivo para estimar preços com base nos dados fornecidos.
- Validação e Avaliação: Aplicação de métricas de avaliação apropriadas ao problema, garantindo que o modelo seja confiável e interprete os dados corretamente.
  
O resultado final será uma base sólida para a estratégia de precificação da plataforma, oferecendo insights competitivos e suporte à tomada de decisão do cliente.

---

## 1. Importação de Bibliotecas

In [69]:
import sys
!{sys.executable} -m pip install category_encoders

Collecting category_encoders
  Using cached category_encoders-2.8.0-py3-none-any.whl.metadata (7.9 kB)
Collecting scikit-learn>=1.6.0 (from category_encoders)
  Using cached scikit_learn-1.6.1-cp312-cp312-win_amd64.whl.metadata (15 kB)
Using cached category_encoders-2.8.0-py3-none-any.whl (85 kB)
Using cached scikit_learn-1.6.1-cp312-cp312-win_amd64.whl (11.1 MB)
Installing collected packages: scikit-learn, category_encoders
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.5.1
    Uninstalling scikit-learn-1.5.1:
      Successfully uninstalled scikit-learn-1.5.1
Successfully installed category_encoders-2.8.0 scikit-learn-1.6.1


In [70]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns
import statistics as sts
import category_encoders as ce # enconding de variáveis
from sklearn.preprocessing import LabelEncoder # enconding de variáveis

---

## 2. Importação Dataset

In [None]:
data = pd.read_csv('data/teste_indicium_precificacao.csv')
data.head(5)

### 2.1 - Resumo de Dados

    - id: Atua como uma chave exclusiva para cada anúncio nos dados do aplicativo
    - nome: Representa o nome do anúncio
    - host_id: Representa o id do usuário que hospedou o anúncio
    - host_name: Contém o nome do usuário que hospedou o anúncio
    - bairro_group: Contém o nome do bairro onde o anúncio está localizado
    - bairro: Contém o nome da área onde o anúncio está localizado
    - latitude: Contém a latitude do local
    - longitude: Contém a longitude do local
    - room_type: Contém o tipo de espaço de cada anúncio
    - price: Contém o preço por noite em dólares listado pelo antrião
    - minimo_noites: Contém o número mínimo de noites que o usuário deve reservar
    - numero_de_reviews: Contém o número de comentários dados a cada listagem
    - ultima_review: Contém a data da última revisão dada à listagem
    - reviews_por_mes: Contém o número de avaliações fornecidas por mês
    - calculado_host_listings_count: Contém a quantidade de listagem por host
    - disponibilidade_365: Contém o número de dias em que o anúncio está disponível para reserva


---

## 3. Análise Exploratória dos Dados (EDA)

In [None]:
data.shape

In [None]:
data.info()

In [None]:
data.isnull().sum()

#### Analisar valores ausentes em:

- 'nome'
- 'host_name'
- 'ultima_review'
- 'reviews_por_mes'

In [None]:
data.describe()

#### Analisar possíveis outliers em:

- 'price'
- 'minimo_noites'
- 'numero_de_reviews'
- 'reviews_por_mes'
- 'calculado_host_listings_count'

### 3.1 - Análise e Tratamento de Valores Ausentes

- 'nome': coluna de variáveis qualitativas nominais

In [None]:
data['nome'].isnull().sum()

In [None]:
nome_counts = data['nome'].value_counts()
nome_counts

In [None]:
# nomes mais frequentes nos anúncios
top_nomes = nome_counts.head(20)

# gráfico com os 20 mais frequentes
plt.figure(figsize=(10, 6))
sns.barplot(
    x=top_nomes.values,
    y=top_nomes.index,
    palette=sns.light_palette("blue", reverse=True, n_colors=len(top_nomes)),
    hue=top_nomes.index,  # atribui 'y' ao parâmetro hue
    legend=False  
)


plt.title('Frequência dos 20 Nomes Mais Comuns', fontsize=16, weight='bold')
plt.xlabel('Frequência', fontsize=14)
plt.ylabel('Nome Do Anúncio', fontsize=14)
plt.grid(axis='x', linestyle='--', alpha=0.6)
sns.despine(left=True, bottom=True)
plt.tight_layout()
plt.show()

#### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'nome', ou seja, o valor mais frequente que nesse caso é 'Hillside Hotel'

In [None]:
moda_nomes = sts.mode(data['nome'])
moda_nomes

In [None]:
data['nome'] = data['nome'].fillna(moda_nomes)
data['nome'].isnull().sum()


- 'host_name': coluna de variáveis qualitativas nominais

In [None]:
data['host_name'].isnull().sum()

In [None]:
host_name_counts = data['host_name'].value_counts()
host_name_counts

In [None]:
# host_names mais frequentes nos anúncios
top_host_names = host_name_counts.head(20)

# gráfico com os 20 mais frequentes
plt.figure(figsize=(10, 6))
sns.barplot(
    x=top_host_names.values,
    y=top_host_names.index,
    palette=sns.light_palette("blue", reverse=True, n_colors=len(top_host_names)),
    hue=top_host_names.index,  
    legend=False  
)


plt.title('Frequência dos 20 Host Names Mais Comuns', fontsize=16, weight='bold')
plt.xlabel('Frequência', fontsize=14)
plt.ylabel('Host Name', fontsize=14)
plt.grid(axis='x', linestyle='--', alpha=0.6)
sns.despine(left=True, bottom=True)
plt.tight_layout()
plt.show()

#### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'host_name', ou seja, o valor mais frequente que nesse caso é 'Michael'

In [None]:
moda_host_name = sts.mode(data['host_name'])
moda_host_name

In [None]:
data['host_name'].fillna(moda_host_name)
data['host_name'].isnull().sum()


- 'ultima_review': coluna de variáveis qualitativas ordinais

In [None]:
data['ultima_review'].isnull().sum()

In [None]:
# converter a coluna para o tipo datetime
data['ultima_review'] = pd.to_datetime(data['ultima_review'], errors='coerce')

In [None]:
ultima_review_counts = data['ultima_review'].value_counts()
ultima_review_counts

In [None]:
# ordenar os dados por data para análise temporal
sorted_data = data.sort_values(by='ultima_review')

# gráfico de série temporal
plt.figure(figsize=(12, 6))
plt.plot(
    sorted_data['ultima_review'], 
    range(len(sorted_data)), 
    marker='o', 
    linestyle='-', 
    color='#1f77b4', 
    label='Revisões'
)

plt.title('Distribuição Temporal das Últimas Revisões', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Data da Última Revisão', fontsize=12, labelpad=10)
plt.ylabel('Índice', fontsize=12, labelpad=10)

# frequência dos ticks no eixo X
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%b %Y'))  # formato: Mês Ano
plt.gca().xaxis.set_major_locator(mdates.MonthLocator(interval=6))  # intervalo de 6 meses
plt.xticks(rotation=45, fontsize=10)

plt.grid(color='gray', linestyle='--', linewidth=0.5, alpha=0.7)
plt.legend(fontsize=12, loc='upper left')
plt.tight_layout()

plt.show()

#### Com base nessa análise, iremos filtrar os valores ausentes com a moda da coluna 'ultima_review', ou seja, o valor mais frequente que nesse caso é '2019-06-23'. Percebe-se a crescente ao longo dos anos do número de comentários dados a cada listagem.

In [None]:
moda_ultima_review = data['ultima_review'].mode()[0]
print(moda_ultima_review)

In [None]:
data['ultima_review'] = data['ultima_review'].fillna(moda_ultima_review)
data['ultima_review'].isnull().sum()


- 'reviews_por_mes': coluna de variáveis quantitativas contínuas

In [None]:
data['reviews_por_mes'].isnull().sum()

In [None]:
data['reviews_por_mes'].value_counts()

In [None]:
agrupado_reviews_mensais = data.groupby(['reviews_por_mes']).size()
agrupado_reviews_mensais.sort_values(ascending=False)

In [None]:
# armazenamento dos valores da coluna em uma variável
reviews_values = data['reviews_por_mes'].values

fig, ax = plt.subplots(1, 2, figsize=(18, 6))

# histograma 
sns.histplot(reviews_values, bins=30, kde=False, color='#1f77b4', edgecolor='black', ax=ax[0])
ax[0].set_title('Histograma dos Reviews por Mês', fontsize=14, fontweight='bold')
ax[0].set_xlabel('Reviews por Mês', fontsize=12)
ax[0].set_ylabel('Frequência', fontsize=12)
ax[0].grid(axis='y', linestyle='--', linewidth=0.5, alpha=0.7)

# gráfico de densidade
sns.kdeplot(reviews_values, color='r', fill=True, alpha=0.6, ax=ax[1])
ax[1].set_title('Densidade dos Reviews por Mês', fontsize=14, fontweight='bold')
ax[1].set_xlabel('Reviews por Mês', fontsize=12)
ax[1].set_ylabel('Densidade', fontsize=12)
ax[1].grid(axis='y', linestyle='--', linewidth=0.5, alpha=0.7)


plt.tight_layout()

plt.show()

#### Com base nessa análise, iremos filtrar os valores ausentes com a média da coluna 'reviews_por_mes', nesse caso é aproximadamente 1.37

In [None]:
media_reviews_mensais = data['reviews_por_mes'].mean()
media_reviews_mensais

In [None]:
data['reviews_por_mes'] = data['reviews_por_mes'].fillna(media_reviews_mensais)
data['reviews_por_mes'].isnull().sum()

#### O tratamento de valores ausentes foi concluído com base na categoria das colunas, aplicando métodos distintos para variáveis qualitativas e quantitativas.

### 3.2 - Análise e Tratamento de Outliers

- 'price': coluna de variáveis quantitativas discretas

In [None]:
data['price'].value_counts()

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='price', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Preços', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Preço', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### Substituição de Outlier pelos Limites

Útil para preservar os dados, mas reduzir o impacto dos outliers. Esses limites são definidos pelo IQR. Nesses casos, também poderia remover os outliers, porém geraria mais valores nulos, então para simplificar irei somente substituir pelos limites

In [None]:
Q1 = data['price'].quantile(0.25)  # primeiro quartil
Q3 = data['price'].quantile(0.75)  # terceiro quartil
IQR = Q3 - Q1                      # intervalo interquartil

# limites
limite_inferior_preco = data['price'].min()
limite_superior_preco = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior_preco}")
print(f"Limite superior: {limite_superior_preco}")

In [None]:
data['price'] = data['price'].clip(lower=limite_inferior_preco, upper=limite_superior_preco)

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='price', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Preços', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Preço', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

---

- 'minimo_noites': coluna de variáveis quantitativas discretas

In [None]:
data['minimo_noites'].value_counts()

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='minimo_noites', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Minimo de Noites', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Mínimo Noites', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### Substituição de Outlier pelos Limites

In [None]:
Q1 = data['minimo_noites'].quantile(0.25)  # primeiro quartil
Q3 = data['minimo_noites'].quantile(0.75)  # terceiro quartil
IQR = Q3 - Q1                              # intervalo interquartil

# limites
limite_inferior_noites = data['minimo_noites'].min()
limite_superior_noites = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior_noites}")
print(f"Limite superior: {limite_superior_noites}")

In [None]:
data['minimo_noites'] = data['minimo_noites'].clip(lower=limite_inferior_noites, upper=limite_superior_noites)

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='minimo_noites', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Minimo de Noites', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Mínimo Noites', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

---

- 'numero_de_reviews': coluna de variáveis quantitativas discretas

In [None]:
data['numero_de_reviews'].value_counts()

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='numero_de_reviews', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Número de Reviews', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Número de Reviews', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### Substituição de Outlier pelos Limites

In [None]:
Q1 = data['numero_de_reviews'].quantile(0.25)  # primeiro quartil
Q3 = data['numero_de_reviews'].quantile(0.75)  # terceiro quartil
IQR = Q3 - Q1                                  # intervalo interquartil

# limites
limite_inferior_reviews = data['numero_de_reviews'].min()
limite_superior_reviews = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior_reviews}")
print(f"Limite superior: {limite_superior_reviews}")

In [None]:
data['numero_de_reviews'] = data['numero_de_reviews'].clip(lower=limite_inferior_reviews, upper=limite_superior_reviews)

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='numero_de_reviews', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Número de Reviews', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Número de Reviews', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

---

- 'reviews_por_mes': coluna de variáveis quantitativas contínuas

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='reviews_por_mes', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Reviews Mensais', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Reviews Mensais', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### Substituição de Outlier pelos Limites

In [None]:
Q1 = data['reviews_por_mes'].quantile(0.25)  # primeiro quartil
Q3 = data['reviews_por_mes'].quantile(0.75)  # terceiro quartil
IQR = Q3 - Q1                                  # intervalo interquartil

# limites
limite_inferior_reviews_mensais = data['reviews_por_mes'].min()
limite_superior_reviews_mensais = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior_reviews_mensais}")
print(f"Limite superior: {limite_superior_reviews_mensais}")

In [None]:
data['reviews_por_mes'] = data['reviews_por_mes'].clip(lower=limite_inferior_reviews_mensais, upper=limite_superior_reviews_mensais)

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='reviews_por_mes', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Reviews Mensais', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Reviews Mensais', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

- 'calculado_host_listings_count': coluna de variáveis quantitativas discretas

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='calculado_host_listings_count', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Host Count', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Host Count', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### Substituição de Outlier pelos Limites

In [None]:
Q1 = data['calculado_host_listings_count'].quantile(0.25)  # primeiro quartil
Q3 = data['calculado_host_listings_count'].quantile(0.75)  # terceiro quartil
IQR = Q3 - Q1                                              # intervalo interquartil

# limites
limite_inferior_host = data['calculado_host_listings_count'].min()
limite_superior_host = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior_host}")
print(f"Limite superior: {limite_superior_host}")

In [None]:
data['calculado_host_listings_count'] = data['calculado_host_listings_count'].clip(lower=limite_inferior_host, upper=limite_superior_host)

In [None]:
plt.figure(figsize=(12, 6))

sns.boxplot(data=data, x='calculado_host_listings_count', color='#1f77b4', fliersize=5, linewidth=2, whis=1.5)

plt.title('Análise de Outliers - Host Count', fontsize=16, fontweight='bold', pad=15)
plt.xlabel('Host Count', fontsize=12, labelpad=10)

plt.grid(axis='x', linestyle='--', linewidth=0.5, alpha=0.7)

plt.tight_layout()

plt.show()

#### O tratamento de outlier foi concluído com base no intervalo interquartil (IQR), aplicando o método de substituir os valores outliers pelos limites.

---

### 3.2 Encoding de Variáveis

Essa etapa busca transformar as variáveis categóricas em 'numéricas' com o objetivo de calcular a correlação de todas as variáveis e depois treinar um modelo com base em todas as variáveis, como pedido no teste do desafio.

In [None]:
print(data.select_dtypes(include=['object', 'category']).nunique())

#### As variáveis 'nome', 'host_name', 'bairro' e 'ultima_review' possuem alta cardinalidade, ou seja, possuem muitos valores únicos. Aplicar One-Hot Encoding a essas variáveis criaria um grande número de colunas, resultando em problemas de dimensionalidade e alto consumo de memória. Para lidar com isso será utilizada a técnica de Target Encoding que substitui os valores categóricos por estatísticas da variável-alvo, nesse caso 'price', preservando a relação dessas variáveis com o objetivo do modelo.

In [None]:
target_encoder_name = ce.TargetEncoder()
target_encoder_host = ce.TargetEncoder()
target_encoder_bairro = ce.TargetEncoder()

In [None]:
data['nome'] = target_encoder_name.fit_transform(data['nome'], data['price'])
data['host_name'] = target_encoder_host.fit_transform(data['host_name'], data['price'])
data['bairro'] = target_encoder_bairro.fit_transform(data['bairro'], data['price'])

#### Já as variáveis 'bairro_group' e 'room_type' possuem baixa cardinalidade, por isso a melhor técnica a se aplicar é One-Hot-Encoding

In [None]:
data = pd.get_dummies(data, columns=['bairro_group', 'room_type'])

---

### 3.3 - Análise de Correlação das Variáveis

In [None]:
matriz_correlacao = data.corr(numeric_only=True)
matriz_correlacao

In [None]:
plt.figure(figsize=(12, 10)) 
sns.heatmap(
    matriz_correlacao,
    annot=False,
    cmap='coolwarm',
    fmt=".2f",
    linewidths=0.5,
    annot_kws={"size": 10},  # ajuste do tamanho do texto nas células
    cbar_kws={"shrink": 0.8},  # reduz o tamanho da barra de cores
)

plt.title('Gráfico de Correlação', fontsize=18, pad=20)  
plt.xticks(rotation=45, ha='right', fontsize=10)  # rotaciona os rótulos e ajusta o alinhamento
plt.yticks(rotation=0, fontsize=10)  
plt.tight_layout()  

plt.show()

In [None]:
data.info()

In [None]:
data.reviews_por_mes.isnull().sum()