# Desafio Indicium!

## 1 - Analise Exploratoria dos dados, entendendo meus dados. 

### Entender a Estrutura dos dados, o que temos?
 
id – Atua como uma chave exclusiva para cada anúncio 
nos dados do aplicativo \
nome - Representa o nome do anúncio \
host_id - Representa o id do usuário que hospedou o anúncio \
host_name – Contém o nome do usuário que hospedou o anúncio \
bairro_group - Contém o nome do bairro onde o anúncio está localizado \
bairro - Contém o nome da área onde o anúncio está localizado \
latitude - Contém a latitude do local \
longitude - Contém a longitude do local \
room_type – Contém o tipo de espaço de cada anúncio \
price - Contém o preço por noite em dólares listado pelo anfitrião \
minimo_noites - Contém o número mínimo de noites que o usuário deve reservar \
numero_de_reviews - Contém o número de comentários dados a cada listagem \
ultima_review - Contém a data da última revisão dada à listagem \
reviews_por_mes - Contém o número de avaliações fornecidas por mês \
calculado_host_listings_count - Contém a quantidade de listagem por host \
disponibilidade_365 - Contém o número de dias em que o anúncio está disponível para reserva \

Agora vamos checar as informações, usando a biblioteca de python "pandas" para manipulção de dados: \
a. Conseguir acessar as informações da nossa Base de dados. \
b. Checar o arquivo e comparar com o que já temos para validar as informações. \
c. Verificar formas de facilitar os proximos passos \
d. Entender totalmente com o que estamos trabalhando

In [None]:
!pip install pandas

In [None]:
import pandas as pd

source = "https://drive.google.com/uc?id=1e1nrIDl-_9YwQNZwbCpWlqylotFlTpya"
dataBase = pd.read_csv(source)

# Verificar o acesso ao arquivo, e monstrar suas informações
print(dataBase.info())

In [None]:
# Estrutura dos nossos dados
dataBase.head(1)

In [None]:
print("Tipos de quartos possiveis:")
print(dataBase['room_type'].unique())

In [None]:
print("Regiões da nossa base de dados (bairro_group):")
print((dataBase['bairro_group'].unique()))

In [None]:
print("Numero de bairros de cada região:")

bairros = 0
i = 1;
for group in dataBase['bairro_group'].unique():
    bairro_group_unique = dataBase[dataBase['bairro_group'] == group]
    bairro_unique = bairro_group_unique['bairro'].unique()
    numero_de_bairros = len(bairro_unique)
    bairros += numero_de_bairros
    print(f"( {i} ) {group} neighborhoods: {numero_de_bairros}")
    i = i + 1
print(f"Numero total de bairros: {bairros}")

In [None]:
print("Valores Nulos em Nossa Base de dados:")
print((dataBase.isnull()).sum())

In [None]:
dataBase.describe()

### EDA - P1
Agora que temos a visão geral da nossa base de dados, além de informações relevantes como tipos de dados errados, dados incompletos, vamos proseguir para uma analise estatistica inicial, para comparação futura.

Uma das melhores formas de entender outliers, informações incorretas, etc... em nossos dados, é utilizar graficos como Box-Plot (dataBases de pequena a media) ideal para valores extremos em variaveis unicas. \
E Histogramas para a frequencia de destribuição. será que nossos dados sequem a distribuição gaussiana?

No final pensando no Residual plot, para detectar outliers que podem afetar nossa analise de regressão, apontando para residuais altos, e analisar
desvios do modelo.

In [None]:
!pip install matplotlib
!pip install seaborn

### Funções

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [None]:
if not os.path.exists('EDA_P1'):
    os.makedirs('EDA_P1')

def save_figure(nome_arquivo, pasta, figure):
    caminho_arquivo = os.path.join(pasta, nome_arquivo)
    figure.savefig(caminho_arquivo)
    plt.close()

def plot_boxplot(nome_arquivo, titulo, coluna, dataBase, legenda_x):
    fig, ax = plt.subplots(figsize=(12, 8))
    sns.boxplot(x=dataBase[coluna], color='blue', ax=ax)
    ax.set_title(titulo, fontsize=15, style='italic', pad=20)
    ax.set_xlabel(legenda_x, fontsize=10)
    plt.show()
    save_figure(nome_arquivo, 'EDA_P1', fig)

def plot_histogram(nome_arquivo, titulo, coluna, dataBase, legenda_x):
    fig, ax = plt.subplots(figsize=(12, 8))
    max_value_x = dataBase[coluna].max() * 1.1  # Calculate max from data
    sns.histplot(dataBase[coluna], bins=75, kde=True, color='green', ax=ax)
    sns.rugplot(dataBase[coluna], color='red', height=0.01, ax=ax)
    ax.set_title(titulo, fontsize=15, style='italic', pad=20)
    ax.set_xlabel(legenda_x, fontsize=10)
    ax.set_ylabel('Frequencia', fontsize=10)
    ax.set_xlim(0, max_value_x)
    plt.show()
    save_figure(nome_arquivo, 'EDA_P1', fig)
    
def plot_heatmap(nome_arquivo, titulo, dataBase, valores, indices, colunas, media="Mediana"):
    fig, ax = plt.subplots(figsize=(12, 8))
    pivot_data = dataBase.pivot_table(values=valores, index=indices, columns=colunas)
    sns.heatmap(pivot_data, annot=True, cmap='YlOrBr', fmt='.0f', 
                linewidths=.5, cbar_kws={'label': media}, ax=ax)
    ax.set_title(titulo)
    ax.set_xlabel(colunas)
    ax.set_ylabel(indices)
    plt.show()
    save_figure(nome_arquivo, 'EDA_P1', fig)

def plot_scatter(nome_arquivo, titulo, dataBase, x_col, y_col, hue_col,
                 legenda_x='X', legenda_y='Y', figsize=(12, 8)):
    fig, ax = plt.subplots(figsize=figsize)
    sns.scatterplot(data=dataBase, x=x_col, y=y_col, hue=hue_col, ax=ax, palette='viridis')
    ax.set_title(titulo, fontsize=15, style='italic', pad=20)
    ax.set_xlabel(legenda_x, fontsize=12)
    ax.set_ylabel(legenda_y, fontsize=12)
    if hue_col:
        ax.legend(title=hue_col, bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.show()
    save_figure(nome_arquivo, 'EDA_P1', fig)


### Graficos HISTOGRAMAS_EDA_P1

In [None]:
plot_histogram(
    nome_arquivo='histograma_night_EDA_P1.png',
    titulo='Distribuição de noites minimas + kde',
    coluna='minimo_noites',
    dataBase=dataBase, 
    legenda_x='Noites Minimas'
)

plot_histogram(
    nome_arquivo='histograma_price_EDA_P1.png',
    titulo='Distribuição de preços + kde',
    coluna='price',
    dataBase=dataBase, 
    legenda_x='Preço'
)

plot_histogram(
    nome_arquivo='histograma_reviews_EDA_P1.png',
    titulo='Distribuição de Reviews + kde',
    coluna='numero_de_reviews',
    dataBase=dataBase, 
    legenda_x='Reviews'
)

plot_histogram(
    nome_arquivo='histograma_reviewPorMes_EDA_P1.png',
    titulo='Distribuição Reviews por mes + kde',
    coluna='reviews_por_mes',
    dataBase=dataBase, 
    legenda_x='Reviews Por Mes'
)

plot_histogram(
    nome_arquivo='histograma_listings_EDA_P1.png',
    titulo='Distribuição Listagens + kde',
    coluna='calculado_host_listings_count',
    dataBase=dataBase, 
    legenda_x='Numero de Listagens'
)

plot_histogram(
    nome_arquivo='histograma_disponibilidade_EDA_P1.png',
    titulo='Distribuição Disponibilidade + kde',
    coluna='disponibilidade_365',
    dataBase=dataBase, 
    legenda_x='Disponibilidade'
)

### Graficos De vela  EDA_P1

In [None]:
plot_boxplot(
    nome_arquivo='boxplot_night_EDA_P1.png',
    titulo='Variabilidade em vela de noites minimas',
    coluna='minimo_noites',
    dataBase=dataBase, 
    legenda_x='Noites Minimas'
)

plot_boxplot(
    nome_arquivo='boxplot_price_EDA_P1.png',
    titulo='Variabilidade em vela de preços',
    coluna='price',
    dataBase=dataBase, 
    legenda_x='Preço'
)

plot_boxplot(
    nome_arquivo='boxplot_reviews_EDA_P1.png',
    titulo='Variabilidade em vela de Reviews',
    coluna='numero_de_reviews',
    dataBase=dataBase, 
    legenda_x='Reviews'
)

plot_boxplot(
    nome_arquivo='boxplot_reviewPorMes_EDA_P1.png',
    titulo='Variabilidade em vela de Reviews por mes',
    coluna='reviews_por_mes',
    dataBase=dataBase, 
    legenda_x='Reviews Por Mes'
)

plot_boxplot(
    nome_arquivo='boxplot_listings_EDA_P1.png',
    titulo='Variabilidade em vela de Listagens',
    coluna='calculado_host_listings_count',
    dataBase=dataBase, 
    legenda_x='Numero de Listagens'
)

plot_boxplot(
    nome_arquivo='boxplot_disponibilidade_EDA_P1.png',
    titulo='Variabilidade em vela de Disponibilidade',
    coluna='disponibilidade_365',
    dataBase=dataBase, 
    legenda_x='Disponibilidade'
)

### Grafico de Calor

In [None]:
# Separar por bairros
bairros = dataBase.groupby('bairro_group')

# Fazer a mediana dos dados, para reduzir o efeito dos outliers
mediana_por_bairro = bairros.agg({
    'price': 'median',
    'minimo_noites': 'median',
    'numero_de_reviews': 'median',
    'reviews_por_mes': 'median',
    'disponibilidade_365': 'median',
    'calculado_host_listings_count': 'median'
})

# Coloca os bairros em uma coluna 
mediana_por_bairro = mediana_por_bairro.reset_index()

# Converter em formato longo para o heatmap (colunas viram linhas, para preservar bairros, nomes, mediana)
dados_longos = mediana_por_bairro.melt(
    id_vars=['bairro_group'],
    var_name='metrica',
    value_name='mediana'
)

plot_heatmap(
    nome_arquivo='heatmap_medianas_EDA_P1.png', 
    titulo='Comparação de Medidas Centrais por Região',
    dataBase=dados_longos,
    valores='mediana',
    indices='bairro_group',
    colunas='metrica',
    media="Valor Mediano"
)

# Filtrar areas para analise
metricas_principais = ['price', 'minimo_noites', 'numero_de_reviews', 'disponibilidade_365']
dados_filtrados = dados_longos[dados_longos['metrica'].isin(metricas_principais)]

# Plotar heatmap  com areas especificas
plot_heatmap(
    nome_arquivo='heatmap_medianas_selected_EDA_P1.png', 
    titulo='Principais Métricas de Aluguel por Região',
    dataBase=dados_filtrados,
    valores='mediana',
    indices='bairro_group',
    colunas='metrica',
    media="Valor Central"
)

In [None]:
plot_scatter(
    nome_arquivo='scatterplot_reviews_price_EDA_P1.png',
    titulo='Preço vs. Número de Reviews por Região',
    dataBase=dataBase,
    x_col='numero_de_reviews',
    y_col='price',
    hue_col='bairro_group',
    legenda_x='Número de Reviews',
    legenda_y='Preço (USD)',
    figsize=(12, 8)
)

## insights

Então:
O que conseguimos observar com clareza é a influencia que os valores extremos estão tendo em nossa analise inicial \
dificultando um entendimento geral, e a necessidade da limpeza e tratamento dos dados antes de proseguir.

Temos 5 Regiões: 'Manhattan' 'Brooklyn' 'Queens' 'Staten Island' 'Bronx' \
Numero de bairros de cada região: \
( 1 ) Queens neighborhoods: 51 \
( 2 ) Bronx neighborhoods: 48 \
( 3 ) Brooklyn neighborhoods: 47 \
( 4 ) Staten Island neighborhoods: 43 \
( 5 ) Manhattan neighborhoods: 32 \
Numero total de bairros: 221 


Também nós traz passos que devemos tomar a frente, principalmente em review. price, noites_minimas
- *ultima_review* \
Está com um tipo ineficiente para tempo, um Object \
Ou seja, provavelmente em formato string, sendo ideal a troca para operações mais eficientes. como para o tipo datetime.
- *reviews_por_mes* \
Apresenta o tipo float, sendo que não pode existir meio review, deverá ser convertido em uma Integer.
- *host_name* \
  Valores "NaN". Que devem ser tratados para preservar a integridade da base de dados.
- *nome* \
  Valores "NaN". ue devem ser tratados para preservar a integridade da base de dados.
- *price* \
  Valor Minimo zero, o que indica um erro, ou estrategia para ganhar novos reviews. \
  Valor Maximo muito além do nosso desvio padrão.pk
- *minimo_noites* \
  Valor Maximo muito além do nosso desvio padrão.
- *preçoVsNumero_de_reviews* \
   Preçõs muito altos e sem reviews, podem demonstrar erros humanos de novos listings
### hipótese review
A falta de dados do tipo /*ultima review*/ e /*review_por_mes*/ deve ser devido a 
novos usuarios, caso /*numero_de_reviews*/ seja nulo \
Temos um novo User, Afinal:
- *ultima review* / *review_por_mes* / *numero_de_reviews* \

Aparentemente são correlacionados e fortemente dependendes um dos outros, também trazem uma possibilidade de uma analise temporal \
Para ter certeza devemos ir mais a fundo, tavez tentar um Pair plot ou Scatter plot (2 variaveis)

# 2 - Limpeza e tratamento  

## Converter Tipos Errados

In [None]:
import numpy as np

In [None]:
# Converter os dados errados

dataBase['ultima_review'] = pd.to_datetime(
    dataBase['ultima_review'],
    errors='coerce',  # Convert invalid dates to NaT
    format='%Y-%m-%d'  # Adjust to match your date format
)
# method de aredondar para cima, assim podemos evitar de substimar listings com atividade, levando-os para zero
# Substituir NaN por 0
dataBase['reviews_por_mes'] = (
    dataBase['reviews_por_mes']
    .fillna(0)                      # Handle any remaining nulls
    .apply(np.ceil)                 # Round up decimals
    .astype(int)                    # Convert to integer
)

dataBase['host_name'] = dataBase['host_name'].fillna('unknown_hostName')
dataBase['nome'] = dataBase['nome'].fillna('unknown_host')

# review_por_mes > 0 && ultima review is NaN | calculado_host_listings_count > 0 
# checar se zero reviews, se traduz em zero reviews_por_mes e NaN ultima_review
# igorar count_listing, usuario deve conseguir deletar seus listings, assim sendo possivel a permanencia desses dados com zero listings
invalid_mask = ((dataBase['numero_de_reviews'] == 0) & ((dataBase['reviews_por_mes'] != 0) | dataBase['ultima_review'].notna()))
invalid_cases = dataBase[invalid_mask]
if not invalid_cases.empty:
    print('Error - Dados invalidos!')
else:
    print('Ok')

In [None]:
dataBase.info()

In [None]:
(dataBase.isnull()).sum()

In [None]:

# porcentagem de valores não presentes na base de dados (review).
total = ultima_review = reviews_por_mes = 38842
numero_de_reviews = 48894
missing_percentual = (100 - (reviews_por_mes / numero_de_reviews) * 100)
print(f"Porcentagem de valores Nulos representa {missing_percentual:.1f}% de {numero_de_reviews}")

In [None]:
#verificar se ambos ultima_review e reviews_por_mes são nulos, se sim, então é um novo usuario
#null_last = dataBase['ultima_review'].isnull()
#null_monthly = dataBase['reviews_por_mes'].isnull()

#dataBase['novo'] = (null_last & null_monthly)

In [None]:
# Verificar se há algum 'novo' com 'calculated_host_listings_count' maior que 1 ou menor ou igual a 0
new_listings = dataBase[dataBase['novo'] == True]
new_listings_error = any(new_listings['numero_de_reviews'] != 0)

if new_listings_error :
    print("yes")
else :
    print("no")


In [None]:
# confirmar que tudo deu certo
print(dataBase.info())
dataBase.head(1)

In [None]:
# Verificar se temos casos em que ultima review ou reviews_por_mes existe e o outro não para confirmar a teoria dos new listing
null_last = dataBase['ultima_review'].isnull()
null_monthly = dataBase['reviews_por_mes'].isnull()

first_possibility = (null_last & ~null_monthly).any()
secound_possibility = (~null_last & null_monthly).any()

if first_possibility or secound_possibility :
    print("yes")
else :
    print("no")

Com isso podemos ter certeza que nossa nova coluna está implementada de forma correta, e não temos valores que fujam dessa
logica em que todos os listing sem novos reviews e sem historico, são novos listings.
Continuaremos a entender melhor nossos dados com foco em bairro_group, bairro, room_type.