# Projeto Airbnb Rio - Ferramenta de Previsão de Preço de Imóvel para pessoas comuns 

### Contexto

No Airbnb, qualquer pessoa que tenha um quarto ou um imóvel de qualquer tipo (apartamento, casa, chalé, pousada, etc.) pode ofertar o seu imóvel para ser alugado por diária.

Você cria o seu perfil de host (pessoa que disponibiliza um imóvel para aluguel por diária) e cria o anúncio do seu imóvel.

Nesse anúncio, o host deve descrever as características do imóvel da forma mais completa possível, de forma a ajudar os locadores/viajantes a escolherem o melhor imóvel para eles (e de forma a tornar o seu anúncio mais atrativo)

Existem dezenas de personalizações possíveis no seu anúncio, desde quantidade mínima de diária, preço, quantidade de quartos, até regras de cancelamento, taxa extra para hóspedes extras, exigência de verificação de identidade do locador, etc.

### Nosso objetivo

Construir um modelo de previsão de preço que permita uma pessoa comum que possui um imóvel possa saber quanto deve cobrar pela diária do seu imóvel.

Ou ainda, para o locador comum, dado o imóvel que ele está buscando, ajudar a saber se aquele imóvel está com preço atrativo (abaixo da média para imóveis com as mesmas características) ou não.

### O que temos disponível, inspirações e créditos

As bases de dados foram retiradas do site kaggle: https://www.kaggle.com/allanbruno/airbnb-rio-de-janeiro

Caso queira uma outra solução, podemos olhar como referência a solução do usuário Allan Bruno do kaggle no Notebook: https://www.kaggle.com/allanbruno/helping-regular-people-price-listings-on-airbnb

Você vai perceber semelhanças entre a solução que vamos desenvolver aqui e a dele, mas também algumas diferenças significativas no processo de construção do projeto.

- As bases de dados são os preços dos imóveis obtidos e suas respectivas características em cada mês.
- Os preços são dados em reais (R$)
- Temos bases de abril de 2018 a maio de 2020, com exceção de junho de 2018 que não possui base de dados

### Expectativas Iniciais

- Acredito que a sazonalidade pode ser um fator importante, visto que meses como dezembro costumam ser bem caros no RJ
- A localização do imóvel deve fazer muita diferença no preço, já que no Rio de Janeiro a localização pode mudar completamente as características do lugar (segurança, beleza natural, pontos turísticos)
- Adicionais/Comodidades podem ter um impacto significativo, visto que temos muitos prédios e casas antigos no Rio de Janeiro

Vamos descobrir o quanto esses fatores impactam e se temos outros fatores não tão intuitivos que são extremamente importantes.

In [56]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pathlib

### Consolidar Base de Dados

In [None]:
meses = {'jan': 1, 'fev':2, 'mar':3, 'abr': 4, 'mai':5, 'jun': 6, 'jul': 7, 'ago': 8, 'set': 9, 'out': 10, 'nov': 11, 'dez': 12}

#definindo o caminho base para os meus arquivos
caminho = pathlib.Path('dataset')

base_airbnb = pd.DataFrame()
bases = []

#percorrendo todos os meus arquivos
for arquivo in caminho.iterdir():
    #armazenando o mês do arquivo para colocar na base de dados depois, pois iremos perder essa informação
    nome_mes = arquivo.name[:3]
    if nome_mes == 'tot':
        pass
    else:
        mes = meses[nome_mes]

        #armazenando o ano do arquivo para colocar na base de dados depois, pois iremos perder essa informação
        ano = arquivo.name[-8:]
        ano = int(ano.replace('.csv', ''))

        base = pd.read_csv(caminho / arquivo.name, low_memory=False)
        base_airbnb['ano'] = ano
        base_airbnb['mes'] = mes
        base['year'] = ano
        base['month'] = mes
        bases.append(base)

base_airbnb = pd.concat(bases)
display(base_airbnb)

Como essa base de dados demora para ser analisada, vou criar uma base de backup, para caso eu faça algo que não seja bom para o modelo no futuro não preciso perder muito tempo nesse código

In [None]:
airbnb_df = base_airbnb

 Vou excluir algumas colunas que não vão ajudar no nosso modelo de previsão, para deixar o modelo mais leve e com menos falhas. Para isso vou gerar um arquivo em excel com os mil primeiros dados da tabela para fazer uma análise qualitativa.
 
 Colunas Excluídas:
 
     1- ID, Links e colunas que não possuem uma informação relevante para o modelo
     2- Colunas com as mesmas informações ou com informações parecidas. EX: Data x Ano/Mês
     3- Colunas com texto livre, pois não faremos uma análise de palavras ou algo parecido
     4- Colunas que possuem todos ou quase todos os valores com mesmo valor/vazios
     
     

In [None]:
# cria um arquivo csv com as primeiras 1000 linhas do nosso DatFrame airbnb_df para fazermos uma análise das colunas mais facilmente
#airbnb_df.head(1000).to_csv('registros.csv')

# Excluindo as colunas que não trazem informações relevantes

In [None]:
print(airbnb_df[['host_acceptance_rate']].value_counts())

In [None]:
print((airbnb_df['host_listings_count']==airbnb_df['host_total_listings_count']).value_counts())

In [None]:
colunas = ['host_response_time', 'host_response_rate', 'host_is_superhost', 'host_listings_count', 'latitude', 'longitude', 'property_type', 'room_type', 'accommodates', 'bathrooms', 'bedrooms', 'beds', 'bed_type', 'amenities', 'price', 'security_deposit', 'cleaning_fee', 'guests_included', 'extra_people', 'minimum_nights', 'maximum_nights', 'number_of_reviews', 'review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication', 'review_scores_location', 'review_scores_value', 'instant_bookable', 'cancellation_policy', 'year', 'month']

airbnb_df = airbnb_df.loc[:, colunas]
display(airbnb_df)


# Depois de excluir as colunas que não serão úteis para o nosso modelo vamos analisar os valores vazios


In [None]:
print(airbnb_df.isnull().sum())

1- como temos muitos valores nulos em algumas colunas, compensa excluir essas colunas, pois caso preenchecemos com algum tipo de parâmetro poderiamos prejudicar o bosso modelodo

2- para as outras colunas que temos poucos NaN vamos excluir a linha inteira, pois temos mais de 900 mil linhas 

In [None]:
# como temos muitos valores nulos em algumas colunas, compensa excluir essas colunas, pois caso preenchecemos 
# com algum tipo de parâmetro poderiamos prejudicar o bosso modelodo
for coluna in airbnb_df:
    if airbnb_df[coluna].isnull().sum() > 300000:
        airbnb_df = airbnb_df.drop(coluna, axis=1)
print(airbnb_df.isnull().sum())

In [None]:
airbnb_df = airbnb_df.dropna()
print(airbnb_df.isnull().sum())

In [None]:
print(airbnb_df.shape)

# Ajeitando os tipos de dados

In [None]:
print(airbnb_df.dtypes)
print('-'*60)
print(airbnb_df.iloc[0])

Como a coluna price e extra_people estão sendo reconhecidas como texto (o esperado era ser reconhecido como um número), precisaremos fazer algumas alterações nesses dados

In [None]:
#price
airbnb_df['price'] = airbnb_df['price'].str.replace('$','')
airbnb_df['price'] = airbnb_df['price'].str.replace(',','')
airbnb_df['price'] = airbnb_df['price'].astype(np.float32, copy=False)

#extra_people
airbnb_df['extra_people'] = airbnb_df['extra_people'].str.replace('$','')
airbnb_df['extra_people'] = airbnb_df['extra_people'].str.replace(',','')
airbnb_df['extra_people'] = airbnb_df['extra_people'].astype(np.float32, copy=False)

Quando temos muitos dados é melhor trabalharmos com float32 ou int32, por conta de ocupação de memória, então vou tranformá-los de 64 para 32

In [None]:
for coluna in airbnb_df:
    if airbnb_df[coluna].dtypes == 'float64':
        airbnb_df[coluna] = airbnb_df[coluna].astype(np.float32, copy=False)
    if airbnb_df[coluna].dtypes == 'int64':
        airbnb_df[coluna] = airbnb_df[coluna].astype(np.int32, copy=False)

In [None]:
print(airbnb_df.dtypes)

### Análise Exploratória e Tratar Outliers

- Vamos basicamente olhar feature por feature para:
    1. Ver a correlação entre as features e decidir se manteremos todas as features que temos.
    2. Excluir outliers (usaremos como regra, valores abaixo de Q1 - 1.5xAmplitude e valores acima de Q3 + 1.5x Amplitude). Amplitude = Q3 - Q1
    3. Confirmar se todas as features que temos fazem realmente sentido para o nosso modelo ou se alguma delas não vai nos ajudar e se devemos excluir
    
- Vamos começar pelas colunas de preço (resultado final que queremos) e de extra_people (também valor monetário). Esses são os valores numéricos contínuos.

- Depois vamos analisar as colunas de valores numéricos discretos (accomodates, bedrooms, guests_included, etc.)

- Por fim, vamos avaliar as colunas de texto e definir quais categorias fazem sentido mantermos ou não.

MAS CUIDADO: não saia excluindo direto outliers, pense exatamente no que você está fazendo. Se não tem um motivo claro para remover o outlier, talvez não seja necessário e pode ser prejudicial para a generalização. Então tem que ter uma balança ai. Claro que você sempre pode testar e ver qual dá o melhor resultado, mas fazer isso para todas as features vai dar muito trabalho.

Ex de análise: Se o objetivo é ajudar a precificar um imóvel que você está querendo disponibilizar, excluir outliers em host_listings_count pode fazer sentido. Agora, se você é uma empresa com uma série de propriedades e quer comparar com outras empresas do tipo também e se posicionar dessa forma, talvez excluir quem tem acima de 6 propriedades tire isso do seu modelo. Pense sempre no seu objetivo

In [None]:
plt.figure(figsize=(15,10))
sns.heatmap(airbnb_df.corr(numeric_only=True), annot=True, cmap='Greens')

### Definição de Funções para Análise de Outliers

Vamos definir algumas funções para ajudar na análise de outliers das colunas

In [None]:
def definir_limites(coluna):
    q1 = coluna.quantile(0.25)
    q3 = coluna.quantile(0.75)
    amplitude = q3 - q1
    return q1 - 1.5 * amplitude, q3 + 1.5 * amplitude


def excluir_outliers(df, coluna):
    qtd_linhas = df.shape[0]
    inf, sup = definir_limites(df[coluna])
    df = df.loc[(df[coluna] >= inf) & (df[coluna] <= sup), :]
    linhas_removidas = qtd_linhas - df.shape[0]
    return df, linhas_removidas

In [None]:
def diagrama_caixa(coluna):
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(15, 5)
    sns.boxplot(x=coluna, ax=ax1)
    ax2.set_xlim(definir_limites(coluna))
    sns.boxplot(x=coluna, ax=ax2)
    
def histograma(coluna):
    plt.figure(figsize=(15, 5))
    sns.histplot(data = airbnb_df, x=coluna, kde=True)
    
    
def barra(coluna):
    plt.figure(figsize=(15, 5))
    ax = sns.barplot(x=coluna.value_counts().index, y=coluna.value_counts())
    ax.set_xlim(definir_limites(coluna))

# price

In [None]:
diagrama_caixa(airbnb_df['price'])
histograma(airbnb_df['price'])

Como estamos construindo um modelo para imóveis comuns, acredito que os valores acima do limite superior serão apenas de apartamentos de altíssimo luxo, que não é o nosso objetivo principal. Por isso, podemos excluir esses outliers.

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'price')
print(f'{linhas_removidas} linhas removidas')

In [None]:
histograma(airbnb_df['price'])
print(airbnb_df.shape)

### extra_people

In [None]:
diagrama_caixa(airbnb_df['extra_people'])
histograma(airbnb_df['extra_people'])

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'extra_people')
print(f'{linhas_removidas} linhas removidas')

histograma(airbnb_df['extra_people'])
print(airbnb_df.shape)

### host_listings_count        

In [None]:
diagrama_caixa(airbnb_df['host_listings_count'])
barra(airbnb_df['host_listings_count'])

Podemos excluir os outliers, porque para o objetivo do nosso projeto porque hosts com mais de 6 imóveis no airbnb não é o público alvo do objetivo do projeto (imagino que sejam imobiliários ou profissionais que gerenciam imóveis no airbnb)

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'host_listings_count')
print(f'{linhas_removidas} linhas removidas')

### accommodates

In [None]:
diagrama_caixa(airbnb_df['accommodates'])
barra(airbnb_df['accommodates'])

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'accommodates')
print(f'{linhas_removidas} linhas removidas')

### bathrooms

In [None]:
diagrama_caixa(airbnb_df['bathrooms'])
plt.figure(figsize=(15, 5))
sns.barplot(x=airbnb_df['bathrooms'].value_counts().index, y=airbnb_df['bathrooms'].value_counts())

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'bathrooms')
print(f'{linhas_removidas} linhas removidas')

### bedrooms

In [None]:
diagrama_caixa(airbnb_df['bedrooms'])
barra(airbnb_df['bedrooms'])

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'bedrooms')
print(f'{linhas_removidas} linhas removidas')

### beds

In [None]:
diagrama_caixa(airbnb_df['beds'])
barra(airbnb_df['beds'])

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'beds')
print(f'{linhas_removidas} linhas removidas')

### guests_included

In [None]:
#diagrama_caixa(base_airbnb['guests_included'])
#grafico_barra(base_airbnb['guests_included'])
print(definir_limites(airbnb_df['guests_included']))
plt.figure(figsize=(15, 5))
sns.barplot(x=airbnb_df['guests_included'].value_counts().index, y=airbnb_df['guests_included'].value_counts())

Vamos remover essa feature da análise. Parece que os usuários do airbnb usam muito o valor padrão do airbnb como 1 guest included. Isso pode levar o nosso modelo a considerar uma feature que na verdade não é essencial para a definição do preço, por isso, me parece melhor excluir a coluna da análise

In [None]:
airbnb_df = airbnb_df.drop('guests_included', axis=1)
airbnb_df.shape

### minimum_nights 

In [None]:
diagrama_caixa(airbnb_df['minimum_nights'])
barra(airbnb_df['minimum_nights'])

- Aqui temos um motivo talvez até mais forte para excluir esses apartamentos da análise.

- Estamos querendo um modelo que ajude a precificar apartamentos comuns como uma pessoa comum gostaria de disponibilizar. No caso, apartamentos com mais de 8 noites como o "mínimo de noites" podem ser apartamentos de temporada ou ainda apartamentos para morar, em que o host exige pelo menos 1 mês no apartamento.

- Por isso, vamos excluir os outliers dessa coluna

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'minimum_nights')
print(f'{linhas_removidas} linhas removidas')

### maximum_nights

In [None]:
diagrama_caixa(airbnb_df['maximum_nights'])
barra(airbnb_df['maximum_nights'])

- Essa coluna não parece que vai ajudar na análise.

- Isso porque parece que quase todos os hosts não preenchem esse campo de maximum nights, então ele não parece que vai ser um fator relevante.

- É melhor excluirmos essa coluna da análise

In [None]:
airbnb_df = airbnb_df.drop('maximum_nights', axis=1)
airbnb_df.shape

### number_of_reviews

In [None]:
diagrama_caixa(airbnb_df['number_of_reviews'])
barra(airbnb_df['number_of_reviews'])

- Aqui temos um motivo talvez até mais forte para excluir esses apartamentos da análise.

- Estamos querendo um modelo que ajude a precificar apartamentos comuns como uma pessoa comum gostaria de disponibilizar. No caso, apartamentos com mais de 8 noites como o "mínimo de noites" podem ser apartamentos de temporada ou ainda apartamentos para morar, em que o host exige pelo menos 1 mês no apartamento.

- Por isso, vamos excluir os outliers dessa coluna

In [None]:
airbnb_df, linhas_removidas = excluir_outliers(airbnb_df, 'number_of_reviews')
print(f'{linhas_removidas} linhas removidas')

In [None]:
print(airbnb_df.shape)

### Tratamento de Colunas de Valores de Texto

### - property_type

In [None]:
print(airbnb_df['property_type'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['property_type'])
grafico.tick_params(axis='x', rotation=90)

- Aqui a nossa ação não é "excluir outliers", mas sim agrupar valores que são muito pequenos.

- Todos os tipos de propriedade que têm menos de 2.000 propriedades na base de dados, eu vou agrupar em um grupo chamado "outros". Acho que isso vai facilitar o nosso modelo

In [None]:
tipo_casas = airbnb_df['property_type'].value_counts()
agrupar = []

for tipo in tipo_casas.index:
    if tipo_casas[tipo] < 2000:
        agrupar.append(tipo)
print(agrupar)

for tipo in agrupar:
    airbnb_df.loc[airbnb_df['property_type']==tipo, 'property_type'] = 'Other'
    
print(airbnb_df['property_type'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['property_type'])
grafico.tick_params(axis='x', rotation=90)

### room_type                    

In [None]:
print(airbnb_df['room_type'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['room_type'])
grafico.tick_params(axis='x', rotation=90)

### bed_type

In [None]:
print(airbnb_df['bed_type'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['bed_type'])
grafico.tick_params(axis='x', rotation=90)

In [None]:
tipo_cama = airbnb_df['bed_type'].value_counts()
agrupar = []

for tipo in tipo_cama.index:
    if tipo_cama[tipo] < 10000:
        agrupar.append(tipo)
print(agrupar)

for tipo in agrupar:
    airbnb_df.loc[airbnb_df['bed_type']==tipo, 'bed_type'] = 'Other'

In [None]:
print(airbnb_df['bed_type'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['bed_type'])
grafico.tick_params(axis='x', rotation=90)

### cancellation_policy          

In [None]:
print(airbnb_df['cancellation_policy'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['cancellation_policy'])
grafico.tick_params(axis='x', rotation=90)

In [None]:
tipo_cancelameto = airbnb_df['cancellation_policy'].value_counts()
agrupar = []

for tipo in tipo_cancelameto.index:
    if tipo_cancelameto[tipo] < 10000:
        agrupar.append(tipo)
print(agrupar)

for tipo in agrupar:
    airbnb_df.loc[airbnb_df['cancellation_policy']==tipo, 'cancellation_policy'] = 'strict'

In [None]:
print(airbnb_df['cancellation_policy'].value_counts())
plt.figure(figsize=(15, 5))
grafico = sns.countplot(x=airbnb_df['cancellation_policy'])
grafico.tick_params(axis='x', rotation=90)

###  amenities

Como temos uma diversidade muito grande de amenities e, às vezes, as mesmas amenities podem ser escritas de forma diferente, vamos avaliar a quantidade de amenities como o parâmetro para o nosso modelo.

In [None]:
print(airbnb_df['amenities'].iloc[1].split(','))
print(len(airbnb_df['amenities'].iloc[1].split(',')))

airbnb_df['n_amenities'] = airbnb_df['amenities'].str.split(',').apply(len)

In [None]:
airbnb_df = airbnb_df.drop('amenities', axis=1)
airbnb_df.shape

In [None]:
diagrama_caixa(airbnb_df['amenities'])
histograma(airbnb_df['amenities'])