# Projeto Airbnb Rio - Ferramenta de Previsão de Preço de Imóvel para pessoas comuns 

### Contexto

No Airbnb, qualquer pessoa que tenha um quarto ou um imóvel de qualquer tipo (apartamento, casa, chalé, pousada, etc.) pode ofertar o seu imóvel para ser alugado por diária.

Você cria o seu perfil de host (pessoa que disponibiliza um imóvel para aluguel por diária) e cria o anúncio do seu imóvel.

Nesse anúncio, o host deve descrever as características do imóvel da forma mais completa possível, de forma a ajudar os locadores/viajantes a escolherem o melhor imóvel para eles (e de forma a tornar o seu anúncio mais atrativo)

Existem dezenas de personalizações possíveis no seu anúncio, desde quantidade mínima de diária, preço, quantidade de quartos, até regras de cancelamento, taxa extra para hóspedes extras, exigência de verificação de identidade do locador, etc.

### Nosso objetivo

Construir um modelo de previsão de preço que permita uma pessoa comum que possui um imóvel possa saber quanto deve cobrar pela diária do seu imóvel.

Ou ainda, para o locador comum, dado o imóvel que ele está buscando, ajudar a saber se aquele imóvel está com preço atrativo (abaixo da média para imóveis com as mesmas características) ou não.

### O que temos disponível, inspirações e créditos

As bases de dados foram retiradas do site kaggle: https://www.kaggle.com/allanbruno/airbnb-rio-de-janeiro

Elas estão disponíveis para download abaixo da aula (se você puxar os dados direto do Kaggle pode ser que encontre resultados diferentes dos meus, afinal as bases de dados podem ter sido atualizadas).

Caso queira uma outra solução, podemos olhar como referência a solução do usuário Allan Bruno do kaggle no Notebook: https://www.kaggle.com/allanbruno/helping-regular-people-price-listings-on-airbnb

Você vai perceber semelhanças entre a solução que vamos desenvolver aqui e a dele, mas também algumas diferenças significativas no processo de construção do projeto.

- As bases de dados são os preços dos imóveis obtidos e suas respectivas características em cada mês.
- Os preços são dados em reais (R$)
- Temos bases de abril de 2018 a maio de 2020, com exceção de junho de 2018 que não possui base de dados

### Expectativas Iniciais

- Acredito que a sazonalidade pode ser um fator importante, visto que meses como dezembro costumam ser bem caros no RJ
- A localização do imóvel deve fazer muita diferença no preço, já que no Rio de Janeiro a localização pode mudar completamente as características do lugar (segurança, beleza natural, pontos turísticos)
- Adicionais/Comodidades podem ter um impacto significativo, visto que temos muitos prédios e casas antigos no Rio de Janeiro

Vamos descobrir o quanto esses fatores impactam e se temos outros fatores não tão intuitivos que são extremamente importantes.

### Como funciona um Projeto de Cencia de Dados?
1. Entendimento do desafio que você quer resolver
2. Entendimento da Empresa/Área
3. Extração/Obtenção de Dados
4. Ajustes de Dados(Limpeza de Dados)
5. Análise Exploratória
6. Modelagem +Algorítimos
7. Interpretação de resultados
8. Deploy/Produção

### Importar Bibliotecas e Bases de Dados

In [None]:
import pandas as pd
import pathlib
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
meses= {'jan':1,'fev':2, 'mar':3, 'abr':4, 'mai':5, 'jun':6, 'jul':7, 'ago':8, 'set':9, 'out':10, 'nov':11, 'dez':12}

caminho_bases = pathlib.Path(r'C:\Users\magal\OneDrive\Área de Trabalho\aula python\Projeto 03 Ciência de Dados\dataset')

base_airbnb = pd.DataFrame()
for arquivo in caminho_bases.iterdir():
    nome_mes = arquivo.name [:3]
    mes =meses[nome_mes]
    ano = arquivo.name[-8:]
    ano = int(ano.replace('.csv', ''))
    df=pd.read_csv(caminho_bases/arquivo.name)
    df['mes']= mes
    df['ano']= ano
    base_airbnb = base_airbnb.append(df)
    
display(base_airbnb)

### Consolidar Base de Dados
- Como temos muitas colunas, nosso modelo pode acabar ficando muito lento.
- Uma análise rápida permite ver que várias colunas não são necessárias para o nosso modelo de previsão, por isso, vamos excluir algumas colunas de nossa base.
- Tipos de colunas que vamos excluir:
    1. IDs, links e informaçoes não relevantes para o modelo
    2. Colunas repetidas ou extremamente parecidas com outra (que passam a mesma informaçao para o modelo) Ex. Data x mes/ano
    3. Colunas preenchidas com texto livre (Não rodaremos nenhuma análise com palavras nesse modelo)
    4. Colunas em que todos ou quase todos os valores são iguais
- Para isso vamos criar um arquivo em excell com os 1000 primeiros registros, para fazer uma analise qualitativa 

In [None]:
print(list(base_airbnb.columns))
base_airbnb.head(1000).to_csv('primeiros_registros.csv', sep=";")

In [None]:
#celula auxiliar para análise de coluna
print(base_airbnb['experiences_offered'].value_counts())

In [None]:
#celula auxiliar para análise de coluna
print((base_airbnb['host_listings_count']==base_airbnb['host_total_listings_count']).value_counts())

In [None]:
#celula auxiliar para análise de coluna
print(base_airbnb['square_feet'].isnull().sum())

### Depois da análise qualitativa das colunas, levando em consideração os critérios acima, chegamos a uma base de dados mais limpa.

In [None]:
colunas=['host_response_time','host_response_rate','host_is_superhost','host_listings_count','host_has_profile_pic','host_identity_verified','latitude','longitude','property_type','room_type','accommodates','bathrooms','bedrooms','beds','bed_type','amenities','price','security_deposit','cleaning_fee','guests_included','extra_people','minimum_nights','maximum_nights','number_of_reviews','review_scores_rating','review_scores_accuracy','review_scores_cleanliness','review_scores_checkin','review_scores_communication','review_scores_location','review_scores_value','instant_bookable','is_business_travel_ready','cancellation_policy','mes','ano']
base_airbnb = base_airbnb.loc[:, colunas]
display(base_airbnb)

### Tratar Valores Faltando
1. excluir todas as colunas que tenha mais de 300 mil valores em branco. Pois preenchelas poderia enviezar a análise.
2. Para as outras colunas, como temos muitos dados(mais de 900 mil linhas) vamos excluir as linhas com dados em branco.

In [None]:
print(base_airbnb.isnull().sum())

In [None]:
#removendo as colunas com muitos dados em branco:

for coluna in base_airbnb:
    if base_airbnb[coluna].isnull().sum() > 300000:
        base_airbnb= base_airbnb.drop(coluna, axis=1)
print(base_airbnb.isnull().sum())

In [None]:
print(base_airbnb.shape)

In [None]:
#removendo as linhas com dado em branco.
base_airbnb= base_airbnb.dropna()
print(base_airbnb.shape)
print(base_airbnb.isnull().sum())

### Verificar Tipos de Dados em cada coluna

In [None]:
print(base_airbnb.dtypes)
print('-'*60)
print(base_airbnb.iloc[0])

#### como preço e extra_people estão sendo identificado como objeto, temos que mudar o tipo de variável da coluna para float.

In [None]:
#price
base_airbnb['price']= base_airbnb['price'].str.replace('$','').str.replace(',','').astype(np.float32, copy= False)
#extra_people
base_airbnb['extra_people']= base_airbnb['extra_people'].str.replace('$','').str.replace(',','').astype(np.float32, copy= False)



In [None]:
#mudando tipos ja corretos, para um que use menos memória. (float64 => float32 & int64 => int 32)


base_airbnb['host_listings_count']= base_airbnb['host_listings_count'].astype(np.float32, copy= False)
base_airbnb['latitude']= base_airbnb['latitude'].astype(np.float32, copy= False)
base_airbnb['longitude']= base_airbnb['longitude'].astype(np.float32, copy= False)
base_airbnb['bathrooms']= base_airbnb['bathrooms'].astype(np.float32, copy= False)
base_airbnb['bedrooms']= base_airbnb['bedrooms'].astype(np.float32, copy= False)
base_airbnb['beds']= base_airbnb['beds'].astype(np.float32, copy= False)

base_airbnb['accommodates']= base_airbnb['accommodates'].astype(np.int32, copy= False)
base_airbnb['guests_included']= base_airbnb['guests_included'].astype(np.int32, copy= False)
base_airbnb['minimum_nights']= base_airbnb['minimum_nights'].astype(np.int32, copy= False)
base_airbnb['maximum_nights']= base_airbnb['maximum_nights'].astype(np.int32, copy= False)
base_airbnb['number_of_reviews']= base_airbnb['number_of_reviews'].astype(np.int32, copy= False)
base_airbnb['mes']= base_airbnb['mes'].astype(np.int32, copy= False)
base_airbnb['ano']= base_airbnb['ano'].astype(np.int32, copy= False)
print(base_airbnb.dtypes)

### Análise Exploratória e Tratar Outliers
- Vamos basicamente olhar característica por característica para:
    1. Ver a correlação entre as características e decidir se manteremos todas as características que temos.
    2. Excluir Outliers (Usaremos como regra, valores abaixo de Q1 - 1.5 x Amplitude e valores acima de Q3 + 1.5 x Amplitude). Amplitude = Q3 - Q1
    3. Confirmar se todas as características que temos fazem realmente sentido para nosso modelo ou se alguma delas não vai nos ajudar e se devemos excuir.
- Vamos começar pelas colunas de preço (resultado final que queremos) e de extra_people (também valores monetários que afetam o preço). Esses são valores numéricos contínuos.
- Depois vamos analisar as colunas de valores numéricos discretos (accomodance, bedrooms, quest_included, etc.)
- Por fim, vamos avaliar as colunas de texto e definir quais categorias fazem sentido mantermos ou não.

MAS CUIDADO: Não saia excluindo direto outliers, pense exatamente no que você esta fazendo. Se não tem um motivo claro para remover o outlier, talvez não seja necessário e pode ser prejudicial para a generalização. Então tem que ter uma balança aí. Claro que você sempre pode testar e ver qual dá o melhor resultado, mas fazer isso para todas as características vai dar muito trabalho.

Ex. da análise: Se o objetivo é ajudar a precificar um imóvel que você está querendo disponibilizar, excluir outliers em host_listing_count pode fazer sentido. Agora se você é uma empresa com uma série de propriedades e quer comparar com outras empresas do tipo também e se posicionar dessa forma, talvez excluir quem tem acima de 6 propriedades tire isso do seu modelo. Pense sempre no seu objetivo final e tenha isso em claro em mente ao fazer uma análize exploratória.

In [None]:
# Mapa de calor das correlações das colunas.

plt.figure(figsize=(19,10))
sns.heatmap(base_airbnb.corr(),annot=True,cmap='Greens')

#print(base_airbnb.corr())
#Concluímos que não tem nenhuma correlação extrema que de valores duplicados.
#portanto não excluiremos nenhuma coluna com essa análize preliminar.

### Definição de funções para análise de outliers
Vamos definir algumas funções para ajudar na análise de outliers das colunas


In [None]:
#função de limites de outliers
def limites(coluna):
    q1= coluna.quantile(0.25)
    q3= coluna.quantile(0.75)
    amplitude = q3-q1
    return q1-1.5*amplitude, q3+1.5*amplitude

def excluir_outliers (df, nome_coluna):
    qte_linhas = df.shape[0]
    lim_inf, lim_sup = limites(df[nome_coluna])
    df = df.loc[(df[nome_coluna]>= lim_inf) & (df[nome_coluna]<=lim_sup) , : ]
    linhas_removidas = qte_linhas - df.shape[0]
    return df, linhas_removidas

In [None]:
#testando a funçao de limite de outliers
print(limites(base_airbnb['price']))
base_airbnb['price'].describe()

In [None]:
#formula do grafico de caixa dos limites dos outliers
def diagrama_caixa (coluna):
    fig, (ax1, ax2) = plt.subplots(1,2)
    fig.set_size_inches(19, 5)
    sns.boxplot(x= coluna, ax=ax1).set(xlabel= f'Coluna {coluna.name} com todos os dados.')
    ax2.set_xlim(limites(coluna))
    sns.boxplot(x= coluna, ax=ax2).set(xlabel= f'Limite Outlier da coluna {coluna.name}')
    return

def histograma(coluna):
    plt.figure(figsize=(19,5))
    sns.histplot (coluna, kde=True).set(xlabel= f'Histograma da coluna {coluna.name}')
    return

def grafico_barra(coluna):
    plt.figure(figsize=(19,5))
    sns.barplot(x= coluna.value_counts().index , y= coluna.value_counts()).set_xlim(limites(coluna))
    return

## Price

In [None]:
diagrama_caixa(base_airbnb['price'])
histograma(base_airbnb['price'])

Como estamos construindo um modelo para imoveis comuns,acredito que os valores acima do limite superior serão apenas de apartamentos de altíssimo luxo,que não é o nosso objetivo principal. Por isso, podemos excluir os outliers e analisar quantos dados serão excluidos para analisar se essa alteração será realmente permanente em nossa análise.  

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'price')
print(f'{linhas_removidas} linhas removidas')

In [None]:
histograma(base_airbnb['price'])
print(base_airbnb.shape)

## Extra_people

In [None]:
diagrama_caixa(base_airbnb['extra_people'])
histograma(base_airbnb['extra_people'])

#### Por ora vamos excluir os outliers do extra_people. Mas iremos testar no final sem excluí-los.


In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'extra_people')
print(f'{linhas_removidas} linhas removidas')

In [None]:
histograma(base_airbnb['extra_people'])

## Valores discretos


### host_listings_count

In [None]:
#comando auxiliar para criar a funçao
print(base_airbnb['host_listings_count'].value_counts())

In [None]:
diagrama_caixa(base_airbnb['host_listings_count'])
grafico_barra(base_airbnb['host_listings_count'])

Podemos excluir outliers, porque para o objetivo do nosso projeto host com mais de 6 imóveis no airbnb, não é o público alvo do objetivo do porjeto. (imagino que sejam imobiliárias ou profissionais que gerenciam imóveis do airbnb) 

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'host_listings_count')
print(f'{linhas_removidas} linhas removidas')

### accommodates

In [None]:
diagrama_caixa(base_airbnb['accommodates'])
grafico_barra(base_airbnb['accommodates'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'accommodates')
print(f'{linhas_removidas} linhas removidas')

Vamos excluir as outliers, pois residências que ultrapassam 10 acomodações saem do padrão que estamos analisando, e são poucas as incidencias que serão afetadas.

### bathrooms

In [None]:
diagrama_caixa(base_airbnb['bathrooms'])
grafico_barra(base_airbnb['bathrooms'])
#como o limite no grafico de barra esta diferente do limite e foi visto que os limites estao corretos, vamos
#plotar manualmente esse grafico, arrumando-o para analisá-lo

In [None]:
plt.figure(figsize=(19,5))
sns.barplot(x=base_airbnb['bathrooms'].value_counts().index , y= base_airbnb['bathrooms'].value_counts())

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'bathrooms')
print(f'{linhas_removidas} linhas removidas')

### bedrooms

In [None]:
diagrama_caixa(base_airbnb['bedrooms'])
grafico_barra(base_airbnb['bedrooms'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'bedrooms')
print(f'{linhas_removidas} linhas removidas')

### beds

In [None]:
diagrama_caixa(base_airbnb['beds'])
grafico_barra(base_airbnb['beds'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'beds')
print(f'{linhas_removidas} linhas removidas')

### guests_included

In [None]:
diagrama_caixa(base_airbnb['guests_included'])
grafico_barra(base_airbnb['guests_included'])
print(limites(base_airbnb['guests_included']))

In [None]:
plt.figure(figsize=(19,5))
sns.barplot(x=base_airbnb['guests_included'].value_counts().index , y= base_airbnb['guests_included'].value_counts())

Me parece um erro de preenchimento do cadastro onde os usuários usam o valor padrão "1" para preencher esse campo no cadastro. Não aparentando ser uma boa metrica. Portanto vamos remover essa característica completamente de nossa análise pois o nosso modelo pode considerar erroneamente que é essencial para a definição do preço, sendo que provavelmente não seja.

In [None]:
base_airbnb = base_airbnb.drop('guests_included', axis=1)
base_airbnb.shape

### minimum_nights

In [None]:
diagrama_caixa(base_airbnb['minimum_nights'])
grafico_barra(base_airbnb['minimum_nights'])

In [None]:
base_airbnb, linhas_removidas = excluir_outliers(base_airbnb, 'minimum_nights')
print(f'{linhas_removidas} linhas removidas')

Removendo os imóveis que precisam de mais de 8 dias minimos de aluguel, pois não faz nem sentido, analisar imoveis com tais exigencias.

### maximum_nights 

In [None]:
diagrama_caixa(base_airbnb['maximum_nights'])
grafico_barra(base_airbnb['maximum_nights'])

In [None]:
plt.figure(figsize=(19,5))
sns.barplot(x=base_airbnb['maximum_nights'].value_counts().index , y= base_airbnb['maximum_nights'].value_counts())

Vamos remover totalmente essa metrica da análise pois me parece o mesmo caso de mal preenchimento do cadastro, que não vai impactar corretamente no calculo do preço.

In [None]:
base_airbnb = base_airbnb.drop('maximum_nights', axis=1)
base_airbnb.shape

### number_of_reviews        

In [None]:
diagrama_caixa(base_airbnb['number_of_reviews'])
grafico_barra(base_airbnb['number_of_reviews'])

Vamos remover todos os números de reviews da análise, pois quem for colocar um novo imóvel para alugar na Airbnb vai ter o número de reviews igual a zero, então não tem como usar essa característica para prever o preço.

In [None]:
base_airbnb = base_airbnb.drop('number_of_reviews', axis=1)
base_airbnb.shape

# Tratamento de colunas de valores com características em textos

In [None]:
print(base_airbnb.dtypes)

## São:

- property_type                
- room_type                    
- bed_type                     
- amenities                   
- cancellation_policy         

### property_type 


In [None]:
display (base_airbnb['property_type'].value_counts())

plt.figure(figsize=(19,5))
grafico = sns.countplot ('property_type',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

como todos os tipos abaixo de "Others" tem quantidades praticamente insignificantes, analisálos como categorias separadas vão acabar tornando seus dados irrelevantes para efeitos comparativos, portanto vamos agrupar esses dados todos como categoria outros, para simplificar o processo de análise e comparação.

In [None]:
tabela_tipos_casa = base_airbnb['property_type'].value_counts()
colunas_agrupar= []
for tipo in tabela_tipos_casa.index:
    if tabela_tipos_casa[tipo]<2000:
        colunas_agrupar.append(tipo)
print(colunas_agrupar)    

In [None]:
for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['property_type']==tipo,'property_type']= 'Outros'
display (base_airbnb['property_type'].value_counts())
plt.figure(figsize=(19,5))
grafico = sns.countplot ('property_type',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

### room_type

In [None]:
display (base_airbnb['room_type'].value_counts())

plt.figure(figsize=(19,5))
grafico = sns.countplot ('room_type',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

Poucas categorias, não faremos alteração aqui.

### bed_type 

In [None]:
display (base_airbnb['bed_type'].value_counts())

plt.figure(figsize=(19,5))
grafico = sns.countplot ('bed_type',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

In [None]:
tabela_bed = base_airbnb['bed_type'].value_counts()
colunas_agrupar= []
for tipo in tabela_bed.index:
    if tabela_bed[tipo]<10000:
        colunas_agrupar.append(tipo)
    
for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['bed_type']==tipo,'bed_type']= 'Outros'
display (base_airbnb['bed_type'].value_counts())
plt.figure(figsize=(19,5))
grafico = sns.countplot ('bed_type',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

Poucas categorias, porém somente um valor tem grande quantidades enquanto o resto tem pouco e valores bem próximo, então nesse caso teríamos duas opções:
   - Deixar como está.
   - Agrupar todos os parametros de baixo valor em uma única categoria ficando com apenas duas categorias. (É o que decidimos fazer)

### cancellation_policy 

In [None]:
display (base_airbnb['cancellation_policy'].value_counts())

plt.figure(figsize=(19,5))
grafico = sns.countplot ('cancellation_policy',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

In [None]:
tabela_cancellation = base_airbnb['cancellation_policy'].value_counts()
colunas_agrupar= []
for tipo in tabela_cancellation.index:
    if tabela_cancellation[tipo]<10000:
        colunas_agrupar.append(tipo)
    
for tipo in colunas_agrupar:
    base_airbnb.loc[base_airbnb['cancellation_policy']==tipo,'cancellation_policy']= 'strict'
display (base_airbnb['cancellation_policy'].value_counts())
plt.figure(figsize=(19,5))
grafico = sns.countplot ('cancellation_policy',data=base_airbnb)
grafico.tick_params (axis='x', rotation=90)

Agrupamos as categorias stricts, pois os valores de super_istrict_30 e super_strict_60 são infimos para ajudar na análise.

### amenities                   
   

In [None]:
print (base_airbnb['amenities'].iloc[0])



# Encoding

### Modelo de Previsão

### Análise do Melhor Modelo

### Ajustes e Melhorias no Melhor Modelo