# Projeto Airbnb Rio - Ferramenta de Previsão de Preço de Imóvel para pessoas comuns 

### Contexto

No Airbnb, qualquer pessoa que tenha um quarto ou um imóvel de qualquer tipo (apartamento, casa, chalé, pousada, etc.) pode ofertar o seu imóvel para ser alugado por diária.

Você cria o seu perfil de host (pessoa que disponibiliza um imóvel para aluguel por diária) e cria o anúncio do seu imóvel.

Nesse anúncio, o host deve descrever as características do imóvel da forma mais completa possível, de forma a ajudar os locadores/viajantes a escolherem o melhor imóvel para eles (e de forma a tornar o seu anúncio mais atrativo)

Existem dezenas de personalizações possíveis no seu anúncio, desde quantidade mínima de diária, preço, quantidade de quartos, até regras de cancelamento, taxa extra para hóspedes extras, exigência de verificação de identidade do locador, etc.

### Nosso objetivo

Construir um modelo de previsão de preço que permita uma pessoa comum que possui um imóvel possa saber quanto deve cobrar pela diária do seu imóvel.

Ou ainda, para o locador comum, dado o imóvel que ele está buscando, ajudar a saber se aquele imóvel está com preço atrativo (abaixo da média para imóveis com as mesmas características) ou não.

### O que temos disponível, inspirações e créditos

As bases de dados foram retiradas do site kaggle: https://www.kaggle.com/allanbruno/airbnb-rio-de-janeiro

Elas estão disponíveis para download abaixo da aula (se você puxar os dados direto do Kaggle pode ser que encontre resultados diferentes dos meus, afinal as bases de dados podem ter sido atualizadas).

Caso queira uma outra solução, podemos olhar como referência a solução do usuário Allan Bruno do kaggle no Notebook: https://www.kaggle.com/allanbruno/helping-regular-people-price-listings-on-airbnb

Você vai perceber semelhanças entre a solução que vamos desenvolver aqui e a dele, mas também algumas diferenças significativas no processo de construção do projeto.

- As bases de dados são os preços dos imóveis obtidos e suas respectivas características em cada mês.
- Os preços são dados em reais (R$)
- Temos bases de abril de 2018 a maio de 2020, com exceção de junho de 2018 que não possui base de dados

### Expectativas Iniciais

- Acredito que a sazonalidade pode ser um fator importante, visto que meses como dezembro costumam ser bem caros no RJ
- A localização do imóvel deve fazer muita diferença no preço, já que no Rio de Janeiro a localização pode mudar completamente as características do lugar (segurança, beleza natural, pontos turísticos)
- Adicionais/Comodidades podem ter um impacto significativo, visto que temos muitos prédios e casas antigos no Rio de Janeiro

Vamos descobrir o quanto esses fatores impactam e se temos outros fatores não tão intuitivos que são extremamente importantes.

### Importar Bibliotecas e Bases de Dados

Bibliotecas

* pandas: para ler arquivos as base de dados e trabalhar com os dados
* pathlib: mexer com arquivos e caminhos do computador


In [7]:
import pandas as pd
from pathlib import Path

### Consolidando as base de dados

In [8]:
# Caminho para a pasta onde estão os database
CAMINHO_DATASET = Path('dataset')

# Dicionário com os meses
MESES = {
    'jan': 1,
    'fev': 2,
    'mar': 3,
    'abr': 4,
    'mai': 5,
    'jun': 6,
    'jul': 7,
    'ago': 8,
    'set': 9,
    'out': 10,
    'nov': 11,
    'dez': 12
}

# Lista para acrescentar todos os database
bases_airbnb = []

for arquivo in CAMINHO_DATASET.iterdir():
    base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)

    # Pegando o mês a partir do nome do arquivo
    mes = arquivo.name[:3]
    ano = arquivo.name[-8:-4]

    # Criando as colunas 'Mes' e 'Ano' para o database correspondente
    base_df['Mes'] = MESES[mes]
    base_df['Ano'] = int(ano)

    # Acrescentando o DataFrame na lista de database
    bases_airbnb.append(base_df)

# Concatenar todos os DataFrames da Lista
bases_airbnb = pd.concat(bases_airbnb, ignore_index=True)
display(bases_airbnb)

  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquivo.name)
  base_df = pd.read_csv(CAMINHO_DATASET / arquiv

Unnamed: 0,id,listing_url,scrape_id,last_scraped,name,summary,space,description,experiences_offered,neighborhood_overview,...,minimum_minimum_nights,maximum_minimum_nights,minimum_maximum_nights,maximum_maximum_nights,minimum_nights_avg_ntm,maximum_nights_avg_ntm,number_of_reviews_ltm,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms
0,14063,https://www.airbnb.com/rooms/14063,20180414160018,2018-04-14,Living in a Postcard,"Besides the most iconic's view, our apartment ...",,"Besides the most iconic's view, our apartment ...",none,Best and favorite neighborhood of Rio. Perfect...,...,,,,,,,,,,
1,17878,https://www.airbnb.com/rooms/17878,20180414160018,2018-04-14,Very Nice 2Br - Copacabana - WiFi,Please note that special rates apply for New Y...,- large balcony which looks out on pedestrian ...,Please note that special rates apply for New Y...,none,This is the best spot in Rio. Everything happe...,...,,,,,,,,,,
2,24480,https://www.airbnb.com/rooms/24480,20180414160018,2018-04-14,Nice and cozy near Ipanema Beach,My studio is located in the best of Ipanema. ...,The studio is located at Vinicius de Moraes St...,My studio is located in the best of Ipanema. ...,none,"The beach, the lagoon, Ipanema is a great loca...",...,,,,,,,,,,
3,25026,https://www.airbnb.com/rooms/25026,20180414160018,2018-04-14,Beautiful Modern Decorated Studio in Copa,"Our apartment is a little gem, everyone loves ...",This newly renovated studio (last renovations ...,"Our apartment is a little gem, everyone loves ...",none,Copacabana is a lively neighborhood and the ap...,...,,,,,,,,,,
4,31560,https://www.airbnb.com/rooms/31560,20180414160018,2018-04-14,NICE & COZY 1BDR - IPANEMA BEACH,This nice and clean 1 bedroom apartment is loc...,This nice and clean 1 bedroom apartment is loc...,This nice and clean 1 bedroom apartment is loc...,none,Die Nachbarschaft von Ipanema ist super lebend...,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
902205,38844730,https://www.airbnb.com/rooms/38844730,20190923212307,2019-09-24,TRANSAMERICA BARRA DA TIJUCA R IV,"Em estilo contemporâneo, o Transamerica Prime ...",,"Em estilo contemporâneo, o Transamerica Prime ...",none,,...,1.0,1.0,1125.0,1125.0,1.0,1125.0,0.0,15.0,0.0,0.0
902206,38846408,https://www.airbnb.com/rooms/38846408,20190923212307,2019-09-24,Alugo para o Rock in Rio,"Confortável apartamento, 2 quartos , sendo 1 s...",O apartamento estará com mobília completa disp...,"Confortável apartamento, 2 quartos , sendo 1 s...",none,"Muito próximo ao Parque Olímpico, local do eve...",...,2.0,2.0,1125.0,1125.0,2.0,1125.0,0.0,1.0,0.0,0.0
902207,38846703,https://www.airbnb.com/rooms/38846703,20190923212307,2019-09-24,Apt COMPLETO em COPACABANA c/TOTAL SEGURANÇA,Apartamento quarto e sala COMPLETO para curtas...,Espaço ideal para até 5 pessoas. Cama de casal...,Apartamento quarto e sala COMPLETO para curtas...,none,,...,3.0,3.0,1125.0,1125.0,3.0,1125.0,0.0,23.0,6.0,0.0
902208,38847050,https://www.airbnb.com/rooms/38847050,20190923212307,2019-09-24,Cobertura Cinematografica,Cobertura alto nivel,,Cobertura alto nivel,none,,...,1.0,1.0,1125.0,1125.0,1.0,1125.0,0.0,1.0,0.0,0.0


- Como temos muitas colunas, nosso modelo pode acabar ficando lento.
- Além disso, uma análise rápida permite ver que várias colunas não são necessárias para o nosso modelo de previsão.
- Colunas a excluir:
    1. Colunas de IDs, URL e informações não relevantes
    2. Colunas repetidas ou muito parecidas (Data x Mês/Ano)
    3. Colunas preenchidas com texto livre, não rodaremos nenhuma análise de palavras ou algo do tipo.
    4. Colunas em que todos ou quase todos os valores são iguais.
    5. Várias colunas de quase mesma informação, no caso localização (Cidade, Bairro, Rua, Estado, CEP), manteremos apenas Lat/Long devido a precisão.
- Para isso, vamos gerar um arquivo em excel com os mil primeiros registros e fazer uma análise qualitativa

In [10]:
# Criando um excel com os primeiros 1000 registros
bases_airbnb.head(1000).to_csv('primeiros_registros.csv', sep=';')

### Se tivermos muitas colunas, já vamos identificar quais colunas podemos excluir

In [12]:
# verificando conteudos de colunas especificas:
print(bases_airbnb['experiences_offered'].value_counts())
print(bases_airbnb['host_acceptance_rate'].value_counts())

none    902210
Name: experiences_offered, dtype: int64
100%    31697
0%       4744
50%      3781
99%      3320
67%      3140
        ...  
28%        22
15%        21
7%         20
51%        18
6%         11
Name: host_acceptance_rate, Length: 100, dtype: int64


In [15]:
# verificando a quantidade de valores nulos
print(bases_airbnb['square_feet'].isnull().sum())

888162


In [14]:
# comparando conteudo de duas colunas
print((bases_airbnb['host_listings_count'] == bases_airbnb['host_total_listings_count']).value_counts())

True     901750
False       460
dtype: int64


Depois da análise qualitativa, levando em conta os critérios utilizados acima, ficamos com as colunas abaixo:

In [18]:
# lista de colunas que manteremos
colunas = ['host_response_time','host_response_rate','host_is_superhost','host_listings_count','latitude','longitude','property_type','room_type','accommodates','bathrooms','bedrooms','beds','bed_type','amenities','price','security_deposit','cleaning_fee','guests_included','extra_people','minimum_nights','maximum_nights','number_of_reviews','review_scores_rating','review_scores_accuracy','review_scores_cleanliness','review_scores_checkin','review_scores_communication','review_scores_location','review_scores_value','instant_bookable','is_business_travel_ready','cancellation_policy','Ano','Mes'
]

# atualizando o dataframe com as colunas
bases_airbnb = bases_airbnb.loc[:, colunas]
display(bases_airbnb)

Unnamed: 0,host_response_time,host_response_rate,host_is_superhost,host_listings_count,latitude,longitude,property_type,room_type,accommodates,bathrooms,...,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,instant_bookable,is_business_travel_ready,cancellation_policy,Ano,Mes
0,,,f,1.0,-22.946854,-43.182737,Apartment,Entire home/apt,4,1.0,...,9.0,9.0,9.0,9.0,9.0,f,f,strict_14_with_grace_period,2018,4
1,within an hour,100%,t,2.0,-22.965919,-43.178962,Condominium,Entire home/apt,5,1.0,...,9.0,10.0,10.0,9.0,9.0,t,f,strict,2018,4
2,within an hour,100%,f,1.0,-22.985698,-43.201935,Apartment,Entire home/apt,2,1.0,...,10.0,10.0,10.0,10.0,9.0,f,f,strict,2018,4
3,within an hour,100%,f,3.0,-22.977117,-43.190454,Apartment,Entire home/apt,3,1.0,...,10.0,10.0,10.0,10.0,9.0,f,f,strict,2018,4
4,within an hour,100%,t,1.0,-22.983024,-43.214270,Apartment,Entire home/apt,3,1.0,...,10.0,10.0,10.0,10.0,9.0,t,f,strict,2018,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
902205,within an hour,93%,f,0.0,-23.003180,-43.342840,Apartment,Entire home/apt,4,1.0,...,,,,,,f,f,flexible,2019,9
902206,,,f,0.0,-22.966640,-43.393450,Apartment,Entire home/apt,4,2.0,...,,,,,,f,f,flexible,2019,9
902207,within a few hours,74%,f,32.0,-22.962080,-43.175520,Apartment,Entire home/apt,5,1.0,...,,,,,,f,f,strict_14_with_grace_period,2019,9
902208,,,f,0.0,-23.003400,-43.341820,Apartment,Entire home/apt,4,1.0,...,,,,,,f,f,strict_14_with_grace_period,2019,9


### Tratar Valores Faltando

### Verificar Tipos de Dados em cada coluna

### Análise Exploratória e Tratar Outliers

### Encoding

### Modelo de Previsão

### Análise do Melhor Modelo

### Ajustes e Melhorias no Melhor Modelo