# PROJETO AIRBNB (RJ) - PREVISÃO DE PREÇO DE IMÓVEL

### CONTEXTO

No Airbnb, qualquer pessoa que tenha um quarto ou um imóvel de qualquer tipo (apartamento, casa, chalé, pousada, etc.) pode ofertar o seu imóvel para ser alugado por diária.

Você cria o seu perfil de host (LOCATÁRIO) e cria o anúncio do seu imóvel.

Nesse anúncio, o host deve descrever as características do imóvel da forma mais completa possível, com o objetico de  tornar o seu anúncio mais atrativo).

Existem dezenas de personalizações possíveis no seu anúncio, desde quantidade mínima de diária, preço, quantidade de quartos, até regras de cancelamento, taxa extra para hóspedes extras, exigência de verificação de identidade do locador, etc.

### OBJETIVO

Construir um modelo de previsão de preço que permita uma pessoa comum que possui um imóvel possa saber quanto deve cobrar pela diária do seu imóvel.

Ou ainda, para o locador comum, dado o imóvel que ele está buscando, ajudar a saber se aquele imóvel está com preço atrativo (abaixo da média para imóveis com as mesmas características) ou não.
    
### DADOS

As bases de dados foram retiradas do site kaggle: https://www.kaggle.com/allanbruno/airbnb-rio-de-janeiro.

Dados coletados da plataforma Airbnb contendo informações dos períodos de agosto 2018 a maio 2020.


### OBSERVAÇÕES

Alguns fatores importantes que podem influenciar o valor do imóvel:

    1- Sazonalidade
    2- Localização
    3- Comodidade
    4- Segurança
    

### DESCRIÇÃO DOS DADOS

1 - ANÚNCIO

    id => Numeração única que identifica o anúncio.
    listing_url => URL referente ao anúncio.
    scrape_id => Numeração que identifica a raspagem dos dados.
    last_scraped => data da raspagem dos dados.
    name => título do anúncio.
    summary => Descrição do imóvel.
    space => Campo utilizado pelo locatário para colocar algumas características so imóvel.
    description => Descrição mais detalhada sobre o imóvel e suas características.
    experiences_offered => Descrição da experiência oferecida que acompanha a locaçãoe o ambiente do imóvel.
    neighborhood_overview => Panorama geral da vizinhança.
    notes => Algumas observações adicionais sobre o imóvel.
    transit => Descreve os recursos de deslocamento ou transporte nos arredores do imóvel.
    access => Descreve como é o acesso ao apartamento e quais os principais pontos de acesso nos arredores do imóvel.
    interaction => Descreve como pode ser o contato com o locatário (e-mail, telefone, whatsapp, etc)
    house_rules => Descreve as regras de boa conduta do imóvel que o locador deve seguir.
    thumbnail_url => Link das fotos pequenas do imóvel. Usado para compor o visual do anúncio.
    medium_url => Link das fotos de tamanho médio do imóvel. Usado para compor o visual do anúncio.
    picture_url => Link das fotos de tamanho normal do imóvel. Usado para compor o visual do anúncio.
    xl_picture_url => Link das fotos de tamanho grande do imóvel. Usado para compor o visual do anúncio.
    
2 - LOCATÁRIO

    host_id => Numeração única que identifica o locatário dentro da plataforma.
    host_url => URL de localização do perfil do usuário na plataforma.
    host_name => Nome do locatário.
    host_since => Data de cadastro do locatário dentro da plataforma.
    host_location => Local de residência do locatário.
    host_about => Breve apresentação do locatário.
    host_response_time => Tempo em que o locatário demora para responder as solicitações do locador.
    host_response_rate => Avaliação do tempo de responta do locatário.
    host_acceptance_rate => Avaliação da aceitação dos usuários da plataforma para com o locatário.
    host_is_superhost => Define se o locatário é um super host dentro da plataforma (se ele é um bom anfitrião). 
    host_thumbnail_url => link da foto pequena de perfil do locatário.
    host_picture_url => link da foto normal de perfil do locatário.
    host_neighbourhood => Visinhança do locatário.
    host_listings_count => Quantas locações já foram realizadas naquele imóvel.
    host_total_listings_count => Total de locações que já foram realizadas pelo locatário.
    host_verifications => Informa o tipo de verificação do locatário (e-mail, telefone, etc).
    host_has_profile_pic => Informa se o locatário tem ou não foto de perfil.
    host_identity_verified => Informa se o locatário teve ou não a sua conta verificada.
    
3 - IMÓVEL

    street => Informa a Rua próxima ao imóvel.
    neighbourhood => Informa o bairro do imóvel.
    neighbourhood_cleansed => Informa o nome da vizinhança que é limpa.
    neighbourhood_group_cleansed => Informa o grupo da vizinhança que é limpa.
    city => Informa a cidade onde o imóvel está localizado.
    state => Informa o estado onde o imóvel está localizado.
    zipcode => Informa o CEP de localização do imóvel.
    market => Onde existem comércio.
    smart_location => Informa a localização resumida do imóvel (normalmente o estado e o país)
    country_code => Informa o código do país onde o imóvel está localizado.
    country => Informa o país onde o imóvel está localizado.
    latitude => Informa a coordenada de latitude de localização do imóvel.
    longitude => Informa a coordenada de longitude de localização do imóvel.
    is_location_exact => Informa se a localização é exata ou não.
    property_type => Tipo do imóvel (apartamento, casa, etc).
    room_type => Tipo de quarto (compartilhado, privado, etc).
    accommodates => Número de cômodos no imóvel.
    bathrooms => Número de banheiros no imóvel.
    bedrooms => Número de quartos no imóvel.
    beds => Número de camas no imóvel.
    bed_type => Tipo das camas no imóvel.
    amenities => Outros recursos disponíveis no imóvel como: wifi, tv a cabo, etc.
    square_feet => Medida do imóvel (padrão americano: pé quadrado).
    price => Preço de locação (em dólar). **VARIÁVEL QUE SE QUER PREVER**
    weekly_price => Preço de locação por um período de uma semana (em dólar).
    monthly_price => Preço de locação por um período de um mês (em dólar).
    security_deposit => Valor do depósito caução utilizado para a reserva do aluguel (em dólar).
    cleaning_fee => Taxa de limpeza (em dólar).
    guests_included => Quantidade de convidados que o imóvel comporta.
    extra_people => Valor de pessoas adicionais ao número de convidados que o imóvel comporta (em dólar).
    minimum_nights => Número mínimo de noites para a locação.
    maximum_nights => Número máximo de noites para locação.
    calendar_updated => Data de atualização do calendário de locação do imóvel.
    has_availability => Informa se o imóvel está ou não disponível.
    availability_30 => Número de avaliações dos últimos 30 dias.
    availability_60 => Número de avaliações dos últimos 60 dias.
    availability_90 => Número de avaliações dos últimos 90 dias.
    availability_365 => Número de avaliações dos últimos 365 dias.
    calendar_last_scraped => Data da última raspagem de dados da plataforma.
    number_of_reviews => Número de avaliações.
    first_review => Data da primeira avaliação.
    last_review => Data da última avaliação.
    review_scores_rating => Classificação das avaliações.
    review_scores_accuracy => Precisão das avaliações.
    review_scores_cleanliness => Classificação da limpeza do local.
    review_scores_checkin => Classificação do check-in.
    review_scores_communication => Classificação da comunicação entre locatário e locador.
    review_scores_location => Classificação da localização.
    review_scores_value => Avaliação do valor das pontuações.
    requires_license => Informa se o imóvel possui licença de locação.
    license => Qual o tipo de licença do imóvel para locação.
    jurisdiction_names => Nome da jurisdição.
    instant_bookable => Informa se o imóvel pode ou não ser locado imediatamente.
    is_business_travel_ready => Informa se o imóve está ou não pronto para acomodar executivos.
    cancellation_policy => Descreve a política de cancelamento.
    require_guest_profile_picture => Exige ou não uma foto de idenficação do locador.
    require_guest_phone_verification => Exige ou não um telefone de contato do locador.
    calculated_host_listings_count => Contagem de número de hospedagens realizadas.
    reviews_per_month => Número de classificações por mês.
    
    
**OBS.: APÓS VERIFICAR A DESCRIÇÃO DAS COLUNAS PODEMOS, (PELA SIMPLES OBSERVAÇÃO) EXCLUIR DIVERSOS ATRIBUTOS QUE SERÃO IRRELEVANTES PARA O TIPO DE IMPLEMENTAÇÃO QUE SERÁ RALIZADA.**

## BIBLIOTECAS

In [1]:
import pandas as pd
import pathlib 

## CARGA / CONSOLIDAÇÃO DOS DADOS

In [2]:
base_path = pathlib.Path('Data')
df_airbnb = pd.DataFrame()

for file in base_path.iterdir():
    df = pd.read_csv(file, low_memory=False)
    df_airbnb = pd.concat([df_airbnb,df] , axis=0)

## LIMPEZA DOS DADOS

Conforme mencionado durante a descrição das colunas existentes nos dados, podemos observar que muitas colunas são irrelevantes para o projeto.

Portanto são colunas que poderemos remover do nosso DataFrame.

In [3]:
# Definindo as colunas que até o momento farão parte do DataFrame para análise

columns_accepted =['host_since','host_response_time','host_response_rate','host_is_superhost','host_listings_count',
          'host_total_listings_count','host_has_profile_pic','host_identity_verified','latitude','longitude','property_type',
          'room_type','accommodates','bathrooms','bedrooms','beds','bed_type','square_feet','price','cleaning_fee',
          'guests_included','extra_people','minimum_nights','maximum_nights','has_availability','availability_30',
          'availability_60','availability_90','availability_365','number_of_reviews','first_review','last_review',
          'review_scores_rating','review_scores_accuracy','review_scores_cleanliness','review_scores_checkin',
          'review_scores_communication','review_scores_location','review_scores_value','requires_license','instant_bookable',
          'is_business_travel_ready','cancellation_policy','require_guest_profile_picture','require_guest_phone_verification',
          'calculated_host_listings_count','reviews_per_month']

# Definindo as colunas que serão excluídas do Dataframe

columns_origin = df_airbnb.columns
columns_to_drop = columns_origin.difference(columns_accepted)

# Copiando os dados do Dataframe original para iniciar as análises excluindo as colunas definidas anteriormente

df = df_airbnb.copy()

df.drop(columns=columns_to_drop, inplace=True, axis=1)

## ANALISANDO / REMOVENDO VALORES NULL

In [4]:
df.isnull().sum()

host_since                             460
host_response_time                  401843
host_response_rate                  401846
host_is_superhost                      460
host_listings_count                    460
host_total_listings_count              460
host_has_profile_pic                   460
host_identity_verified                 460
latitude                                 0
longitude                                0
property_type                            0
room_type                                0
accommodates                             0
bathrooms                             1724
bedrooms                               850
beds                                  2502
bed_type                                 0
square_feet                         888162
price                                    0
cleaning_fee                        313506
guests_included                          0
extra_people                             0
minimum_nights                           0
maximum_nig

Podemos observar que existem muitas colunas que possuem uma quantidade muito grande de valores nulos ou faltantes. 

Uma coluna que pode ser eliminada prontamente é a **square_feet** que, embora pareça ser relevante para o modelo não possui dados suficientes.

Outras colunas que representam mais de 40% de dados faltantes na base de dados e que deverão ser eliminadas são:
**host_response_time,host_response_rate,first_review,last_review,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,reviews_per_month.**
    
As colunas: **host_since,host_is_superhost,host_listings_count,host_total_listings_count,host_has_profile_pic,host_identity_verified,bathrooms,bedrooms,beds** ,possuem uma quantidade muito baixa de valores faltantes. Por conta disto optei em eliminar apenas as linhas cujo valor NA esteja presente dentro destas colunas, preservando assim os demais registros.

In [46]:
# Fazendo uma cópia do Dataframe df antes de remover as linhas totalmente vazias.

df1 = df.copy()

columns_to_drop = ['square_feet','host_response_time','host_response_rate','first_review','last_review','review_scores_rating',
                   'review_scores_accuracy','review_scores_cleanliness','review_scores_checkin','review_scores_communication', 
                   'review_scores_location','review_scores_value','reviews_per_month','cleaning_fee']

In [47]:
df1.drop(columns=columns_to_drop, inplace=True, axis=1)

In [57]:
df1.isnull().sum()

host_since                          0
host_is_superhost                   0
host_listings_count                 0
host_total_listings_count           0
host_has_profile_pic                0
host_identity_verified              0
latitude                            0
longitude                           0
property_type                       0
room_type                           0
accommodates                        0
bathrooms                           0
bedrooms                            0
beds                                0
bed_type                            0
price                               0
guests_included                     0
extra_people                        0
minimum_nights                      0
maximum_nights                      0
has_availability                    0
availability_30                     0
availability_60                     0
availability_90                     0
availability_365                    0
number_of_reviews                   0
requires_lic

In [55]:
df1.dropna(inplace=True)

In [56]:
len(df1)

897709

## ANALISANDO / ALTERANDO O TIPO DOS DADOS