<a href="https://colab.research.google.com/github/consultantleonardoferreira/Projetos-em-Data-Science/blob/master/airbnb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Portfólio de Projetos Data Science**
#**Case Airbnb - Cidade do Rio de Janeiro**
*by Leonardo Ferreira*

---
<img alt="Colaboratory logo" width="100%" src="https://raw.githubusercontent.com/consultantleonardoferreira/eds-enem-2018/master/rio-de-janeiro-809756_1920.jpg?token=AOVROUS7PQX3XPLX4XRRF5S65HPYQ">





### **Metodologia CRISP - DM**

A metodologia empregada no projeto foi baseada em **CRISP-DM**
(Cross Industry Process Model for Data Mining). A referida metodologia baseia-se em 06 (seis) etapas para construção de projetos na área de Data Science: Entendimento do Negócio, Entendimento dos Dados,  Preparação dos Dados, Construção dos Modelos, Avaliação e Implementação.

### **A. Entendendo o Negócio:** 

Nesta etapa serão estudados os objetivos do negócio, avaliada a situação negócio (quais problemas a serem resolvidos?), bem como determinado as metas e ou objetivos para o projeto de Data Science (quais objetivos e métricas de sucesso?)

**A1. Objetivos do Negócio.**

O [Airbnb](https://www.airbnb.com.br/) começou em 2008, quando dois designers que tinham um espaço sobrando hospedaram três viajantes que procuravam um lugar para ficar. Agora, milhões de anfitriões e viajantes optam por criar uma conta gratuita no Airbnb para que possam anunciar seu espaço e reservar acomodações únicas em qualquer lugar do mundo. Além disso, os anfitriões de experiências do Airbnb compartilham suas paixões e interesses com viajantes e moradores locais.

O site tem como missão tornar o compartilhamento fácil, agradável e seguro. Segundo a empresa:" Verificamos perfis pessoais e anúncios, mantemos um sistema de mensagens inteligente para que anfitriões e hóspedes possam se comunicar com segurança e gerenciamos uma plataforma confiável para recolher e transferir pagamentos".

No Brasil, o Airbnb está acumulando boas taxas de crescimento e, somente do começo de 2012 até agora, 90 mil diárias foram registradas através do serviço, um aumento de 1180% em comparação às 7 mil diárias computadas em 2011. Até o mês de abril, os hosts brasileiros lucraram aproximadamente 2,5 milhões pela plataforma e somente os hosts ativos do Rio de Janeiro lucraram, cada um, uma média de R$ 10 mil até a data do último levantamento.

<center><img alt="Analisando Airbnb" width="30%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

**A2. Quais os problemas a serem resolvidos?**

No presente projeto busca-se resolver os seguintes problemas identificados pelo contratante do projeto em relação:

* Quais os principais tipos de imóveis locados na cidade do Rio de Janeiro?
* Quais os bairros com maior custo de locação na cidade do Rio de Janeiro?
* Qual o custo médio de locação das unidades na cidade do Rio de Janeiro?
* Qual a quantidade média de diárias por locação na cidade do Rio de Janeiro?
* Qual a disponibidade médias dos imóveis na cidade do Rio de Janeiro?

**A3. Quais as métricas para averição do sucesso do projeto de DS?**

* Respostas para as 5 (cinco) situações problemas apresentadas no item A2 considerando os dados disponibilizados pelo contratante, bem como integração com novas bases de dados a serem utilizadas na busca da solução dos problemas.






### **B. Entendendo os Dados:**

Nesta etapa estaremos coletando os dados iniciais, descrevendo os referidos dados, bem como explorando os dados com as estatísticas descritivas e por fim, verificando a qualidade de dados.


##### **B1.Coletando os dados iniciais**

Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções em *Data Science*.

Dessa forma, foi selecionado o arquivo (listings.csv) - Summary information and metrics for listings in Rio de Janeiro (good for visualisations).

In [0]:
# Carregando os pacotes do Python necessários à execução do Projeto de Data Science.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [0]:
# Carregando o dataset com informações da plataforma Airbnb.

df = pd.read_csv("http://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2020-04-20/visualisations/listings.csv")

##### **B2. Descrevendo os dados**

Nessa etapa os dados são descritos com objetivo de conhecermos seu formato, os tipos de variáveis (numéricas ou categóricas), bem como aspectos gerais úteis ao entendimento geral do problema.



In [10]:
# Conhecendo o formato do dataset.

df.shape

(35870, 16)

Em uma análise inicial percebe-se que o dataset apresenta um total de **35870** linhas, entradas ou observações, bem como um total de **16** colunas, variáveis ou features. Sendo interessante a construção de um dicionário com o significado das variáveis para melhor compreensão do problema geral. Adicionalmente, é bastante interessante verificarmos os tipos das variáveis que integram nosso dataset: inteiras, float, objetos. Tal análise poderá indicar na fase de preparação dos dados a necessidade de transformações para melhor aplicação de técnicas de Data Science.

In [11]:
# Conhecendo as varíaveis e seus tipos.

display(df.dtypes)

id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                               int64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
dtype: object

**Dicionário das variáveis**

* `id` - número de id gerado para identificar o imóvel.
* `name` - nome da propriedade anunciada.
* `host_id` - número de id do proprietário (anfitrião) da propriedade.
* `host_name` - Nome do anfitrião.
* `neighbourhood_group` - esta coluna não contém nenhum valor válido.
* `neighbourhood` - nome do bairro.
* `latitude` - coordenada da latitude da propriedade.
* `longitude` - coordenada da longitude da propriedade.
* `room_type` - informa o tipo de quarto que é oferecido.
* `price` - preço para alugar o imóvel.
* `minimum_nights` - quantidade mínima de noites para reservar.
* `number_of_reviews` - número de reviews que a propriedade possui.
* `last_review` - data do último review.
* `reviews_per_month` - quantidade de reviews por mês.
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião.
* `availability_365` - número de dias de disponibilidade dentro de 365 dias.

E por fim, nesta etapa, é interessante visualizarmos a estrutura do nosso dataset com suas linhas e colunas dispostos em forma tabular (Data Frame) com a possibilidade de identificação prematura de dados faltantes, possíveis valores discrepantes, dentre outras questões. É o primeiro contato com o dataset!

In [12]:
# Comando para visualizarmos as 5 primeiras linhas do Dataset.

df.head()


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,17878,Very Nice 2Br - Copacabana - WiFi,68997,Matthias,,Copacabana,-22.96592,-43.17896,Entire home/apt,218,5,251,2020-04-06,2.11,1,0
1,21280,Renovated Modern Apt. Near Beach,81163,Jules,,Ipanema,-22.98467,-43.19611,Entire home/apt,422,5,94,2020-03-22,1.25,1,69
2,25026,Beautiful Modern Decorated Studio in Copa,102840,Viviane,,Copacabana,-22.97712,-43.19045,Entire home/apt,158,7,238,2020-02-15,1.98,3,95
3,31560,NICE & COZY 1BDR - IPANEMA BEACH,135635,Renata,,Ipanema,-22.98302,-43.21427,Entire home/apt,342,2,282,2020-03-02,2.37,1,0
4,35636,Cosy flat close to Ipanema beach,153232,Patricia,,Ipanema,-22.98816,-43.19359,Entire home/apt,479,2,181,2020-03-15,2.29,1,358


##### **B3.Estatísticas Descritivas**

Agora que já conhecemos a estrutura de nossos dados, passamos para etapa de identificação da qualidade de nossos dados, por meio da aplicação de técnicas de estatística descritiva, com especial atenção para identificação de valores faltantes, presença de outliers, análise de correlações entre as variáveis, dentre outras questões relevantes nessa fase inicial.

In [14]:
# Cálculo do percentual de dados faltantes no Dataset.

(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

neighbourhood_group               1.000000
reviews_per_month                 0.411653
last_review                       0.411653
name                              0.001617
host_name                         0.000139
availability_365                  0.000000
calculated_host_listings_count    0.000000
number_of_reviews                 0.000000
minimum_nights                    0.000000
price                             0.000000
room_type                         0.000000
longitude                         0.000000
latitude                          0.000000
neighbourhood                     0.000000
host_id                           0.000000
id                                0.000000
dtype: float64

**Quanto à questão de dados faltantes, em uma breve verificação podemos identificar que:**

* A coluna **`neighbourhood_group`** possui 100% dos seus valores faltantes. 
* As variáveis**`reviews_per_month`** e **`last_review`** possuem valores nulos em quase metade das linhas.
* As variáveis **`name`** e **`host_name`** têm aproximadamente 0,1% dos valores nulos.


In [0]:
df.hist(bins=15, figsize=(15,10));

In [0]:
df[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month',
    'calculated_host_listings_count', 'availability_365']].describe()

**Quanto à questão da presença de outliers, em uma rápida análise podemos identificar que:** 

Pela distribuição do histograma, é possível verificar indícios da presença de *outliers*. Olhe por exemplo as variáveis `price`, `minimum_nights` e `calculated_host_listings_count`.

Os valores não seguem uma distruição, e distorcem toda a representação gráfica. Para confirmar, há duas maneiras rápidas que auxiliam a detecção de *outliers*. São elas:

* Resumo estatístico por meio do método `describe()`
* Plotar `boxplots` para a variável.

**Quanto ao resumo das estatísticas, das variáveis numéricas do dataset, podemos verificar que:**

* A variável `price` possui 75% do valor abaixo de 632, porém seu valor máximo é 131727.
* A quantidade mínima de noites (`minimum_nights`) está acima de 365 dias no ano.

### **C. Preparando os Dados:** 

Selecionando os dados, limpando os dados, construindo novos dados, integrando dados e formatando dados.

### **D. Construindo o Modelo de DS**: 

Selecionando técnicas de modelagem em Data Science, gerando um design de teste, construindo modelos:machine learning, deep learning, inteligência artificaial, avaliando os modelos.

### **E. Avaliando os Resultados do Projeto de DS:** 

Avaliando os resultados e processo de revisão.

### **F. Implementação:** 

Planejamento da implementação, planejamento do monitoramento e a manutenção da solução, produzir um relatório final.

### **Conclusões**

### **Referências**

P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer,
and R. Wirth, “Crisp–dm 1.0 step-by-step data mining guide,” 2000.