<a href="https://colab.research.google.com/github/Jeanhenry/datascience/blob/master/Analisando_os_Dados_do_Airbnb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://i.ibb.co/2Zy6D4y/logo-colab.png" alt="logo-colab" border="0">

#### **Data Science na Pr√°tica 2.0**
*by [jean henry](www.linkedin.com/in/jeanhenry)*

---


<img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg">

# An√°lise dos Dados do Airbnb - *Rio de Janeiro/RJ*

O [Airbnb](https://www.airbnb.com.br/) √© uma das pioneiras nesse ramo de "aluguel de im√≥veis", indo de frente com muitos hot√©is, ela se tornou referencia.

Um meio mais f√°cil e mais pratico _(mas n√£o quer dir que seja seguro)_ de viajar e ter um "canto pra ficar".

Uma das iniciativas do Airbnb √© disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), √© poss√≠vel baixar uma grande quantidade de dados para desenvolver projetos e solu√ß√µes de *Data Science*.

**Neste *notebook*, iremos analisar os dados referentes √† cidade Rio de Janeiro, e ver quais insights podem ser extra√≠dos a partir de dados brutos.**

## Obten√ß√£o dos Dados

Todos os dados dessa an√°lise, √© possivel baixar no proprio site da Airbnb.

Para essa an√°lise, estaremos usando apenas o arquivo:

* _listing.csv_ da cidade do Rio de Janeiro/RJ


In [0]:
# importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [0]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("http://data.insideairbnb.com/brazil/rj/rio-de-janeiro/2020-04-20/visualisations/listings.csv")

## An√°lise dos Dados

Abaixo vamos detalhar todos as variaveis deste dataset, para que possamos entender melhor a nossa base de dados.üòâ


**Dicion√°rio das vari√°veis**

* _id_ > n√∫mero de id gerado pelo proprio Airbnb para identificar o im√≥vel
* _name_ > nome do im√≥vel em quest√£o
* _host_id_ > n√∫mero de id do propriet√°rio do im√≥vel
* _host_name_ > Nome do propriet√°rio do im√≥vel
* _neighbourhood_group_ > coluna vazia, sem informa√ß√£o para an√°lise
* _neighbourhood_ > nome do bairro do im√≥vel
* _latitude_ > coordenada geogr√°fica do impovel 
* _longitude_ > coordenada geogr√°fica do impovel
* _room_type_ > tipo de quarto oferecido no anuncio
* _price_ > valor do aluguel
* _minimun_nights_ > quantidade minima de noites para se hospedar
* _number_of_reviews_ > n√∫mero reviews do im√≥vel
* _last_review_ > data do √∫ltimo review do im√≥vel
* _reviews_per_month_ > quantidade de reviews por m√™s
* _calculated_host_listings_count_ > quantidade de im√≥veis do mesmo propriet√°rio
* _availability_365_ > n√∫mero de disponibilidade dentro de 365 dias


Agora vamos dar um confere em nosso dataset pra entender melhor nosso *dataset*, de imediato vamos listar apenas as 5 primeiras entradas.

In [0]:
# mostrar as 5 primeiras entradas
df.head()

### **Q1. Quantos atributos (vari√°veis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das vari√°veis?**

Para essa an√°lise inicial, estaremos usando um Dataset resumido, mas no pr√≥prio site onde baixamos esse, possui um mais completo com +-35.847 registros(entradas) e +-106 colunas (variaveis)

In [0]:
# identificar o volume de dados do DataFrame
print('No DataSet em quest√£o, temos',df.shape[0],'registros.') #numero de registros/entradas
print('No DataSet em quest√£o, temos',df.shape[1],'colunas.','\n') #numero de colunas/variavies

# verificar as 5 primeiras entradas do dataset [PLUS]
print(df.dtypes,'\n')

# verificar as 5 primeiras entradas do dataset
df.head()

### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**

Para qualquer an√°lise, √© de suma import√¢ncia entender o real cen√°rio do dataset, quando digo isso quero dizer, entender se o dataset possui dados **NULOS**, dados inconsistentes e se esse dados v√£o afetar em nossa an√°lise ou n√£o, caso contr√°rio, devemos tratar esses dados.

**Conclus√£o**
* Das 16 colunas disponiveis no dataset:
  * mais da metade delas possui 0% de _"dados nulos"_ (isso √© bom mas n√£o quer dizer nada ainda, devemos ver se esses dados s√£o ou possuem outliers)
  * 2 colunas (reviews_per_month e last_review), possuem 40% de "dados nulos"
  * A coluna neighbourhood_group, possui 100% de "dados nulos" (se essa coluna n√£o agregar em nossa an√°lise, podemos eliminar)

In [0]:
# ordenar em ordem decrescente as vari√°veis por seus valores ausentes

(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

### **Q3. Qual o tipo de distribui√ß√£o das vari√°veis?** 


In [0]:
# plotar o histograma das vari√°veis num√©ricas
df.hist(bins=15, figsize=(15,10));

**+ AN√ÅLISE**

No histograma acima, conseguimos ver claramente que existe um ou mais _outliers_.
* O pre√ßo do im√≥vel (price) 
* M√≠nimo de noites (minimun_nights)

_Esses outliers devem ser tratados, caso contr√°rio nos retorna informa√ß√µes inconcistentes e com isso a nossa an√°lise vai estar incorreta_

Para tirarmos a prova dos 9 se existe outliers, vamos realizar 2 vis√µes:

  * Usando o _describe()_
  * Plotando um _boxplots_ para cada variavel que acreditamos ter ums distor√ß√£o de valores.

In [0]:
# ver resumo estatistico das variaveis numericas

df[['price','minimum_nights','number_of_reviews','reviews_per_month',
    'calculated_host_listings_count','availability_365']].describe()

Viu s√≥, at√© que n√£o estavamos t√£o enganado assim, vejas as colunas e me diz se n√£o tem algo estranho? Mesmo n√£o sendo e caso n√£o conhe√ßa o estado do _RIO DE JANEIRO_

**_Analisando a coluna price_**
* Existe 1 ou + im√≥veis que n√£o possuem valores de aluguel.
* Olha o valor m√°ximo do aluguel. Esta na faixa de R$131.727,00... Onde sera  essa moradia em?rs

**_Analisando a coluna minimum_nights_**
* Sera que tem alguem que fique + de 1 ano hospedado pelo Airbnb?

E por ai vai, seguindo essa an√°lise conseguimos entender com mais clareza nossas vari√°veis.

Agora vamos plotar um _boxplots_ s√≥ pra fecharmos nossa an√°lise com chave de ouro.


In [0]:
#price
df.minimum_nights.plot(kind='box', vert=False, figsize=(15,3))
plt.show


#ver a qtd de valores acima de R$1.500 para price
print("price: valores acima de R$1.500")
print('Entradas:',len(df[df.price > 1500]))
print((len(df[df.price > 1500]) / df.shape[0]) * 100,'\n')

**FINALIZANDO A VIS√ÉO DE OUTLIERS**

Conseguimos identificar quais s√£o os nossos outliers, vamos tratar nosso Dataset

In [0]:
#remover os outliers em um novo df
df_clean = df.copy()
df_clean.drop(df_clean[df_clean.price > 1500].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.minimum_nights > 30].index, axis=0, inplace=True)

#remover a coluna neighbourhood_group, pois esta 100% nulo
df_clean.drop('neighbourhood_group',axis=1, inplace=True)

#plotar um novo histograma mas LIMPO sem os outliers e a coluna 100% NULA
df_clean.hist(bins=15, figsize=(15,10));


In [0]:
#minimun_nights
df.minimum_nights.plot(kind='box', vert=False, figsize=(15,3))
plt.show

#ver a qtd de valores acima de 30 dias para minimum_nights
print("minimum_nights: valores acima de 30 dias")
print('Entradas:',len(df[df.minimum_nights > 30]))
print((len(df[df.minimum_nights > 30]) / df.shape[0]) * 100,'\n')

### **Q4. Qual a m√©dia dos pre√ßos de aluguel?**

In [0]:
# ver a m√©dia da coluna `price``
df['price'].describe()

#Conseguimos identificar em mean, que nesse caso √© 753.686367

### **Q4. Qual a correla√ß√£o existente entre as vari√°veis**

In [0]:
# criar uma matriz de correla√ß√£o
corr = df_clean[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month',
    'calculated_host_listings_count', 'availability_365']].corr()

# mostrar a matriz de correla√ß√£o
display(corr)

# plotar um heatmap a partir das correla√ß√µes
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True);


### **Q5. Qual o tipo de im√≥vel mais alugado no Airbnb?**

Nessa an√°lise podemos identificar alguns tipos de alugu√©is, como:
* apartamentos
* casas inteiras
* aluguel de 1 quarto
* dividir quarto com outras pessoas

In [0]:
# mostrar a quantidade de cada tipo de im√≥vel dispon√≠vel

df_clean.room_type.value_counts()

In [0]:
# mostrar a porcentagem de cada tipo de im√≥vel dispon√≠vel

df_clean.room_type.value_counts() / df_clean.shape[0]

### **Q6. Qual a localidade mais cara do dataset?**

Pra essa an√°lise, usaremos a seguinte variavel _neighbourhood_.



In [0]:
# ver pre√ßos por bairros, na m√©dia
df_clean.groupby(['neighbourhood']).price.mean().sort_values(ascending=False)[:10]


**OBSERVA√á√ÉO**

Chegamos um ponto interresante de nossa an√°lise, pra quem conhece o estado do RIO DE JANEIRO, sabe que o bairro de Vaz Lobo fica situado na Zona NORTE e onde bem sabemos a Zona SUL, de qualquer lugar se trata do lugar + caro com rela√ß√£o a moradia, alimenta√ß√£o e demais itens (chamamos de custo benef√≠cio), com isso, ja iria ligar o alerta ao ver esse cen√°rio, mas para quem n√£o conhece o RJ, ficaria meio complicado entender isso (+-), pois sabemos que os bairros de **COPACABANA, LEBLON, IPANEMA, BARRA DA TIJUCA** nem aparece nesse visual. Esta ai o diferencial de quem estiver realizando a an√°lise de um dataset, entender se o que esta retornando para n√≥s √© de fato o que acontece na atualidade, vamos entender melhor esse resultado abaixo, realizando uma pequena an√°lise + profunda e simples.

In [0]:
#Qtd de imoveis de Vaz Lobo
print(df_clean[df_clean.neighbourhood == "Vaz Lobo"].shape)

#ver as 3 entradas de Vaz Lobo
df_clean[df_clean.neighbourhood == "Vaz Lobo"]

Com base na an√°lise acima, podemos identificar que no bairro **Vaz Lobo** existem apenas 3 registros de entrada, onde 1 deles com o valor alto.

In [0]:
# plotar os im√≥veis pela latitude-longitude
df_clean.plot(kind="scatter", x='longitude', y='latitude',alpha=0.4,c=df_clean['price'],s=8,cmap=plt.get_cmap('jet'),figsize=(12,8));

### **Q7. Qual √© a m√©dia do m√≠nimo de noites para aluguel (minimum_nights)?**

In [0]:
# ver a m√©dia da coluna `minimum_nights``
df['minimum_nights'].describe()

#Conseguimos identificar em mean, que nesse caso √© 4.781851

In [0]:
#maiores bairros com imoveis alugados

df_clean.neighbourhood.value_counts()

## Conclus√µes


Chegamos ao final de uma an√°lise bem ampla, onde conseguimos identificar por detalhes alguns itens _(destes at√© ja tinhamos uma total certeza pelo nosso achismo)_.

* A m√©dia de alugu√©is no estado do RJ √© de **753.68**
* Nesse DataSet , vimos que o Bairro com o valor do aluguel mais caro esta localizado na Zona Norte do RJ [VAZ LOBO], mas com nossa an√°lise mais apurada identificamos que houve um "erro" na vari√°vel pre√ßo, pois para esse bairro temos apenas 3 im√≥veis dispon√≠veis.
* Existe uma grande aglomera√ß√£o de aluguel pr√≥ximos a praia do RJ (ja era de ser esperado n√©?)
* No TOP 3 de im√≥veis a serem alugados todos est√£o localizados na Zona SUL _(mais uma certeza se concretizando)_


