<a href="https://colab.research.google.com/github/denisbrunom/data_science_estudo/blob/master/Analisando_os_Dados_do_Airbnb_Bueno_Aires.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="city" width="100%" src="https://www.brasileirosemushuaia.com.br/media/catalog/category/banner-buenosaires-min.jpg">

#### **Data Science na Prática 2.0**


---

# Análise dos Dados do Airbnb - *Buenos Aires*

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**. Ah, o detalhe é que ele **não possui nenhum hotel**!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup fundada 10 anos atrás, já havia **hospedado mais de 300 milhões** de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

  Buenos Aires é a capital da Argentina e do tango. Nos bairros antigos, você encontra restaurantes românticos e uma vida noturna animada. A herança europeia de Buenos Aires fica evidente nas avenidas, parques e arquitetura da cidade. Buenos Aires recebe muitos turistas, principalmente do Brasil, em areas centrais da cidade onde o fluxo é maior se fala o "Portunhol" Português + Espanhol, e tambem aceita o real como moeda alem é claro do dolar.
  
  Agora algumas informações para facilitar a leitura do nosso projeto.
* A moeda da Argentina é o `Peso argentino`. É uma moeda desvalorizada em comparação com real o que faz a cidade receber muitos Brasileiros. Nossa analise vai utilizar a moeda local, então tudo em Peso Argentino, ok?
* O idioma do país é o espanhol.
* Área: 203 km²
* Área metropolitana: 4.758 km²
* População: 2,89 milhões (2010)   

**Quando Viajar para Bueno Aires**
* Primavera: temperatura agradável e cidade florida (de setembro a dezembro);
* Verão: temperatura alta e cidade vazia (dezembro a março);
* Outono: temperatura amena e temporada de vinhos (março a junho);
* Inverno: temperatura baixa, mas sem neve (junho a setembro).


## Obtenção dos Dados

**Neste *notebook*, iremos analisar os dados referentes à cidade Buenos Aires, e ver quais insights podem ser extraídos a partir de dados brutos.**


In [0]:
# importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [0]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("http://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2020-04-26/visualisations/listings.csv")

## Análise dos Dados


**Dicionário das variáveis**

* `id` - número de id gerado para identificar o imóvel
* `name` - nome da propriedade anunciada
* `host_id` - número de id do proprietário (anfitrião) da propriedade
* `host_name` - Nome do anfitrião
* `neighbourhood_group` - esta coluna não contém nenhum valor válido
* `neighbourhood` - nome do bairro
* `latitude` - coordenada da latitude da propriedade
* `longitude` - coordenada da longitude da propriedade
* `room_type` - informa o tipo de quarto que é oferecido
* `price` - preço para alugar o imóvel
* `minimum_nights` - quantidade mínima de noites para reservar
* `number_of_reviews` - número de reviews que a propriedade possui
* `last_review` - data do último review
* `reviews_per_month` - quantidade de reviews por mês
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião
* `availability_365` - número de dias de disponibilidade dentro de 365 dias

Antes de iniciar qualquer análise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras entradas.




In [0]:
# mostrar as 5 primeiras entradas
df.head()

### **Q1. Quantos atributos (variáveis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das variáveis?**

In [0]:
# identificar o volume de dados do DataFrame
print("Entradas:\t {}".format(df.shape[0]))
print("Variáveis:\t {}\n".format(df.shape[1]))

# verificar as 5 primeiras entradas do dataset
display(df.dtypes)

### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**
A qualidade de um *dataset* está diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são significativos comparados ao total de entradas.
* A coluna `neighbourhood_group` possui 100% dos seus valores faltantes.
* As variáveis `reviews_per_month` e `last_review` possuem valores nulos em quase metade das linhas.
* As variáveis `name` e `host_name` tem aproximadamente 0,1% dos valores nulos.

In [0]:
# ordenar em ordem decrescente as variáveis por seus valores ausentes
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

### **Q3. Qual o tipo de distribuição das variáveis?** 

Vamos plotar um histograma para identificar as disribuições das variáveis.

In [0]:
# plotar o histograma das variáveis numéricas
df.hist(bins=15, grid= False, figsize=(15,10));

r
A media do aluguei é `$4014,00` pesos argentinos, convertendo para o real ficamos com o valor aproximado de `R$288,00`.

In [0]:
# ver a média da coluna `price`
df.price.mean()

### **Q4.Há outliers presentes?**
Pela distribuição do histograma, é possível verificar indícios da presença de *outliers*. Olhe por exemplo as variáveis `price`, `minimum_nights`,  `calculated_host_listings_count` e `number_of_reviews`.

Os valores não seguem uma distruição, e distorcem toda a representação gráfica. Para confirmar, há duas maneiras rápidas que auxiliam a detecção de *outliers*. São elas:

* Resumo estatístico por meio do método `describe()`
* Plotar `boxplots` para a variável.

In [0]:
# ver o resumo estatístico das variáveis numéricas
df[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month',
    'calculated_host_listings_count', 'availability_365']].describe()

Olhando o resumo estatístico acima, podemos confirmar algumas hipóteses como:

* A variável `price` possui 75% do valor abaixo de `$3319,00`, porém seu valor máximo é `$663732,00`.
* A quantidade mínima de noites (`minimum_nights`) está acima de 365 dias no ano.
* Vaor minimo de aluguel está `$0,00` 

#### Boxplot para minimum_nights


In [0]:
# minimum_nights
df.minimum_nights.plot(kind='box', vert=False, figsize=(15, 3))
plt.show()

# ver quantidade de valores acima de 30 dias para minimum_nights
print("minimum_nights: valores acima de 30:")
print("{} entradas".format(len(df[df.minimum_nights > 30])))
print("{:.4f}%".format((len(df[df.minimum_nights > 30]) / df.shape[0])*100))

#### Boxplot para price


In [0]:
# price
df.price.plot(kind='box', vert=False, figsize=(15, 3),)
plt.show()

# ver quantidade de valores acima de 8000 para price
print("\nprice: valores acima de 8000")
print("{} entradas".format(len(df[df.price > 8000])))
print("{:.4f}%".format((len(df[df.price > 8000]) / df.shape[0])*100))

# df.price.plot(kind='box', vert=False, xlim=(0,1300), figsize=(15,3));

Como ja verificado que temos outliers nas variáveis prince e minimum_nights, vamos agora limpar o DataFrame elas e plotar novamente o histograma.

In [0]:
# remover os *outliers* em um novo DataFrame
df_clean = df.copy()
df_clean.drop(df_clean[df_clean.price > 8000].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.minimum_nights > 30].index, axis=0, inplace=True)

# remover `neighbourhood_group`, pois está vazio
df_clean.drop('neighbourhood_group', axis=1, inplace=True)

# plotar o histograma para as variáveis numéricas
df_clean.hist(bins=15, grid=False, figsize=(15,10));

Após a limpeza dos dados percebemos que temos uma melhor distribuição das variáveis.


### **Q4. Qual a correlação existente entre as variáveis**

Correlação significa que existe uma relação entre duas coisas. No nosso contexto, estamos buscando relação ou semelhança entre duas variáveis.

Essa relação pode ser medida, e é função do coeficiente de correlação estabelecer qual a intensidade dela. Para identificar as correlações existentes entre as variáveis de interesse, vou:

* Criar uma matriz de correlação
* Gerar um *heatmap* a partir dessa matriz, usando a biblioteca `seaborn`


In [0]:
# criar uma matriz de correlação
# criar uma matriz de correlação
corr = df_clean[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month',
    'calculated_host_listings_count', 'availability_365']].corr()
# mostrar a matriz de correlação
display(corr)

In [0]:
# plotar um heatmap a partir das correlações
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True);

### **Q5. Qual o tipo de imóvel mais alugado no Airbnb?**

In [0]:
# mostrar a quantidade de cada tipo de imóvel disponível
df_clean.room_type.value_counts()

In [0]:
# mostrar a porcentagem de cada tipo de imóvel disponível
df_clean.room_type.value_counts() / df_clean.shape[0]

In [0]:
df_clean.neighbourhood.value_counts()

### **Q6. Qual a localidade mais cara do dataset?**



In [0]:
# ver preços por bairros, na média
df_clean.groupby(['neighbourhood']).price.mean().sort_values(ascending=False)[:5]

In [0]:
# ver quantidade de imóveis no Puerto Madero
print(df_clean[df_clean.neighbourhood == "Villa Soldati"].shape)

# ver as 3 entradas do Puerto Madero
df_clean[df_clean.neighbourhood == "Villa Soldati"]

In [0]:
# plotar os imóveis pela latitude-longitude
df_clean.plot(kind="scatter", x='longitude', y='latitude', alpha=0.4, c=df_clean['price'], s=8,
              cmap=plt.get_cmap('jet'), figsize=(12,8));

### **Q7. Qual é a média do mínimo de noites para aluguel (minimum_nights)?**

In [0]:
# ver a média da coluna `minimum_nights``
df_clean.minimum_nights.mean()

## Conclusões


## Conclusões

Foi feita apenas uma análise superficial na base de dados do Airbnb, porém já se percebeu que existem *outliers* em algumas das variáveis. 

Também se notou que em algumas localidades há poucos imóveis disponíveis, o que pode distorcer as informações estatísticas de alguns atributos.

* Notamos que Buenos Aires tem uma media diaria de 4 noites.

Analisando os 5 primeiros bairros temos em ordem:

* Puerto Madero com *184* imoveis disponiveis e media de $4418,00 pesos argentinos. 

* Villa Soldati com *3* imoveis e $3761 é um dos outliers citados.

* Palermo com *6621* imoveis disponiveis e media de $2882,00 pesos argentinos. 

* Retiro   com *1148* imoveis disponiveis e media de $2747,00 pesos argentinos.   

* Recoleta com *3644* imoveis disponiveis e media de $2710,00 pesos argentinos. 

**Porto Madeiro** é um bairro a beira mar, com cara de primeiro mundo, é la que se encontra o `Museu no Humor` e tambem para quem procura a historia dos imigrantes o `Museu Nacional da Imigração`, Alêm que é aqui que se encontra a `Reserva Ecológica de Costanera Sur`.

**Palermo** é onde se encontra a maior quantidade de imoveis para locação em Bueno Aires, os pricipais pontos turisticos da cidade são o `Planetário Galileu Galilei` e o jardim de rosas do `Parque Tres de Febrero`, por ser o maior bairro da cidade Palermo abriga muitas botiques e bares populares e baladas.

**Retiro** faz divisa com San Nicolás e é casa do famoso terminal de ônibus e trem que recebem o mesmo nome, tambem é lar da `Torre Monumental` e `Plaza san Martín`.

**Recoleta** é considerada a região mais elegante e "europeia" da cidade. Basicamente é a area residencia rica da cidaade, onde se encontra o `Hard Rock Café` e os principais restairates da capital. Alêm de ter o `Cemitério da Recoleta` que de acordo co a azul é um museu a céu aberto, alé do `Museu de Bellas Artes` e a `Biblioteca Nacional`.




Por fim, lembra-se que este *dataset* é uma versão resumida, ideal apenas para uma abordagem inicial. Recomenda-se que seja usado, em uma próxima análise exploratória, o conjunto de dados completos, com 106 atributos disponíveis.
