
<left><img alt="Analisando Airbnb" width="20%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></left>
# <center>***Análise do Dados do Airbnb - San Diego, Califórnia***

*by [Maria Eduarda de Araújo Freire](https://www.github.com/MariaE-duarda)* 

---
<center><img alt="Analisando Airbnb" width="85%" src="https://th.bing.com/th/id/R.2688dbbd5c03ea90c1606c5220d1abfd?rik=rHI05rS1v7Knpg&riu=http%3a%2f%2fwww.wje.com%2fassets%2fimages%2foffices%2fheaders%2fWJE-Offices-San-Diego-1770x800.jpg&ehk=AMjxV%2fYFzT6JSFaqLCVgNsNdltpb6YOjmufEPH5Yswk%3d&risl=&pid=ImgRaw&r=0"></center>

O [Airbnb](https://www.airbnb.com.br/) é o site considerado como sendo um dos mais procurados em termos de hospedagem, utilizando o novo conceito de economia colaborativa, pessoas comuns oferecem suas acomodações gerando uma renda extra, atavés dessa fantástica ferramenta AIRBNB.

Com esse conceito, o site tonou - se a  **maior empresa hoteleira da atualidade**, com o detalhe de **não possuir nenhum hotel**!, nenhum patrimonio empresarial para locar. Conectando pessoas que querem se hospedar com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup com 10 anos de funcionamento, já havia **hospedado mais de 300 milhões** de pessoas ao redor do mundo, desafiando as redes hoteleiras tradicionais. 

Segundo estatísticas da Property Management, de outubro de 2019, o Airbnb tem mais de 150 milhões de usuários em todo o mundo, com mais de 650 mil anfitriões e 2 milhões de pessoas utilizando os seus serviços todas as noites.

<center><img alt="Analisando Airbnb" width="15%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

#**<center>Conhecendo a cidade de San Diego**

San Diego é uma cidade dos Estados Unidos localizada no sul do estado da Califórnia, sendo a segunda cidade mais populosa do estado e a oitava mais populosa do país.

É tida como o berço da Califórnia e é conhecida por seu clima ameno durante a maior parte do ano, por seu porto natural de águas profundas, extensas praias, longa associação com a Marinha dos Estados Unidos e seu centro de desenvolvimento da biotecnologia.

<center><img alt="Analisando Airbnb" width="75%" src="https://timesofsandiego.com/wp-content/uploads/2020/05/Belmont-Park_Release-Local-scaled.jpg"></center>

A herança espanhola e mexicana de San Diego se reflete em muitos locais históricos da cidade, como Mission San Diego de Alcala e Old Town San Diego State Historic Park. Além disso, a indústria cervejeira local atrai um número crescente de visitantes para "passeios de cerveja" e para a San Diego Beer Week anual em novembro. 

 **Pontos turisticos de San Diego:**
 - *Gaslamp Quarter*;
 - *Parque SeaWorld*;
 - *Zoológico San Diego Zoo*;
 - *Pacific Beach*;
 - *Balboa Park*;
 - *PETCO Park*;

Entre muitos outros locais com visuais impressionantes.
 
---



# __1 - Entendimento do Projeto__

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de *Data Science*. 


## 1.1 -  *Métodos abordados*

Neste projeto iremos analisar os últimos dados, disponibilizados no Inside Airbnb, referentes à cidade de San Diego, Califórnia, e ver **quais insights podem ser extraídos a partir desses dados brutos**.

Iremos identificar os comportamentos médios e discrepantes dos preços das acomodações, realizaremos a comparação desses valores, investigaremos a interdependência entre as variáveis, tipos de acomodações e procuraremos identificar tendências por bairros.

A partir do conjunto de dados iniciais, o dataset, irei aplicar os recursos informácionais através da **linguagem de programação Phyton** e definir o que de fato é essencial e o que é "lixo".

Utilizaremos as seguintes técnicas da análise exploratória:
- `Histogramas`;  `Box Plot`; `Matriz de correlação`; `Heatmap`.


## *1.2 - Quesitos analisados*

- Tipo de imóvel mais alugado no Airbnb;
- Quantidade e percentual de cada tipo de imóvel disponível;
- Valor médio de diárias em San Diego;
- Localidade com maiores taxas de diárias;
- Valores financeiros gerados no período dos dados fornecidos;
- Bairros e anfitriões mais comentados através dos reviews;


# __2 - Explorando os Dados__

Todos os dados usados aqui foram obtidos a partir do site [Inside Airbnb](http://insideairbnb.com/get-the-data.html).

Para esta análise exploratória inicial, será baixado apenas o seguinte arquivo:
* `listings.csv` - *Summary information and metrics for listings in San Diego (good for visualisations).*


In [None]:
# importando os pacotes necessários
import warnings
warnings.filterwarnings('ignore')
 
import pandas as pd
from datetime import datetime
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import folium
 
# configurando a visualização
sns.set_style()
%matplotlib inline

In [None]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv('/content/drive/MyDrive/San Diego - Califórnia, Estados Unidos/listings.csv')

# Exclusão da coluna lincese
df.drop('license', axis=1)

## 2.1 - *Análisando os Dados*

Este tópico tem o objetivo de criar uma consciência inicial e permitir o entendimento de como os dados foram e estão estruturados. 

#### **Dicionário das variáveis**

* `id` - Número de identificação do imóvel;
* `name` - Nome da propriedade anunciada;
* `host_id` - Número de identificação do proprietário (anfitrião) da propriedade;
* `host_name` - Nome do anfitrião;
* `neighbourhood_group` - Esta coluna não contém nenhum valor válido;
* `neighbourhood` - Nome do bairro;
* `latitude` - Coordenada da latitude da propriedade;
* `longitude` - Coordenada da longitude da propriedade;
* `room_type` - Informa o tipo de quarto que é oferecido;
* `price` - Preço para alugar o imóvel;
* `minimum_nights` - Quantidade mínima de noites para reservar;
* `number_of_reviews` - Número de reviews que a propriedade possui;
* `last_review` - Data do último review;
* `reviews_per_month` - Quantidade de reviews por mês;
* `calculated_host_listings_count` - Quantidade de imóveis do mesmo anfitrião;
* `availability_365` - Número de dias de disponibilidade dentro de 365 dias (1 ano).
* `license` - Esta coluna não contém nenhum valor válido.

Com o intuito de facilitar a visualização das variáveis (colunas), iremos utilizar uma linguagem em português para melhor visualização.

In [None]:
#alteração de nomes das colunas
df.rename(columns={'id': 'ID_imóvel', 'name':'Descrição', 'host_id':'ID_proprietário', 'host_name':'Anfitrião', 'neighbourhood':'Bairro', 'room_type':'Tipo_quarto', 'price':'Preço', 
'minimum_nights':'Minimo_noites', 'number_of_reviews':'Número_reviews', 'last_review':'Data_último_review', 'reviews_per_month':'Reviews_mês', 'calculated_host_listings_count':'Imóveis_por_anfitrião',
'availability_365':'Disponibilidade_anual'}, inplace=True)

# Verificação de alteração do nome das colunas 
print(df.columns)

In [None]:
# mostrar as 5 primeiras entradas do dataset
df.head()

In [None]:
# mostrar as 5 últimas entradas do dataset
df.tail()

## **Quantificando as variáveis, entradas e tipos do nosso conjunto de dados**

Vamos prosseguir e identificar a quantidade de entradas do conjunto de dados e ver os tipos das colunas.

In [None]:
# definir dados de data e hora 
df ['Data_último_review'] = pd.to_datetime (df ['Data_último_review'])

In [None]:
# identificar o volume de dados do DataFrame
print("Entradas:\t {}".format(df.shape[0]))
print("Variáveis:\t {}\n".format(df.shape[1]))

# verificar as 5 primeiras entradas do dataset
display(df.dtypes)

## **Percentual de valores ausentes no *dataset***

A qualidade de um *dataset* está diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são significativos comparados ao total de entradas.

* É possível ver que a coluna `neighbourhood_group` e `license` possuem 100% dos seus valores faltantes;
* As variáveis `Reviews mês` e `Data último review` possuem 14% dos seus valores nulos;
* As variável Data_último_review mudei para o tipo de data padrão (datetime64[ns]).

In [None]:
# ordenar em ordem decrescente as variáveis por seus valores ausentes
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

In [None]:
df_Data_último_review = pd.date_range(start='6/1/2013', end='6/1/2020', freq='D')

In [None]:
display(df_Data_último_review)

In [None]:
type(df_Data_último_review[0])

## **Análise dos tipos de distribuição das variáveis**

Para identificar a distribuição das variáveis, irei plotar o histograma.

In [None]:
# plotar o histograma das variáveis numéricas
df.hist(bins=15, figsize=(20,15), color='#F24A72');

In [None]:
df.Data_último_review.hist(color='#FDAF75')

## **Avaliação de *outliers* presentes**

Pela distribuição do histograma, é possível verificar indícios da presença de *outliers*. Olhe por exemplo as variáveis `Preço`, `Mínimo_noites` e `Imóveis_por_anfitrião`.

Os valores não seguem uma distribuição e distorcem toda a representação gráfica. Para confirmar, há duas maneiras rápidas que auxiliam a detecção de *outliers*:

* Resumo estatístico por meio do método `describe()`;
* Plotar `boxplots` para a variável.

In [None]:
# ver o resumo estatístico das variáveis numéricas
df[['Preço', 'Minimo_noites', 'Número_reviews', 'Reviews_mês', 'Imóveis_por_anfitrião', 'Disponibilidade_anual']].describe()

Olhando o resumo estatístico acima, podemos confirmar algumas hipóteses como:

* A variável `Preço` possui 75% do valor abaixo de  336 porém seu valor máximo é R$ 10.000,00;
* A quantidade mínima de noites está acima de 365 dias no ano;
* Os Imóveis por anfitrião existem proprietários com 202 acomodações. 

## **Boxplot para Mínimo noites**

In [None]:
# Mínimo noites
df.Minimo_noites.plot(kind='box', vert=False, figsize=(15, 3),)
plt.show()

# ver quantidade de valores acima de 30 dias para Mínimo noites
print("\nMinimo_noites: valores acima de 30:")
print("{} entradas".format(len(df[df.Minimo_noites > 30])))
print("{:.4f}%".format((len(df[df.Minimo_noites > 30]) / df.shape[0])*100))

## **Boxplot para Preço**

In [None]:
# Preço
df.Preço.plot(kind='box', vert=False, figsize=(15, 3),)
plt.show()

# ver quantidade de valores acima de 1000 para Preço
print("\nPreço: valores acima de 1000")
print("{} entradas".format(len(df[df.Preço > 1000])))
print("{:.4f}%".format((len(df[df.Preço > 1000]) / df.shape[0])*100))

# df.Preço.plot(kind='box', vert=False, xlim=(0,1300), figsize=(15,3));

## **Boxplot para  Imóveis por Anfitrião**



In [None]:
# Imóveis por anfitrião
df.Imóveis_por_anfitrião.plot(kind='box', vert=False, figsize=(15, 3),)
plt.show()

# ver quantidade de Imóveis por anfitrião acima de 50 
print("Imóveis por anfitrião: valores acima de 50")
print("{} entradas".format(len(df[df.Imóveis_por_anfitrião > 50])))
print("{:.4f}%".format((len(df[df.Imóveis_por_anfitrião > 50]) / df.shape[0])*100))

# df.Imóveis_por_anfitrião.plot(kind='box', vert=False, xlim=(0,1300), figsize=(15,3));

# __3. Preparando os dados__

Nesta etapa iremos realizar a preparação dos dados e consequentemente a limpeza, realizando a integração, formatação e construção de novos dados, para que possamos selecionar os que serão utilizados na construção de nosso modelo (análise exploratória de dados).

## *3.1 Limpando os dados*

Já que identificamos *outliers* nas variáveis `Preço`, `Minimo noite` e `Imóveis por anfitrião`, vamos agora limpar o *DataFrame* delas e plotar novamente o histograma.

In [None]:
# remover os outliers em um novo DataFrame
df_clean = df.copy()
df_clean.drop(df_clean[df_clean.Preço > 1500].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.Minimo_noites > 30].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.Preço < 10].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.Minimo_noites < 1].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.Imóveis_por_anfitrião > 50].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.Imóveis_por_anfitrião < 1].index, axis=0, inplace=True)

# remover `neighbourhood_group`, pois está vazio
df_clean.drop('neighbourhood_group', axis=1, inplace=True)

# plotar o histograma para as variáveis numéricas
df_clean[["Preço", "Minimo_noites", "Imóveis_por_anfitrião"]].hist(figsize=(12,8), color='#845EC2');

# **4 - Construindo o modelo do DS**

Nesta etapa iremos utilizar as técnicas de modelagem em Data Science. Construiremos possíveis modelos para nosso DS com a análise exploratória dos dados (tabelas, gráficos), outras técnicas disponíveis, e por fim, o modelo será avaliado quanto à qualidade das suas previsões (métricas de avaliação do modelo).


## **O tipo de imóvel mais disponível no Airbnb**

A coluna da variável `Tipo_quarto` indica o tipo de locação que está anunciada no Airbnb. Se você já alugou no site, sabe que existem opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas.

Vamos contabilizar a quantidade de ocorrências de cada tipo de aluguel, usando o método `value_counts()`.

In [None]:
# mostrar a quantidade de cada tipo de imóvel disponível
quant_tipoquarto = df_clean.Tipo_quarto.value_counts()

# Demonstrar o resultado
print(quant_tipoquarto)
print('\n')

In [None]:
# mostrar a porcentagem de cada tipo de imóvel disponível
perc_tipoquarto = df_clean.Tipo_quarto.value_counts() / df_clean.shape[0]*100

# Demonstrar o resultado
print(perc_tipoquarto)
print('\n')

In [None]:
# Plotar o percentual por tipo de quarto
ax = sns.barplot(quant_tipoquarto.index, perc_tipoquarto) 
ax.set_title('Percentual de tipo de quartos')
ax.tick_params(bottom=False, top=False, left=False, right=False);
ax.set_ylabel('Percentual %', fontsize=12)
for kew, spine in ax.spines.items():
    spine.set_visible(False)

## **Bairros com maiores valores de diárias**

Uma maneira de se verificar uma variável em função da outra é usando o `groupby()`. No caso, queremos comparar os bairros a partir do preço de locação.

In [None]:
df_clean.groupby(['Bairro']).Preço.mean().sort_values(ascending=False)[:10]

Acima, verificamos que bairros como Eastlake Woods, La Jolla, Wooded Area e North City, estão com média de preço superior a de lugares como Torrey Pines, Del Cerro e Columbia.

Uma pessoa que não conhecesse San Diego poderia apresentar esses resultados sem se questionar. Só para dar um único exemplo de como uma amostra pode ser não-representativa, veja quantas entradas vazias existem em Eastlake Woods.

In [None]:
# ver quantidade de imóveis no Eastlake Woods
print(df_clean[df_clean.Bairro == "Eastlake Woods"].shape)

# ver a 1 entrada do Eastlake Woods
df_clean[df_clean.Bairro == "Eastlake Woods"]

Analisando a entrada 7145, percebe se que está incoerente, um Entire home/apt em Eastlake Woods por 700 a diária não condiz com a realidade, devido a isso iremos eliminar esse bairro.

In [None]:
# ver quantidade de imóveis em La Jolla
print(df_clean[df_clean.Bairro == "La Jolla"].shape)

# ver as entradas de La Jolla
df_clean[df_clean.Bairro == "La Jolla"]

O bairro La Jolla também possui incoerências, logo, iremos deletar. 

In [None]:
# ver quantidade de imóveis no Wooded Area
print(df_clean[df_clean.Bairro == "Wooded Area"].shape)

# ver as entradas do Wooded Area
df_clean[df_clean.Bairro == "Wooded Area"]

O bairro Wooded Area apresenta certas incoerências, também será excluído.

In [None]:
# ver quantidade de imóveis no North City 
print(df_clean[df_clean.Bairro == "North City"].shape)

# ver as entradas do North City
df_clean[df_clean.Bairro == "North City"]

In [None]:
# limpando o dataset

df_clean.drop(df_clean[df_clean.Bairro == "Eastlake Woods"].index, axis=0, inplace=True)

df_clean.drop(df_clean[df_clean.Bairro == "La Jolla"].index, axis=0, inplace=True)

df_clean.drop(df_clean[df_clean.Bairro == "Wooded Area"].index, axis=0, inplace=True)

df_clean.drop(df_clean[df_clean.Bairro == "North City"].index, axis=0, inplace=True) 

In [None]:
# ver quantidade de imóveis nos Bairros deletados
print(df_clean[df_clean.Bairro == "Eastlake Woods"].shape)
print(df_clean[df_clean.Bairro == "La Jolla"].shape)
print(df_clean[df_clean.Bairro == "Wooded Area"].shape)
print(df_clean[df_clean.Bairro == "North City"].shape)

# ver as entradas dos Bairros deletados
df_clean[df_clean.Bairro == "Eastlake Woods"]
df_clean[df_clean.Bairro == "La Jolla"]
df_clean[df_clean.Bairro == "Wooded Area"]
df_clean[df_clean.Bairro == "North City"]

In [None]:
df_clean.groupby(['Bairro']).Preço.mean().sort_values(ascending=False)[:10]

In [None]:
valor_porbairro = df_clean.groupby(['Bairro']).Preço.mean().sort_values(ascending=False)[:7]

# Demonstrar o resultado
print(valor_porbairro)
print('\n')

In [None]:
# Plotar maiores valores de diárias por bairro
ax = sns.barplot(valor_porbairro.index, valor_porbairro) 
ax.set_title('Top 7 Maiores valores de diárias por bairro', fontsize=14)
ax.tick_params(bottom=False, top=False, left=30, right=False);
ax.set_ylabel('Valores $', fontsize=12)
for kew, spine in ax.spines.items():
    spine.set_visible(False)

## **Bairros mais comentados**


In [None]:
df.groupby(['Bairro']).Número_reviews.mean().sort_values(ascending=False)[:10]

bairros_maiscomentados = df.groupby(['Bairro']).Número_reviews.mean().sort_values(ascending=False)[:6]

# Demonstrar o resultado
print(bairros_maiscomentados)
print('\n')

In [None]:
# Plotar bairros_mais comentados
ax = sns.barplot(bairros_maiscomentados.index, bairros_maiscomentados) 
ax.set_title('Top 6 bairros mais comentados', fontsize=14)
ax.tick_params(bottom=False, top=False, left=False, right=False);
ax.set_ylabel('comentários', fontsize=12)
for kew, spine in ax.spines.items():
    spine.set_visible(False)

In [None]:
df.groupby(['Anfitrião']).Número_reviews.mean().sort_values(ascending=False)[:10]

anfitriao_maiscomentados = df.groupby(['Anfitrião']).Número_reviews.mean().sort_values(ascending=False)[:3]

# Demonstrar o resultado
print(anfitriao_maiscomentados)
print('\n')

# Plotar Anfitrião_mais comentados
ax = sns.barplot(anfitriao_maiscomentados.index, anfitriao_maiscomentados) 
ax.set_title('Top 3 anfitriões mais comentados')
ax.tick_params(bottom=False, top=False, left=False, right=False);
ax.set_ylabel('comentários', fontsize=12)
for kew, spine in ax.spines.items():
    spine.set_visible(False)

## **Média dos preços da diária**


In [None]:
print("Média de preço de diárias")
print ('$', df_clean.Preço.mean())


In [None]:
# valor da soma de todos alugueis
sum(df_clean.Preço)

print("soma de todas as diárias existentes no AIRBNB San Diego")
print ('$',sum(df_clean.Preço))

Como são fornecidas as Latitudes e Longitudes para os imóveis, é possível plotar cada ponto. Para isso, considera-se `x=longitude` e `y=latitude`.

In [None]:
# plotar os imóveis pela latitude-longitude

df_clean.plot(kind="scatter", x='longitude', y='latitude', alpha=0.4, c=df_clean['Preço'], s=8,
              cmap=plt.get_cmap('jet'), figsize=(12,8));

## **Correlação existente entre as variáveis**

Correlação significa que existe uma relação entre duas coisas. No contexto da análise, podemos buscar relação ou semelhança entre duas variáveis.

Essas relações podem ser medidas, e é função do coeficiente de relação estabelecer qual a intensidade dela. Para identificar as correlações existentes entre as variáveis de interesse, vou:

* Criar uma matriz de correlação;
* Gerar um *heatmap* a partir dessa matriz, usando a biblioteca `seaborn`

In [None]:
# criar uma matriz de correlação
corr = df_clean[['Preço', 'Minimo_noites', 'Número_reviews', 'Reviews_mês',
    'Imóveis_por_anfitrião', 'Disponibilidade_anual']].corr()

display(corr)

In [None]:
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=False, linecolor='red', annot=True);

# *Conclusão*
##**Após a análise superficial dos dados na cidade de San Diego, é possível notar alguns parâmetros.**


* Que 80% das pessoas que procuram o Airbnb para hospedagem, tem preferencia por apartamento e residencias;

* Na belíssima cidade de San Diego, temos uma média de 232, 86 dólares por hospedagem.

* Vimos que acimas de 1000 dólares temos 368 entradas que representa 3,57%% do nosso dataset, que mostra que a cidade de San Diego, também tem hospedagem para a classe de alto padrão.

* A região mais cara de San Diego fica em Del Mar Heights por estar mais próxima do litoral estadunidense e ficar perto de vários pontos turísticos.

---

####Estas foram as analises da cidade de San Diego, para hospedagem, usando os dados do aplicativo Airbnb. 