<a href="https://colab.research.google.com/github/paulosrl/NotebooksGoogleColab/blob/main/An%C3%A1lise_Explorat%C3%B3ria_de_dados_Airbnb_da_Cidade_do_Cabo_(%C3%81frica_do_Sul).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Análise Exploratória de dados Airbnb da Cidade do Cabo (África do Sul)**

Atualizado: 30/03/2023

Pesquisa e Desenvolvimento: [Prof. Paulo Lima](https://paulolima.net.br)

---

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**. Ah, o detalhe é que ele **não possui nenhum hotel**!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup fundada 10 anos atrás, já havia **hospedado mais de 300 milhões** de pessoas ao redor do mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de na área de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

## A cidade de Cape Town


---



<center><img alt="Analisando Airbnb" width="80%" src="https://www.bil.com.br/blog/wp-content/uploads/2020/06/topo-capetown.jpg"></center>

Cape Town é conhecida como a cidade mãe da África do Sul. Ela é considerada uma das cidades mais lindas do mundo. Possui uma natureza exuberante e uma riqueza cultural invejável. Foi fundada por holandeses em 1682, é a capital Legislativa da África do Sul e conta com aproximadamente 3,5 milhões de habitantes.

No seu centro está localizado uma enorme montanha, a Table Mountain (com 1100 metros de altura), que impressiona por sua flora única, grandiosidade e beleza. Da Table Mountain você terá uma das vistas mais espetaculares do país. É possível subir nela por trilhas ou por uma espécie de bondinho. Além disso é uma cidade rodeada de belas praias e videiras. Fica próxima ao Cabo da Boa Esperança e é banhada pelos oceanos Atlântico e Índico.

Cape Town é uma cidade multicultural, um lugar de extremos, de um lado a riqueza de Camps Bay e Constantia e de outro a pobreza de municípios como Khayelitsa. Apesar da enorme diferença no estilo de vida dos Capetonians, todos têm orgulho cívico e muito otimismo.

Fonte: https://africadosulbrasil.com.br/cidades/cape-town/


A moeda da África do Sul é o **Rand**, e convertendo o rand para real, 1 rand (r) equivale em média R$0,29 centavos. (02/2023)

Muitos sites de turismo fazem referência a alguns pontos turísticos que devem constar na listagem de qualquer viajante, são eles:

Para facilitar, fizemos uma lista com os 10 principais pontos turísticos de Cape Town. Confira:

* Table Mountain
* V&A Waterfront
* Robben Island
* Cabo da Boa Esperança
* Boulders Beach
* Kirstenbosch Botanic Gardens
* Praias de Camps Bay e Cliffton
* Vinícolas de Constantia, Stellenbosch ou Franschoek
* Bo Kaap
* Signal Hill

O site [Capetown.travel](https://www.capetown.travel/) é uma boa opção de pesquisas para saber o que fazer na cidade.

**Neste *notebook*, iremos analisar os dados referentes à cidade Cape Town, e ver quais insights podem ser extraídos a partir de dados brutos.**

## Obtenção dos Dados



---




In [None]:
# Blibliotecas principais
import pandas as pd

import plotly.express  as  px
import plotly.graph_objects as go # biblioteca para apresentação visual

# importar o arquivo listings.csv para um DataFrame (df)
df = pd.read_csv("http://data.insideairbnb.com/south-africa/wc/cape-town/2022-12-29/visualisations/listings.csv")

##Pré-análise dos Dados


---


Esta etapa tem por objetivo fazer uma primeira análise nos dados, para entender como os dados estão estruturados. É necessário criar um dicionário de dados para identificar cada coluna do arquivo que será analisado e seus respectivos significados.

##Dicionário de dados

* `id` - número de id gerado para identificar o imóvel
* `name` - nome da propriedade anunciada
* `host_id` - número de id do proprietário (anfitrião) da propriedade
* `host_name` - Nome do anfitrião
* `neighbourhood_group` - esta coluna não contém nenhum valor válido
* `neighbourhood` - nome do bairro
* `latitude` - coordenada da latitude da propriedade
* `longitude` - coordenada da longitude da propriedade
* `room_type` - informa o tipo de quarto que é oferecido
* `price` - preço para alugar o imóvel
* `minimum_nights` - quantidade mínima de noites para reservar
* `number_of_reviews` - número de reviews que a propriedade possui
* `last_review` - data do último review
* `reviews_per_month` - quantidade de reviews por mês
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião
* `availability_365` - número de dias de disponibilidade dentro de 365 dias

Antes de iniciar qualquer análise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras linhas.

In [None]:
# mostrar as 3 primeiras entradas
df.head(3)

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,736534,Enjoy a Private Room in Chartfield Guesthouse,3007248,Florian,,Ward 64,-34.12637,18.44963,Private room,1250,1,69,2022-12-13,0.82,18,310,16,
1,3191,Malleson Garden Cottage,3754,Brigitte,,Ward 57,-33.94739,18.476,Entire home/apt,515,3,70,2022-12-23,0.6,1,297,14,
2,1625734,"Fabulous Villa, Large Entertainment Area Patio...",8643899,Linda,,Ward 62,-34.03014,18.42844,Entire home/apt,12500,7,5,2022-04-25,0.1,4,340,1,


##Total de Linhas e Colunas do dataframe

In [None]:
#Funçã para contar linhas e colunas do dataframe
def resumoTabela(dataframe):
  # Total de Linhas do dataframe
  print("Total de linhas :\t {}".format(dataframe.shape[0]))
  # Total de Colunas do dataframe
  print("Total de colunas:\t {}".format(dataframe.shape[1]))
  return

In [None]:
resumoTabela(df)

Total de linhas :	 19670
Total de colunas:	 18


##Tipos de dados de cada coluna do dataset

In [None]:
#Tipos de dados de cada coluna do dataset
display(df.dtypes)

id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                               int64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
number_of_reviews_ltm               int64
license                            object
dtype: object

##Resumo estatístico das colunas numéricas do dataset

In [None]:
#Resumo estatístico das colunas numéricas do dataset
df.describe()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
count,19670.0,19670.0,0.0,19670.0,19670.0,19670.0,19670.0,19670.0,14653.0,19670.0,19670.0,19670.0
mean,1.796446e+17,148264000.0,,-33.959494,18.475509,4041.962938,4.136299,20.416777,0.877358,10.268022,216.172547,5.840569
std,3.056252e+17,147070100.0,,0.100235,0.127855,18936.811003,13.301732,39.997375,1.088386,21.893164,125.099667,10.783907
min,3191.0,3754.0,,-34.2644,18.31941,153.0,1.0,0.0,0.01,1.0,0.0,0.0
25%,20594450.0,28199270.0,,-34.022103,18.402673,900.0,1.0,0.0,0.16,1.0,93.0,0.0
50%,40154280.0,88739820.0,,-33.930055,18.429465,1680.0,2.0,4.0,0.5,2.0,261.0,1.0
75%,5.560003e+17,242432700.0,,-33.910435,18.4835,3300.0,3.0,21.0,1.16,7.0,328.0,7.0
max,7.913132e+17,492970200.0,,-33.55177,18.930557,979144.0,730.0,635.0,17.75,139.0,365.0,142.0


## **Porcentagem de valores ausentes no *dataset*?**

A qualidade de um *dataset* está diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são SIGNIFICATIVOS comparados ao total de linhas.

* É possível ver que a coluna `neighbourhood_group` possui 100% dos seus valores faltantes, vazios ou em branco;
* As colunas `reviews_per_month` e `last_review` possuem aproximadamente 25% de valores nulos;
* A coluna `name` não possui poucos valores NULO;

In [None]:
# Função para listra colunas e valores ausentes
def listaPreenchimentoColunas(dataframe):
  print('Colunas         \t      % Valores ausentes')
  print((dataframe.isnull().sum() / dataframe.shape[0]*100).sort_values(ascending=False).round(2))
  return

In [None]:
# verificando a presença e porcentagem de dados ausentes no DataFrame,
# organizando do maior para o menor em relação ao total de linhas
#listaPreenchimentoColunas(df)
listaPreenchimentoColunas(df)

Colunas         	      % Valores ausentes
neighbourhood_group               100.00
license                            99.68
reviews_per_month                  25.51
last_review                        25.51
name                                0.01
minimum_nights                      0.00
number_of_reviews_ltm               0.00
availability_365                    0.00
calculated_host_listings_count      0.00
number_of_reviews                   0.00
id                                  0.00
room_type                           0.00
longitude                           0.00
latitude                            0.00
neighbourhood                       0.00
host_name                           0.00
host_id                             0.00
price                               0.00
dtype: float64


## **Excluindo as colunas com dados faltantes**

Neste estudo de caso, optou-se por eliminar três colunas: **neighbourhood_group, reviews_per_month e last_review**. Ao eliminar as colunas que não serão utilizadas, o processamento de dados ganha mais velocidade. A escolha das colunas que serão eliminadas deve ser feita de acordo com a qualidade dos dados que estão armazenados nestas colunas (valores faltantes ou com erro).

In [None]:
# Função para excluir as colunas com dados faltantes
def excluiColunas(dataframe,lista):
  df.drop(columns=lista, inplace=True)
  return

In [None]:
# excluindo as colunas com dados faltantes
excluiColunas(df,['neighbourhood_group', 'reviews_per_month','last_review','name','license'])

In [None]:
# Verificar tabela após exclusão das colunas
listaPreenchimentoColunas(df)

Colunas         	      % Valores ausentes
id                                0.0
host_id                           0.0
host_name                         0.0
neighbourhood                     0.0
latitude                          0.0
longitude                         0.0
room_type                         0.0
price                             0.0
minimum_nights                    0.0
number_of_reviews                 0.0
calculated_host_listings_count    0.0
availability_365                  0.0
number_of_reviews_ltm             0.0
dtype: float64


## **Excluindo as colunas que não serão utilizadas na Análise**

In [None]:
excluiColunas(df,['number_of_reviews',
             'calculated_host_listings_count',
             'availability_365',
             'number_of_reviews_ltm',
             'host_name'])

## **Histograma das colunas que serão observadas (price e minimum_nights)**

In [None]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# numeroBarras: número de barras do histograma
def geraHistograma(titulo,nomeEixoX,dadosEixo,cor,altura,largura,numeroBarras):
  if numeroBarras=="":
    numeroBarras=None
  # criação de uma figure para montar o histograma
  fig = go.Figure()
  # gera o histograma
  fig.add_trace(go.Histogram(x=dadosEixo,marker_line=dict(width=1, color='black'),marker_color=cor,nbinsx=numeroBarras))
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX
      )
  fig.show()
  return

In [None]:
geraHistograma(
    titulo="Histograma de Price",
    nomeEixoX="Price",
    dadosEixo=df['price'],
    cor="blue",
    altura=400,
    largura=800,
    numeroBarras="")

In [None]:
geraHistograma(
    titulo="Histograma de minimum_nights",
    nomeEixoX="minimum_nights",
    dadosEixo=df['minimum_nights'],
    cor="green",
    altura=400,
    largura=800,
    numeroBarras="")

## **Resumo estatístico das colunas observadas (price e minimum_nights)?**

In [None]:
def resumoEstatistico(dataframe,lista):
  print(dataframe[lista].describe().round(2))
  return

In [None]:
# Resumo estatístico das colunas numéricas
#df[['price', 'minimum_nights']].describe()
resumoEstatistico(df,['price', 'minimum_nights'])

           price  minimum_nights
count   19670.00        19670.00
mean     4041.96            4.14
std     18936.81           13.30
min       153.00            1.00
25%       900.00            1.00
50%      1680.00            2.00
75%      3300.00            3.00
max    979144.00          730.00


# **Buscando por valores discrepantes (outliers) nas colunas: price e minimum_nights**


---



## O RESUMO estatístico acima, nos permite realizar algumas observações descritas a seguir:
**Para coluna coluna `price` (preço da diária)**

* Média (mean): 4.041;
* Desvio padrão (std): 18.936;
* Valor mínimo: 153;
* Valor máximo: 979.144;
* 25% dos valores vaõ até: 900;
* 50% dos valores (Mediana) vão até: 1.680;
* 75% dos valores vaõ até: 3.300;

**Para coluna coluna `minimum_nights` (número de noites)**

* Média (mean): 4.13;
* Desvio padrão (std): 13,30;
* Valor mínimo: 1;
* Valor máximo: 730;
* 25% dos valores vão até: 1;
* 50% dos valores vão até: 2;
* 75% dos valores vão até: 3;

In [None]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoX: Descrição do eixo X no gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# orientacao: orientação do gráfico ("H":horizontal ou "V":vertical)
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# pontos: exibe ou não exibe os pontos de dados, para exibir usar: ".", para não exibir usar: ""
def geraBoxPlot(titulo,nomeEixoX,nomeEixoY,dadosEixo,cor,orientacao,altura,largura,pontos):
  fig = go.Figure()
  if pontos==".":
    pontos='all'
  else:
    pontos=None
  if orientacao=="H":
      fig = go.Figure(data=[go.Box(name='',x=dadosEixo,marker_color=cor,boxpoints=pontos)])
  else:
      fig = go.Figure(data=[go.Box(name='',y=dadosEixo,marker_color=cor,boxpoints=pontos)])
  fig.update_layout(
      height=altura,
      width=largura,
      title=titulo,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

## Analisando a distribuição dos valores da coluna price (Boxplot)

**Boxplot sem pontos de dados - price**

In [None]:
geraBoxPlot(
    titulo="Distribuição de price",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=df['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

**Boxplot com pontos de dados - price**

In [None]:
geraBoxPlot(
    titulo="Distribuição de price com pontos",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=df['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos=".")

In [None]:
def calculaNumeroLinhas(dataframe,coluna,valorFiltro,tipoCalculo):
  if tipoCalculo=="A":
    r=dataframe.loc[dataframe[coluna] >valorFiltro,coluna].count()
  else:
    r=dataframe.loc[dataframe[coluna] >valorFiltro,coluna].count()/dataframe.shape[0]*100
  return r

In [None]:
# Analisar quantidade de valores acima de 5.000 para price
print("Total de linhas com valores acima de 5.000 :",calculaNumeroLinhas(df,"price",5000,"A"))
print("Total de linhas com valores acima de 5.000 : {:.2f}%".format(calculaNumeroLinhas(df,"price",5000,"P")))

Total de linhas com valores acima de 5.000 : 2887
Total de linhas com valores acima de 5.000 : 14.68%


## Analisando a distribuição dos valores da coluna minimum_nights (Boxplot)

**Boxplot sem pontos de dados - minimum_nights**

In [None]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=df['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

**Boxplot com pontos de dados - minimum_nights**

In [None]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights com pontos",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=df['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos=".")

In [None]:
# Analisar quantidade de valores acima de 15 dias para minimum_nights

print("Total de linhas com valores acima de 15 :",calculaNumeroLinhas(df,"minimum_nights",15,"A"))
print("Total de linhas com valores acima de 15 : {:.2f}%".format(calculaNumeroLinhas(df,"minimum_nights",15,"P")))

Total de linhas com valores acima de 15 : 426
Total de linhas com valores acima de 15 : 2.17%


## Eliminando os *Outliers*

Em função da análise prévia decidimos eliminar alguns *outliers* das variáveis **price** e **minimum_nights** e executaremos novos histogramas.

In [None]:
# Em uma 1a análise, optou-se por
# Eliminar preços menores ou iguais a zero e maiores que $ 5.000 rands (price)
# Número de noites maiores que 15
# copia o dataframe para um dataframe chamado df_clean
df_clean = df.copy()
# Elimina price <=0 e >5000
df_clean.drop(df_clean[df_clean.price <= 0].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.price > 5000].index, axis=0, inplace=True)
# Elimina minimum_nights > 15
df_clean.drop(df_clean[df_clean.minimum_nights > 15].index, axis=0, inplace=True)

### Histogramas após a limpeza

**Histograma de Price**

In [None]:
geraHistograma(
    titulo="Histograma de Price",
    nomeEixoX="Price",
    dadosEixo=df_clean['price'],
    cor="green",
    altura=400,
    largura=800,
    numeroBarras=10)

**Histograma de minimum_nights**

In [None]:
geraHistograma(
    titulo="Histograma de minimum_nights",
    nomeEixoX="minimum_nights",
    dadosEixo=df_clean['minimum_nights'],
    cor="blue",
    altura=400,
    largura=800,
    numeroBarras=10)

### Boxplots após a limpeza

**Versão sem pontos de dados (price)**

In [None]:
geraBoxPlot(
    titulo="Distribuição de price",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=df_clean['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

**Versão com pontos de dados (price)**

In [None]:
geraBoxPlot(
    titulo="Distribuição de price",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=df_clean['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos=".")

**Versão sem pontos de dados (minimum_nights)**

In [None]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=df_clean['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

**Versão com pontos de dados (minimum_nights)**

In [None]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=df_clean['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="."
    )

#**Outras observações sobre os dados**


---



**Função para gerar gráficos de barra**

In [None]:
# Esta função gera gráficos de barra, informando os parâmetros entre parenteses.

def graficoBarra(titulo,nomeEixoX,nomeEixoY,dadosEixoX,dadosEixoY,orientacaoGrafico,cor,altura,largura):
  # insere colunas x e y que serão processadas pelo gráfico
  fig = go.Figure(data=[go.Bar(name='', x=dadosEixoX, y=dadosEixoY,marker_color=cor,orientation=orientacaoGrafico)])

  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

##**Qual o tipo de imóvel mais alugado ?**
A coluna da variável room_type indica o tipo de locação que está anunciada no Airbnb. No site, existem opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas.

Vamos contar a quantidade de ocorrências de cada tipo de aluguel, usando o método value_counts().


In [None]:
# mostrar a quantidade de cada tipo de imóvel disponível
dfResumo= df_clean.room_type.value_counts()

In [None]:
graficoBarra(
    titulo='Quantidade de aluguel por tipo de Imóvel',
    nomeEixoX='Tipo do Imóvel',
    nomeEixoY='Total',
    dadosEixoX=df_clean['room_type'].unique(),
    dadosEixoY=dfResumo,
    orientacaoGrafico='v',
    cor='blue',
    altura=400,
    largura=600
    )

In [None]:
# mostrar a porcentagem de cada tipo de imóvel disponível
df_clean.room_type.value_counts() / df_clean.shape[0] *100

Entire home/apt    76.206455
Private room       22.298823
Hotel room          0.933439
Shared room         0.561284
Name: room_type, dtype: float64

## **Quais as 10 localidades mais caras na cidade Cape Town?**



In [None]:
# ver preços por bairros (neighbourhood), na média
df_clean.groupby(['neighbourhood']).price.mean().sort_values(ascending=False)[:10]

neighbourhood
Ward 54     2269.354478
Ward 74     2098.465909
Ward 61     1957.910739
Ward 69     1938.279365
Ward 115    1937.559413
Ward 71     1906.726415
Ward 62     1882.481818
Ward 55     1877.045558
Ward 109    1834.488889
Ward 23     1819.433503
Name: price, dtype: float64

## **Como estão distribuídos geograficamente os imóveis, em função do preço na cidade Cape Town?**

**Função para gerar gráficos de dispersão**

In [None]:
# Esta função gera gráficos de dispersão, informando os parâmetros entre parenteses.

def geraGraficoDispersao(dataFrame,titulo,nomeEixoX,nomeEixoY,dadosEixoX,dadosEixoY,cor,altura,largura,valorCor):
  # insere colunas x e y que serão processadas pelo gráfico

  if valorCor=="": #monocromático
    fig = px.scatter(dataFrame,x=dadosEixoX,y=dadosEixoY,title=titulo,color_discrete_sequence=[cor])
  else:
    fig = px.scatter(dataFrame,x=dadosEixoX,y=dadosEixoY,color=valorCor,title=titulo)
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  # exibe o gráfico
  fig.show()
  return

**Imóveis e preços por bairro versão em cores**

In [None]:
geraGraficoDispersao(
    dataFrame=df_clean,
    titulo="Distribuição de preços por bairro",
    nomeEixoX="Price",
    nomeEixoY="Neighbourhood",
    dadosEixoX=df_clean['price'],
    dadosEixoY=df_clean['neighbourhood'],
    cor="",
    altura=600,
    largura=900,
    valorCor="price"
    )

**Imóveis e preços por bairro versão com uma cor**

In [None]:
geraGraficoDispersao(
    dataFrame=df_clean,
    titulo="Distribuição de preços por bairro",
    nomeEixoX="Price",
    nomeEixoY="Neighbourhood",
    dadosEixoX=df_clean['price'],
    dadosEixoY=df_clean['neighbourhood'],
    cor="green",
    altura=600,
    largura=900,
    valorCor=""
    )

**Função para plotar o mapa**

In [None]:
# Esta função gera gráficos de dispersão, informando os parâmetros entre parenteses.

def plotaMapa(dataSet,latitude,longitude,dica1,dica2,campoDestaque,altura,largura,tamanhoCirculo):
  if tamanhoCirculo=="":
    tamanhoCirculo=None
  fig = px.scatter_mapbox(dataSet,lat=latitude,lon=longitude,hover_data=[dica1,dica2],color=campoDestaque,size=tamanhoCirculo,
                        zoom=8,color_continuous_scale=px.colors.cyclical.IceFire)
  fig.update_layout(
      title_font_size=20,
      height=altura,
      width=largura,
      mapbox_style="open-street-map",
      margin = {"r":0 ,"t":0,"l":0,"b":0} # usa open street maps
    )
  fig.show()
  return

**Mapa de distribuição geográfica por tipo de imóvel**

In [None]:
plotaMapa(
    dataSet=df_clean,
    latitude=df_clean['latitude'],
    longitude=df_clean['longitude'],
    dica1=df_clean['neighbourhood'],
    dica2=df_clean['price'],
    campoDestaque=df_clean['room_type'],
    altura=700,
    largura=1000,
    tamanhoCirculo='price'
    )

**Mapa de distribuição geográfica por preço**

In [None]:
plotaMapa(
    dataSet=df_clean,
    latitude=df_clean['latitude'],
    longitude=df_clean['longitude'],
    dica1=df_clean['neighbourhood'],
    dica2=df_clean['room_type'],
    campoDestaque=df_clean['price'],
    altura=700,
    largura=1000,
    tamanhoCirculo='price'
    )

# Conclusões


Dados Carregados: 26/03/2023
* Resumo dos dados:
 * Total de linhas :	 19670
 * Total de colunas:	 18

* Em relação as colunas **price** e **minimum_nights**, observou-se na primeira análise que:

 *   75% dos dados em relação a coluna *price* estavam com valores até 3.300;
 *   75% dos dados em relação a coluna *minimum_nights* estavam com valores até 3;

* Análise de ***outliers*** nas colunas *price* e *minimum_nights*;
 * Foram encontrados ***outliers*** nas colunas *price* e *minimum_nights*, como por exemplo: valor máximo de *price* igual a 97.9144 e minimum_nights igual a 730.

* Ao analisar a distribuição gráfica dos dados, aplicou-se os seguintes cortes:

 * Foram elimininadas todas as linhas da tabela com valores da coluna **price** superiores a 5.000, isso representou um corte de 2.887 linhas que representam 14,68% do total de linhas;

 * Foram elimininadas todas as linhas da tabela com valores da coluna **minimum_nights** superiores a 15, isso representou um corte de 426 linhas que representam 2,17% do total de linhas;

* Além das análises envolvendo as colunas price e miminum_nights, verificou-se a distribuição dos dados, com o dataset *sem outliers*.

* Foram criados gráficos que ajudam a verificar a distribuição de preços por bairro, é possível interagir com o gráfico para analisar a distribuição de preços de acordo com os bairros;

* Finalmente foram criados gráficos georeferenciados para analisar a distribuição de imóveis por bairro e tipo de imóvel e preço.
 * Análise Geográfica por Tipo de Imóvel (neighbourhood)
 * Análise Geográfica por preço (price)
