#**Análise Exploratória de dados Airbnb da Cidade do Cabo (África do Sul)**

Atualizado: 16/04/2024.

Pesquisa e Desenvolvimento: [Prof. Paulo Lima](https://paulolima.net.br)

---

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**. Ah, o detalhe é que ele **não possui nenhum hotel**!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2018, a Startup fundada 10 anos atrás, já havia **hospedado mais de 300 milhões** de pessoas ao redor do mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de na área de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

## A cidade de Cape Town


---



<center><img alt="Analisando Airbnb" width="80%" src="https://www.bil.com.br/blog/wp-content/uploads/2020/06/topo-capetown.jpg"></center>

Cape Town é conhecida como a cidade mãe da África do Sul. Ela é considerada uma das cidades mais lindas do mundo. Possui uma natureza exuberante e uma riqueza cultural invejável. Foi fundada por holandeses em 1682, é a capital Legislativa da África do Sul e conta com aproximadamente 3,5 milhões de habitantes.

No seu centro está localizado uma enorme montanha, a Table Mountain (com 1100 metros de altura), que impressiona por sua flora única, grandiosidade e beleza. Da Table Mountain você terá uma das vistas mais espetaculares do país. É possível subir nela por trilhas ou por uma espécie de bondinho. Além disso é uma cidade rodeada de belas praias e videiras. Fica próxima ao Cabo da Boa Esperança e é banhada pelos oceanos Atlântico e Índico.

Cape Town é uma cidade multicultural, um lugar de extremos, de um lado a riqueza de Camps Bay e Constantia e de outro a pobreza de municípios como Khayelitsa. Apesar da enorme diferença no estilo de vida dos Capetonians, todos têm orgulho cívico e muito otimismo.

Fonte: https://africadosulbrasil.com.br/cidades/cape-town/


A moeda da África do Sul é o **Rand**, e convertendo o rand para real, 1 rand (r) equivale em média R$0,29 centavos. (02/2023)

Muitos sites de turismo fazem referência a alguns pontos turísticos que devem constar na listagem de qualquer viajante, são eles:

Para facilitar, fizemos uma lista com os 10 principais pontos turísticos de Cape Town. Confira:

* Table Mountain
* V&A Waterfront
* Robben Island
* Cabo da Boa Esperança
* Boulders Beach
* Kirstenbosch Botanic Gardens
* Praias de Camps Bay e Cliffton
* Vinícolas de Constantia, Stellenbosch ou Franschoek
* Bo Kaap
* Signal Hill

O site [Capetown.travel](https://www.capetown.travel/) é uma boa opção de pesquisas para saber o que fazer na cidade.

**Neste *notebook*, iremos analisar os dados referentes à cidade Cape Town, e ver quais insights podem ser extraídos a partir de dados brutos.**

## Obtenção dos Dados



---




In [1]:
# Blibliotecas principais
import pandas as pd

import plotly.express  as  px
import plotly.graph_objects as go # biblioteca para apresentação visual

# importar o arquivo listings.csv para um DataFrame (df)
df = pd.read_csv("https://data.insideairbnb.com/united-states/ma/boston/2024-06-22/visualisations/listings.csv")

## Funções de apoio no processo de análise

In [2]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# numeroBarras: número de barras do histograma
def geraHistograma(titulo,nomeEixoX,dadosEixo,cor,altura,largura,numeroBarras):
  if numeroBarras=="":
    numeroBarras=None
  # criação de uma figure para montar o histograma
  fig = go.Figure()
  # gera o histograma
  fig.add_trace(go.Histogram(x=dadosEixo,marker_line=dict(width=1, color='black'),marker_color=cor,nbinsx=numeroBarras))
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX
      )
  fig.show()
  return

In [3]:
# Função gera BoxPlot utilizando os parâmetros entre parenteses
# titulo: Título do gráfico
# nomeEixoX: Descrição do eixo X no gráfico
# nomeEixoY: Descrição do eixo Y no gráfico
# dadosEixo: dados que serão plotados no gráfico
# cor: cor de exbição do gráfico
# orientacao: orientação do gráfico ("H":horizontal ou "V":vertical)
# altura: valor da altura do gráfico em pixels
# largura: valor da largura do gráfico em pixels
# pontos: exibe ou não exibe os pontos de dados, para exibir usar: ".", para não exibir usar: ""
def geraBoxPlot(titulo,nomeEixoX,nomeEixoY,dadosEixo,cor,orientacao,altura,largura,pontos):
  fig = go.Figure()
  if pontos==".":
    pontos='all'
  else:
    pontos=None
  if orientacao=="H":
      fig = go.Figure(data=[go.Box(name='',x=dadosEixo,marker_color=cor,boxpoints=pontos)])
  else:
      fig = go.Figure(data=[go.Box(name='',y=dadosEixo,marker_color=cor,boxpoints=pontos)])
  fig.update_layout(
      height=altura,
      width=largura,
      title=titulo,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

In [4]:
#Função para contar linhas e colunas do dataframe
def resumoTabela(dataframe):
  # Total de Linhas do dataframe
  print("Total de linhas :\t {}".format(dataframe.shape[0]))
  # Total de Colunas do dataframe
  print("Total de colunas:\t {}".format(dataframe.shape[1]))
  return

In [5]:
# Função para listar colunas e valores ausentes
def listaPreenchimentoColunas(dataframe):
  print('Colunas         \t      % Valores ausentes')
  print((dataframe.isnull().sum() / dataframe.shape[0]*100).sort_values(ascending=False).round(2))
  return

In [6]:
# Função para excluir as colunas com dados faltantes
def excluiColunas(dataframe,lista):
  df.drop(columns=lista, inplace=True)
  return

In [7]:
# Mostra o resumo estatístico por coluna recenida como parâmetro de um dataframe
def resumoEstatistico(dataframe,lista):
  print(dataframe[lista].describe().round(2))
  return

In [8]:
# calcula o numero de linhas ou percentual de uma coluna numérica, baseado em um valor de corte
def calculaNumeroLinhas(dataframe,coluna,valorFiltro,tipoCalculo):
  if tipoCalculo=="A":
    r=dataframe.loc[dataframe[coluna] >valorFiltro,coluna].count()
  else:
    r=dataframe.loc[dataframe[coluna] >valorFiltro,coluna].count()/dataframe.shape[0]*100
  return r

In [9]:
# Esta função gera gráficos de barra, informando os parâmetros entre parenteses.

def graficoBarra(titulo,nomeEixoX,nomeEixoY,dadosEixoX,dadosEixoY,orientacaoGrafico,cor,altura,largura):
  # insere colunas x e y que serão processadas pelo gráfico
  fig = go.Figure(data=[go.Bar(name='', x=dadosEixoX, y=dadosEixoY,marker_color=cor,orientation=orientacaoGrafico)])

  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  fig.show()
  return

In [10]:
# Esta função gera gráficos de dispersão, informando os parâmetros entre parenteses.

def geraGraficoDispersao(dataFrame,titulo,nomeEixoX,nomeEixoY,dadosEixoX,dadosEixoY,cor,altura,largura,valorCor):
  # insere colunas x e y que serão processadas pelo gráfico

  if valorCor=="": #monocromático
    fig = px.scatter(dataFrame,x=dadosEixoX,y=dadosEixoY,title=titulo,color_discrete_sequence=[cor])
  else:
    fig = px.scatter(dataFrame,x=dadosEixoX,y=dadosEixoY,color=valorCor,title=titulo)
  #define layout do gráfico
  fig.update_layout(
      height=altura,
      width=largura,
      title_text=titulo,
      title_font_size=20,
      xaxis_title=nomeEixoX,
      yaxis_title=nomeEixoY
      )
  # exibe o gráfico
  fig.show()
  return

In [11]:
# Esta função plota a distribuição dos imóvies usando latitude e logitude e outro parâmetros

def plotaMapa(dataSet,latitude,longitude,dica1,dica2,campoDestaque,altura,largura,tamanhoCirculo):
  if tamanhoCirculo=="":
    tamanhoCirculo=None
  fig = px.scatter_mapbox(dataSet,lat=latitude,lon=longitude,hover_data=[dica1,dica2],color=campoDestaque,size=tamanhoCirculo,
                        zoom=8,color_continuous_scale=px.colors.cyclical.IceFire)
  fig.update_layout(
      title_font_size=20,
      height=altura,
      width=largura,
      mapbox_style="open-street-map",
      margin = {"r":0 ,"t":0,"l":0,"b":0} # usa open street maps
    )
  fig.show()
  return

##Pré-análise dos Dados


---


Esta etapa tem por objetivo fazer uma primeira análise nos dados, para entender como os dados estão estruturados. É necessário criar um dicionário de dados para identificar cada coluna do arquivo que será analisado e seus respectivos significados.

##Dicionário de dados

* `id` - número de id gerado para identificar o imóvel
* `name` - nome da propriedade anunciada
* `host_id` - número de id do proprietário (anfitrião) da propriedade
* `host_name` - Nome do anfitrião
* `neighbourhood_group` - esta coluna não contém nenhum valor válido
* `neighbourhood` - nome do bairro
* `latitude` - coordenada da latitude da propriedade
* `longitude` - coordenada da longitude da propriedade
* `room_type` - informa o tipo de quarto que é oferecido
* `price` - preço para alugar o imóvel
* `minimum_nights` - quantidade mínima de noites para reservar
* `number_of_reviews` - número de reviews que a propriedade possui
* `last_review` - data do último review
* `reviews_per_month` - quantidade de reviews por mês
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião
* `availability_365` - número de dias de disponibilidade dentro de 365 dias

Antes de iniciar qualquer análise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras linhas.

In [12]:
# mostrar as 3 primeiras entradas
df.head(3)

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,3781,HARBORSIDE-Walk to subway,4804,Frank,,East Boston,42.36413,-71.02991,Entire home/apt,125.0,29,25,2023-12-11,0.23,1,317,1,
1,5506,** Fort Hill Inn Private! Minutes to center!**,8229,Terry,,Roxbury,42.32844,-71.09581,Entire home/apt,139.0,3,123,2024-04-24,0.66,10,112,5,STR-490093
2,6695,"Fort Hill Inn *Sunny* 1 bedroom, condo duplex",8229,Terry,,Roxbury,42.32802,-71.09387,Entire home/apt,179.0,3,128,2024-04-16,0.71,10,79,4,STR-491702


In [13]:
resumoTabela(df)

Total de linhas :	 4325
Total de colunas:	 18


##Tipos de dados de cada coluna do dataset

In [14]:
#Tipos de dados de cada coluna do dataset
display(df.dtypes)

id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                             float64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
number_of_reviews_ltm               int64
license                            object
dtype: object

##Resumo estatístico das colunas numéricas do dataset

In [15]:
#Resumo estatístico das colunas numéricas do dataset
df.describe()

Unnamed: 0,id,host_id,neighbourhood_group,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
count,4325.0,4325.0,0.0,4325.0,4325.0,3543.0,4325.0,4325.0,3326.0,4325.0,4325.0,4325.0
mean,4.680574e+17,172040000.0,,42.336802,-71.083199,239.949478,27.796763,45.946127,1.74411,54.646705,191.822197,11.560462
std,4.712458e+17,166737500.0,,0.027019,0.032331,230.966923,36.266386,91.367216,1.970345,106.055147,125.982783,19.785549
min,3781.0,4804.0,,42.2353,-71.17402,25.0,1.0,0.0,0.01,1.0,0.0,0.0
25%,31185090.0,22541570.0,,42.322269,-71.10005,112.0,1.0,1.0,0.26,2.0,78.0,0.0
50%,5.747632e+17,107434400.0,,42.34426,-71.07616,190.0,29.0,9.0,1.04,8.0,200.0,2.0
75%,9.502855e+17,297860100.0,,42.35366,-71.06173,285.0,32.0,46.0,2.61,51.0,311.0,15.0
max,1.183366e+18,583290700.0,,42.391317,-70.996,4786.0,600.0,994.0,24.92,379.0,365.0,221.0


## **Porcentagem de valores ausentes no *dataset*?**

A qualidade de um *dataset* está diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são SIGNIFICATIVOS comparados ao total de linhas.



In [16]:
# verificando a presença e porcentagem de dados ausentes no DataFrame,
# organizando do maior para o menor em relação ao total de linhas
#listaPreenchimentoColunas(df)
listaPreenchimentoColunas(df)

Colunas         	      % Valores ausentes
neighbourhood_group               100.00
license                            35.45
reviews_per_month                  23.10
last_review                        23.10
price                              18.08
neighbourhood                       0.00
latitude                            0.00
longitude                           0.00
room_type                           0.00
name                                0.00
minimum_nights                      0.00
number_of_reviews                   0.00
host_name                           0.00
host_id                             0.00
calculated_host_listings_count      0.00
availability_365                    0.00
number_of_reviews_ltm               0.00
id                                  0.00
dtype: float64


* É possível ver que a coluna `neighbourhood_group` possui 100% dos seus valores faltantes, vazios ou em branco;
* As colunas `reviews_per_month` e `last_review` possuem aproximadamente 25% de valores nulos;
* A coluna `name` não possui poucos valores NULO;

## **Excluindo as colunas com dados faltantes**

Neste estudo de caso, optou-se por eliminar três colunas: **neighbourhood_group, reviews_per_month e last_review**. Ao eliminar as colunas que não serão utilizadas, o processamento de dados ganha mais velocidade. A escolha das colunas que serão eliminadas deve ser feita de acordo com a qualidade dos dados que estão armazenados nestas colunas (valores faltantes ou com erro).

In [17]:
# excluindo as colunas com dados faltantes
excluiColunas(df,['neighbourhood_group', 'reviews_per_month','last_review','name','license'])

In [18]:
# Verificar tabela após exclusão das colunas
listaPreenchimentoColunas(df)

Colunas         	      % Valores ausentes
price                             18.08
id                                 0.00
host_id                            0.00
host_name                          0.00
neighbourhood                      0.00
latitude                           0.00
longitude                          0.00
room_type                          0.00
minimum_nights                     0.00
number_of_reviews                  0.00
calculated_host_listings_count     0.00
availability_365                   0.00
number_of_reviews_ltm              0.00
dtype: float64


## **Excluindo as colunas que não serão utilizadas na Análise**

In [19]:
excluiColunas(df,['number_of_reviews',
             'calculated_host_listings_count',
             'availability_365',
             'number_of_reviews_ltm',
             'host_name'])

## **1a. Análise da coluna price com Histograma**



In [20]:
geraHistograma(
    titulo="Histograma de Price",
    nomeEixoX="Price",
    dadosEixo=df['price'],
    cor="blue",
    altura=400,
    largura=800,
    numeroBarras="")

## **1a Análise da coluna price utilizando Boxplot**

In [21]:
geraBoxPlot(
    titulo="Distribuição de price",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=df['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

## **1a. Análise da coluna minimum_nights com Histograma**

In [22]:
geraHistograma(
    titulo="Histograma de minimum_nights",
    nomeEixoX="minimum_nights",
    dadosEixo=df['minimum_nights'],
    cor="green",
    altura=400,
    largura=800,
    numeroBarras="")

## **1a. Análise da coluna minimum_nights com Boxplot**

In [23]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=df['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

## **1o Resumo estatístico das colunas observadas (price e minimum_nights)?**

In [24]:
# Resumo estatístico das colunas numéricas
#df[['price', 'minimum_nights']].describe()
resumoEstatistico(df,['price', 'minimum_nights'])

         price  minimum_nights
count  3543.00         4325.00
mean    239.95           27.80
std     230.97           36.27
min      25.00            1.00
25%     112.00            1.00
50%     190.00           29.00
75%     285.00           32.00
max    4786.00          600.00


# **Buscando por valores discrepantes (outliers) nas colunas: price e minimum_nights**


---



## O RESUMO estatístico acima, nos permite realizar algumas observações descritas a seguir:
**Para coluna coluna `price` (preço da diária)**

* Média (mean): 4.089,19;
* Desvio padrão (std): 9.601,16 ;
* Valor mínimo: 160;
* Valor máximo: 600.850,00;
* 25% dos valores vaõ até: 1.050,00;
* 50% dos valores (Mediana) vão até: 2.000;
* 75% dos valores vaõ até: 3.815,00;

**Para coluna coluna `minimum_nights` (número de noites)**

* Média (mean): 4.43;
* Desvio padrão (std): 16,68;
* Valor mínimo: 1;
* Valor máximo: 730;
* 25% dos valores vão até: 1;
* 50% dos valores vão até: 2;
* 75% dos valores vão até: 4;

## Analisando a distribuição dos valores a partir de um valor de corte

É importante salienter que o valor de corte deve ser uma valor que faça sentido para o que se busca, observar o quanto representam os dados ao retirar o valor o de corte da coluna analisada

### Coluna price

In [25]:
# Analisar quantidade de valores acima de 4.500 para price
print("Total de linhas com valores acima de 4.500 :",calculaNumeroLinhas(df,"price",4500,"A"))
print("Total de linhas com valores acima de 4.500 : {:.2f}%".format(calculaNumeroLinhas(df,"price",4500,"P")))

Total de linhas com valores acima de 4.500 : 1
Total de linhas com valores acima de 4.500 : 0.02%


### Coluna minimum_nights

In [26]:
# Analisar quantidade de valores acima de 7 dias para minimum_nights

print("Total de linhas com valores acima de 7 :",calculaNumeroLinhas(df,"minimum_nights",7,"A"))
print("Total de linhas com valores acima de 7 : {:.2f}%".format(calculaNumeroLinhas(df,"minimum_nights",7,"P")))

Total de linhas com valores acima de 7 : 2293
Total de linhas com valores acima de 7 : 53.02%


## Eliminando os *Outliers*

Em função da análise prévia decidimos eliminar alguns *outliers* das variáveis **price** e **minimum_nights** e executaremos novos histogramas.

Regras

* Regras para a coluna price:
 * Eliminar "price" com valores nulos
 * Eliminar "price" com valores menores ou iguais a zero
 * Eliminar "price" com valores maiores que $ 4.500
* Regras para a coluna "minimum_nights"
 * Eliminar "minimum_nights"  com valores maiores que 7

In [27]:
# copia do dataframe para um dataframe chamado dfResumo
dfResumo = df.copy()
# Eliminar "price" com valores nulos
dfResumo.dropna(subset=['price'], inplace=True)
# Elimina price <=0 e >4500
dfResumo.drop(dfResumo[dfResumo.price <= 0].index, axis=0, inplace=True)
dfResumo.drop(dfResumo[dfResumo.price > 4500].index, axis=0, inplace=True)
# Elimina minimum_nights > 7
dfResumo.drop(dfResumo[dfResumo.minimum_nights > 7].index, axis=0, inplace=True)

**Analisando o resumo dos dados após a limpeza**

In [28]:
# Resumo de linhas e colunas da tabela de corte (dfResumo)
resumoTabela(dfResumo)

Total de linhas :	 1876
Total de colunas:	 8


In [29]:
# verificando a presença e porcentagem de dados ausentes no DataFrame,
# organizando do maior para o menor em relação ao total de linhas
listaPreenchimentoColunas(dfResumo)

Colunas         	      % Valores ausentes
id                0.0
host_id           0.0
neighbourhood     0.0
latitude          0.0
longitude         0.0
room_type         0.0
price             0.0
minimum_nights    0.0
dtype: float64


## **2a. Análise da coluna price com Histograma e Boxplot (sem outliers):**

In [30]:
geraHistograma(
    titulo="Histograma de Price",
    nomeEixoX="Price",
    dadosEixo=dfResumo['price'],
    cor="green",
    altura=400,
    largura=800,
    numeroBarras=10)

In [31]:
geraBoxPlot(
    titulo="Distribuição de price",
    nomeEixoX="price",
    nomeEixoY="",
    dadosEixo=dfResumo['price'],
    cor="green",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

## **2a. Análise da coluna minimum_nights com Histograma e Boxplot (sem outliers):**

In [32]:
geraHistograma(
    titulo="Histograma de minimum_nights",
    nomeEixoX="minimum_nights",
    dadosEixo=dfResumo['minimum_nights'],
    cor="blue",
    altura=400,
    largura=800,
    numeroBarras=10)

In [33]:
geraBoxPlot(
    titulo="Distribuição de minimum_nights",
    nomeEixoX="minimum_nights",
    nomeEixoY="",
    dadosEixo=dfResumo['minimum_nights'],
    cor="blue",
    orientacao="H",
    altura=500,
    largura=1000,
    pontos="")

#**Outras observações sobre os dados**


---



##**Qual o tipo de imóvel mais alugado ?**
A coluna da variável room_type indica o tipo de locação que está anunciada no Airbnb. No site, existem opções de apartamentos/casas inteiras, apenas o aluguel de um quarto ou mesmo dividir o quarto com outras pessoas.

Vamos contar a quantidade de ocorrências de cada tipo de aluguel, usando o método value_counts().


In [34]:
# conta a quantidade por tipo de imóvel
dfTipoImovel= dfResumo.room_type.value_counts()

In [35]:
graficoBarra(
    titulo='Quantidade de aluguel por tipo de Imóvel',
    nomeEixoX='Tipo do Imóvel',
    nomeEixoY='Total',
    dadosEixoX=dfResumo['room_type'].unique(),
    dadosEixoY=dfTipoImovel,
    orientacaoGrafico='v',
    cor='blue',
    altura=400,
    largura=600
    )

In [36]:
# mostrar a porcentagem de cada tipo de imóvel disponível
dfResumo.room_type.value_counts() / dfResumo.shape[0] *100

room_type
Entire home/apt    69.936034
Private room       27.718550
Hotel room          2.025586
Shared room         0.319829
Name: count, dtype: float64

## **Quais as 10 localidades mais caras na cidade Cape Town?**



In [37]:
# ver preços por bairros (neighbourhood), na média
dfResumo.groupby(['neighbourhood']).price.mean().sort_values(ascending=False)[:10]

neighbourhood
Bay Village                550.781818
Chinatown                  447.200000
Downtown                   427.453608
Longwood Medical Area      422.333333
Leather District           409.500000
West End                   392.500000
South Boston Waterfront    371.454545
Back Bay                   353.807292
Beacon Hill                353.157895
Charlestown                342.375000
Name: price, dtype: float64

## **Como estão distribuídos os imóveis por bairro e preço na cidade Cape Town?**

**Imóveis e preços por bairro versão em cores**

In [38]:
geraGraficoDispersao(
    dataFrame=dfResumo,
    titulo="Distribuição de preços por bairro",
    nomeEixoX="Price",
    nomeEixoY="Neighbourhood",
    dadosEixoX=dfResumo['price'],
    dadosEixoY=dfResumo['neighbourhood'],
    cor="",
    altura=600,
    largura=900,
    valorCor="price"
    )

**Imóveis e preços por bairro versão com uma cor**

**Geo distribuição das locações por tipo de imóvel e preço**

In [39]:
plotaMapa(
    dataSet=dfResumo,
    latitude=dfResumo['latitude'],
    longitude=dfResumo['longitude'],
    dica1=dfResumo['neighbourhood'],
    dica2=dfResumo['price'],
    campoDestaque=dfResumo['room_type'],
    altura=500,
    largura=1100,
    tamanhoCirculo='price'
    )

**Geo distribuição das locações por preço**

In [40]:
plotaMapa(
    dataSet=dfResumo,
    latitude=dfResumo['latitude'],
    longitude=dfResumo['longitude'],
    dica1=dfResumo['neighbourhood'],
    dica2=dfResumo['room_type'],
    campoDestaque=dfResumo['price'],
    altura=500,
    largura=1000,
    tamanhoCirculo='price'
    )

# Conclusões


Dados da cidade do Cabo até Dezembro de 2023
* Resumo dos dados brutos:
 * Total de linhas :	 22.966
 * Total de colunas:	 18

* Em relação as colunas **price** e **minimum_nights**, observou-se na primeira análise que:

 *   75% dos dados em relação a coluna *price* estavam com valores até 3.815,00;
 *   75% dos dados em relação a coluna *minimum_nights* estavam com valores até 4;

* Análise de ***outliers*** nas colunas *price* e *minimum_nights*;
 * Foram encontrados ***outliers*** nas colunas *price* e *minimum_nights*;
 * Valor máximo de *price* igual a 600.850,00;
 * Valor máximo de *minimum_nights* igual a 999.

* Ao analisar a distribuição gráfica dos dados, aplicou-se os seguintes cortes:

 * Foram elimininadas todas as linhas da tabela com valores da coluna **price** superiores a 4.500, isso representou um corte de 4.399 linhas que representam 19,15% do total de linhas;

 * Foram elimininadas todas as linhas da tabela com valores da coluna **minimum_nights** superiores a 7, isso representou um corte de 1.494 linhas que representam 6,51% do total de linhas;

* Após o corte dos dados foram refeitos os histogramas e boxplots das colunas price e minum nights, onde foi possível realizar uma análise sem a presença de outliers no processo.

* Foram criados gráficos que ajudam a verificar a distribuição de preços por bairro, é possível interagir com o gráfico para analisar a distribuição de preços de acordo com os bairros;