<a href="https://colab.research.google.com/github/vitorratti/Airbnb_Data_Analysis_LA/blob/main/Analise_Dados_Airbnb_LA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[![LinkedIn](https://img.shields.io/badge/LinkedIn-vitorratti-blue.svg)](https://www.linkedin.com/in/vitorratti)
[![GitHub](https://img.shields.io/badge/GitHub-vitorratti-purple.svg)](https://github.com/vitorratti)


# An√°lise dos Dados do Airbnb - *Los Angeles*

O [Airbnb](https://www.airbnb.com.br/) j√° √© considerado como sendo a **maior empresa hoteleira da atualidade**. O detalhe mais impressionante? Ele **n√£o possui nenhum hotel**!

A empresa, **constitu√≠da em 2007**, enxergou no mercado imobili√°rio tradicional um modelo de neg√≥cios inovador e lucrativo, revolucionando o conceito de hospedagem. Conectando viajantes a anfitri√µes de maneira pr√°tica e acess√≠vel, o Airbnb uniu o √∫til ao agrad√°vel e, hoje, conta com mais de **5 milh√µes de anfitri√µes** cadastrados e expressivos **2 bilh√µes de h√≥spedes** recebidos.

Uma das iniciativas do Airbnb √© disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), √© poss√≠vel baixar uma grande quantidade de dados para desenvolver projetos e solu√ß√µes de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>


> **Neste *notebook*, iremos analisar os dados referentes √† cidade de Los Angeles, e ver quais insights podem ser extra√≠dos a partir de dados brutos.**



# Um pouco sobre a "Cidade dos Anjos"

<center><img alt="Santa Monica beach, LA" width="100%" src="https://i.imgur.com/lXDaBOo.png"></center>

Los Angeles, a famosa "Cidade dos Anjos", √© um dos destinos mais ic√¥nicos dos Estados Unidos. Aparecendo em 2¬∫ lugar na lista das cidades mais populosas dos EUA, LA oferece experi√™ncias marcantes, com atra√ß√µes procuradas por visitantes do mundo todo.

Um roteiro comum de viagem para LA geralmente inclui a Cal√ßada da Fama, o Letreiro de Hollywood, o Dolby Theater (sede das cerim√¥nias do Oscar), a Rodeo Drive em Beverly Hills, o Universal Studios e at√© uma esticada em Venice Beach e no Pier de Santa Monica.

Mas, afinal, o que os dados do Airbnb revelam sobre os padr√µes de hospedagem em Los Angeles?

## Obten√ß√£o dos Dados

Todos os dados usados aqui foram obtidos a partir do site [Inside Airbnb](https://insideairbnb.com/get-the-data/).

Para esta an√°lise explorat√≥ria inicial, ser√° baixado apenas o seguinte arquivo:

* `listings.csv` - *Summary information and metrics for listings in Los Angeles (good for visualisations).*

Importante: O portal est√° em constante evolu√ß√£o, e em determinado momento, pode ser que o [conjunto de dados](https://data.insideairbnb.com/united-states/ca/los-angeles/2024-09-04/visualisations/listings.csv) exato utilizado nesse notebook n√£o esteja mais dispon√≠vel, o que quebraria nosso c√≥digo.

Pensando nisso, disponibilizamos [aqui](https://tinyurl.com/airbnb-la) o conjunto que utilizamos, para que voc√™ sempre consiga utilizar esse material.

Com isso em mente, vamos ao projeto.

In [None]:
# importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

%matplotlib inline

In [None]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("https://tinyurl.com/airbnb-la")

## An√°lise dos Dados

Esta etapa tem por objetivo criar uma consci√™ncia situacional inicial e permitir um entendimento de como os dados est√£o estruturados.
Antes de iniciar qualquer an√°lise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras entradas.

In [None]:
# mostrar as 10 primeiras entradas
display(df.head(10))

**Dicion√°rio das vari√°veis**

Considerada uma boa pr√°tica, a elabora√ß√£o de um dicion√°rio de vari√°veis permite que todos compreendam os dados presentes no arquivo importado. Essa abordagem facilita o tratamento e a an√°lise de dados que ser√£o aplicados ao projeto.

[Confira o dicion√°rio de dados detalhado ‚Üó](https://docs.google.com/spreadsheets/d/1iWCNJcSutYqpULSQHlNyGInUvHg2BoUGoNRIGa6Szc4/edit?usp=sharing)

- *Seguindo a mesma ordem apresentada no Dataset:*


| CAMPO    |  TIPO  |DESCRI√á√ÉO                                           |
|----------|--------|----------------------------------------------------|
| **`id`** | int64  | Identificador √∫nico do an√∫ncio                     |
| **`name`** | object| Nome do an√∫ncio                                   |
| **`host_id`**| int64| Identificador √∫nico do anfitri√£o                 |
| **`host_name`**| object| Nome do anfitri√£o                             |
| **`neighbourhood_group`**| object| Grupo de bairros, utilizado para classificar a localiza√ß√£o|
| **`neighbourhood`**| object| Bairro espec√≠fico onde o an√∫ncio est√° localizado|
| **`latitude`**| float64| Latitude da localiza√ß√£o do an√∫ncio            |
| **`longitude`**| float64| Longitude da localiza√ß√£o do an√∫ncio          |
| **`room_type`**| object| Tipo de acomoda√ß√£o oferecida (e.g., quarto inteiro, quarto privado)|
| **`price`**| float64| Pre√ßo por noite em moeda local                   |
| **`minimum_nights`**| int64| N√∫mero m√≠nimo de noites que o h√≥spede deve reservar|
| **`number_of_reviews`**| int64| N√∫mero total de avalia√ß√µes que o an√∫ncio recebeu|
| **`last_review`**| object| Data da √∫ltima avalia√ß√£o recebida           |
| **`reviews_per_month`**| float64| M√©dia de avalia√ß√µes recebidas por m√™s|
| **`calculated_host_listings_count`**| int64| N√∫mero total de an√∫ncios ativos do anfitri√£o|
| **`availability_365`**| int64| N√∫mero de dias em que a acomoda√ß√£o est√° dispon√≠vel para reserva no ano|
| **`number_of_reviews_ltm`**| int64| N√∫mero de avalia√ß√µes recebidas nos √∫ltimos 12 meses|
| **`license`**| object| N√∫mero da licen√ßa da acomoda√ß√£o, caso necess√°rio|




### **Q1. Quantos atributos (vari√°veis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das vari√°veis?**

Vamos prosseguir e identificar a quantidade de entradas que nosso conjunto de dados possui e ver os tipos de cada coluna.

Este *dataset* que baixamos √© a vers√£o "resumida" do Airbnb. Na mesma p√°gina que baixamos o arquivo `listings.csv`. H√° uma vers√£o mais completa com 45533 entradas e 75 vari√°veis (`listings.csv.gz`).

In [None]:
# identificar o volume de dados e tipos das vari√°veis do DataFrame
df.info()

### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**

A qualidade de um dataset est√° diretamente relacionada √† quantidade de valores ausentes. √â importante entender logo no in√≠cio se esses valores nulos s√£o significativos comparados ao total de entradas.

In [None]:
# criar um DataFrame com a quantidade e percentual de entradas ausentes
dados_ausentes= pd.DataFrame({
    'qtde_nulos': df.isnull().sum(),
    'perc_nulos': (df.isnull().sum() / df.shape[0])
})

# classificar o DataFrame pelo percentual de dados ausentes, em ordem decrescente
dados_ausentes = dados_ausentes.sort_values(by='perc_nulos', ascending=False)

# mostrar o DataFrame
print(dados_ausentes)

- √â poss√≠vel ver que a coluna **`license`** apresenta 71% dos seus valores ausentes.
- As vari√°veis **`last_review`** e **`reviews_per_month`** apresentam quase 27% de valores nulos.
- √â poss√≠vel ver que a coluna **`price`** apresenta 18% dos seus valores ausentes
- As vari√°veis **`host_name`** e **`name`** possuem menos que 0,1% dos valores nulos.

#### **Q2.1. Tratando valores ausentes**

Nesta etapa, antes de continuar nossa an√°lise, faremos o tratamento das colunas que possuem valores ausentes.

- **Exclus√£o das colunas** que possuem acima de 25% de valores ausentes (**`license`**, **`last_review`** e **`reviews_per_month`**), e que n√£o ser√£o utilizadas.

- A coluna **`price`**, principal objeto de nossa an√°lise, apresenta 8.237 (18%) de entradas ausentes. Por ser um volume consider√°vel, dentre as in√∫meras pr√°ticas poss√≠veis, optamos pela **substitui√ß√£o dos valores nulos** pela **mediana do bairro** que esta entrada faz parte. Evitando a influ√™ncia de outliers e respeitando a vari√°vel de localiza√ß√£o.

Por fim, faremos a **exclus√£o das entradas** com dados faltantes.

In [None]:
# excluir colunas com dados faltantes (n√£o ser√£o utilizadas) em um novo DataFrame
df_non_null = df.copy()
df_non_null = df_non_null.drop(columns=['license', 'last_review', 'reviews_per_month'])

# substituir entradas com dados ausentes pela mediana do bairro, ou mediana do dataset
df_non_null['price'] = df_non_null['price'].fillna(df_non_null.groupby('neighbourhood')['price'].transform('median'))
df_non_null['price'] = df_non_null['price'].fillna(df_non_null['price'].median())

# excluir entradas com dados faltantes
df_non_null = df_non_null.dropna(axis=0)

Feita a limpeza, √© hora de conferir os resultados.



In [None]:
# Mostrar o tamanho do dataset antes e depois do tratamento
print(f'Dataset original: {df.shape}')
print(f'Dataset ap√≥s tratamento: {df_non_null.shape}')

# verificar o percentual de dados ausentes
print((df_non_null.isnull().sum() / df_non_null.shape[0]).sort_values(ascending=False))

Pronto, n√£o existem mais dados ausentes em nosso dataset. Agora vamos avaliar a presen√ßa de valores at√≠picos.

### **Q3. Qual o tipo de distribui√ß√£o das vari√°veis?**

Para identificar a distribui√ß√£o das vari√°veis, irei plotar o histograma. Esta √© uma excelente forma de verificar poss√≠veis outliers.

In [None]:
# plotar o histograma das vari√°veis num√©ricas
df_non_null.hist(bins = 15, figsize=(15, 10))

### **Q4. H√° algum valor at√≠pico?**

Pela distribui√ß√£o do histograma, √© poss√≠vel verificar ind√≠cios de presen√ßas de outliers. Veja por exemplo as vari√°veis **`price`**, **`minimum_nights`** e **`number_of_reviews`**.

Os valores n√£o seguem uma distribui√ß√£o, e distorcem toda a representa√ß√£o gr√°fica. Para confirmar, vamos utilizar o m√©todo **`describe`** para obter um resumo da distribui√ß√£o estat√≠stica das vari√°veis que nos interessa.



In [None]:
# verificar distribui√ß√£o estat√≠stica das vari√°veis de interesse
df_non_null[['price', 'minimum_nights', 'number_of_reviews', 'number_of_reviews_ltm',
             'calculated_host_listings_count', 'availability_365']].describe()

Aqui, algumas coisas chamam nossa aten√ß√£o, por exemplo:
- A vari√°vel **`price`**, que corresponde ao pre√ßo da di√°ria dos im√≥veis em d√≥lares (USD), possui 75% dos valores abaixo de 236 d√≥lares, enquanto o valor m√°ximo chega a 56.425 d√≥lares, sugerindo claramente a presen√ßa de outliers.
- A vari√°vel **`minimum_nights`** apresenta um valor m√°ximo de 1.124 noites, com o terceiro quartil (Q3) em apenas 30 noites, o que confirma a exist√™ncia de mais outliers.
- As vari√°veis **`number_of_reviews`**, **`number_of_reviews_ltm`** e **`calculated_host_listings_count`** tamb√©m podem conter outliers, mas n√£o ser√£o o foco desta an√°lise.

#### **Q4.1. Tratando os Outliers**

Bom, agora que confirmamos a presen√ßa de *outliers* em nosso Dataset, √© essencial que fa√ßamos a limpeza deles.

Para isso,vamos determinar uma "faixa de corte" para os valores contidos nas vari√°veis **`price`** e **`minimum_nights`**, determinando um limite inferior e superior.

Esses limites ser√£o atribu√≠dos com base no m√©todo IQR SCORE. Primeiramente, vamos lembrar a regra do IQR.

O IQR √© calculado subtraindo o Terceiro Quartil (75%) pelo Primeiro Quartil (25%).

# IQR = Q3 - Q1

##### Vari√°vel `price`

In [None]:
# identificar os outliers para a vari√°vel price
q1_price = df_non_null.price.quantile(0.25)
q3_price = df_non_null.price.quantile(0.75)
IQR_price = q3_price - q1_price
print('IQR da vari√°vel price: ', IQR_price)

# definir os limites de acordo com o m√©todo escolhido
sup_price = q3_price + 1.5 * IQR_price
inf_price = q1_price - 1.0 * IQR_price
print('Limite superior de price: ', sup_price)
print('Limite inferior de price: ', inf_price)

In [None]:
# plotar boxplot do conjunto original para a vari√°vel price
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.price.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot price')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas est√£o acima de 437 d√≥lares por noite.".format(len(df_non_null[df_non_null.price > sup_price])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.price > sup_price]) / df_non_null.shape[0]) * 100))

##### Vari√°vel `minimum_nights`


In [None]:
# identificar os outliers para a vari√°vel minimum_nights
q1_minimum_nights = df_non_null.minimum_nights.quantile(0.25)
q3_minimum_nights = df_non_null.minimum_nights.quantile(0.75)
IQR_minimum_nights = q3_minimum_nights - q1_minimum_nights
print('IQR da vari√°vel minimum_nights: ', IQR_minimum_nights)

# definir os limites de acordo com o m√©todo escolhido
sup_minimum_nights = q3_minimum_nights + 1.5 * IQR_minimum_nights
inf_minimum_nights = q1_minimum_nights - 1.5 * IQR_minimum_nights
print('Limite superior de minimum_nights: ', sup_minimum_nights)
print('Limite inferior de minimum_nights: ', inf_minimum_nights)

In [None]:
# plotar boxplot do conjunto original para a vari√°vel minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot minimum_nights')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas est√£o acima de 72 noites".format(len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights]) / df_non_null.shape[0]) * 100))

##### Limpeza do Dataset
Ap√≥s definirmos os limites inferiores e superiores atrav√©s do m√©todo IQR Score, vamos utilizar o limite superior das vari√°veis pre√ßo e m√≠nimo de noites para limpar o dataset.

In [None]:
# limpar dataset conforme limite superior encontrado no IQR Score
df_clean = df_non_null.copy()

df_clean.drop(df_clean[df_clean.price > sup_price].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.minimum_nights > sup_minimum_nights].index, axis=0, inplace=True)

print('Dataset Original limpeza:', df_non_null.shape)
print('Dataset Limpo:', df_clean.shape)
print(f'Com a limpeza dos outliers, {df.shape[0] - df_clean.shape[0]} entradas foram deletadas')

In [None]:
# plotar novamente boxplot do conjunto original para a vari√°vel price
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.price.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot price')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas est√£o acima de 437 d√≥lares por noite".format(len(df_non_null[df_non_null.price > sup_price])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.price > sup_price]) / df_non_null.shape[0]) * 100))

# plotar boxplot do conjunto limpo para a vari√°vel price
fig, ax = plt.subplots(figsize=(15,3))
df_clean.price.plot(kind='box', vert=False);
ax.set_title('Dataset Limpo - Boxplot price')
plt.show()
print(f'Tamanho original: {df.shape[0]} entradas')
print(f'Tamanho atual: {df_clean.shape[0]} entradas')

In [None]:
# plotar novamente boxplot do conjunto original para a vari√°vel minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot minimum_nights')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas est√£o acima de 72 noites".format(len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights]) / df_non_null.shape[0]) * 100))


# plotar boxplot do conjunto limpo para a vari√°vel minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_clean.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Limpo - Boxplot minimum_nights')
plt.show()
print(f'Tamanho original: {df.shape[0]} entradas')
print(f'Tamanho atual: {df_clean.shape[0]} entradas')

##### Histogramas sem *outliers*

Ap√≥s a limpeza dos *outliers* nas vari√°veis `price` e `minimum_nights`, vamos plotar novamente o histograma para verificar a distribui√ß√£o dos dados.

In [None]:
# verificar as distribui√ß√µes das vari√°veis n√∫mericas
df_clean.hist(bins = 15, figsize=(15, 10))

In [None]:
# verificar o resumo da distribui√ß√£o estat√≠stica das vari√°veis do conjunto limpo
df_clean[['price', 'minimum_nights', 'number_of_reviews', 'number_of_reviews_ltm',
          'calculated_host_listings_count', 'availability_365']].describe()

Conclu√≠do a limpeza, agora temos uma vis√£o muito mais clara da distribui√ß√£o dos dados.
* A mediana da vari√°vel **`price`** foi minimamente afetada pela limpeza dos outliers, saindo de **154** d√≥lares para **145**, mostrando a **robustez do IQR Score** como _solu√ß√£o_ para lidar com outliers.

### **Q5. Qual a correla√ß√£o existente entre as vari√°veis?**

Correla√ß√£o indica que h√° uma rela√ß√£o entre duas coisas. No nosso contexto, estamos buscando a conex√£o ou similaridade entre duas vari√°veis.

Essa rela√ß√£o pode ser medida, e √© fun√ß√£o do coeficiente de correla√ß√£o estabelecer qual a intensidade dela. Para identificar as correla√ß√µes entre as vari√°veis de interesse, seguirei os seguintes passos:

- Construir uma matriz de correla√ß√£o
- Visualizar essa matriz por meio de um heatmap, utilizando a biblioteca `seaborn`.

In [None]:
# criar uma matriz de correla√ß√£o
corr = df_clean[['price', 'minimum_nights', 'latitude', 'longitude', 'number_of_reviews',
                 'calculated_host_listings_count', 'availability_365']].corr() *100

# mostrar a matriz de correla√ß√£o
display(corr)

In [None]:
# plotar um heatmap a partir das correla√ß√µes
f, ax = plt.subplots(figsize=(9, 7))
sns.set(font_scale=1.15)
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True)

##### **Conclus√µes**
Com a plotagem do mapa de correla√ß√£o, alguns insights podem ser extra√≠dos:

**Fatores que Influenciam os Pre√ßos**

* **Localiza√ß√£o geogr√°fica**: A longitude apresenta correla√ß√£o negativa moderada com o pre√ßo (**-21,86**), sugerindo varia√ß√µes de pre√ßo significativas relacionadas √† posi√ß√£o geogr√°fica. Isso refor√ßa a **_import√¢ncia do fator localiza√ß√£o no mercado imobili√°rio_**, especialmente em uma cidade como Los Angeles, onde √°reas espec√≠ficas possuem alto valor agregado.

* **N√∫mero de propriedades por host**: O n√∫mero de listagens de um host apresentou uma correla√ß√£o positiva fraca com o pre√ßo (**6,44**), indicando que **_hosts com mais propriedades tendem a cobrar pre√ßos um pouco mais altos_**. Isso pode refletir a **_experi√™ncia desses hosts em otimizar seus pre√ßos_** ou a **_qualidade superior_** de suas propriedades.

A disponibilidade (`availability_365`) est√° moderadamente correlacionada com o n√∫mero de listagens de um anfitri√£o (**7,64**). Isso pode ser explicado pelo fato de que hosts com mais propriedades listadas, tendem a oferecer maior disponibilidade para hospedagens.

De maneira geral, observa-se que o **pre√ßo n√£o possui correla√ß√µes fortes** com a maioria das vari√°veis analisadas. Isso indica a necessidade de **explorar outras dimens√µes** do conjunto de dados ou integrar dados externos (como _proximidade de pontos tur√≠sticos ou comodidades_) para obter insights mais robustos sobre os fatores que determinam o pre√ßo.

### **Q6. Qual √© o pre√ßo m√©dio do aluguel?**
Quanto √© preciso gastar, em m√©dia, para passar uma noite na cidade de Los Angeles?


In [None]:
# verificar pre√ßo m√©dio das acomoda√ß√µes
print(f'Pre√ßo m√©dio (d√≥lares): {df_clean.price.mean():.2f}')

Para se hospedar em LA, na m√©dia, os h√≥spedes gastam **159,56 d√≥lares** por noite, ou **966,30 reais**, considerando a cota√ß√£o do d√≥lar americano em `16/01/2025`.

### **Q7. Qual o tipo de im√≥vel mais alugado no Airbnb?**
O tipo de acomoda√ß√£o √© determinado pela vari√°vel `room_type`. As op√ß√µes dispon√≠veis para aluguel, incluem: apartamento/casa inteira, quarto privado, quarto de hotel ou quarto compartilhado.

In [None]:
# calcular pre√ßo m√©dio de aluguel por tipo de acomoda√ß√£o
media_preco_por_tipo = df_clean.groupby('room_type')['price'].mean()

# verificar a quantidade e o pre√ßo m√©dio de listagens por tipo de im√≥vel
tipo_imovel = pd.DataFrame({
    'percentual': df_clean.room_type.value_counts() / df_clean.shape[0] * 100,
    'preco_medio': media_preco_por_tipo,
})

# classificar o DataFrame pelo percentual, em ordem decrescente
tipo_imovel = tipo_imovel.sort_values(by='percentual', ascending=False)

# exibir DataFrama
print(tipo_imovel)

Mesmo apresentando custos mais altos, o tipo de im√≥vel mais alugado √© a **_casa/apartamento inteiro_**, representando **71,47%** das listagens, seguido por **_quartos privados_** com **26,14%**. Isso indica uma _prefer√™ncia dos h√≥spedes por privacidade e espa√ßo_ durante suas estadias. Quartos compartilhados e quartos de hotel representam uma parcela m√≠nima do mercado, com 1,79% e 0,60%, respectivamente.

### **Q8. Qual a localidade mais cara de Los Angeles?**
Para responder essa pergunta, podemos utilizar a fun√ß√£o `groupby()`. Desse modo, agrupamos nossos dados por bairro e depois aplicamos a m√©dia na vari√°vel `price`, permitindo a an√°lise dos pre√ßos de aluguel por bairro.


In [None]:
# calcular pre√ßo m√©dio dos alugu√©is por bairro
preco_medio = df_clean.groupby(['neighbourhood']).price.mean()

# selecionar os 10 bairros com o pre√ßo m√©dio mais alto
mais_caros = preco_medio.sort_values(ascending=False)[:10]

# criar gr√°fico com o top 10 bairros mais caros
plt.figure(figsize=(5, 4))
plt.barh(mais_caros.index[:10][::-1], mais_caros.values[:10][::-1], color ='skyblue')
plt.title('Bairros mais caros de LA')
plt.grid(False)
plt.show()

# mostrar valores
print(mais_caros)

Curiosamente, **North Whittier** e **Malibu** lideram a lista dos bairros mais caros de Los Angeles.

Por outro lado, bairros renomados como **Beverly Hills** e **Hollywood**, frequentemente associados ao luxo, nem aparecem na lista. Isso ocorre devido ao grande volume de im√≥veis dispon√≠veis para loca√ß√£o nessas regi√µes, o que tende a reduzir a m√©dia dos pre√ßos, j√° que a presen√ßa de im√≥veis mais acess√≠veis dilui o impacto das propriedades de alto valor.

Para compreender melhor essa din√¢mica, vamos analisar os dados com mais profundidade.

In [None]:
# top 5 bairros mais caros
top_5 = mais_caros[:5].index.tolist()

# filtrar dataset com o top 5
listagens = df_clean[df_clean['neighbourhood'].isin(top_5)]

# quantidade de im√≥veis por bairro
contagem = listagens['neighbourhood'].value_counts().reindex(top_5)

Como podemos ver, esses bairros possuem uma quantidade limitada de an√∫ncios, com **Avalon** liderando, apresentando **133 im√≥veis** listados, o que representa **menos de 11%** do volume de propriedades listadas em **Beverly Hills**, por exemplo. Essa pequena oferta, combinada com pre√ßos acima da m√©dia observada em outros bairros de Los Angeles, contribui para que essas regi√µes ocupem posi√ß√µes de destaque na lista dos mais caros.

Em contrapartida, **Beverly Hills** e **Hollywood** contam com **mais de 1.000 im√≥veis** listados cada, refor√ßando a tese de que a maior oferta distribui os pre√ßos, resultando em uma m√©dia mais baixa.

### **Q9. Qual a localidade mais barata de Los Angeles?**
Para responder essa pergunta, vamos recorrer ao c√°lculo do pre√ßo m√©dio j√° realizado anteriormente, aplicando uma ordena√ß√£o crescente na coluna de pre√ßo e filtrando somente as 10 primeiras entradas.

In [None]:
# selecionar os 10 bairros com o pre√ßo m√©dio mais baixo
mais_baratos = preco_medio.sort_values(ascending=True)[:10]

# criar gr√°fico com o top 10 bairros mais baratos
plt.figure(figsize=(5, 4))
plt.barh(mais_baratos.index[:10][::-1], mais_baratos.values[:10][::-1], color ='lightblue')
plt.title('Bairros mais baratos de LA')
plt.grid(False)
plt.show()

# mostrar valores
print(mais_baratos)

**Watts** e **South Park** apresentam os pre√ßos mais acess√≠veis, com pre√ßos m√©dios de **34,80** e **48,57 d√≥lares**, respectivamente. Essas √°reas oferecem op√ß√µes mais econ√¥micas, atraindo h√≥spedes com or√ßamentos mais restritos.

### **Q10. Qual o bairro com maior oferta de im√≥veis para aluguel?**
Similar a quest√£o anterior, vamos agrupar nosso dados por bairro, e em seguida contar o n√∫mero de im√≥veis dispon√≠veis.

In [None]:
# calcular quantidade de im√≥veis dispon√≠veis por bairro
qtd_imoveis = df_clean.groupby(['neighbourhood']).id.count()
maior_disp = qtd_imoveis.sort_values(ascending=False)[:10]
# criar gr√°fico com o top 10
plt.figure(figsize=(5, 4))
plt.barh(maior_disp.index[:10][::-1], maior_disp.values[:10][::-1], color ='lightgreen')
plt.title('Bairros com maior disponibilidade')
plt.grid(False)
plt.show()

# mostrar valores
print(maior_disp)

Esses bairros s√£o **destinos populares** entre turistas e viajantes, gra√ßas √† sua proximidade com atra√ß√µes ic√¥nicas e √† infraestrutura bem desenvolvida para receber visitantes.

Por isso, essa lista pode ser uma **_excelente oportunidade para anfitri√µes_** que desejam listar seus im√≥veis no Airbnb. Bairros como **Hollywood**, **Santa Monica** e **Long Beach**, por exemplo, atraem uma grande base de turistas, mas tamb√©m apresentam _alta concorr√™ncia_, o que requere _estrat√©gias diferenciadas_ se quiser se destacar.

### **Q11. Qual √© o n√∫mero m√©dio m√≠nimo de noites para alugar um Airbnb na cidade de Los Angeles?**
Para visualizar rapidamente as principais informa√ß√µes sobre o m√≠nimo de noites, utilizaremos o m√©todo **`describe( )`**.

In [None]:
# mostrar estatist√≠cas para o m√≠nimo de noites
print(df_clean.minimum_nights.describe())

A vari√°vel `minimum_nights`, que indica o n√∫mero m√≠nimo de noites que um h√≥spede deve reservar mostrou uma m√©dia de **16,2 noites**, com **75% das propriedades** exigindo at√© **30 noites**. Algumas propriedades, no entanto, imp√µem estadias m√≠nimas de at√© **70 noites**, refletindo estrat√©gias variadas:

* **Estadias longas**: Reduzem a rotatividade e oferecem maior estabilidade de renda para os hosts.

* **Estadias curtas**: Atraem um p√∫blico mais diversificado, ampliando a ocupa√ß√£o e a flexibilidade para h√≥spedes que buscam estadias mais breves.

### Explorando o Mapa
A seguir, apresentamos um mapa interativo dos im√≥veis listados em Los Angeles, onde cada ponto √© colorido em um gradiente que reflete o pre√ßo de aluguel. Essa visualiza√ß√£o permite identificar padr√µes geogr√°ficos e √°reas com valores mais altos ou mais acess√≠veis, oferecendo uma perspectiva clara da din√¢mica do mercado de hospedagem na cidade.

In [None]:
# criar mapa de acordo com a latitude-longitude dos im√≥veis
fig = px.scatter_mapbox(df_clean, lat="latitude", lon="longitude", color="price", zoom=10, hover_name="name" , hover_data=["neighbourhood"])

# definir cores conforme aumento do pre√ßo do aluguel
fig.update_coloraxes (colorscale = [[0, 'rgb(166,206,227, 0.5)'],
                        [0.15, 'rgb(31,120,180,0.5)'],
                        [0.30, 'rgb(178,223,138,0.5)'],
                        [0.45, 'rgb(51,160,44,0.5)'],
                        [0.70, 'rgb(251,154,153,0.5)'],
                        [1, 'rgb(227,26,28,0.5)']
                      ],
                   )

# configurar altura, margem e estilo do mapa
fig.update_layout(height=700, margin={"r":0,"t":0,"l":0,"b":0}, mapbox_style="open-street-map", mapbox_center={"lat": 34.0522, "lon": -118.2437})

# mostrar mapa
fig.show()

## Conclus√µes da An√°lise de Dados

Esta foi uma an√°lise explorat√≥ria realizada em um conjunto de dados resumido disponibilizado pelo Airbnb para a cidade de Los Angeles. A partir dos dados, foi poss√≠vel extrair insights valiosos sobre o mercado de hospedagem na regi√£o. Abaixo, destacamos as principais conclus√µes:

**Distribui√ß√£o e Limpeza dos Dados**

Os pre√ßos das di√°rias apresentaram grande varia√ß√£o, incluindo outliers que foram tratados utilizando o m√©todo IQR Score. Ap√≥s a limpeza dos dados, foi calculado que o pre√ßo m√©dio de uma di√°ria √© de **159,56**, com a maiorida das propriedades custando entre **98** e **201 d√≥lares**.

**Prefer√™ncias por Tipo de Im√≥vel**

Mesmo com o custo mais alto, o tipo de im√≥vel mais alugado √© a **casa/apartamento inteiro**, representando **71.47%** das listagens, seguido por **quartos privados** com **26.14%**. Isso indica uma prefer√™ncia dos h√≥spedes por privacidade e espa√ßo durante suas estadias. Quartos compartilhados e quartos de hotel representam uma parcela m√≠nima do mercado, com **1,79%** e **0,60%**, respectivamente.

**Bairros mais caros e mais baratos**

* **Mais caros**: **North Whittier** e **Malibu** lideram com pre√ßos m√©dios de **318,25** e **306,50** d√≥lares, respectivamente. Esses bairros possuem uma oferta limitada de im√≥veis, o que contribui para pre√ßos mais elevados.

* **Mais baratos**: **Watts** e **South Park** apresentam os pre√ßos mais acess√≠veis, com pre√ßos m√©dios de **34.80** e **48.57** d√≥lares, respectivamente. Essas √°reas oferecem op√ß√µes mais econ√¥micas, atraindo h√≥spedes com or√ßamentos mais restritos.

Curiosamente, bairros tradicionalmente associados ao luxo, como Beverly Hills e Hollywood, n√£o aparecem no topo da lista dos mais caros. Esse fen√¥meno pode ser explicado pelo grande volume de im√≥veis dispon√≠veis para aluguel nessas √°reas, o que tende a diluir a m√©dia dos pre√ßos. De fato, ambos os bairros est√£o entre os **top 5 com maior disponibilidade de propriedades**, com mais de **1.000 listagens cada**.

**Fatores que Influenciam os Pre√ßos**

* **Localiza√ß√£o Geogr√°fica**:  A an√°lise de correla√ß√£o mostrou que a **longitude** tem uma correla√ß√£o negativa moderada com o pre√ßo (**-21.86**), sugerindo que a localiza√ß√£o geogr√°fica √© um fator importante na determina√ß√£o dos pre√ßos.

* **N√∫mero de propriedades por host**: O n√∫mero de listagens de um host apresentou uma correla√ß√£o positiva fraca com o pre√ßo (**6.44**), indicando que hosts com mais propriedades tendem a cobrar pre√ßos um pouco mais altos. Isso pode refletir a experi√™ncia desses hosts em otimizar seus pre√ßos ou a qualidade superior de suas propriedades.

**Pol√≠ticas de Estadia M√≠nima**

A vari√°vel `minimum_nights`, que indica o n√∫mero m√≠nimo de noites que um h√≥spede deve reservar mostrou uma m√©dia de **16,2 noites**, com 75% das propriedades exigindo at√© **30 noites**. Algumas propriedades, no entanto, imp√µem estadias m√≠nimas de at√© **70 noites**, refletindo estrat√©gias variadas:

* **Estadias longas**: Reduzem a rotatividade e oferecem maior estabilidade de renda para os hosts.
* **Estadias curtas**: Atraem um p√∫blico mais diversificado, ampliando a ocupa√ß√£o e a flexibilidade para h√≥spedes que buscam estadias mais breves.

### Agradecimento e Feedback
Se voc√™ chegou at√© aqui, muito obrigado por acompanhar este projeto. Caso tenha encontrado outros insights nesse conjunto de dados ou tem algum tipo de feedback, fique a vontade para entrar em contato.

At√© breve! üôã‚Äç‚ôÇÔ∏è


[<center><img alt="LinkedIn" width="20%" src="https://www.freepnglogos.com/uploads/linkedin-png-logo-23.png
"></center>](https://www.linkedin.com/in/vitorratti/)

[<center><img alt="GitHub" width="22%" src="https://pngimg.com/uploads/github/github_PNG23.png
"></center>](https://github.com/vitorrattti)