<a href="https://colab.research.google.com/github/vitorratti/Airbnb_Data_Analysis_LA/blob/main/Analise_Dados_Airbnb_LA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[![LinkedIn](https://img.shields.io/badge/LinkedIn-vitorratti-blue.svg)](https://www.linkedin.com/in/vitorratti)
[![GitHub](https://img.shields.io/badge/GitHub-vitorratti-purple.svg)](https://github.com/vitorratti)


# Análise dos Dados do Airbnb - *Los Angeles*

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**. O detalhe mais impressionante? Ele **não possui nenhum hotel**!

A empresa, **constituída em 2007**, enxergou no mercado imobiliário tradicional um modelo de negócios inovador e lucrativo, revolucionando o conceito de hospedagem. Conectando viajantes a anfitriões de maneira prática e acessível, o Airbnb uniu o útil ao agradável e, hoje, conta com mais de **5 milhões de anfitriões** cadastrados e expressivos **2 bilhões de hóspedes** recebidos.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de *Data Science*.

<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>


> **Neste *notebook*, iremos analisar os dados referentes à cidade de Los Angeles, e ver quais insights podem ser extraídos a partir de dados brutos.**



# Um pouco sobre a "Cidade dos Anjos"

<center><img alt="Santa Monica beach, LA" width="100%" src="https://i.imgur.com/lXDaBOo.png"></center>

Los Angeles, a famosa "Cidade dos Anjos", é um dos destinos mais icônicos dos Estados Unidos. Aparecendo em 2º lugar na lista das cidades mais populosas dos EUA, LA oferece experiências marcantes, com atrações procuradas por visitantes do mundo todo.

Um roteiro comum de viagem para LA geralmente inclui a Calçada da Fama, o Letreiro de Hollywood, o Dolby Theater (sede das cerimônias do Oscar), a Rodeo Drive em Beverly Hills, o Universal Studios e até uma esticada em Venice Beach e no Pier de Santa Monica.

Mas, afinal, o que os dados do Airbnb revelam sobre os padrões de hospedagem em Los Angeles?

## Obtenção dos Dados

Todos os dados usados aqui foram obtidos a partir do site [Inside Airbnb](https://insideairbnb.com/get-the-data/).

Para esta análise exploratória inicial, será baixado apenas o seguinte arquivo:

* `listings.csv` - *Summary information and metrics for listings in Los Angeles (good for visualisations).*

Importante: O portal está em constante evolução, e em determinado momento, pode ser que o [conjunto de dados](https://data.insideairbnb.com/united-states/ca/los-angeles/2024-09-04/visualisations/listings.csv) exato utilizado nesse notebook não esteja mais disponível, o que quebraria nosso código.

Pensando nisso, disponibilizamos [aqui](https://tinyurl.com/airbnb-la) o conjunto que utilizamos, para que você sempre consiga utilizar esse material.

Com isso em mente, vamos ao projeto.

In [None]:
# importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

%matplotlib inline

In [None]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("https://tinyurl.com/airbnb-la")

## Análise dos Dados

Esta etapa tem por objetivo criar uma consciência situacional inicial e permitir um entendimento de como os dados estão estruturados.
Antes de iniciar qualquer análise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras entradas.

In [None]:
# mostrar as 10 primeiras entradas
display(df.head(10))

**Dicionário das variáveis**

Considerada uma boa prática, a elaboração de um dicionário de variáveis permite que todos compreendam os dados presentes no arquivo importado. Essa abordagem facilita o tratamento e a análise de dados que serão aplicados ao projeto.

[Confira o dicionário de dados detalhado ↗](https://docs.google.com/spreadsheets/d/1iWCNJcSutYqpULSQHlNyGInUvHg2BoUGoNRIGa6Szc4/edit?usp=sharing)

- *Seguindo a mesma ordem apresentada no Dataset:*


| CAMPO    |  TIPO  |DESCRIÇÃO                                           |
|----------|--------|----------------------------------------------------|
| **`id`** | int64  | Identificador único do anúncio                     |
| **`name`** | object| Nome do anúncio                                   |
| **`host_id`**| int64| Identificador único do anfitrião                 |
| **`host_name`**| object| Nome do anfitrião                             |
| **`neighbourhood_group`**| object| Grupo de bairros, utilizado para classificar a localização|
| **`neighbourhood`**| object| Bairro específico onde o anúncio está localizado|
| **`latitude`**| float64| Latitude da localização do anúncio            |
| **`longitude`**| float64| Longitude da localização do anúncio          |
| **`room_type`**| object| Tipo de acomodação oferecida (e.g., quarto inteiro, quarto privado)|
| **`price`**| float64| Preço por noite em moeda local                   |
| **`minimum_nights`**| int64| Número mínimo de noites que o hóspede deve reservar|
| **`number_of_reviews`**| int64| Número total de avaliações que o anúncio recebeu|
| **`last_review`**| object| Data da última avaliação recebida           |
| **`reviews_per_month`**| float64| Média de avaliações recebidas por mês|
| **`calculated_host_listings_count`**| int64| Número total de anúncios ativos do anfitrião|
| **`availability_365`**| int64| Número de dias em que a acomodação está disponível para reserva no ano|
| **`number_of_reviews_ltm`**| int64| Número de avaliações recebidas nos últimos 12 meses|
| **`license`**| object| Número da licença da acomodação, caso necessário|




### **Q1. Quantos atributos (variáveis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das variáveis?**

Vamos prosseguir e identificar a quantidade de entradas que nosso conjunto de dados possui e ver os tipos de cada coluna.

Este *dataset* que baixamos é a versão "resumida" do Airbnb. Na mesma página que baixamos o arquivo `listings.csv`. Há uma versão mais completa com 45533 entradas e 75 variáveis (`listings.csv.gz`).

In [None]:
# identificar o volume de dados e tipos das variáveis do DataFrame
df.info()

### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**

A qualidade de um dataset está diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são significativos comparados ao total de entradas.

In [None]:
# criar um DataFrame com a quantidade e percentual de entradas ausentes
dados_ausentes= pd.DataFrame({
    'qtde_nulos': df.isnull().sum(),
    'perc_nulos': (df.isnull().sum() / df.shape[0])
})

# classificar o DataFrame pelo percentual de dados ausentes, em ordem decrescente
dados_ausentes = dados_ausentes.sort_values(by='perc_nulos', ascending=False)

# mostrar o DataFrame
print(dados_ausentes)

- É possível ver que a coluna **`license`** apresenta 71% dos seus valores ausentes.
- As variáveis **`last_review`** e **`reviews_per_month`** apresentam quase 27% de valores nulos.
- É possível ver que a coluna **`price`** apresenta 18% dos seus valores ausentes
- As variáveis **`host_name`** e **`name`** possuem menos que 0,1% dos valores nulos.

#### **Q2.1. Tratando valores ausentes**

Nesta etapa, antes de continuar nossa análise, faremos o tratamento das colunas que possuem valores ausentes.

- **Exclusão das colunas** que possuem acima de 25% de valores ausentes (**`license`**, **`last_review`** e **`reviews_per_month`**), e que não serão utilizadas.

- A coluna **`price`**, principal objeto de nossa análise, apresenta 8.237 (18%) de entradas ausentes. Por ser um volume considerável, dentre as inúmeras práticas possíveis, optamos pela **substituição dos valores nulos** pela **mediana do bairro** que esta entrada faz parte. Evitando a influência de outliers e respeitando a variável de localização.

Por fim, faremos a **exclusão das entradas** com dados faltantes.

In [None]:
# excluir colunas com dados faltantes (não serão utilizadas) em um novo DataFrame
df_non_null = df.copy()
df_non_null = df_non_null.drop(columns=['license', 'last_review', 'reviews_per_month'])

# substituir entradas com dados ausentes pela mediana do bairro, ou mediana do dataset
df_non_null['price'] = df_non_null['price'].fillna(df_non_null.groupby('neighbourhood')['price'].transform('median'))
df_non_null['price'] = df_non_null['price'].fillna(df_non_null['price'].median())

# excluir entradas com dados faltantes
df_non_null = df_non_null.dropna(axis=0)

Feita a limpeza, é hora de conferir os resultados.



In [None]:
# Mostrar o tamanho do dataset antes e depois do tratamento
print(f'Dataset original: {df.shape}')
print(f'Dataset após tratamento: {df_non_null.shape}')

# verificar o percentual de dados ausentes
print((df_non_null.isnull().sum() / df_non_null.shape[0]).sort_values(ascending=False))

Pronto, não existem mais dados ausentes em nosso dataset. Agora vamos avaliar a presença de valores atípicos.

### **Q3. Qual o tipo de distribuição das variáveis?**

Para identificar a distribuição das variáveis, irei plotar o histograma. Esta é uma excelente forma de verificar possíveis outliers.

In [None]:
# plotar o histograma das variáveis numéricas
df_non_null.hist(bins = 15, figsize=(15, 10))

### **Q4. Há algum valor atípico?**

Pela distribuição do histograma, é possível verificar indícios de presenças de outliers. Veja por exemplo as variáveis **`price`**, **`minimum_nights`** e **`number_of_reviews`**.

Os valores não seguem uma distribuição, e distorcem toda a representação gráfica. Para confirmar, vamos utilizar o método **`describe`** para obter um resumo da distribuição estatística das variáveis que nos interessa.



In [None]:
# verificar distribuição estatística das variáveis de interesse
df_non_null[['price', 'minimum_nights', 'number_of_reviews', 'number_of_reviews_ltm',
             'calculated_host_listings_count', 'availability_365']].describe()

Aqui, algumas coisas chamam nossa atenção, por exemplo:
- A variável **`price`**, que corresponde ao preço da diária dos imóveis em dólares (USD), possui 75% dos valores abaixo de 236 dólares, enquanto o valor máximo chega a 56.425 dólares, sugerindo claramente a presença de outliers.
- A variável **`minimum_nights`** apresenta um valor máximo de 1.124 noites, com o terceiro quartil (Q3) em apenas 30 noites, o que confirma a existência de mais outliers.
- As variáveis **`number_of_reviews`**, **`number_of_reviews_ltm`** e **`calculated_host_listings_count`** também podem conter outliers, mas não serão o foco desta análise.

#### **Q4.1. Tratando os Outliers**

Bom, agora que confirmamos a presença de *outliers* em nosso Dataset, é essencial que façamos a limpeza deles.

Para isso,vamos determinar uma "faixa de corte" para os valores contidos nas variáveis **`price`** e **`minimum_nights`**, determinando um limite inferior e superior.

Esses limites serão atribuídos com base no método IQR SCORE. Primeiramente, vamos lembrar a regra do IQR.

O IQR é calculado subtraindo o Terceiro Quartil (75%) pelo Primeiro Quartil (25%).

# IQR = Q3 - Q1

##### Variável `price`

In [None]:
# identificar os outliers para a variável price
q1_price = df_non_null.price.quantile(0.25)
q3_price = df_non_null.price.quantile(0.75)
IQR_price = q3_price - q1_price
print('IQR da variável price: ', IQR_price)

# definir os limites de acordo com o método escolhido
sup_price = q3_price + 1.5 * IQR_price
inf_price = q1_price - 1.0 * IQR_price
print('Limite superior de price: ', sup_price)
print('Limite inferior de price: ', inf_price)

In [None]:
# plotar boxplot do conjunto original para a variável price
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.price.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot price')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas estão acima de 437 dólares por noite.".format(len(df_non_null[df_non_null.price > sup_price])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.price > sup_price]) / df_non_null.shape[0]) * 100))

##### Variável `minimum_nights`


In [None]:
# identificar os outliers para a variável minimum_nights
q1_minimum_nights = df_non_null.minimum_nights.quantile(0.25)
q3_minimum_nights = df_non_null.minimum_nights.quantile(0.75)
IQR_minimum_nights = q3_minimum_nights - q1_minimum_nights
print('IQR da variável minimum_nights: ', IQR_minimum_nights)

# definir os limites de acordo com o método escolhido
sup_minimum_nights = q3_minimum_nights + 1.5 * IQR_minimum_nights
inf_minimum_nights = q1_minimum_nights - 1.5 * IQR_minimum_nights
print('Limite superior de minimum_nights: ', sup_minimum_nights)
print('Limite inferior de minimum_nights: ', inf_minimum_nights)

In [None]:
# plotar boxplot do conjunto original para a variável minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot minimum_nights')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas estão acima de 72 noites".format(len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights]) / df_non_null.shape[0]) * 100))

##### Limpeza do Dataset
Após definirmos os limites inferiores e superiores através do método IQR Score, vamos utilizar o limite superior das variáveis preço e mínimo de noites para limpar o dataset.

In [None]:
# limpar dataset conforme limite superior encontrado no IQR Score
df_clean = df_non_null.copy()

df_clean.drop(df_clean[df_clean.price > sup_price].index, axis=0, inplace=True)
df_clean.drop(df_clean[df_clean.minimum_nights > sup_minimum_nights].index, axis=0, inplace=True)

print('Dataset Original limpeza:', df_non_null.shape)
print('Dataset Limpo:', df_clean.shape)
print(f'Com a limpeza dos outliers, {df.shape[0] - df_clean.shape[0]} entradas foram deletadas')

In [None]:
# plotar novamente boxplot do conjunto original para a variável price
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.price.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot price')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas estão acima de 437 dólares por noite".format(len(df_non_null[df_non_null.price > sup_price])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.price > sup_price]) / df_non_null.shape[0]) * 100))

# plotar boxplot do conjunto limpo para a variável price
fig, ax = plt.subplots(figsize=(15,3))
df_clean.price.plot(kind='box', vert=False);
ax.set_title('Dataset Limpo - Boxplot price')
plt.show()
print(f'Tamanho original: {df.shape[0]} entradas')
print(f'Tamanho atual: {df_clean.shape[0]} entradas')

In [None]:
# plotar novamente boxplot do conjunto original para a variável minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_non_null.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Original - Boxplot minimum_nights')
plt.show()
print("O Dataset possui {} entradas".format(df_non_null.shape[0]))
print("{} delas estão acima de 72 noites".format(len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights])))
print("Representando {:.2f}% do dataset".format((len(df_non_null[df_non_null.minimum_nights > sup_minimum_nights]) / df_non_null.shape[0]) * 100))


# plotar boxplot do conjunto limpo para a variável minimum_nights
fig, ax = plt.subplots(figsize=(15,3))
df_clean.minimum_nights.plot(kind='box', vert=False);
ax.set_title('Dataset Limpo - Boxplot minimum_nights')
plt.show()
print(f'Tamanho original: {df.shape[0]} entradas')
print(f'Tamanho atual: {df_clean.shape[0]} entradas')

##### Histogramas sem *outliers*

Após a limpeza dos *outliers* nas variáveis `price` e `minimum_nights`, vamos plotar novamente o histograma para verificar a distribuição dos dados.

In [None]:
# verificar as distribuições das variáveis númericas
df_clean.hist(bins = 15, figsize=(15, 10))

In [None]:
# verificar o resumo da distribuição estatística das variáveis do conjunto limpo
df_clean[['price', 'minimum_nights', 'number_of_reviews', 'number_of_reviews_ltm',
          'calculated_host_listings_count', 'availability_365']].describe()

Concluído a limpeza, agora temos uma visão muito mais clara da distribuição dos dados.
* A mediana da variável **`price`** foi minimamente afetada pela limpeza dos outliers, saindo de **154** dólares para **145**, mostrando a **robustez do IQR Score** como _solução_ para lidar com outliers.

### **Q5. Qual a correlação existente entre as variáveis?**

Correlação indica que há uma relação entre duas coisas. No nosso contexto, estamos buscando a conexão ou similaridade entre duas variáveis.

Essa relação pode ser medida, e é função do coeficiente de correlação estabelecer qual a intensidade dela. Para identificar as correlações entre as variáveis de interesse, seguirei os seguintes passos:

- Construir uma matriz de correlação
- Visualizar essa matriz por meio de um heatmap, utilizando a biblioteca `seaborn`.

In [None]:
# criar uma matriz de correlação
corr = df_clean[['price', 'minimum_nights', 'latitude', 'longitude', 'number_of_reviews',
                 'calculated_host_listings_count', 'availability_365']].corr() *100

# mostrar a matriz de correlação
display(corr)

In [None]:
# plotar um heatmap a partir das correlações
f, ax = plt.subplots(figsize=(9, 7))
sns.set(font_scale=1.15)
sns.heatmap(corr, cmap='RdBu', fmt='.2f', square=True, linecolor='white', annot=True)

##### **Conclusões**
Com a plotagem do mapa de correlação, alguns insights podem ser extraídos:

**Fatores que Influenciam os Preços**

* **Localização geográfica**: A longitude apresenta correlação negativa moderada com o preço (**-21,86**), sugerindo variações de preço significativas relacionadas à posição geográfica. Isso reforça a **_importância do fator localização no mercado imobiliário_**, especialmente em uma cidade como Los Angeles, onde áreas específicas possuem alto valor agregado.

* **Número de propriedades por host**: O número de listagens de um host apresentou uma correlação positiva fraca com o preço (**6,44**), indicando que **_hosts com mais propriedades tendem a cobrar preços um pouco mais altos_**. Isso pode refletir a **_experiência desses hosts em otimizar seus preços_** ou a **_qualidade superior_** de suas propriedades.

A disponibilidade (`availability_365`) está moderadamente correlacionada com o número de listagens de um anfitrião (**7,64**). Isso pode ser explicado pelo fato de que hosts com mais propriedades listadas, tendem a oferecer maior disponibilidade para hospedagens.

De maneira geral, observa-se que o **preço não possui correlações fortes** com a maioria das variáveis analisadas. Isso indica a necessidade de **explorar outras dimensões** do conjunto de dados ou integrar dados externos (como _proximidade de pontos turísticos ou comodidades_) para obter insights mais robustos sobre os fatores que determinam o preço.

### **Q6. Qual é o preço médio do aluguel?**
Quanto é preciso gastar, em média, para passar uma noite na cidade de Los Angeles?


In [None]:
# verificar preço médio das acomodações
print(f'Preço médio (dólares): {df_clean.price.mean():.2f}')

Para se hospedar em LA, na média, os hóspedes gastam **159,56 dólares** por noite, ou **966,30 reais**, considerando a cotação do dólar americano em `16/01/2025`.

### **Q7. Qual o tipo de imóvel mais alugado no Airbnb?**
O tipo de acomodação é determinado pela variável `room_type`. As opções disponíveis para aluguel, incluem: apartamento/casa inteira, quarto privado, quarto de hotel ou quarto compartilhado.

In [None]:
# calcular preço médio de aluguel por tipo de acomodação
media_preco_por_tipo = df_clean.groupby('room_type')['price'].mean()

# verificar a quantidade e o preço médio de listagens por tipo de imóvel
tipo_imovel = pd.DataFrame({
    'percentual': df_clean.room_type.value_counts() / df_clean.shape[0] * 100,
    'preco_medio': media_preco_por_tipo,
})

# classificar o DataFrame pelo percentual, em ordem decrescente
tipo_imovel = tipo_imovel.sort_values(by='percentual', ascending=False)

# exibir DataFrama
print(tipo_imovel)

Mesmo apresentando custos mais altos, o tipo de imóvel mais alugado é a **_casa/apartamento inteiro_**, representando **71,47%** das listagens, seguido por **_quartos privados_** com **26,14%**. Isso indica uma _preferência dos hóspedes por privacidade e espaço_ durante suas estadias. Quartos compartilhados e quartos de hotel representam uma parcela mínima do mercado, com 1,79% e 0,60%, respectivamente.

### **Q8. Qual a localidade mais cara de Los Angeles?**
Para responder essa pergunta, podemos utilizar a função `groupby()`. Desse modo, agrupamos nossos dados por bairro e depois aplicamos a média na variável `price`, permitindo a análise dos preços de aluguel por bairro.


In [None]:
# calcular preço médio dos aluguéis por bairro
preco_medio = df_clean.groupby(['neighbourhood']).price.mean()

# selecionar os 10 bairros com o preço médio mais alto
mais_caros = preco_medio.sort_values(ascending=False)[:10]

# criar gráfico com o top 10 bairros mais caros
plt.figure(figsize=(5, 4))
plt.barh(mais_caros.index[:10][::-1], mais_caros.values[:10][::-1], color ='skyblue')
plt.title('Bairros mais caros de LA')
plt.grid(False)
plt.show()

# mostrar valores
print(mais_caros)

Curiosamente, **North Whittier** e **Malibu** lideram a lista dos bairros mais caros de Los Angeles.

Por outro lado, bairros renomados como **Beverly Hills** e **Hollywood**, frequentemente associados ao luxo, nem aparecem na lista. Isso ocorre devido ao grande volume de imóveis disponíveis para locação nessas regiões, o que tende a reduzir a média dos preços, já que a presença de imóveis mais acessíveis dilui o impacto das propriedades de alto valor.

Para compreender melhor essa dinâmica, vamos analisar os dados com mais profundidade.

In [None]:
# top 5 bairros mais caros
top_5 = mais_caros[:5].index.tolist()

# filtrar dataset com o top 5
listagens = df_clean[df_clean['neighbourhood'].isin(top_5)]

# quantidade de imóveis por bairro
contagem = listagens['neighbourhood'].value_counts().reindex(top_5)

Como podemos ver, esses bairros possuem uma quantidade limitada de anúncios, com **Avalon** liderando, apresentando **133 imóveis** listados, o que representa **menos de 11%** do volume de propriedades listadas em **Beverly Hills**, por exemplo. Essa pequena oferta, combinada com preços acima da média observada em outros bairros de Los Angeles, contribui para que essas regiões ocupem posições de destaque na lista dos mais caros.

Em contrapartida, **Beverly Hills** e **Hollywood** contam com **mais de 1.000 imóveis** listados cada, reforçando a tese de que a maior oferta distribui os preços, resultando em uma média mais baixa.

### **Q9. Qual a localidade mais barata de Los Angeles?**
Para responder essa pergunta, vamos recorrer ao cálculo do preço médio já realizado anteriormente, aplicando uma ordenação crescente na coluna de preço e filtrando somente as 10 primeiras entradas.

In [None]:
# selecionar os 10 bairros com o preço médio mais baixo
mais_baratos = preco_medio.sort_values(ascending=True)[:10]

# criar gráfico com o top 10 bairros mais baratos
plt.figure(figsize=(5, 4))
plt.barh(mais_baratos.index[:10][::-1], mais_baratos.values[:10][::-1], color ='lightblue')
plt.title('Bairros mais baratos de LA')
plt.grid(False)
plt.show()

# mostrar valores
print(mais_baratos)

**Watts** e **South Park** apresentam os preços mais acessíveis, com preços médios de **34,80** e **48,57 dólares**, respectivamente. Essas áreas oferecem opções mais econômicas, atraindo hóspedes com orçamentos mais restritos.

### **Q10. Qual o bairro com maior oferta de imóveis para aluguel?**
Similar a questão anterior, vamos agrupar nosso dados por bairro, e em seguida contar o número de imóveis disponíveis.

In [None]:
# calcular quantidade de imóveis disponíveis por bairro
qtd_imoveis = df_clean.groupby(['neighbourhood']).id.count()
maior_disp = qtd_imoveis.sort_values(ascending=False)[:10]
# criar gráfico com o top 10
plt.figure(figsize=(5, 4))
plt.barh(maior_disp.index[:10][::-1], maior_disp.values[:10][::-1], color ='lightgreen')
plt.title('Bairros com maior disponibilidade')
plt.grid(False)
plt.show()

# mostrar valores
print(maior_disp)

Esses bairros são **destinos populares** entre turistas e viajantes, graças à sua proximidade com atrações icônicas e à infraestrutura bem desenvolvida para receber visitantes.

Por isso, essa lista pode ser uma **_excelente oportunidade para anfitriões_** que desejam listar seus imóveis no Airbnb. Bairros como **Hollywood**, **Santa Monica** e **Long Beach**, por exemplo, atraem uma grande base de turistas, mas também apresentam _alta concorrência_, o que requere _estratégias diferenciadas_ se quiser se destacar.

### **Q11. Qual é o número médio mínimo de noites para alugar um Airbnb na cidade de Los Angeles?**
Para visualizar rapidamente as principais informações sobre o mínimo de noites, utilizaremos o método **`describe( )`**.

In [None]:
# mostrar estatistícas para o mínimo de noites
print(df_clean.minimum_nights.describe())

A variável `minimum_nights`, que indica o número mínimo de noites que um hóspede deve reservar mostrou uma média de **16,2 noites**, com **75% das propriedades** exigindo até **30 noites**. Algumas propriedades, no entanto, impõem estadias mínimas de até **70 noites**, refletindo estratégias variadas:

* **Estadias longas**: Reduzem a rotatividade e oferecem maior estabilidade de renda para os hosts.

* **Estadias curtas**: Atraem um público mais diversificado, ampliando a ocupação e a flexibilidade para hóspedes que buscam estadias mais breves.

### Explorando o Mapa
A seguir, apresentamos um mapa interativo dos imóveis listados em Los Angeles, onde cada ponto é colorido em um gradiente que reflete o preço de aluguel. Essa visualização permite identificar padrões geográficos e áreas com valores mais altos ou mais acessíveis, oferecendo uma perspectiva clara da dinâmica do mercado de hospedagem na cidade.

In [None]:
# criar mapa de acordo com a latitude-longitude dos imóveis
fig = px.scatter_mapbox(df_clean, lat="latitude", lon="longitude", color="price", zoom=10, hover_name="name" , hover_data=["neighbourhood"])

# definir cores conforme aumento do preço do aluguel
fig.update_coloraxes (colorscale = [[0, 'rgb(166,206,227, 0.5)'],
                        [0.15, 'rgb(31,120,180,0.5)'],
                        [0.30, 'rgb(178,223,138,0.5)'],
                        [0.45, 'rgb(51,160,44,0.5)'],
                        [0.70, 'rgb(251,154,153,0.5)'],
                        [1, 'rgb(227,26,28,0.5)']
                      ],
                   )

# configurar altura, margem e estilo do mapa
fig.update_layout(height=700, margin={"r":0,"t":0,"l":0,"b":0}, mapbox_style="open-street-map", mapbox_center={"lat": 34.0522, "lon": -118.2437})

# mostrar mapa
fig.show()

## Conclusões da Análise de Dados

Esta foi uma análise exploratória realizada em um conjunto de dados resumido disponibilizado pelo Airbnb para a cidade de Los Angeles. A partir dos dados, foi possível extrair insights valiosos sobre o mercado de hospedagem na região. Abaixo, destacamos as principais conclusões:

**Distribuição e Limpeza dos Dados**

Os preços das diárias apresentaram grande variação, incluindo outliers que foram tratados utilizando o método IQR Score. Após a limpeza dos dados, foi calculado que o preço médio de uma diária é de **159,56**, com a maiorida das propriedades custando entre **98** e **201 dólares**.

**Preferências por Tipo de Imóvel**

Mesmo com o custo mais alto, o tipo de imóvel mais alugado é a **casa/apartamento inteiro**, representando **71.47%** das listagens, seguido por **quartos privados** com **26.14%**. Isso indica uma preferência dos hóspedes por privacidade e espaço durante suas estadias. Quartos compartilhados e quartos de hotel representam uma parcela mínima do mercado, com **1,79%** e **0,60%**, respectivamente.

**Bairros mais caros e mais baratos**

* **Mais caros**: **North Whittier** e **Malibu** lideram com preços médios de **318,25** e **306,50** dólares, respectivamente. Esses bairros possuem uma oferta limitada de imóveis, o que contribui para preços mais elevados.

* **Mais baratos**: **Watts** e **South Park** apresentam os preços mais acessíveis, com preços médios de **34.80** e **48.57** dólares, respectivamente. Essas áreas oferecem opções mais econômicas, atraindo hóspedes com orçamentos mais restritos.

Curiosamente, bairros tradicionalmente associados ao luxo, como Beverly Hills e Hollywood, não aparecem no topo da lista dos mais caros. Esse fenômeno pode ser explicado pelo grande volume de imóveis disponíveis para aluguel nessas áreas, o que tende a diluir a média dos preços. De fato, ambos os bairros estão entre os **top 5 com maior disponibilidade de propriedades**, com mais de **1.000 listagens cada**.

**Fatores que Influenciam os Preços**

* **Localização Geográfica**:  A análise de correlação mostrou que a **longitude** tem uma correlação negativa moderada com o preço (**-21.86**), sugerindo que a localização geográfica é um fator importante na determinação dos preços.

* **Número de propriedades por host**: O número de listagens de um host apresentou uma correlação positiva fraca com o preço (**6.44**), indicando que hosts com mais propriedades tendem a cobrar preços um pouco mais altos. Isso pode refletir a experiência desses hosts em otimizar seus preços ou a qualidade superior de suas propriedades.

**Políticas de Estadia Mínima**

A variável `minimum_nights`, que indica o número mínimo de noites que um hóspede deve reservar mostrou uma média de **16,2 noites**, com 75% das propriedades exigindo até **30 noites**. Algumas propriedades, no entanto, impõem estadias mínimas de até **70 noites**, refletindo estratégias variadas:

* **Estadias longas**: Reduzem a rotatividade e oferecem maior estabilidade de renda para os hosts.
* **Estadias curtas**: Atraem um público mais diversificado, ampliando a ocupação e a flexibilidade para hóspedes que buscam estadias mais breves.

### Agradecimento e Feedback
Se você chegou até aqui, muito obrigado por acompanhar este projeto. Caso tenha encontrado outros insights nesse conjunto de dados ou tem algum tipo de feedback, fique a vontade para entrar em contato.

Até breve! 🙋‍♂️


[<center><img alt="LinkedIn" width="20%" src="https://www.freepnglogos.com/uploads/linkedin-png-logo-23.png
"></center>](https://www.linkedin.com/in/vitorratti/)

[<center><img alt="GitHub" width="22%" src="https://pngimg.com/uploads/github/github_PNG23.png
"></center>](https://github.com/vitorrattti)