<div align="center">
  <img alt="Casa Rosada" width="75%" src="img/casa_rosada.png">
  <br>
</div>


## **Projeto 01 - Análise dos Dados do Airbnb - [Buenos Aires, Argentina](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv)**
###### **Data Science na Prática 4.0** [sigmoidal.ai](https://sigmoidal.ai)
*by[Jhefferson Z. Andreatta](https://www.linkedin.com/in/e-jhefferson-zardin-andreatta-8ab67723a/)*

---

<div align="justify">

## **Buenos Aires: História, Transformações e Turismo**

Buenos Aires, a capital cosmopolita da Argentina, também conhecida como Cidade Autônoma de Buenos Aires (CABA), é uma das metrópoles mais vibrantes e culturais da América Latina. Esta cidade dinâmica é a maior da Argentina e a segunda maior área metropolitana da América do Sul, atrás apenas da Grande São Paulo. Localizada na costa ocidental do estuário do Rio da Prata, Buenos Aires é um centro econômico, cultural e político vital, com uma população de cerca de 13 milhões de pessoas na sua área metropolitana.

A cidade de Buenos Aires tem uma história rica que remonta à sua fundação original em 1536 e refundação em 1580. Em 1880, após décadas de conflitos políticos, Buenos Aires foi federalizada e separada da província de Buenos Aires, tornando-se um distrito autônomo. Este movimento incluiu a incorporação das cidades de Belgrano e Flores, agora bairros de Buenos Aires. A emenda constitucional de 1994 concedeu autonomia política à cidade, permitindo que os cidadãos elegessem diretamente seu chefe de governo pela primeira vez em 1996. Antes disso, o prefeito era nomeado pelo Presidente da República.

</div>

<div align="justify">

Hoje, Buenos Aires é uma das 20 maiores cidades do mundo e uma das três únicas cidades latino-americanas consideradas uma cidade global alfa, ao lado de São Paulo e Cidade do México. A cidade é conhecida por seus marcos históricos e culturais, como a Praça de Maio, a Casa Rosada, o Teatro Colón e o museu MALBA. Estes locais emblemáticos atraem turistas de todo o mundo, contribuindo para a sua fama global.

### [Airbnb](https://www.airbnb.com.br/) e o Turismo em Buenos Aires

Nos últimos anos, a plataforma Airbnb teve um impacto significativo no turismo de [Buenos Aires](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv). Fundada em 2008, a Airbnb permite que anfitriões aluguem suas propriedades a curto prazo, oferecendo uma alternativa às redes hoteleiras tradicionais. Em Buenos Aires, essa prática se expandiu rapidamente, especialmente em bairros como Palermo, Recoleta e San Telmo.

A Airbnb transformou a indústria da hospitalidade, oferecendo acomodações mais autênticas e econômicas. No entanto, essa expansão trouxe desafios regulatórios. Embora haja um registro obrigatório de aluguéis temporários em Buenos Aires com cerca de 500 propriedades listadas, a plataforma Inside Airbnb indica que existem mais de 35 mil ofertas na cidade. Esta discrepância levanta questões sobre a legalidade e a regulamentação dos aluguéis temporários.

</div>


<div align="justify">

Por fim, Buenos Aires é uma cidade onde história e modernidade coexistem harmoniosamente. Suas transformações políticas e territoriais, juntamente com a influência de plataformas como o Airbnb, moldaram a cidade contemporânea. Visitar Buenos Aires é uma experiência enriquecedora em qualquer época do ano, com destaque para a primavera e o outono, quando o clima é agradável e as multidões são menores.

Com uma combinação única de cultura, história e inovação, Buenos Aires continua a ser um destino atraente para visitantes de todo o mundo, por esses motivos vamos juntos segui pela minha análise do [conjunto de dados](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B4noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv) disponibilizados pelo portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), onde é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de Data Science.

</div>

A  é uma empresa americana de hospedagem fundada em 2008 por Brian Chesky, Joe Gebbia e Nathan Blecharczyk. Ela funciona como intermediária, cobrando uma taxa tanto dos anfitriões quanto dos hóspedes, através do site ou aplicativo. Os anfitriões podem listar suas propriedades, enquanto os hóspedes podem pesquisar e reservar acomodações de maneira fácil e segura.

Além de hospedagem, a Airbnb expandiu seus serviços para incluir experiências, onde os anfitriões podem oferecer atividades como tours guiados, workshops de culinária e outras atividades locais. A empresa teve um impacto significativo na indústria de hospitalidade, competindo com hotéis tradicionais e proporcionando uma alternativa mais autêntica e muitas vezes mais econômica para os viajantes.

No final de 2018, a startup fundada há 10 anos já havia **hospedado mais de 300 milhões** de pessoas ao redor do mundo, número que lhe deu o reconhecimento de ser a **maior empresa hoteleira da atualidade, sem possuir um único hotel**!

Em dezembro de 2020, a Airbnb abriu seu capital, com uma oferta pública inicial (IPO) que avaliou a empresa em aproximadamente 47 bilhões de dólares. Na data da realização desta análise, o valor de mercado da empresa é de aproximadamente 93 bilhões de dólares.


<div align="justify">

### Obtenção dos Dados

**Para esta análise, usaremos o arquivo `listings.csv` - *Summary information and metrics for listings in... (good for visualisations)*, onde neste *notebook* iremos analisar os dados brutos e extrair insights pertinentes.**

Importante: O portal está em constante evolução, e em determinado momento, pode ser que o [conjunto de dados](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B4noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv) exato utilizado neste notebook não esteja mais disponível, o que quebraria nosso código.

</div>

#### Vamos ao projeto!

##### Inicialmente iremos instalar os pacotes necessários para a ralização dos nossos dados e logo após realizaremos a importação dos mesmos.

* `pandas`: Manipulação e análise de dados tabulares
* `matplotlib`: Criação de gráficos estáticos, animados e interativos
* `seaborn`: Visualização de dados estatísticos
* `yfinance`: Download de dados financeiros históricos do Yahoo Finance
* `folium`: Criação de mapas interativos

In [1]:
# Instalando pacotes necessários
!pip install pandas seaborn yfinance matplotlib folium -q

In [2]:
# Importar os pacotes necessários
import folium
import pandas as pd
import seaborn as sns
import yfinance as yf
import matplotlib.pyplot as plt

from datetime import datetime

# Para exibir gráficos inline no Jupyter Notebook
%matplotlib inline

#### Importaremos a seguir o arquoivo em 'csv' contendos os dados necessários para nossa análise.

In [3]:
# Importar o arquivo listings.csv para um DataFrame
DATA_PATH = 'https://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv'
df = pd.read_csv(DATA_PATH)

### Análise Exploratória

##### Para uma análise breve da estrutura do dataframe, vamos chamar a função 'head' e a 'tail'. Funções esta que possibilitam verificar as cinco primeiras entradas e as cinco últimas saidas.

In [4]:
# Verificando nosso 'dataframe' analisando as primeiras entradas
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,11508,Amazing Luxurious Apt-Palermo Soho,42762,Candela,,Palermo,-34.58184,-58.42415,Entire home/apt,61788.0,3,41,2024-04-22,0.28,1,338,5,
1,186005,Modern apartment in Downtown Buenos Aires,893209,Victoria,,Retiro,-34.59804,-58.37688,Entire home/apt,63737.0,7,85,2023-10-28,0.56,4,293,8,
2,14222,"RELAX IN HAPPY HOUSE - PALERMO, BUENOS AIRES",87710233,María,,Palermo,-34.58617,-58.41036,Entire home/apt,16032.0,7,119,2024-06-12,0.82,7,13,11,
3,188154,At the heart of San Telmo Double,906277,Magdalena,,San Telmo,-34.62063,-58.36967,Private room,22763.0,2,80,2024-03-09,0.53,6,330,7,
4,48535,Elegant apartment in downtown Bs.As,221044,Florencia,,Retiro,-34.5962,-58.37529,Entire home/apt,45526.0,90,0,,,1,364,0,


In [5]:
# Verificando nosso 'dataframe' analisando as últimas saídas
df.tail()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
37030,1186706513858905394,Luminosa y Cerca de todo,5741869,Ramiro,,Belgrano,-34.546853,-58.45093,Entire home/apt,154789.0,7,0,,,3,364,0,
37031,1188581546522211306,Departamento en Palermo Soho,140615013,Florencia,,Palermo,-34.584131,-58.425125,Entire home/apt,29137.0,3,0,,,2,26,0,
37032,1188588226059760197,Departamento Céntrico en Almagro,570638329,Urban,,Almagro,-34.611896,-58.418361,Entire home/apt,29137.0,1,0,,,2,365,0,
37033,1188641321963525515,Apart Blue,583844736,Marisa,,Palermo,-34.58691,-58.43154,Entire home/apt,32779.0,1,0,,,1,365,0,
37034,1188643514120718632,Hermoso departamento en Palermo,505709984,Jerónimo,,Palermo,-34.587563,-58.428171,Entire home/apt,21124.0,1,0,,,2,363,0,


#### Vamos agora listar as cuunas pertencentes ao dataframe e contextualizar cada uma, asssim é possivel realziar melhores insides sobre os dados aprensetados.

**Dicionário das variáveis**

* `id` - identificador único de cada imóvel
* `name` - nome do imóvel anunciado
* `host_id` - identificador único de cada usuário
* `host_name` - nome do usuário
* `neighbourhood_group` - indica o grupo de bairros
* `neighbourhood` - indica qual a vizinhança
* `latitude` - coordenada da latitude do imóvel
* `longitude` - coordenada da longitude do imóvel
* `room_type` - tipo de imóvel ofertado
* `price` - valor da diária
* `minimum_nights` - quantidade mínima de noites que os proprietários alugam
* `number_of_reviews` - número de avaliações que a propriedade recebeu
* `last_review` - data da última avaliação
* `reviews_per_month` - quantidade de avaliações recebidas por mês
* `calculated_host_listings_count` - quantidade de imóveis que um mesmo anfitrião possui anunciados
* `availability_365` - número de dias de disponibilidade dentro de 365 dias
* `number_of_reviews_ltm` - quantidade de avaliações nos últimos 12 meses
* `license` - número de registro do imóvel

##### É preciso ter uma dimenção dos tamanhos do nosso dataframe, para isso iremso utilizar as funções "shape" e "dtypes".
##### Elas vão informar o tamanho do nosso dataframe nos informando o número de váriaveis (colunas), o número de entradas (linhas) e o tipo de cada variável.

In [11]:
# Identificar o volume de dados e a forma do DataFrame
print('Tamanho do DataFrame:')
print('-->  {} linhas.'.format(df.shape[0]))
print('-->  {} colunas.'.format(df.shape[1]))

# Verificar os tipos de variáveis
print('\nTipos de variáveis: \n{}'.format(df.dtypes))

Tamanho do DataFrame:
-->  37035 linhas.
-->  18 colunas.

Tipos de variáveis: 
id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group               float64
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                             float64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
number_of_reviews_ltm               int64
license                            object
dtype: object


### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**

In [None]:
# Ordena em ordem decrescente as variáveis por seus valores ausentes
(df.isnull().sum().sort_values(ascending=False) / df.shape[0]) * 100

### **Q3. Qual o tipo de distribuição das variáveis?**

In [None]:
# Plotar o histograma das variáveis numéricas
df.hist(column=['latitude', 'longitude', 'price', 'minimum_nights', 'number_of_reviews', 
                'reviews_per_month', 'calculated_host_listings_count', 'availability_365', 
                'number_of_reviews_ltm'], bins=18, figsize=(22, 12), grid=False)
plt.tight_layout()
plt.show()

**Antes da verificação dos *outliers*, vamos converter os valores da variável `price` de pesos argentinos para dólares.**

* Usaremos a biblioteca `yfinance` para importar a cotação atual.

In [None]:
# Importando a cotação atual da moeda 'ARSUSD=X' com Yahoo Finance
arsusd = yf.download('ARSUSD=X', start=datetime.now())['Adj Close']
arsusd = arsusd.iloc[0]

In [None]:
# Realizando cópia do DataFrame original
df_clean = df.copy()

# Converter o preço para dólares
df_clean['price'] = df_clean['price'] * arsusd

### **Q4. Verificar os *outliers* presentes no `dataset`.**

In [None]:
# Ver resumo estatístico das variáveis numéricas
df_clean[['price', 'minimum_nights', 'availability_365', 'number_of_reviews', 
            'reviews_per_month', 'number_of_reviews_ltm', 'calculated_host_listings_count']].describe()

Após observar a distribuição do histograma e o resumo estatístico, é possível verificar as seguintes situações:

* As colunas `neighbourhood_group` e `license` têm mais de 98% de seus dados ausentes.
* Existem possíveis outliers nas variáveis `price` e `minimum_nights`.

In [None]:
# Excluir as colunas 'neighbourhood_group' e 'license'
df_clean.drop(columns=['neighbourhood_group', 'license'], inplace=True)

In [None]:
# Calcular a porcentagem de exclusão
print('Esta exclusão representou {:.4f}% do DataFrame'.format(
    df_clean[(df_clean['price'].isnull()) & 
                (df_clean['availability_365'] == 0) & 
                (df_clean['number_of_reviews'] == 0)].shape[0] / df.shape[0] * 100
))

# Exclusão dos imóveis que não têm preço, nunca receberam avaliação e têm zero dias disponíveis
df_clean.drop(
    df_clean[(df_clean['price'].isnull()) & 
                (df_clean['availability_365'] == 0) & 
                (df_clean['number_of_reviews'] == 0)].index, 
    axis=0, 
    inplace=True
)

In [None]:
# Plotar boxplot dos preços
df_clean['price'].plot(kind='box', vert=False, xlim=(0, 250), figsize=(15, 3))
plt.title('Distribuição dos Preços')
plt.xlabel('Preço (em dólares)')
plt.show()

# Verificar preços acima de 250 dólares
print('Preço: valores acima de 250 dólares')
print("{} entradas".format(len(df_clean[df_clean['price'] > 250])))
print("{:.4f}%".format((len(df_clean[df_clean['price'] > 250]) / df_clean.shape[0]) * 100))

In [None]:
# Plotar boxplot das noites mínimas
df_clean['minimum_nights'].plot(kind='box', vert=False, xlim=(0, 31), figsize=(15, 3))
plt.title('Distribuição das Noites Mínimas')
plt.xlabel('Número de Noites Mínimas')
plt.show()

# Verificar valores acima de 31 dias para 'minimum_nights'
print('Minimum Nights: valores acima de 31 dias')
print("{} entradas".format(len(df_clean[df_clean['minimum_nights'] > 31])))
print("{:.4f}%".format((len(df_clean[df_clean['minimum_nights'] > 31]) / df_clean.shape[0]) * 100))

In [None]:
# Exclusão das linhas com preço maior que 250 dólares
df_clean.drop(df_clean[df_clean['price'] > 250].index, axis=0, inplace=True)

# Exclusão das linhas com noites mínimas maiores que 31 dias
df_clean.drop(df_clean[df_clean['minimum_nights'] > 31].index, axis=0, inplace=True)

# Histograma das variáveis numéricas após a exclusão dos outliers
df_clean.hist(column=['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 
                        'calculated_host_listings_count', 'availability_365', 'number_of_reviews_ltm'], 
                        bins=18, figsize=(22, 12), grid=False)
plt.tight_layout()
plt.show()

### **Q5. Qual a média dos preços de aluguel?**

In [None]:
# Ver a média da coluna 'price'
print('Média de preços em Buenos Aires é de {:.2f} dólares.'.format(df_clean['price'].mean()))

# Ver a mediana de preços em Buenos Aires por bairro, ordenado da maior para a menor
print('Mediana de preços em Buenos Aires por bairro, ordenado da maior à menor:')
print(df_clean.groupby('neighbourhood')['price'].median().sort_values(ascending=False))

### **Q6. Qual a correlação existente entre as variáveis**

In [None]:
# Criar uma matriz de correlação
df_corr = df_clean[['price', 'minimum_nights', 'number_of_reviews', 'reviews_per_month', 
                    'calculated_host_listings_count', 'availability_365', 'number_of_reviews_ltm']].corr()

# Mostrar a matriz de correlação
print('Matriz de Correlação:')
df_corr

In [None]:
# Plotar um heatmap a partir das correlações
plt.figure(figsize=(10, 8))  # Ajustar o tamanho da figura para melhor visualização
sns.heatmap(df_corr, annot=True, fmt='.2f', cmap='RdBu', 
            center=0,  # Ajusta a coloração para que zero esteja no centro do mapa de cores
            linewidths=0.5, linecolor='white', square=True)
plt.title('Matriz de Correlação')
plt.show()

### **Q7. Qual o tipo de imóvel mais alugado no Airbnb?**

In [None]:
# Mostrar a quantidade de cada tipo de imóvel disponível
print('Imóveis disponíveis para aluguel:')
print(df_clean['room_type'].value_counts().to_string())

In [None]:
# mostrar a porcentagem de cada tipo de imóvel disponível
print('Porcentagens de imóveis disponíveis para aluguel: {}'.format(((
                                        df_clean['room_type'].value_counts() / df_clean.shape[0]) * 100).to_string()))

# Mostrar a porcentagem de cada tipo de imóvel disponível
print('Porcentagem de imóveis disponíveis para aluguel: {}'.format(((
                                        df_clean['room_type'].value_counts() / df_clean.shape[0]) * 100).to_string()))

### **Q8. Qual a localidade mais cara do dataset?**

In [None]:
# Ver a média dos preços por bairro
print('Média de preço em cada bairro: {}'.format(
                                        df_clean.groupby('neighbourhood')['price'].mean().sort_values(ascending=False)))

In [None]:
# Ver o valor máximo dos preços por bairro
print('Valor máximo em cada bairro: {}'.format(
                                        df_clean.groupby('neighbourhood')['price'].max().sort_values(ascending=False)))

In [None]:
# Criar um mapa centrado na média das coordenadas
map_center = [df_clean['latitude'].mean(), df_clean['longitude'].mean()]
mymap = folium.Map(location=map_center, zoom_start=12)

# Adicionar pontos ao mapa
for _, row in df_clean.iterrows():
    popup_text = f"""
    <b>Nome:</b> {row['name']}<br>
    <b>Tipo:</b> {row['room_type']}<br>
    <b>Anfitrião:</b> {row['host_name']}<br>
    <b>Preço:</b> ${row['price']:.2f}<br>
    <b>Latitude:</b> {row['latitude']}<br>
    <b>Longitude:</b> {row['longitude']}
    """
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=0.5,  # Tamanho do ponto
        color='red',  # Cor do ponto
        fill=True,
        fill_color='red',
        fill_opacity=0.7,
        popup=folium.Popup(popup_text, max_width=300)
    ).add_to(mymap)

# Salvar o mapa em um arquivo HTML
mymap.save('map_buenos_aires.html')

# Exibir o mapa no Jupyter Notebook (se estiver usando)
mymap

### **Q9. Qual é a média do mínimo de noites para aluguel (minimum_nights)?**

In [None]:
# Ver a média da coluna 'minimum_nights'
print('A média da coluna "minimum_nights" é: {:.2f} dias disponíveis para aluguel'.format(
                                                                                    df_clean['minimum_nights'].mean()))

## Conclusão

Esta análise, embora limitada, revelou informações significativas sobre os dados do Airbnb em Buenos Aires. Mesmo com um conjunto de dados relativamente pequeno, observamos a presença de outliers em várias variáveis, que podem influenciar a precisão dos resultados.

Em particular, identificamos outliers nas variáveis de preço e número mínimo de noites de aluguel. Algumas localidades apresentaram poucos imóveis disponíveis para aluguel, e a quantidade mínima de dias disponíveis para locação ultrapassou 31 dias, chegando até 1000 dias em alguns casos. Esses outliers podem distorcer as estatísticas e criar uma visão enviesada de certos atributos.

Adicionalmente, é importante ressaltar que utilizamos uma versão resumida do conjunto de dados, disponível em [listings.csv](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2024-06-29/visualisations/listings.csv), que é adequada para uma análise inicial. Para uma análise exploratória mais completa e detalhada, recomenda-se o uso do [conjunto de dados](https://data.insideairbnb.com/argentina/ciudad-aut%C3%B3noma-de-buenos-aires/buenos-aires/2024-06-29/data/listings.csv.gz) completo, que oferece uma visão mais abrangente e detalhada das informações.