<a href="https://colab.research.google.com/github/BrunoAzambuja/Analise-dos-dados-do-Airbnb-Roma/blob/main/Analisando_os_Dados_do_Airbnb_Roma.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 3.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---



## Análise dos dados do Airbnb: Roma



<center><img alt="Analisando Airbnb" width="10%" src="https://www.area360.com.au/wp-content/uploads/2017/09/airbnb-logo.jpg"></center>

O [Airbnb](https://www.airbnb.com.br/) já é considerado como sendo a **maior empresa hoteleira da atualidade**. Ah, o detalhe é que ele **não possui nenhum hotel**!

Conectando pessoas que querem viajar (e se hospedar) com anfitriões que querem alugar seus imóveis de maneira prática, o Airbnb fornece uma plataforma inovadora para tornar essa hospedagem alternativa.

No final de 2019, a Startup fundada 10 anos atrás, já havia **hospedado mais de 500 milhões** de pessoas ao redor de todo o mundo, desafiando as redes hoteleiras tradicionais.

Uma das iniciativas do Airbnb é disponibilizar dados do site, para algumas das principais cidades do mundo. Por meio do portal [Inside Airbnb](http://insideairbnb.com/get-the-data.html), é possível baixar uma grande quantidade de dados para desenvolver projetos e soluções de *Data Science*.

## Roma, capital da Itália



<center><img alt="Analisando Airbnb" width="80%" src="https://astelus.com/wp-content/viajes/Que-ver-en-Roma-1152x759.jpg"></center>

Roma é geralmente considerada o "berço da cultura e da civilização ocidental", a história de Roma abrange 28 séculos. Apesar da mitologia romana data a fundação de Roma por volta de 753 a.C., o local é habitado há muito mais tempo, tornando-se um importante assentamento humano por quase três milênios e uma das mais antigas cidades continuamente ocupadas da Europa.

A população inicial da cidade originou-se de uma mistura de latinos, etruscos e sabinos. Eventualmente, a cidade tornou-se sucessivamente a capital do Reino Romano, da República Romana e do Império Romano, sendo considerada por muitos como a primeira cidade e metrópole imperial.

Em 2019, Roma foi a 11ª cidade mais visitada do mundo, com 10,1 milhões de turistas, a terceira mais visitada na União Europeia e o destino turístico mais popular da Itália. O seu centro histórico está classificado pela UNESCO como um Patrimônio Mundial.

Cidade-sede dos Jogos Olímpicos de Verão de 1960, Roma é também a sede de várias agências especializadas das Nações Unidas, como a Organização das Nações Unidas para a Alimentação e a Agricultura (FAO), o Programa Alimentar Mundial (PAM) e o Fundo Internacional de Desenvolvimento Agrícola (FIDA), além da presença de renomadas marcas internacionais na cidade, que fez de Roma um importante centro de moda e design, e os estúdios Cinecittà foram cenário de muitos filmes vencedores do Oscar.

Fonte: [wikipedia](https://pt.wikipedia.org/wiki/Roma)

## Premissas básicas do projeto


 

*   Neste *notebook*, iremos analisar os dados referentes à cidade de Roma, e ver quais insights podem ser extraídos a partir de dados brutos.



## Obtenção dos Dados


Todos os dados utilizados aqui foram obtidos a partir do portal [Inside Airbnb](http://insideairbnb.com/get-the-data).

Para esta análise exploratória inicial, será baixado apenas o seguinte arquivo :

'listings.csv' - Summary information and metrics for listings in Athens (good for visualisations).

In [1]:
# importar os pacotes necessarios
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [6]:
# importar o arquivo listings.csv para um DataFrame
df = pd.read_csv("http://data.insideairbnb.com/italy/lazio/rome/2022-06-07/visualisations/listings.csv")

## Análise dos Dados
Esta etapa tem por objetivo criar uma consciência inicial e permitir um entendimento de como os dados estão estruturados

**Dicionário das variáveis**

* `id` - número de id gerado para identificar o imóvel
* `name` - nome da propriedade anunciada
* `host_id` - número de id do proprietário (anfitrião) da propriedade
* `host_name` - Nome do anfitrião
* `neighbourhood_group` - esta coluna não contém nenhum valor válido
* `neighbourhood` - nome do bairro
* `latitude` - coordenada da latitude da propriedade
* `longitude` - coordenada da longitude da propriedade
* `room_type` - informa o tipo de quarto que é oferecido
* `price` - preço para alugar o imóvel
* `minimum_nights` - quantidade mínima de noites para reservar
* `number_of_reviews` - número de reviews que a propriedade possui
* `last_review` - data do último review
* `reviews_per_month` - quantidade de reviews por mês
* `calculated_host_listings_count` - quantidade de imóveis do mesmo anfitrião
* `availability_365` - número de dias de disponibilidade dentro de 365 dias

Antes de iniciar qualquer análise, vamos verificar a cara do nosso *dataset*, analisando as 5 primeiras entradas.

In [9]:
# mostrar as 5 primeiras entradas
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,49955080,Singola al Casale di Gardenia,396326393,Alessia,,XV Cassia/Flaminia,42.07605,12.32067,Private room,66,1,0,,,3,88,0,
1,41146116,Il Giardino di Veio,322089651,Rosetta,,XV Cassia/Flaminia,42.05088,12.45619,Private room,20,2,1,2020-01-26,0.03,1,0,0,
2,39624404,CAMERA MATRIMONIALE STANDARD CON COLAZIONE INC...,304471512,Hotel,,VI Roma delle Torri,41.82882,12.739,Private room,100,1,0,,,1,180,0,
3,1903817,Lovely apartment with fabulous view north of Rome,9883614,Eva,,XV Cassia/Flaminia,42.13578,12.32621,Entire home/apt,110,3,53,2022-05-25,0.63,4,289,3,
4,17617868,SUPER OFFERTA-stanza Maria-doppia o matrimoniale,97622372,Eleonora,,XV Cassia/Flaminia,42.06512,12.46106,Private room,25,1,12,2022-05-17,0.19,3,315,3,16903.0


### **Q1. Quantos atributos (variáveis) e quantas entradas o nosso conjunto de dados possui? Quais os tipos das variáveis?**

In [None]:
# identificar o volume de dados do DataFrame

# verificar as 5 primeiras entradas do dataset


### **Q2. Qual a porcentagem de valores ausentes no *dataset*?**

In [None]:
# ordenar em ordem decrescente as variáveis por seus valores ausentes


### **Q3. Qual o tipo de distribuição das variáveis?** 

In [None]:
# plotar o histograma das variáveis numéricas


### **Q4. Qual a média dos preços de aluguel?**

In [None]:
# ver a média da coluna `price``


### **Q4. Qual a correlação existente entre as variáveis**

In [None]:
# criar uma matriz de correlação

# mostrar a matriz de correlação


In [None]:
# plotar um heatmap a partir das correlações


### **Q5. Qual o tipo de imóvel mais alugado no Airbnb?**

In [None]:
# mostrar a quantidade de cada tipo de imóvel disponível


In [None]:
# mostrar a porcentagem de cada tipo de imóvel disponível


### **Q6. Qual a localidade mais cara do dataset?**



In [None]:
# ver preços por bairros, na média


In [None]:
# plotar os imóveis pela latitude-longitude


### **Q7. Qual é a média do mínimo de noites para aluguel (minimum_nights)?**

In [None]:
# ver a média da coluna `minimum_nights``

## Conclusões
