# SPACE RENTAL (AIRBNB NOVA YORK)

## 0. Procedimentos Iniciais

In [1]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
from matplotlib import pyplot as plt

In [2]:
# Carregar e ler dados
dados = pd.read_csv('Dados/AB_NYC_2019.csv')

# Visualizar as primeiras cinco observações do conjunto de dados
dados.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


## 1. Descrição e limpeza dos dados

In [3]:
# Criar uma cópia da base de dados original e trabalhar a partir dela
dados1 = dados.copy()

In [4]:
# Listar todas as variáveis do conjunto de dados
dados1.columns

Index(['id', 'name', 'host_id', 'host_name', 'neighbourhood_group',
       'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365'],
      dtype='object')

<b>Significado das colunas do conjunto de dados:</b>

- <b>id:</b> Identificador do registro na base de dados.
- <b>name:</b> Nome do anúncio na plataforma do Airbnb.
- <b>host_id:</b> Identificador do host (dono do imóvel).
- <b>host_name:</b> Nome do host.
- <b>neighbourhood_group:</b> Região da cidade de Nova York.
- <b>neighbourhood:</b> Bairro (está dentro de uma das regiões).
- <b>latitude:</b> Ponto geográfico da latitute.
- <b>longitude:</b> Ponto geográfico da longitude.
- <b>room_type:</b> Tipo da locação (quarto, casa inteira, etc).
- <b>price:</b> Preço do aluguel (diária).
- <b>minimum_nights:</b> Diárias mínimas para locação.
- <b>number_of_reviews:</b> Quantidade de avaliações.
- <b>last_review:</b> Data da última avaliação.
- <b>reviews_per_month:</b> Quantidade de avaliações mensais.
- <b>calculated_host_listings_count:</b> Quantidade de anúncios do host do imóvel.
- <b>availability_365:</b> Tempo (dias) que o anúncio está disponível na plataforma - Valor 0 significa apartamento indisponível.

In [5]:
# Selecionando as variáveis que serão utilizadas na análise
cols = ['id', 'host_id', 'neighbourhood_group', 'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
        'minimum_nights', 'number_of_reviews', 'calculated_host_listings_count', 'availability_365']
dados1 = dados.loc[:, cols]

In [6]:
# Renomear as colunas 
dados1 = dados1.rename({'id': 'ID',
                        'host_id': 'Host_ID',
                        'neighbourhood_group': 'Regiao',
                        'neighbourhood': 'Bairro',
                        'latitude': 'Latitude',
                        'longitude': 'Longitude',
                        'room_type': 'Tipo_do_local',
                        'price': 'Preco',
                        'minimum_nights': 'Minimo_de_noites',
                        'number_of_reviews': 'Num_de_reviews',       
                        'calculated_host_listings_count': 'Num_de_anuncios_do_host',
                        'availability_365': 'Disp_anual'},
                         axis = 1)

In [7]:
# Mostrar o tipo das variáveis
dados1.dtypes

ID                           int64
Host_ID                      int64
Regiao                      object
Bairro                      object
Latitude                   float64
Longitude                  float64
Tipo_do_local               object
Preco                        int64
Minimo_de_noites             int64
Num_de_reviews               int64
Num_de_anuncios_do_host      int64
Disp_anual                   int64
dtype: object

In [8]:
# Mostrar o número de observações e colunas
dados.shape

(48895, 16)

In [9]:
# Informações gerais da planilha de dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              48895 non-null  int64  
 1   name                            48879 non-null  object 
 2   host_id                         48895 non-null  int64  
 3   host_name                       48874 non-null  object 
 4   neighbourhood_group             48895 non-null  object 
 5   neighbourhood                   48895 non-null  object 
 6   latitude                        48895 non-null  float64
 7   longitude                       48895 non-null  float64
 8   room_type                       48895 non-null  object 
 9   price                           48895 non-null  int64  
 10  minimum_nights                  48895 non-null  int64  
 11  number_of_reviews               48895 non-null  int64  
 12  last_review                     

In [10]:
# Mostrar a quantidade de dados faltantes em cada variável
dados1.isna().sum()

ID                         0
Host_ID                    0
Regiao                     0
Bairro                     0
Latitude                   0
Longitude                  0
Tipo_do_local              0
Preco                      0
Minimo_de_noites           0
Num_de_reviews             0
Num_de_anuncios_do_host    0
Disp_anual                 0
dtype: int64

In [11]:
# Apagar as observações com dados faltantes
# dados1 = dados.dropna()

In [12]:
# Apagar os imóveis indisponíveis para a locação durante o ano (Disp_anual = 0)
dados1.drop(dados1.loc[dados1['Disp_anual'] == 0].index, inplace = True)

In [13]:
# Apagar os imóveis com preço de aluguel igual a 0
dados1.drop(dados1.loc[dados1['Preco'] == 0].index, inplace = True)

## 2. Análise exploratória dos dados

In [14]:
dados2 = dados1.copy()

### 2.1. Respondendo as perguntas de negócios do CEO

#### - Qual o preço médio do aluguel dos imóveis da Airbnb em Nova York?

In [15]:
preco_medio = np.round(dados2['Preco'].mean(), 2)
print('O preço médio do aluguel dos imóveis da Airbnb em Nova York é US${}.'.format(preco_medio))

O preço médio do aluguel dos imóveis da Airbnb em Nova York é US$162.09.


#### - Qual é o valor do aluguel diário mais caro da cidade de Nova York?

In [16]:
preco_maximo = np.round(dados2['Preco'].max(), 2)
print('O aluguel mais caro entre os imóveis da Airbnb na cidade de Nova York é US${}.'.format(preco_maximo))

O aluguel mais caro entre os imóveis da Airbnb na cidade de Nova York é US$10000.


In [17]:
preco_minimo = np.round(dados2['Preco'].min(), 2)
print('O aluguel mais barato entre os imóveis da Airbnb na cidade de Nova York é US${}.'.format(preco_minimo))

O aluguel mais barato entre os imóveis da Airbnb na cidade de Nova York é US$10.


#### - Como é a variação dos preços dos imóveis em Nova York?

In [18]:
cols = ['Preco']
desvio_padrao = np.round(np.std(dados2.loc[:, cols])[0], 2)
print('O desvio padrão do aluguel dos imóveis da Airbnb em Nova York é US${}.'.format(desvio_padrao))

O desvio padrão do aluguel dos imóveis da Airbnb em Nova York é US$254.44.


#### - Existem mais imóveis baratos ou caros?

In [19]:
# px.histogram(dataset, coluna, nbins)
px.histogram(dados2, 'Preco', nbins = 300)

In [20]:
px.histogram(dados2.loc[dados2['Preco'] < 2000, :], 'Preco', nbins = 300)

#### - Quais os nomes das regiões que existem na cidade de Nova York?

In [21]:
cols = ['Regiao']
regiao = dados2.loc[:, cols]
regioes = np.unique(regiao)
print('As regiões da cidade de Nova York são: {}.'.format(regioes))

As regiões da cidade de Nova York são: ['Bronx' 'Brooklyn' 'Manhattan' 'Queens' 'Staten Island'].


#### - Qual o valor médio do aluguel diário dos imóveis da Airbnb em cada região de Nova York?

In [22]:
preco_medio_reg = np.round(dados2[['Preco', 'Regiao']].groupby('Regiao').mean().reset_index(), 2)
preco_medio_reg

Unnamed: 0,Regiao,Preco
0,Bronx,89.11
1,Brooklyn,132.93
2,Manhattan,214.2
3,Queens,100.03
4,Staten Island,114.23


#### - Qual o valor máximo do aluguel diário dos imóveis da Airbnb em cada região de Nova York?

In [23]:
preco_max_reg = np.round(dados2[['Preco', 'Regiao']].groupby('Regiao').max(), 2)
preco_max_reg

Unnamed: 0_level_0,Preco
Regiao,Unnamed: 1_level_1
Bronx,2500
Brooklyn,8000
Manhattan,10000
Queens,2600
Staten Island,5000


#### - Quais são as categorias de imóveis que estão cadastradas dentro da base de dados da cidade de Nova York?

In [24]:
cols = ['Tipo_do_local']
categorias = np.unique(dados2.loc[:, cols])
print('As categorias de imóveis que estão cadastradas na base de dados da cidade de Nova York são: {}.'.format(categorias))

As categorias de imóveis que estão cadastradas na base de dados da cidade de Nova York são: ['Entire home/apt' 'Private room' 'Shared room'].


#### - Há quantos imóveis de cada categoria?

In [25]:
imoveis_cat = dados2[['ID', 'Tipo_do_local']].groupby('Tipo_do_local').count()
imoveis_cat

Unnamed: 0_level_0,ID
Tipo_do_local,Unnamed: 1_level_1
Entire home/apt,16532
Private room,13960
Shared room,862


#### - Qual o valor médio dos aluguéis diários por categoria?

In [26]:
preco_medio_cat = np.round(dados2[['Preco', 'Tipo_do_local']].groupby('Tipo_do_local').mean(), 2)
preco_medio_cat

Unnamed: 0_level_0,Preco
Tipo_do_local,Unnamed: 1_level_1
Entire home/apt,224.61
Private room,93.98
Shared room,66.15


#### - Existem quantos hosts cadastrados dentro da base de dados da cidade de Nova York?

In [27]:
cols = ['Host_ID']
hosts = len(np.unique(dados2.loc[:, cols]))
print('Há {} hosts cadastrados na base de dados da Airbnb na cidade de Nova York.'. format(hosts))

Há 21808 hosts cadastrados na base de dados da Airbnb na cidade de Nova York.


#### - Existem quantos imóveis cadastrados dentro da base de dados da cidade de Nova York?

In [28]:
cols = ['ID']
hosts = len(np.unique(dados2.loc[:, cols]))
print('Há {} imóveis cadastrados na base de dados da Airbnb na cidade de Nova York.'. format(hosts))

Há 31354 imóveis cadastrados na base de dados da Airbnb na cidade de Nova York.


#### - Qual a quantidade máxima de reviews recebida por um host?

In [29]:
qtd_max_avaliacoes = dados2['Num_de_reviews'].max()
print('A quantidade máxima de avaliações recebida por um host é {}.'.format(qtd_max_avaliacoes))

A quantidade máxima de avaliações recebida por um host é 629.


#### - Qual a quantidade mínima de reviews recebida por um host?

In [30]:
qtd_min_avaliacoes = dados2['Num_de_reviews'].min()
print('A quantidade mínima de avaliações recebida por um host é {}.'.format(qtd_min_avaliacoes))

A quantidade mínima de avaliações recebida por um host é 0.


#### - Qual a quantidade média de reviews recebidas pelos hosts?

In [31]:
qtd_media_avaliacoes = np.round(dados2['Num_de_reviews'].mean())
print('A quantidade média de avaliações recebida por um host é {}.'.format(qtd_media_avaliacoes))

A quantidade média de avaliações recebida por um host é 32.0.


#### - Qual a distribuição do número de reviews? Existem imóveis com muitos e outros com poucos reviews?

In [32]:
px.histogram(dados2, 'Num_de_reviews', nbins = 200)

#### - Qual a quantidade máxima de anúncios publicados por um host?

In [33]:
anuncios_max = dados2['Num_de_anuncios_do_host'].max()
print('A quantidade máxima de anúncios publicados por um host é {}.'.format(anuncios_max))

A quantidade máxima de anúncios publicados por um host é 327.


#### - Qual a avaliação mínima de anúncios publicados por um host?

In [34]:
anuncios_min = dados2['Num_de_anuncios_do_host'].min()
print('A quantidade mínima de anúncios publicados por um host é {}.'.format(anuncios_min))

A quantidade mínima de anúncios publicados por um host é 1.


#### - Qual o número médio de diárias mínimas para locação? E como é a variação das diárias mínimas?

In [35]:
media_diarias_min = np.round(dados2['Minimo_de_noites'].mean())
print('O número médio de diárias mínimas para locação é {}.'.format(media_diarias_min))

desvio_padrao = np.round(np.std(dados2['Minimo_de_noites']))
print('O desvio padrão das diárias mínimas para locação é {}.'.format(desvio_padrao))

O número médio de diárias mínimas para locação é 8.0.
O desvio padrão das diárias mínimas para locação é 24.0.


In [36]:
px.histogram(dados2.loc[dados2['Minimo_de_noites'] < 366, :], 'Minimo_de_noites', nbins = 300)

#### - Qual o maior valor do tempo (dias) em que o anúncio está disponível na plataforma?

In [37]:
disponibilidade_max = dados2['Disp_anual'].max()
print('O maior tempo (dias) em que o anúncio está disponível na plataforma é {} dias.'.format(disponibilidade_max))

O maior tempo (dias) em que o anúncio está disponível na plataforma é 365 dias.


#### - Qual o menor valor do tempo (dias) em que o anúncio está disponível na plataforma?

In [38]:
disponibilidade_min = dados2['Disp_anual'].min()
print('O menor tempo (dias) em que o anúncio está disponível na plataforma é {} dia.'.format(disponibilidade_min))

O menor tempo (dias) em que o anúncio está disponível na plataforma é 1 dia.


#### - Conseguimos observar visualmente onde estão localizados os imóveis locados pela Airbnb na cidade de Nova York?

In [39]:
airbnb = dados2[['ID', 'Latitude', 'Longitude', 'Preco', 'Tipo_do_local']].copy()

fig = px.scatter_mapbox(airbnb, 
                       lat = 'Latitude', 
                       lon = 'Longitude',
                       color = 'Tipo_do_local', 
                       color_continuous_scale = px.colors.cyclical.IceFire, 
                       size_max = 15, 
                       zoom = 10)

fig.update_layout(mapbox_style = 'carto-positron')
fig.update_layout(height = 600, margin = {'r':0, 'l':0, 'b':0, 't':0})
fig.show()

In [40]:
dados2.to_csv('Dados/airbnb-2019-final.csv', encoding='utf-8', index=False)

### FIM