# Imports

In [21]:
import pandas as pd
import numpy as np

pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Carregar os dados do csv

In [22]:
df_raw = pd.read_csv('data/AB_NYC_2019.csv')
df_raw.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.647,-73.972,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.754,-73.984,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.809,-73.942,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.685,-73.96,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.799,-73.944,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


In [3]:
df_raw.isna().sum()

id                                    0
name                                 16
host_id                               0
host_name                            21
neighbourhood_group                   0
neighbourhood                         0
latitude                              0
longitude                             0
room_type                             0
price                                 0
minimum_nights                        0
number_of_reviews                     0
last_review                       10052
reviews_per_month                 10052
calculated_host_listings_count        0
availability_365                      0
dtype: int64

In [4]:
df_raw.dtypes

id                                  int64
name                               object
host_id                             int64
host_name                          object
neighbourhood_group                object
neighbourhood                      object
latitude                          float64
longitude                         float64
room_type                          object
price                               int64
minimum_nights                      int64
number_of_reviews                   int64
last_review                        object
reviews_per_month                 float64
calculated_host_listings_count      int64
availability_365                    int64
dtype: object

# Problema de Negócio - Respondendo.

In [5]:
df = df_raw.copy()

## 1. Qual o `id` do imóvel com o aluguel (diária) mais caro da base de dados?

In [6]:
df[['id','price']].sort_values('price', ascending=False).reset_index(drop=True).loc[0,'id']

7003697

## 2. Qual o `id` do imóvel com o aluguel (diária) mais barato da base de dados?

In [7]:
df[['id','price']].sort_values('price', ascending=True).reset_index(drop=True).loc[0,'id']

20639914

## 3. Qual o `id` do imóvel que foi mais locado da base de dados?

In [8]:
df[['id','number_of_reviews']].sort_values('number_of_reviews', ascending=False).reset_index(drop=True).loc[0,'id']

9145202

## 4. Qual o `id` do imóvel que ficou mais tempo com o anúncio disponível, em dias, para locação na base de dados?

In [9]:
df[['id','calculated_host_listings_count']].sort_values('calculated_host_listings_count', ascending=False).reset_index(drop=True).loc[0,'id']

30937596

## 5. Qual o `id` do imóvel que ficou menos tempo com o anúncio disponível, em dias, para locação na base de dados?

In [10]:
df[['id','calculated_host_listings_count']].sort_values('calculated_host_listings_count', ascending=True).reset_index(drop=True).loc[0,'id']

19677284

## 6. O imóvel com o maior valor de aluguel (diária) da base de dados é o imóvel que possui mais avaliações na base de dados?

In [11]:
df_price_max = df[['id','price']].sort_values('price',ascending=False).reset_index(drop=True).loc[0,'id']
df_aval_max = df[['id','availability_365']].sort_values('availability_365',ascending=False).reset_index(drop=True).loc[0,'id']

print(f'O Imóvel com maior diária é ', df_price_max )
print(f'O Imóvel com melhor avaliação é ', df_aval_max )

O Imóvel com maior diária é  7003697
O Imóvel com melhor avaliação é  2539


## 7. O imóvel que possui a menor quantidade mínima de diárias para locação é também o imóvel que possui o aluguel mais caro?

In [12]:
df_min_night = df[['id','minimum_nights']].sort_values('minimum_nights',ascending=True).reset_index(drop=True).loc[0,'id']
df_price_max = df[['id','price']].sort_values('price',ascending=False).reset_index(drop=True).loc[0,'id']

print(f'O Imóvel com menor quantidade de diária é ', df_min_night )
print(f'O Imóvel com maior diária é ', df_price_max )

O Imóvel com menor quantidade de diária é  2539
O Imóvel com maior diária é  7003697


## 8. Qual é a média de diárias mínimas para locação de um imóvel?

In [13]:
np.round(df['price'].mean(),2)

152.72

## 9. Qual é o `id` do imóvel com a quantidade mínima de diárias para locação da base de dados?

In [14]:
df[['id','minimum_nights']].sort_values('minimum_nights',ascending=True).reset_index(drop=True).loc[0,'id']


2539

## 10.Qual é o `id` do host que possui o imóvel mais alugado na base de dados?

In [15]:
df[['host_id','number_of_reviews']].sort_values('number_of_reviews', ascending=False).reset_index(drop=True).loc[0,'host_id']

47621202

## 11. Qual é o `id` do host que possui o imóvel menos alugado na base de dado

In [16]:
df[['host_id','number_of_reviews']].sort_values('number_of_reviews', ascending=True).reset_index(drop=True).loc[0,'host_id']

68119814

## 12.Qual é o `id` do host que possui o imóvel com mais avaliações na base de dados?

In [17]:
df[['host_id','availability_365']].sort_values('availability_365',ascending=False).reset_index(drop=True).loc[0,'host_id']


2787

## 13.Qual é o `id` do host que possui a maior quantidade de imóveis cadastrados na base de dados?

In [45]:
df[['id','host_id']].groupby('host_id').count().sort_values('id', ascending=False )

Unnamed: 0_level_0,id
host_id,Unnamed: 1_level_1
219517861,327
107434423,232
30283594,121
137358866,103
16098958,96
...,...
13540183,1
13538150,1
13535952,1
13533446,1


In [19]:
df.columns

Index(['id', 'name', 'host_id', 'host_name', 'neighbourhood_group',
       'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365'],
      dtype='object')