# Projeto final

## Business question
O investidor James Bauer gostaria de diversificar seus negócios e começar a investir em imóveis. 
Ele definiu que compraria imóveis na cidade de Nova York, nos Estados Unidos. 
Por ser um dos locais mais caros para se viver no País, ele acredita que obterá um retorno satisfatório de seus investimentos caso loque imóveis na cidade. 

Como todas as suas decisões são tomadas com base em dados, ele contratou você, cientista de dados, para ajudá-lo nessa empreitada.
James Bauer planeja inicialmente locar os imóveis adquiridos e por isso ele definiu que irá utilizar a plataforma Airbnb para esse fim. Para isso, ele lhe entregou uma base de dados públicos da empresa, contendo os dados do comportamento dos hosts e de seus imóveis.

### O Desafio
James Bauer o contratou para realizar o estudo da base de dados fornecida e ajudá-lo com a escolha das regiões onde:
- há maior locação e maiores preços,
- fiquem em regiões favoráveis da cidade de Nova York, pois ele acredita que essas características irão ajudá-lo a recuperar o dinheiro investido na aquisição desses imóveis mais rapidamente. 

https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data

### Roteiro
1. Entenda o problema de negócio e suas perguntas:
  -  a. Por que o investidor fez essas perguntas?
  -  b. Se você fosse ele, por que essas informações seriam úteis para você?
  -  c. Anote as suas respostas e possíveis causas para as perguntas terem
sido feitas.
2. Colete os dados:
    - a. Os dados estão disponíveis no link neste post
3. Faça uma limpeza nos dados:
    - a. Entenda as variáveis disponíveis na base de dados fazendo uma
tabela de estatística descritiva.
    - b. Verifique se há dados faltantes e quais estratégias poderiam ser
utilizadas para preenchê-los.
4. Levante hipóteses sobre o comportamento do Negócio:
    - a. Por exemplo:
        - i. Imóveis que são alugados por inteiro possuem o valor do
aluguel mais caro?
        - ii. A região de “Manhattan” possui, na média, aluguéis mais caros
que as outras regiões?
    - b. Valide as suas hipóteses com testes estatísticos e gráficos.
5. Explore os dados e responda as perguntas:
    - a. Comece respondendo as perguntas sem usar programação, para planejar a sua solução. Ou seja, responda primeiro como você faria para responder a pergunta. Por exemplo: Calcularia a média dos valores dos aluguéis dos imóveis de uma determinada região de um determinado bairro.
    - b. Com o planejamento feito, implemente os passos/ações utilizando a linguagem de programação escolhida.
    - c. Se necessário, utilize gráficos para consolidar e validar a sua resposta.
    - d. Caso uma pergunta específica se mostre falsa, encontre a situação ou fato que a torne falsa. Por exemplo, os imóveis da região de “Manhattan” possuem os aluguéis mais baratos? Caso essa pergunta seja falsa, verifique qual a região que possui os aluguéis mais baratos.
6. Deixe suas respostas disponíveis:
    - a. Pense e planeje uma solução para deixar os seus Insights e as respostas disponíveis para o investidor possa acessá-las

## Dataset

### Imports

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import gridspec
from matplotlib import pyplot as plt
import ipywidgets as widgets
import plotly.express as px
from ipywidgets import interact, interactive, fixed, interact_manual
from datetime import datetime


### Auxiliary functions 

In [47]:
## # Supress Scientific Notation

np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

### Loading data

In [190]:
df=pd.read_csv('Datasets/AB_NYC_2019.csv')

## Dataset info

| Attributes     | Meaning                                                                                                                                                                                              |
|----------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| id             | Unico ID para cada transaçao                                                                                                                                                                        |
| name           | Nome da habitacao                                                                                                                                                                               |
| host_id        |                                                                                                                                              Unico Id para cada hospede                               |
| host_name       | Nome hospede                                                                                                                                                                                   |
| neighbourhood_group      | Grupo da vizinhança                                                                                                                  |
| neighbourhood     | Vizinhança                                                                                                                        |
| latitude    | Latitude                                                                                                                                               |
| longitude       | Longitude                                                                          |
| room_type       | Tipo de habitaçao                                                                          |
| price       | Preço aluguel                                                                          |
| minimum_nights       | Minimo de noites                                                                      | |number_of_reviews       | Numero de reviews                                                          
| last_review       | Ultima review     
| reviews_per_month       | Review por mes     
| calculated_host_listings_count       | Qtd de lista de hospedes     
| availability_365       | Anuncio Disponibilidade em dias   




In [191]:
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.65,-73.97,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75,-73.98,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.81,-73.94,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.69,-73.96,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.8,-73.94,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


In [192]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              48895 non-null  int64  
 1   name                            48879 non-null  object 
 2   host_id                         48895 non-null  int64  
 3   host_name                       48874 non-null  object 
 4   neighbourhood_group             48895 non-null  object 
 5   neighbourhood                   48895 non-null  object 
 6   latitude                        48895 non-null  float64
 7   longitude                       48895 non-null  float64
 8   room_type                       48895 non-null  object 
 9   price                           48895 non-null  int64  
 10  minimum_nights                  48895 non-null  int64  
 11  number_of_reviews               48895 non-null  int64  
 12  last_review                     

In [193]:
df['last_review'] =pd.to_datetime(df['last_review'], format='%Y-%m-%d') 

In [194]:
len(df['id'].unique())

48895

In [195]:
print( 'Number of houses available for purchase: {}'.format( df.shape[0] ) )
print( 'Features by house: {}'.format( df.shape[1] ) )

Number of houses available for purchase: 48895
Features by house: 16


In [196]:
df_desc=df1[['name',  'host_name', 'neighbourhood_group',
       'neighbourhood', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365']]
df_desc.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
price,38821.0,142.33,196.99,0.0,69.0,101.0,170.0,10000.0
minimum_nights,38821.0,5.87,17.39,1.0,1.0,2.0,4.0,1250.0
number_of_reviews,38821.0,29.29,48.18,1.0,3.0,9.0,33.0,629.0
reviews_per_month,38821.0,1.37,1.68,0.01,0.19,0.72,2.02,58.5
calculated_host_listings_count,38821.0,5.17,26.3,1.0,1.0,1.0,2.0,327.0
availability_365,38821.0,114.89,129.53,0.0,0.0,55.0,229.0,365.0


In [197]:
df_str=df.select_dtypes(exclude=['int64','float64'])
df_str.describe().transpose()

  df_str.describe().transpose()


Unnamed: 0,count,unique,top,freq,first,last
name,48879,47905,Hillside Hotel,18,NaT,NaT
host_name,48874,11452,Michael,417,NaT,NaT
neighbourhood_group,48895,5,Manhattan,21661,NaT,NaT
neighbourhood,48895,221,Williamsburg,3920,NaT,NaT
room_type,48895,3,Entire home/apt,25409,NaT,NaT
last_review,38843,1764,2019-06-23 00:00:00,1413,2011-03-28,2019-07-08


In [198]:
df_id=df[['id','host_id']] # depois de drop na 
df_id=df_id.astype(str)
df_id.describe().transpose()

Unnamed: 0,count,unique,top,freq
id,48895,48895,2539,1
host_id,48895,37457,219517861,327


## Clean Data

In [199]:
df.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,16
host_id,0
host_name,21
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


In [200]:
df1=df.copy()

In [201]:
df1=df1.dropna()

In [202]:
df1.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,0
host_id,0
host_name,0
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


# Respostas

## 1. Qual o `id` do imóvel com o aluguel (diária) mais caro da base de dados?

In [203]:
df[['id','name','price']].sort_values('price',axis=0, ascending=False).reset_index(drop=True)['id'][0]

7003697

In [204]:
df[['id','name','price']].sort_values('price',axis=0, ascending=False).head()

Unnamed: 0,id,name,price
9151,7003697,Furnished room in Astoria apartment,10000
17692,13894339,Luxury 1 bedroom apt. -stunning Manhattan views,10000
29238,22436899,1-BR Lincoln Center,10000
40433,31340283,2br - The Heart of NYC: Manhattans Lower East ...,9999
12342,9528920,"Quiet, Clean, Lit @ LES & Chinatown",9999


## 2. Qual o `id` do imóvel com o aluguel (diária) mais barato da base de dados?


In [205]:
df[['id','name','price']].sort_values('price',axis=0, ascending=True).reset_index(drop=True)['id'][0]

20639914

## 3. Qual o `id` do imóvel que foi mais locado da base de dados?


In [206]:
df[['id','name','price']].groupby(['name']).count()

Unnamed: 0_level_0,id,price
name,Unnamed: 1_level_1,Unnamed: 2_level_1
1 Bed Apt in Utopic Williamsburg,1,1
2-3 bedroom UWS garden triplex,1,1
3 bedroom loft in Williamsburg,1,1
A charming Space in Brooklyn,1,1
AMAZING TIME SQUARE!!BRICK WALLS!!,1,1
...,...,...
한성 韓城 Han B (2F),1,1
한성 韓城 Han C (2F),1,1
️CENTRALLY LOCATED️- Great for Families + Groups,1,1
ｳｨﾘｱﾑｽﾞﾊﾞｰｸﾞのかわいいお部屋です2,1,1


In [214]:
df['count_home']=1

In [219]:
df[['id','name','count_home']].groupby(['name']).sum('count_home').sort_values('count_home', ascending=False).reset_index(drop=True)['id'][0]

380022985

In [220]:
df[['id','name','count_home']].groupby(['name']).sum('count_home').sort_values('count_home', ascending=False).head()

Unnamed: 0_level_0,id,count_home
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Hillside Hotel,380022985,18
Home away from home,457706744,17
New york Multi-unit building,420810751,16
Brooklyn Apartment,264207521,12
Private Room,260163016,11


## 4. Qual o `id` do imóvel que ficou mais tempo com o anúncio disponível, em dias, para locação na base de dados?

In [223]:
df[['id','name','count_home','availability_365']].groupby(['name']).sum('count_home').sort_values('availability_365', ascending=False).head()

Unnamed: 0_level_0,id,count_home,availability_365
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Hillside Hotel,380022985,18,5957
Artsy Private BR in Fort Greene Cumberland,354614035,10,2977
New york Multi-unit building,420810751,16,2761
IN MINT CONDITION-STUDIOS EAST 44TH/UNITED NATIONS,124475222,6,2190
Home away from home,457706744,17,2097


In [222]:
df[['id','name','count_home','availability_365']].groupby(['name']).sum('count_home').sort_values('availability_365', ascending=False).reset_index(drop=True)['id'][0]

380022985

5. Qual o `id` do imóvel que ficou menos tempo com o anúncio disponível, em
dias, para locação na base de dados?
6. O imóvel com o maior valor de aluguel (diária) da base de dados é o imóvel
que possui mais avaliações na base de dados?
7. O imóvel que possui a menor quantidade mínima de diárias para locação é
também o imóvel que possui o aluguel mais caro?
8. Qual é a média de diárias mínimas para locação de um imóvel?
9. Qual é o `id` do imóvel com a quantidade mínima de diárias para locação da
base de dados?
10.Qual é o `id` do host que possui o imóvel mais alugado na base de dados?
11. Qual é o `id` do host que possui o imóvel menos alugado na base de dados?
12.Qual é o `id` do host que possui o imóvel com mais avaliações na base de
dados?
13.Qual é o `id` do host que possui a maior quantidade de imóveis cadastrados
na base de dados?
14.Qual o `id` do host que possui o imóvel com a última avaliação feita na base
de dados?
15.Qual o `id` do host que possui mais imóveis ativos dentro da base de dados?
16.O host que possui mais imóveis é o host que também possui mais
avaliações?
17.Qual é a categoria que mais possui imóveis dentro da base de dados?
18.Qual é a categoria que menos possui imóveis dentro da base de dados?
19.A região de Manhattan é a região que mais possui imóveis ativos para
locação, da categoria `Private room`?
20.Qual a categoria de imóvel que possui a maior média de tempo de
disponibilidade para serem locados da região do `Bronx`? Considere somente
imóveis ativos
21.Qual a categoria de imóvel ativo que possui o maior valor de aluguel (diária)
na região de `Manhattan`?
22.A categoria de imóvel `Private Room` é a categoria que fica mais tempo
disponível para locação?
23.Qual a categoria de imóvel que fica mais tempo disponível, na média, para
locação?
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.1

24.A categoria de imóvel que fica menos tempo disponível, na média, para
locação é a categoria que possui, em média, o menor aluguel (diária)?
25.A categoria de imóvel `Entire home/apt` é a categoria que possui, na média, o
maior valor de aluguel?
26.A categoria de imóvel `Entire home/apt` é a categoria que possui, na média,
menos locações?
27.A categoria de imóvel `Private Room` na região de `Manhattan`, na média, é
a categoria que possui o menor valor (diária) de locação, comparado as
outras categorias na mesma região?
28.Qual a região que possui a maior quantidade de imóveis?
29.Qual a região que possui a menor quantidade de imóveis?
30.A região que possui a maior quantidade de imóveis é também a região que
possui os imóveis mais locados?
31.Qual a região que possui a menor quantidade de imóveis locados dentro da
base de dados?
32.A região de `Manhattan` é a região que possui, na média, os maiores
aluguéis (diárias) dentro da base de dados?
33.A região de `Queens` é a região que possui, na média, os menores aluguéis
(diárias) dentro da base de dados?
34.Qual a região que possui, na média, os imóveis com os menores aluguéis
dentro da base de dados?
35.Qual a região que possui os imóveis que ficam, na média, menos tempo
disponíveis para aluguel? Ou seja, são alugados mais rápidos na média?
36.Qual o bairro possui a maior quantidade de imóveis ativos para locação?
37.Qual o bairro possui a menor quantidade de imóveis ativos para locação?
38.Qual o bairro, e de qual região é esse bairro, que possui o imovel com o
maior valor de aluguel?
39.Qual o bairro, e de qual região é esse bairro, que possui o imovel com o
menor valor de aluguel?
40.Qual região que possui o bairro com mais imóveis ativos disponíveis para
locação?
41.Qual região que possui o bairro com menos imóveis ativos disponíveis para
locação?
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.11
42.O Bairro `Upper West Side`, na região de `Manhattan`, é o bairro que possui,
na média, o maior aluguel dentro da base de dados?
43.Qual é o bairro que possui, na média, o aluguel mais caro da base de dados?
44.Qual o melhor bairro para se adquirir um imóvel, visando o maior valor de
aluguel, quantidade de revisões feitas ao longo do tempo e quantidade de
revisões mensais? Utilize a seguinte fórmula para verificar qual o melhor
imóvel:
𝑟𝑒𝑛𝑡𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 =
𝑝𝑟𝑖𝑐𝑒 * (𝑚𝑖𝑛𝑖𝑚𝑢𝑚_𝑛𝑖𝑔ℎ𝑡𝑠 + 1) * 𝑛𝑢𝑚𝑏𝑒𝑟_𝑜𝑓_𝑟𝑒𝑣𝑖𝑒𝑤𝑠
𝑎𝑣𝑎𝑖𝑙𝑎𝑏𝑖𝑙𝑖𝑡𝑦_365
45.Qual a região em que fica o melhor bairro para se adquirir um imóvel, visando
a melhor rentabilidade média? Utilize como métrica o índice criado na
questão anterior.
46.Qual a região em que fica o pior bairro para se adquirir um imóvel, visando a
melhor rentabilidade média? Utilize como métrica o índice criado na questão
44.
47.Levando em conta o bairro encontrado na questão anterior, verifique qual é o
`id` do imóvel ativo que possui a pior rentabilidade desse bairro
48.Levando em conta o bairro encontrado na questão 45, verifique qual o id do
imóvel ativo que possui a melhor rentabilidade desse bairro
49.Caso eu, investidor, compre o imóvel da questão anterior com um
investimento de U$ 1.000.000,00, quantas vezes eu teria que locá-lo para ter
o retorno do investimento feito? Utilize a fórmula abaixo para calcular o tempo
de retorno do investimento
𝑟𝑒𝑡𝑢𝑟𝑛_𝑖𝑛𝑣𝑒𝑠𝑡𝑚𝑒𝑛𝑡 =
𝑖𝑛𝑣𝑒𝑠𝑡𝑚𝑒𝑛𝑡
𝑝𝑟𝑖𝑐𝑒 * (𝑚𝑖𝑛𝑖𝑚𝑢𝑚_𝑛𝑖𝑔ℎ𝑡𝑠 + 1)
50.Se eu desejasse comprar um imóvel que esteja ativo em um dos bairros
abaixo, qual seria o `id` do imóvel com a melhor rentabilidade dentre esses
bairros? Utilize o índice calculado na questão 44.
● East Harlem
● Harlem
● Midtown
● Morningside Heights
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.11
● Upper West Side
● Upper East Side
Para responder às perguntas, que contenham mais de um imóvel como resposta,
selecione sempre o imóvel que for mais antigo no Dataset. Ou seja, o imóvel que
possui a coluna “id” menor.11