# Projeto final

## Business question
O investidor James Bauer gostaria de diversificar seus neg√≥cios e come√ßar a investir em im√≥veis. 
Ele definiu que compraria im√≥veis na cidade de Nova York, nos Estados Unidos. 
Por ser um dos locais mais caros para se viver no Pa√≠s, ele acredita que obter√° um retorno satisfat√≥rio de seus investimentos caso loque im√≥veis na cidade. 

Como todas as suas decis√µes s√£o tomadas com base em dados, ele contratou voc√™, cientista de dados, para ajud√°-lo nessa empreitada.
James Bauer planeja inicialmente locar os im√≥veis adquiridos e por isso ele definiu que ir√° utilizar a plataforma Airbnb para esse fim. Para isso, ele lhe entregou uma base de dados p√∫blicos da empresa, contendo os dados do comportamento dos hosts e de seus im√≥veis.

### O Desafio
James Bauer o contratou para realizar o estudo da base de dados fornecida e ajud√°-lo com a escolha das regi√µes onde:
- h√° maior loca√ß√£o e maiores pre√ßos,
- fiquem em regi√µes favor√°veis da cidade de Nova York, pois ele acredita que essas caracter√≠sticas ir√£o ajud√°-lo a recuperar o dinheiro investido na aquisi√ß√£o desses im√≥veis mais rapidamente. 

https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data

### Roteiro
1. Entenda o problema de neg√≥cio e suas perguntas:
  -  a. Por que o investidor fez essas perguntas?
  -  b. Se voc√™ fosse ele, por que essas informa√ß√µes seriam √∫teis para voc√™?
  -  c. Anote as suas respostas e poss√≠veis causas para as perguntas terem
sido feitas.
2. Colete os dados:
    - a. Os dados est√£o dispon√≠veis no link neste post
3. Fa√ßa uma limpeza nos dados:
    - a. Entenda as vari√°veis dispon√≠veis na base de dados fazendo uma
tabela de estat√≠stica descritiva.
    - b. Verifique se h√° dados faltantes e quais estrat√©gias poderiam ser
utilizadas para preench√™-los.
4. Levante hip√≥teses sobre o comportamento do Neg√≥cio:
    - a. Por exemplo:
        - i. Im√≥veis que s√£o alugados por inteiro possuem o valor do
aluguel mais caro?
        - ii. A regi√£o de ‚ÄúManhattan‚Äù possui, na m√©dia, alugu√©is mais caros
que as outras regi√µes?
    - b. Valide as suas hip√≥teses com testes estat√≠sticos e gr√°ficos.
5. Explore os dados e responda as perguntas:
    - a. Comece respondendo as perguntas sem usar programa√ß√£o, para planejar a sua solu√ß√£o. Ou seja, responda primeiro como voc√™ faria para responder a pergunta. Por exemplo: Calcularia a m√©dia dos valores dos alugu√©is dos im√≥veis de uma determinada regi√£o de um determinado bairro.
    - b. Com o planejamento feito, implemente os passos/a√ß√µes utilizando a linguagem de programa√ß√£o escolhida.
    - c. Se necess√°rio, utilize gr√°ficos para consolidar e validar a sua resposta.
    - d. Caso uma pergunta espec√≠fica se mostre falsa, encontre a situa√ß√£o ou fato que a torne falsa. Por exemplo, os im√≥veis da regi√£o de ‚ÄúManhattan‚Äù possuem os alugu√©is mais baratos? Caso essa pergunta seja falsa, verifique qual a regi√£o que possui os alugu√©is mais baratos.
6. Deixe suas respostas dispon√≠veis:
    - a. Pense e planeje uma solu√ß√£o para deixar os seus Insights e as respostas dispon√≠veis para o investidor possa acess√°-las

## Dataset

### Imports

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import gridspec
from matplotlib import pyplot as plt
import ipywidgets as widgets
import plotly.express as px
from ipywidgets import interact, interactive, fixed, interact_manual
from datetime import datetime


### Auxiliary functions 

In [47]:
## # Supress Scientific Notation

np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

### Loading data

In [190]:
df=pd.read_csv('Datasets/AB_NYC_2019.csv')

## Dataset info

| Attributes     | Meaning                                                                                                                                                                                              |
|----------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| id             | Unico ID para cada transa√ßao                                                                                                                                                                        |
| name           | Nome da habitacao                                                                                                                                                                               |
| host_id        |                                                                                                                                              Unico Id para cada hospede                               |
| host_name       | Nome hospede                                                                                                                                                                                   |
| neighbourhood_group      | Grupo da vizinhan√ßa                                                                                                                  |
| neighbourhood     | Vizinhan√ßa                                                                                                                        |
| latitude    | Latitude                                                                                                                                               |
| longitude       | Longitude                                                                          |
| room_type       | Tipo de habita√ßao                                                                          |
| price       | Pre√ßo aluguel                                                                          |
| minimum_nights       | Minimo de noites                                                                      | |number_of_reviews       | Numero de reviews                                                          
| last_review       | Ultima review     
| reviews_per_month       | Review por mes     
| calculated_host_listings_count       | Qtd de lista de hospedes     
| availability_365       | Anuncio Disponibilidade em dias   




In [191]:
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.65,-73.97,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75,-73.98,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.81,-73.94,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.69,-73.96,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.8,-73.94,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


In [192]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              48895 non-null  int64  
 1   name                            48879 non-null  object 
 2   host_id                         48895 non-null  int64  
 3   host_name                       48874 non-null  object 
 4   neighbourhood_group             48895 non-null  object 
 5   neighbourhood                   48895 non-null  object 
 6   latitude                        48895 non-null  float64
 7   longitude                       48895 non-null  float64
 8   room_type                       48895 non-null  object 
 9   price                           48895 non-null  int64  
 10  minimum_nights                  48895 non-null  int64  
 11  number_of_reviews               48895 non-null  int64  
 12  last_review                     

In [193]:
df['last_review'] =pd.to_datetime(df['last_review'], format='%Y-%m-%d') 

In [194]:
len(df['id'].unique())

48895

In [195]:
print( 'Number of houses available for purchase: {}'.format( df.shape[0] ) )
print( 'Features by house: {}'.format( df.shape[1] ) )

Number of houses available for purchase: 48895
Features by house: 16


In [196]:
df_desc=df1[['name',  'host_name', 'neighbourhood_group',
       'neighbourhood', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365']]
df_desc.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
price,38821.0,142.33,196.99,0.0,69.0,101.0,170.0,10000.0
minimum_nights,38821.0,5.87,17.39,1.0,1.0,2.0,4.0,1250.0
number_of_reviews,38821.0,29.29,48.18,1.0,3.0,9.0,33.0,629.0
reviews_per_month,38821.0,1.37,1.68,0.01,0.19,0.72,2.02,58.5
calculated_host_listings_count,38821.0,5.17,26.3,1.0,1.0,1.0,2.0,327.0
availability_365,38821.0,114.89,129.53,0.0,0.0,55.0,229.0,365.0


In [197]:
df_str=df.select_dtypes(exclude=['int64','float64'])
df_str.describe().transpose()

  df_str.describe().transpose()


Unnamed: 0,count,unique,top,freq,first,last
name,48879,47905,Hillside Hotel,18,NaT,NaT
host_name,48874,11452,Michael,417,NaT,NaT
neighbourhood_group,48895,5,Manhattan,21661,NaT,NaT
neighbourhood,48895,221,Williamsburg,3920,NaT,NaT
room_type,48895,3,Entire home/apt,25409,NaT,NaT
last_review,38843,1764,2019-06-23 00:00:00,1413,2011-03-28,2019-07-08


In [198]:
df_id=df[['id','host_id']] # depois de drop na 
df_id=df_id.astype(str)
df_id.describe().transpose()

Unnamed: 0,count,unique,top,freq
id,48895,48895,2539,1
host_id,48895,37457,219517861,327


## Clean Data

In [199]:
df.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,16
host_id,0
host_name,21
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


In [200]:
df1=df.copy()

In [201]:
df1=df1.dropna()

In [202]:
df1.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,0
host_id,0
host_name,0
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


# Respostas

## 1. Qual o `id` do im√≥vel com o aluguel (di√°ria) mais caro da base de dados?

In [203]:
df[['id','name','price']].sort_values('price',axis=0, ascending=False).reset_index(drop=True)['id'][0]

7003697

In [204]:
df[['id','name','price']].sort_values('price',axis=0, ascending=False).head()

Unnamed: 0,id,name,price
9151,7003697,Furnished room in Astoria apartment,10000
17692,13894339,Luxury 1 bedroom apt. -stunning Manhattan views,10000
29238,22436899,1-BR Lincoln Center,10000
40433,31340283,2br - The Heart of NYC: Manhattans Lower East ...,9999
12342,9528920,"Quiet, Clean, Lit @ LES & Chinatown",9999


## 2. Qual o `id` do im√≥vel com o aluguel (di√°ria) mais barato da base de dados?


In [205]:
df[['id','name','price']].sort_values('price',axis=0, ascending=True).reset_index(drop=True)['id'][0]

20639914

## 3. Qual o `id` do im√≥vel que foi mais locado da base de dados?


In [206]:
df[['id','name','price']].groupby(['name']).count()

Unnamed: 0_level_0,id,price
name,Unnamed: 1_level_1,Unnamed: 2_level_1
1 Bed Apt in Utopic Williamsburg,1,1
2-3 bedroom UWS garden triplex,1,1
3 bedroom loft in Williamsburg,1,1
A charming Space in Brooklyn,1,1
AMAZING TIME SQUARE!!BRICK WALLS!!,1,1
...,...,...
ÌïúÏÑ± ÈüìÂüé Han B (2F),1,1
ÌïúÏÑ± ÈüìÂüé Han C (2F),1,1
Ô∏èCENTRALLY LOCATEDÔ∏è- Great for Families + Groups,1,1
ÔΩ≥ÔΩ®ÔæòÔΩ±ÔæëÔΩΩÔæûÔæäÔæûÔΩ∞ÔΩ∏Ôæû„ÅÆ„Åã„Çè„ÅÑ„ÅÑ„ÅäÈÉ®Â±ã„Åß„Åô2,1,1


In [214]:
df['count_home']=1

In [219]:
df[['id','name','count_home']].groupby(['name']).sum('count_home').sort_values('count_home', ascending=False).reset_index(drop=True)['id'][0]

380022985

In [220]:
df[['id','name','count_home']].groupby(['name']).sum('count_home').sort_values('count_home', ascending=False).head()

Unnamed: 0_level_0,id,count_home
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Hillside Hotel,380022985,18
Home away from home,457706744,17
New york Multi-unit building,420810751,16
Brooklyn Apartment,264207521,12
Private Room,260163016,11


## 4. Qual o `id` do im√≥vel que ficou mais tempo com o an√∫ncio dispon√≠vel, em dias, para loca√ß√£o na base de dados?

In [223]:
df[['id','name','count_home','availability_365']].groupby(['name']).sum('count_home').sort_values('availability_365', ascending=False).head()

Unnamed: 0_level_0,id,count_home,availability_365
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Hillside Hotel,380022985,18,5957
Artsy Private BR in Fort Greene Cumberland,354614035,10,2977
New york Multi-unit building,420810751,16,2761
IN MINT CONDITION-STUDIOS EAST 44TH/UNITED NATIONS,124475222,6,2190
Home away from home,457706744,17,2097


In [222]:
df[['id','name','count_home','availability_365']].groupby(['name']).sum('count_home').sort_values('availability_365', ascending=False).reset_index(drop=True)['id'][0]

380022985

5. Qual o `id` do im√≥vel que ficou menos tempo com o an√∫ncio dispon√≠vel, em
dias, para loca√ß√£o na base de dados?
6. O im√≥vel com o maior valor de aluguel (di√°ria) da base de dados √© o im√≥vel
que possui mais avalia√ß√µes na base de dados?
7. O im√≥vel que possui a menor quantidade m√≠nima de di√°rias para loca√ß√£o √©
tamb√©m o im√≥vel que possui o aluguel mais caro?
8. Qual √© a m√©dia de di√°rias m√≠nimas para loca√ß√£o de um im√≥vel?
9. Qual √© o `id` do im√≥vel com a quantidade m√≠nima de di√°rias para loca√ß√£o da
base de dados?
10.Qual √© o `id` do host que possui o im√≥vel mais alugado na base de dados?
11. Qual √© o `id` do host que possui o im√≥vel menos alugado na base de dados?
12.Qual √© o `id` do host que possui o im√≥vel com mais avalia√ß√µes na base de
dados?
13.Qual √© o `id` do host que possui a maior quantidade de im√≥veis cadastrados
na base de dados?
14.Qual o `id` do host que possui o im√≥vel com a √∫ltima avalia√ß√£o feita na base
de dados?
15.Qual o `id` do host que possui mais im√≥veis ativos dentro da base de dados?
16.O host que possui mais im√≥veis √© o host que tamb√©m possui mais
avalia√ß√µes?
17.Qual √© a categoria que mais possui im√≥veis dentro da base de dados?
18.Qual √© a categoria que menos possui im√≥veis dentro da base de dados?
19.A regi√£o de Manhattan √© a regi√£o que mais possui im√≥veis ativos para
loca√ß√£o, da categoria `Private room`?
20.Qual a categoria de im√≥vel que possui a maior m√©dia de tempo de
disponibilidade para serem locados da regi√£o do `Bronx`? Considere somente
im√≥veis ativos
21.Qual a categoria de im√≥vel ativo que possui o maior valor de aluguel (di√°ria)
na regi√£o de `Manhattan`?
22.A categoria de im√≥vel `Private Room` √© a categoria que fica mais tempo
dispon√≠vel para loca√ß√£o?
23.Qual a categoria de im√≥vel que fica mais tempo dispon√≠vel, na m√©dia, para
loca√ß√£o?
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.1

24.A categoria de im√≥vel que fica menos tempo dispon√≠vel, na m√©dia, para
loca√ß√£o √© a categoria que possui, em m√©dia, o menor aluguel (di√°ria)?
25.A categoria de im√≥vel `Entire home/apt` √© a categoria que possui, na m√©dia, o
maior valor de aluguel?
26.A categoria de im√≥vel `Entire home/apt` √© a categoria que possui, na m√©dia,
menos loca√ß√µes?
27.A categoria de im√≥vel `Private Room` na regi√£o de `Manhattan`, na m√©dia, √©
a categoria que possui o menor valor (di√°ria) de loca√ß√£o, comparado as
outras categorias na mesma regi√£o?
28.Qual a regi√£o que possui a maior quantidade de im√≥veis?
29.Qual a regi√£o que possui a menor quantidade de im√≥veis?
30.A regi√£o que possui a maior quantidade de im√≥veis √© tamb√©m a regi√£o que
possui os im√≥veis mais locados?
31.Qual a regi√£o que possui a menor quantidade de im√≥veis locados dentro da
base de dados?
32.A regi√£o de `Manhattan` √© a regi√£o que possui, na m√©dia, os maiores
alugu√©is (di√°rias) dentro da base de dados?
33.A regi√£o de `Queens` √© a regi√£o que possui, na m√©dia, os menores alugu√©is
(di√°rias) dentro da base de dados?
34.Qual a regi√£o que possui, na m√©dia, os im√≥veis com os menores alugu√©is
dentro da base de dados?
35.Qual a regi√£o que possui os im√≥veis que ficam, na m√©dia, menos tempo
dispon√≠veis para aluguel? Ou seja, s√£o alugados mais r√°pidos na m√©dia?
36.Qual o bairro possui a maior quantidade de im√≥veis ativos para loca√ß√£o?
37.Qual o bairro possui a menor quantidade de im√≥veis ativos para loca√ß√£o?
38.Qual o bairro, e de qual regi√£o √© esse bairro, que possui o imovel com o
maior valor de aluguel?
39.Qual o bairro, e de qual regi√£o √© esse bairro, que possui o imovel com o
menor valor de aluguel?
40.Qual regi√£o que possui o bairro com mais im√≥veis ativos dispon√≠veis para
loca√ß√£o?
41.Qual regi√£o que possui o bairro com menos im√≥veis ativos dispon√≠veis para
loca√ß√£o?
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.11
42.O Bairro `Upper West Side`, na regi√£o de `Manhattan`, √© o bairro que possui,
na m√©dia, o maior aluguel dentro da base de dados?
43.Qual √© o bairro que possui, na m√©dia, o aluguel mais caro da base de dados?
44.Qual o melhor bairro para se adquirir um im√≥vel, visando o maior valor de
aluguel, quantidade de revis√µes feitas ao longo do tempo e quantidade de
revis√µes mensais? Utilize a seguinte f√≥rmula para verificar qual o melhor
im√≥vel:
ùëüùëíùëõùë°ùëéùëèùëñùëôùëñùëëùëéùëëùëí =
ùëùùëüùëñùëêùëí * (ùëöùëñùëõùëñùëöùë¢ùëö_ùëõùëñùëî‚Ñéùë°ùë† + 1) * ùëõùë¢ùëöùëèùëíùëü_ùëúùëì_ùëüùëíùë£ùëñùëíùë§ùë†
ùëéùë£ùëéùëñùëôùëéùëèùëñùëôùëñùë°ùë¶_365
45.Qual a regi√£o em que fica o melhor bairro para se adquirir um im√≥vel, visando
a melhor rentabilidade m√©dia? Utilize como m√©trica o √≠ndice criado na
quest√£o anterior.
46.Qual a regi√£o em que fica o pior bairro para se adquirir um im√≥vel, visando a
melhor rentabilidade m√©dia? Utilize como m√©trica o √≠ndice criado na quest√£o
44.
47.Levando em conta o bairro encontrado na quest√£o anterior, verifique qual √© o
`id` do im√≥vel ativo que possui a pior rentabilidade desse bairro
48.Levando em conta o bairro encontrado na quest√£o 45, verifique qual o id do
im√≥vel ativo que possui a melhor rentabilidade desse bairro
49.Caso eu, investidor, compre o im√≥vel da quest√£o anterior com um
investimento de U$ 1.000.000,00, quantas vezes eu teria que loc√°-lo para ter
o retorno do investimento feito? Utilize a f√≥rmula abaixo para calcular o tempo
de retorno do investimento
ùëüùëíùë°ùë¢ùëüùëõ_ùëñùëõùë£ùëíùë†ùë°ùëöùëíùëõùë° =
ùëñùëõùë£ùëíùë†ùë°ùëöùëíùëõùë°
ùëùùëüùëñùëêùëí * (ùëöùëñùëõùëñùëöùë¢ùëö_ùëõùëñùëî‚Ñéùë°ùë† + 1)
50.Se eu desejasse comprar um im√≥vel que esteja ativo em um dos bairros
abaixo, qual seria o `id` do im√≥vel com a melhor rentabilidade dentre esses
bairros? Utilize o √≠ndice calculado na quest√£o 44.
‚óè East Harlem
‚óè Harlem
‚óè Midtown
‚óè Morningside Heights
Alessandra De Assis Barbosa - a.deabarbosa@gmail.com - IP: 101.56.1.11
‚óè Upper West Side
‚óè Upper East Side
Para responder √†s perguntas, que contenham mais de um im√≥vel como resposta,
selecione sempre o im√≥vel que for mais antigo no Dataset. Ou seja, o im√≥vel que
possui a coluna ‚Äúid‚Äù menor.11