# Projeto final

## Business question
O investidor James Bauer gostaria de diversificar seus negócios e começar a investir em imóveis. 
Ele definiu que compraria imóveis na cidade de Nova York, nos Estados Unidos. 
Por ser um dos locais mais caros para se viver no País, ele acredita que obterá um retorno satisfatório de seus investimentos caso loque imóveis na cidade. 

Como todas as suas decisões são tomadas com base em dados, ele contratou você, cientista de dados, para ajudá-lo nessa empreitada.
James Bauer planeja inicialmente locar os imóveis adquiridos e por isso ele definiu que irá utilizar a plataforma Airbnb para esse fim. Para isso, ele lhe entregou uma base de dados públicos da empresa, contendo os dados do comportamento dos hosts e de seus imóveis.

### O Desafio
James Bauer o contratou para realizar o estudo da base de dados fornecida e ajudá-lo com a escolha das regiões onde:
- há maior locação e maiores preços,
- fiquem em regiões favoráveis da cidade de Nova York, pois ele acredita que essas características irão ajudá-lo a recuperar o dinheiro investido na aquisição desses imóveis mais rapidamente. 

https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data

### Roteiro
1. Entenda o problema de negócio e suas perguntas:
  -  a. Por que o investidor fez essas perguntas?
  -  b. Se você fosse ele, por que essas informações seriam úteis para você?
  -  c. Anote as suas respostas e possíveis causas para as perguntas terem
sido feitas.
2. Colete os dados:
    - a. Os dados estão disponíveis no link neste post
3. Faça uma limpeza nos dados:
    - a. Entenda as variáveis disponíveis na base de dados fazendo uma
tabela de estatística descritiva.
    - b. Verifique se há dados faltantes e quais estratégias poderiam ser
utilizadas para preenchê-los.
4. Levante hipóteses sobre o comportamento do Negócio:
    - a. Por exemplo:
        - i. Imóveis que são alugados por inteiro possuem o valor do
aluguel mais caro?
        - ii. A região de “Manhattan” possui, na média, aluguéis mais caros
que as outras regiões?
    - b. Valide as suas hipóteses com testes estatísticos e gráficos.
5. Explore os dados e responda as perguntas:
    - a. Comece respondendo as perguntas sem usar programação, para planejar a sua solução. Ou seja, responda primeiro como você faria para responder a pergunta. Por exemplo: Calcularia a média dos valores dos aluguéis dos imóveis de uma determinada região de um determinado bairro.
    - b. Com o planejamento feito, implemente os passos/ações utilizando a linguagem de programação escolhida.
    - c. Se necessário, utilize gráficos para consolidar e validar a sua resposta.
    - d. Caso uma pergunta específica se mostre falsa, encontre a situação ou fato que a torne falsa. Por exemplo, os imóveis da região de “Manhattan” possuem os aluguéis mais baratos? Caso essa pergunta seja falsa, verifique qual a região que possui os aluguéis mais baratos.
6. Deixe suas respostas disponíveis:
    - a. Pense e planeje uma solução para deixar os seus Insights e as respostas disponíveis para o investidor possa acessá-las

## Dataset

### Imports

In [297]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import gridspec
from matplotlib import pyplot as plt
import ipywidgets as widgets
import plotly.express as px
from ipywidgets import interact, interactive, fixed, interact_manual
from datetime import datetime


### Auxiliary functions 

In [245]:
## # Supress Scientific Notation

np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

### Loading data

In [265]:
df=pd.read_csv('Datasets/AB_NYC_2019.csv')

## Dataset info

In [266]:
df.columns

Index(['id', 'name', 'host_id', 'host_name', 'neighbourhood_group',
       'neighbourhood', 'latitude', 'longitude', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365'],
      dtype='object')

| Attributes     | Meaning                                                                                                                                                                                              |
|----------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| id             | Unico ID para cada transaçao                                                                                                                                                                        |
| name           | Nome da habitacao                                                                                                                                                                               |
| host_id        |                                                                                                                                              Unico Id para cada hospede                               |
| host_name       | Nome hospede                                                                                                                                                                                   |
| neighbourhood_group      | Grupo da vizinhança                                                                                                                  |
| neighbourhood     | Vizinhança                                                                                                                        |
| latitude    | Latitude                                                                                                                                               |
| longitude       | Longitude                                                                          |
| room_type       | Tipo de habitaçao                                                                          |
| price       | Preço aluguel                                                                          |
| minimum_nights       | Minimo de noites                                                                      | |number_of_reviews       | Numero de reviews                                                          
| last_review       | Ultima review     
| reviews_per_month       | Review por mes     
| calculated_host_listings_count       | Qtd de lista de hospedes     
| availability_365       | Disponibilidade por mes    




In [267]:
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.65,-73.97,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75,-73.98,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.81,-73.94,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.69,-73.96,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.8,-73.94,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


In [305]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   id                              48895 non-null  int64         
 1   name                            48879 non-null  object        
 2   host_id                         48895 non-null  int64         
 3   host_name                       48874 non-null  object        
 4   neighbourhood_group             48895 non-null  object        
 5   neighbourhood                   48895 non-null  object        
 6   latitude                        48895 non-null  float64       
 7   longitude                       48895 non-null  float64       
 8   room_type                       48895 non-null  object        
 9   price                           48895 non-null  int64         
 10  minimum_nights                  48895 non-null  int64         
 11  nu

In [306]:
df['last_review'] =pd.to_datetime(df['last_review'], format='%Y-%m-%d') 

In [307]:
print( 'Number of houses available for purchase: {}'.format( df.shape[0] ) )
print( 'Features by house: {}'.format( df.shape[1] ) )

Number of houses available for purchase: 48895
Features by house: 16


## Clean Data

In [270]:
df.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,16
host_id,0
host_name,21
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


In [271]:
df1=df.copy()

In [272]:
df1=df1.dropna()

In [273]:
df1.isnull().sum().to_frame()


Unnamed: 0,0
id,0
name,0
host_id,0
host_name,0
neighbourhood_group,0
neighbourhood,0
latitude,0
longitude,0
room_type,0
price,0


In [276]:
df_desc=df1[['name',  'host_name', 'neighbourhood_group',
       'neighbourhood', 'room_type', 'price',
       'minimum_nights', 'number_of_reviews', 'last_review',
       'reviews_per_month', 'calculated_host_listings_count',
       'availability_365']]

In [274]:
df_num=df1.select_dtypes(include=['int64','float64'])

In [284]:
df_str=df1.select_dtypes(exclude=['int64','float64'])

In [285]:
df_id=df1[['id','host_id']]

In [283]:
df_desc.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
price,38821.0,142.33,196.99,0.0,69.0,101.0,170.0,10000.0
minimum_nights,38821.0,5.87,17.39,1.0,1.0,2.0,4.0,1250.0
number_of_reviews,38821.0,29.29,48.18,1.0,3.0,9.0,33.0,629.0
reviews_per_month,38821.0,1.37,1.68,0.01,0.19,0.72,2.02,58.5
calculated_host_listings_count,38821.0,5.17,26.3,1.0,1.0,1.0,2.0,327.0
availability_365,38821.0,114.89,129.53,0.0,0.0,55.0,229.0,365.0


In [290]:
df_id=df_id.astype(str)
df_id.describe().transpose()

Unnamed: 0,count,unique,top,freq
id,38821,38821,2539,1
host_id,38821,30232,219517861,207


In [282]:
df_str.describe().transpose()

Unnamed: 0,count,unique,top,freq
name,38821,38253,Home away from home,12
host_name,38821,9885,Michael,335
neighbourhood_group,38821,5,Manhattan,16621
neighbourhood,38821,218,Williamsburg,3163
room_type,38821,3,Entire home/apt,20321
last_review,38821,1764,2019-06-23,1413


In [278]:
#df1['last_review'].astype(int)## trasnformar em  data

# Respostas

## 1. Qual o `id` do imóvel com o aluguel (diária) mais caro da base de dados?

In [222]:
df[['id','name','price']].sort_values('price',axis=0, ascending=False).head(5)

Unnamed: 0,id,name,price
9151,7003697,Furnished room in Astoria apartment,10000
17692,13894339,Luxury 1 bedroom apt. -stunning Manhattan views,10000
12342,9528920,"Quiet, Clean, Lit @ LES & Chinatown",9999
6530,4737930,Spanish Harlem Apt,9999
30268,23377410,Beautiful/Spacious 1 bed luxury flat-TriBeCa/Soho,8500


## 2. Qual o `id` do imóvel com o aluguel (diária) mais barato da base de dados?


In [223]:
df[['id','name','price']].sort_values('price',axis=0, ascending=True).head(15)

Unnamed: 0,id,name,price
23161,18750597,"Huge Brooklyn Brownstone Living, Close to it all.",0
25433,20333471,★Hostel Style Room | Ideal Traveling Buddies★,0
25634,20523843,"MARTIAL LOFT 3: REDEMPTION (upstairs, 2nd room)",0
25753,20608117,"Sunny, Quiet Room in Greenpoint",0
25778,20624541,Modern apartment in the heart of Williamsburg,0
25794,20639628,Spacious comfortable master bedroom with nice ...,0
25795,20639792,Contemporary bedroom in brownstone with nice view,0
26841,21291569,Coliving in Brooklyn! Modern design / Shared room,0
25796,20639914,Cozy yet spacious private brownstone bedroom,0
26866,21304320,Best Coliving space ever! Shared room.,0


## 3. Qual o `id` do imóvel que foi mais locado da base de dados?


In [167]:
df[['id','name','price']].groupby(['name']).count().sort_values('price', ascending=False).head()

Unnamed: 0_level_0,id,price
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Hillside Hotel,18,18
Home away from home,17,17
New york Multi-unit building,16,16
Brooklyn Apartment,12,12
Private Room,11,11


## 4. Qual o `id` do imóvel que ficou mais tempo com o anúncio disponível, em
dias, para locação na base de dados?