# Projeto de Insights - House Rocket

A House Rocket é uma plataforma digital que tem como modelo de negócio, a compra e a venda de imóveis usando tecnologia.

Origem dos dados: 
https://www.kaggle.com/datasets/harlfoxem/housesalesprediction

## Perguntas do CEO

### 1. Qual a quantidade de imóveis por nível? 
>- Nível 0 -> Preço entre RS0 e RS321.950
>- Nível 1 -> Preço entre RS321.950 e RS450.000
>- Nível 2 -> Preço entre RS450.000 e RS645.000
>- Nível 3 -> Acima de RS 645.000

### 2. Adicione as seguintes informações ao imóvel:
>- O nome da Rua
>- O número do Imóvel
>- O nome do Bairro
>- O nome da Cidade
>- O nome da Estado

### 3. Adicionar o Nível dos imóveis no Mapa como uma Cor

### 4. Adicionar o Preço dos imóveis como o tamanho do ponto no mapa

### 5. Adicionar opções de filtros para eu fazer minhas próprias análises:
>1. Eu quero escolher visualizar imóveis com vista para água ou não.
>2. Eu quero filtrar os imóveis até um certo valor de preço.

### 6. Adicionar opções de filtros no último dashboard enviado:
>1. Eu quero visualizar somente valor a partir de um data disponível para compra.

### 0. Preparação

In [1]:
# Importando as bibliotecas

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('kc_house_data.csv')

In [4]:
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### 1. Qual a quantidade de imóveis por nível? 
>- Nível 0 -> Preço entre RS0 e RS321.950
>- Nível 1 -> Preço entre RS321.950 e RS450.000
>- Nível 2 -> Preço entre RS450.000 e RS645.000
>- Nível 3 -> Acima de RS 645.000

In [3]:
for i in range(len(data)):
    if (data.loc[i, 'price'] > 0) & (data.loc[i, 'price'] < 321950):
        data.loc[i, 'level'] = 'level_0'
    
    elif (data.loc[i, 'price'] >= 321950) & (data.loc[i, 'price'] < 450000):
        data.loc[i, 'level'] = 'level_1'
    
    elif (data.loc[i, 'price'] >= 450000) & (data.loc[i, 'price'] < 645000):
        data.loc[i, 'level'] = 'level_2'
    
    else:
        data.loc[i, 'level'] = 'level_3'

In [4]:
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,level
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,1180,0,1955,0,98178,47.5112,-122.257,1340,5650,level_0
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,2170,400,1951,1991,98125,47.721,-122.319,1690,7639,level_2
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,770,0,1933,0,98028,47.7379,-122.233,2720,8062,level_0
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,1050,910,1965,0,98136,47.5208,-122.393,1360,5000,level_2
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,1680,0,1987,0,98074,47.6168,-122.045,1800,7503,level_2


In [7]:
data[['id', 'nivel']].groupby('nivel', as_index=False).count()

Unnamed: 0,nivel,id
0,nivel 2,5508
1,nivel 3,5413
2,nivel_0,5403
3,nivel_1,5289


### 2. Adicione as seguintes informações ao imóvel:
>- O nome da Rua
>- O número do Imóvel
>- O nome do Bairro
>- O nome da Cidade
>- O nome da Estado

In [8]:
# Onde consigo essas informações:
#  - API chamada GEOPYTHON
# Qual dado que eu tenho na minha base consegue fazer o link com a API?
#  - Latitude e Longiitude

In [9]:
# Importando a biblioteca geopy.geocoders

In [17]:
import geopy

In [18]:
from geopy.geocoders import Nominatim

In [19]:
# Inicializar Nominatim API
geolocator = Nominatim(user_agent='geoapiExercise')

In [20]:
import certifi

In [21]:
import ssl

In [22]:
ctx = ssl.create_default_context(cafile=certifi.where())
geopy.geocoders.options.default_ssl_context = ctx

In [23]:
response = geolocator.reverse('47.5112,-122.257')
response

Location(10012, 61st Avenue South, Rainier Beach, Seattle, King County, Washington, 98178, United States, (47.5112302, -122.25676111324441, 0.0))

In [24]:
type(response)

geopy.location.Location

In [25]:
response.raw

{'place_id': 161022547,
 'licence': 'Data © OpenStreetMap contributors, ODbL 1.0. https://osm.org/copyright',
 'osm_type': 'way',
 'osm_id': 236673600,
 'lat': '47.5112302',
 'lon': '-122.25676111324441',
 'display_name': '10012, 61st Avenue South, Rainier Beach, Seattle, King County, Washington, 98178, United States',
 'address': {'house_number': '10012',
  'road': '61st Avenue South',
  'neighbourhood': 'Rainier Beach',
  'city': 'Seattle',
  'county': 'King County',
  'state': 'Washington',
  'ISO3166-2-lvl4': 'US-WA',
  'postcode': '98178',
  'country': 'United States',
  'country_code': 'us'},
 'boundingbox': ['47.511189', '47.5112943', '-122.2568571', '-122.2566651']}

In [26]:
response.raw['address']

{'house_number': '10012',
 'road': '61st Avenue South',
 'neighbourhood': 'Rainier Beach',
 'city': 'Seattle',
 'county': 'King County',
 'state': 'Washington',
 'ISO3166-2-lvl4': 'US-WA',
 'postcode': '98178',
 'country': 'United States',
 'country_code': 'us'}

In [27]:
print(response.raw['address']['road'])
print(response.raw['address']['house_number'])
print(response.raw['address']['neighbourhood'])
print(response.raw['address']['city'])
print(response.raw['address']['county'])
print(response.raw['address']['state'])

61st Avenue South
10012
Rainier Beach
Seattle
King County
Washington


In [28]:
data = pd.read_csv('kc_house_data.csv')

# Criando linhas vazias
data['road'] = 'NA'
data['house_number'] = 'NA'
data['city'] = 'NA'
data['county'] = 'NA'
data['state'] = 'NA'

In [29]:
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,zipcode,lat,long,sqft_living15,sqft_lot15,road,house_number,city,county,state
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,98178,47.5112,-122.257,1340,5650,,,,,
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,98125,47.721,-122.319,1690,7639,,,,,
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,98028,47.7379,-122.233,2720,8062,,,,,
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,98136,47.5208,-122.393,1360,5000,,,,,
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,98074,47.6168,-122.045,1800,7503,,,,,


In [None]:
# data = pd.read_csv('kc_house_data.csv')

# # Criando linhas vazias
# data['road'] = 'NA'
# data['house_number'] = 'NA'
# data['city'] = 'NA'
# data['county'] = 'NA'
# data['state'] = 'NA'

# # Inicializar Nominatim API
# geolocator = Nominatim(user_agent='geoapiExercise')

# for i in range(len(data)):
#     print(f'Loop {i} / {len(data)}')
#     # Montando consulta das latitudes e longitudes
#     query = str(data['lat'][i]) + ',' + str(data['long'][i])
    
#     # API Request
#     response = geolocator.reverse(query)
    
#     #Populando dados
#     if 'house_number' in response.raw['address']:
#         data.loc[i, 'house_number']  = response.raw['address']['house_number']
        
#     if 'road' in response.raw['address']:
#         data.loc[i, 'road']          = response.raw['address']['road']
    
#     if 'neighbourhood' in response.raw['address']:
#         data.loc[i, 'neighbourhood'] = response.raw['address']['neighbourhood']
    
#     if 'city' in response.raw['address']:
#         data.loc[i, 'city']          = response.raw['address']['city']
    
#     if 'county' in response.raw['address']:
#         data.loc[i, 'county']        = response.raw['address']['county']
    
#     if 'state' in response.raw['address']:
#         data.loc[i, 'state']         = response.raw['address']['state']

In [None]:
str(data['lat'][1]) + ',' + str(data['long'][1])

In [None]:
data.head()

## Filtros iterativos no mapa

In [None]:
import plotly.express as px

In [None]:
data = pd.read_csv('kc_house_data.csv')
houses = data[['id', 'lat', 'long', 'price']].copy()

# Definindo a coluna level
for i in range(len(houses)):
    if houses.loc[i, 'price'] <= 321950:
        houses.loc[i, 'level'] = 0
    
    elif (houses.loc[i, 'price'] > 321950) & (houses.loc[i, 'price'] <= 450000):
        houses.loc[i, 'level'] = 1
        
    elif (houses.loc[i, 'price'] > 450000) & (houses.loc[i, 'price'] <= 645000):
        houses.loc[i, 'level'] = 2
        
    else:
        houses.loc[i, 'level'] = 3 
        
houses['level'] = houses['level'].astype('int64')

fig = px.scatter_mapbox(houses,
                        lat='lat',
                        lon='long',
                        color='level',
                        size='price',
                        color_continuous_scale=px.colors.cyclical.IceFire,
                        size_max=15,
                        zoom=10)

fig.update_layout(mapbox_style='open-street-map')
fig.update_layout(height=600, margin={'r': 0, 'l': 0, 't': 0, 'b': 0})
fig.show()

## Adicionando filtros interativos

### 5. Adicionar opções de filtros para eu fazer minhas próprias análises:
>1. Eu quero escolher visualizar imóveis com vista para água ou não.
>2. Eu quero filtrar os imóveis até um certo valor de preço.

In [30]:
import ipywidgets as widgets
from ipywidgets import fixed

In [31]:
df = pd.read_csv('kc_house_data.csv')

df['is_waterfront'] = df['waterfront'].apply(lambda x: 'yes' if x == 1 else 'no')

df['level'] = df['price'].apply(lambda x: 0 if x < 321950 else
                                          1 if (x >= 321950) & (x < 450000) else
                                          2 if (x >= 450000) & (x < 645000) else 3)

df['level'] = df['level'].astype('int64')
style = {'description_width': 'initial'}

#Botões interativos
price_limit = widgets.IntSlider(
    value=540000,
    min=75000,
    max=7700000,
    step=1,
    description='Maximun Price',
    disable=False,
    style=style)

waterfront_bar = widgets.Dropdown(
    options=df['is_waterfront'].unique().tolist(),
    value=df['is_waterfront'].unique().tolist()[1],
    description='Water View',
    disable=False)

def update_map(df, waterfront, limit):
    houses = df[(df['price'] <= limit) & (df['is_waterfront'] == waterfront)][['id', 'lat', 'long', 'price', 'level']]
    
    fig = px.scatter_mapbox(houses,
                            lat='lat',
                            lon='long',
                            color='level',
                            size='price',
                            color_continuous_scale=px.colors.cyclical.IceFire,
                            size_max=15,
                            zoom=10)

    fig.update_layout(mapbox_style='open-street-map')
    fig.update_layout(height=600, margin={'r': 0, 'l': 0, 't': 0, 'b': 0})
    fig.show()

In [32]:
widgets.interactive(update_map, df=fixed(df), waterfront=waterfront_bar, limit=price_limit)

interactive(children=(Dropdown(description='Water View', index=1, options=('no', 'yes'), value='yes'), IntSlid…

In [None]:
price_limit

In [None]:
waterfront_bar

## Interatividade com o dashboard

In [None]:
from matplotlib import gridspec
from matplotlib import pyplot as plt

In [None]:
# Preparando o dataset
data = pd.read_csv('kc_house_data.csv')

# Mudando formatos de data
data['year'] = pd.to_datetime(data['date']).dt.strftime('%Y')
data['date'] = pd.to_datetime(data['date']).dt.strftime('%Y-%m-%d')
data['year_week'] = pd.to_datetime(data['date']).dt.strftime('%Y-%U')

# Widgets para controle dos dados
date_limit = widgets.SelectionSlider(
    options=data['date'].sort_values().unique().tolist(),
    value=data['date'].min(),
    description='Disponível',
    continuous_update=False,
    orientation='horizontal',
    readout=True)

def update_map(data, limit):
    # Filtrar dados
    df = data[data['date'] >= limit].copy()
    
    fig = plt.figure(figsize=(24, 12))
    specs = gridspec.GridSpec(ncols=2, nrows=2, figure=fig)
    
    ax1 = fig.add_subplot(specs[0, :]) # Primeira linha
    ax2 = fig.add_subplot(specs[1, 0]) # Segunda linha, primeira coluna
    ax3 = fig.add_subplot(specs[1, 1]) # Segunda linha, segunda coluna
    
    by_year = df[['id', 'year']].groupby('year').sum().reset_index()
    ax1.bar(by_year['year'], by_year['id'])
    ax1.set_title('Preços por ano')
    
    by_day = df[['id', 'date']].groupby('date').mean().reset_index()
    ax2.plot(by_day['date'], by_day['id'])
    ax2.set_title('Preço médio por dia')
    
    by_week_of_year = df[['id', 'year_week']].groupby('year_week').mean().reset_index()
    ax3.bar(by_week_of_year['year_week'], by_week_of_year['id'])
    ax3.set_title('Preço médio por semana do ano')
    plt.xticks(rotation=60)

In [None]:
date_limit

In [None]:
widgets.interactive(update_map, data=fixed(data), limit=date_limit)

# Exercícios

## Novas perguntas do CEO

### 1. Qual a média do preço de compra dos imóveis por "Nível":
> - Nível 0: Preço entre RS0 e 321.950
> - Nível 1: Preço entre RS321.950 e RS450.000
> - Nível 2: Preço entre RS450.000 e RS645.000
>-  Nível 3: Peço acima de RS645.000

### 2. Qual a média do tamanho da sala de estar dos imóveis por "Size":
> - Size 0: Tamanho entre 0 e 1427 sqft
> - Size 1: Tamanho entre 1427 e 1910 sqft
> - Size 2: Tamanho entre 1910 e 2550 sqft
> - Size 3: Tamanho acima de 2550 sqft

### 3. Adicione as seguintes informações ao conjunto de dados original:
> - Place ID: Identificação da localização
> - OSM Type: Open Street Map type
> - Contry: Nome do país
> - Country Code: Código do país

### 4. Adicione os seguintes filtros ao mapa:
> - Tamanho mínimo da área da sala de estar
> - Número mínimo de banheiros
> - Valor máximo do preço
> - Tamanho máximo da área do porão
> - Filtro das condições do imóvel
> - Filtro por ano de contrução

### 5. Adicione os seguintes filtros no dashboard:
> - Filtro por data disponível para compra
> - Filtro por ano de renovação
> - Filtro se possui vista para água ou não

## Respondendo as perguntas do CEO

In [2]:
import pandas as pd

### 1. Qual a média do preço de compra dos imóveis por "Nível":
> - Nível 0: Preço entre RS0 e 321.950
> - Nível 1: Preço entre RS321.950 e RS450.000
> - Nível 2: Preço entre RS450.000 e RS645.000
>-  Nível 3: Peço acima de RS645.000

In [3]:
data = pd.read_csv('kc_house_data.csv')

In [None]:
for i in range(len(data)):
    if data.loc[i, 'price'] < 321950:
        data.loc[i, 'level'] = 'nivel_0'

    elif (data.loc[i, 'price'] >= 321950) &  (data.loc[i, 'price'] < 450000): 
        data.loc[i, 'level'] = 'nivel_1'

    elif (data.loc[i, 'price'] >= 450000) &  (data.loc[i, 'price'] < 645000):  
        data.loc[i, 'level'] = 'nivel_2'

    else:    
        data.loc[i, 'level'] = 'nivel_3'

In [5]:
data[['price', 'level']].groupby(by='level', as_index=False).mean().sort_values(by='level', ascending=True)

Unnamed: 0,level,price
0,level_0,251544.621507
1,level_1,383585.205332
2,level_2,536164.42284
3,level_3,985008.983189


### 2. Qual a média do tamanho da sala de estar dos imóveis por "Size":
> - Size 0: Tamanho entre 0 e 1427 sqft
> - Size 1: Tamanho entre 1427 e 1910 sqft
> - Size 2: Tamanho entre 1910 e 2550 sqft
> - Size 3: Tamanho acima de 2550 sqft

In [None]:
data.columns

In [6]:
for i in range(len(data)):
    if data.loc[i, 'sqft_living'] < 1427:
        data.loc[i, 'size'] = 'size_0'
    
    elif (data.loc[i, 'sqft_living'] >= 1427) & (data.loc[i, 'sqft_living'] < 1910):
        data.loc[i, 'size'] = 'size_1'
    
    elif (data.loc[i, 'sqft_living'] >= 1910) & (data.loc[i, 'sqft_living'] < 2550):
        data.loc[i, 'size'] = 'size_2'
        
    else:
        data.loc[i, 'size'] = 'size_3'

In [7]:
data[['sqft_living', 'size']].groupby(by='size', as_index=False).mean().sort_values(by='size', ascending=True)

Unnamed: 0,size,sqft_living
0,size_0,1123.776421
1,size_1,1661.198088
2,size_2,2202.700239
3,size_3,3318.988404


### 3. Adicione as seguintes informações ao conjunto de dados original:
> - Place ID: Identificação da localização
> - OSM Type: Open Street Map type
> - Country: Nome do país
> - Country Code: Código do país

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('kc_house_data.csv')

In [3]:
import certifi
import ssl
import geopy

ctx = ssl.create_default_context(cafile=certifi.where())
geopy.geocoders.options.default_ssl_context = ctx

In [5]:
from geopy.geocoders import Nominatim

geolocator = Nominatim(user_agent='geoapiExercise')
response = geolocator.reverse('47.65,-122.21', timeout=3)
response.raw

{'place_id': 284901325,
 'licence': 'Data © OpenStreetMap contributors, ODbL 1.0. https://osm.org/copyright',
 'osm_type': 'relation',
 'osm_id': 6281016,
 'lat': '47.646298349999995',
 'lon': '-122.20746933972913',
 'display_name': 'Yarrow Bay Wetlands, SR 520 Trail, Bellevue, King County, Washington, 98033-7722, United States',
 'address': {'leisure': 'Yarrow Bay Wetlands',
  'road': 'SR 520 Trail',
  'city': 'Bellevue',
  'county': 'King County',
  'state': 'Washington',
  'ISO3166-2-lvl4': 'US-WA',
  'postcode': '98033-7722',
  'country': 'United States',
  'country_code': 'us'},
 'boundingbox': ['47.6430475', '47.6495293', '-122.2119181', '-122.2018606']}

In [5]:
data.shape

(21613, 21)

In [7]:
import time
import defs
from multiprocessing import Pool

data['query'] = data[['lat', 'long']].apply(lambda x: str(x['lat']) + ',' + str(x['long']), axis=1)
df1 = data[['id', 'query']].head(100)

p = Pool(4)
start = time.process_time()
df1[['place_id', 'osm_type', 'house_number', 'road', 'neighbourhood', 'city', 'county', 'state', 'country', 'country_code']] = p.map(defs.get_data, df1.iterrows())
# end = time.process_time()
# time_elapsed = end - start
print(f'Start: {start:.10f}')

Start: 7.0000000000


In [None]:
df1.head(100)

In [3]:
# import geopy
# from geopy.geocoders import Nominatim

# import certifi
# import ssl

# ctx = ssl.create_default_context(cafile=certifi.where())
# geopy.geocoders.options.default_ssl_context = ctx

# # Inicializar Nominatim API
# geolocator = Nominatim(user_agent='geoapiExercise')

# response = geolocator.reverse('47.5112,-122.257')
# response

Location(10012, 61st Avenue South, Rainier Beach, Seattle, King County, Washington, 98178, United States, (47.5112302, -122.25676111324441, 0.0))

In [4]:
import time
from multiprocessing import Pool

In [5]:
data['query'] = data[['lat', 'long']].apply(lambda x: str(x['lat']) + ',' + str(x['long']), axis=1)

In [6]:
data[['id', 'query']].head()

Unnamed: 0,id,query
0,7129300520,"47.5112,-122.257"
1,6414100192,"47.721,-122.319"
2,5631500400,"47.7379,-122.233"
3,2487200875,"47.5208,-122.393"
4,1954400510,"47.6168,-122.045"


In [None]:
# def get_data(x):
#     index, row = x
#     time.sleep(1)
    
#     # Chamada API
#     geolocator.reverse(row['query'])
    
#     place_id = response.raw['place_id']
#     osm_type = response.raw['osm_type']
#     country = response.raw['address']['country']
#     country_code = response.raw['address']['country_code']
    
#     return place_id, osm_type, country, country_code

In [7]:
df1 = data[['id', 'query']]
df1.iterrows()

<generator object DataFrame.iterrows at 0x000001DFB42009E0>

In [None]:
import defs

p = Pool(3)

start = time.process_time()
df1[['place_id', 'ost_type', 'country', 'country_code']] = p.map(defs.get_data, df1.iterrows())
end = time.process_time()

print(f'Time elapsed: {end - start}')

In [None]:
#response.raw

In [None]:
# print(response.raw['place_id'])
# print(response.raw['osm_type'])
# print(response.raw['address']['country'])
# print(response.raw['address']['country_code'])

In [None]:
# data['place_id'] = 'NA'
# data['osm_type'] = 'NA'
# data['country'] = 'NA'
# data['country_code'] = 'NA'

In [None]:
# for i in range(0, 10):
#     response = geolocator.reverse(str(data.loc[i, 'lat']) + ',' + str(data.loc[i, 'long']))
    
#     if 'place_id' in response.raw:
#         data.loc[i, 'place_id'] = response.raw['place_id']

#     if 'osm_type' in response.raw:
#         data.loc[i, 'osm_type'] = response.raw['osm_type']    

#     if 'country' in response.raw['address']:
#         data.loc[i, 'country'] = response.raw['address']['country']
        
#     if 'country_code' in response.raw['address']:
#         data.loc[i, 'country_code'] = response.raw['address']['country_code']


In [None]:
# data.head()

### 4. Adicione os seguintes filtros ao mapa:
> - Tamanho mínimo da área da sala de estar - int - IntSlider
> - Número mínimo de banheiros - float - FloatSlider
> - Valor máximo do preço - float - FloatSlider
> - Tamanho máximo da área do porão - IntSlider
> - Filtro das condições do imóvel - str - Dropdown
> - Filtro por ano de contrução - int - IntSlider

In [None]:
data['condition_type'] = data['condition'].apply(lambda x: 'good' if x == 5 else ('regular' if (x == 3 or x == 4) else 'bad'))

In [None]:
data.dtypes

In [None]:
import plotly.express as px
import ipywidgets as widgets
from ipywidgets import fixed

In [None]:
# Função que plota o gráfico:
# widgets.interactive(update_map, data=fixed(data), limit=date_limit)

#Parâmetros da função:
# - update_map: função que filtra o dataset com os filtros interativos
# - df=fixed(df): inserir o df que foi dado como parâmetro da fução update_map
# - filtro_interativo=nome_filtro_interativo

In [None]:
# 1. Criação das colunas que serão usadas para aplicar os filtros
data['is_waterfront'] = data['waterfront'].apply(lambda x: 'yes' if x == 1 else 'no')

# 2. Criação da variável style
style = {'description_width': 'initial'}

# 3. Botões interativos
price_limit = widgets.FloatSlider(
    value=data['price'].median(),
    min=data['price'].min(),
    max=data['price'].max(),
    step=1,
    description='Maximum Price',
    disable=False,
    style=style)

waterfront_bar = widgets.Dropdown(
    options=data['is_waterfront'].unique().tolist(),
    value=data['is_waterfront'].unique().tolist()[0],
    description='Water View',
    disable=False)

sqft_living_limit = widgets.IntSlider(
    value=data['sqft_living'].median(),
    min=data['sqft_living'].min(),
    max=data['sqft_living'].max(),
    step=1,
    description='Maximum Living Room Area (ft²)',
    disable=False,
    style=style)

bathrooms_limit = widgets.FloatSlider(
    value=data['bathrooms'].median(),
    min=data['bathrooms'].min(),
    max=data['bathrooms'].max(),
    step=0.5,
    description='Number of bathrooms',
    disable=False,
    style=style)

sqft_basement_limit = widgets.IntSlider(
    value=data['sqft_basement'].median(),
    min=data['sqft_basement'].min(),
    max=data['sqft_basement'].max(),
    step=1,
    description='Maximum Basement Area (ft²)',
    disable=False,
    style=style)

condition_type_bar = widgets.Dropdown(
    options=data['condition_type'].unique().tolist(),
    value=data['condition_type'].unique().tolist()[0],
    description='Condition Type',
    disable=False)

yr_built_limit = widgets.IntSlider(
    value=data['yr_built'].median(),
    min=data['yr_built'].min(),
    max=data['yr_built'].max(),
    step=1,
    description='Year Built',
    disable=False,
    style=style)

def update_map(data, price_limit, waterfront_bar, sqft_living_limit, 
               bathrooms_limit, sqft_basement_limit, condition_type_bar,
               yr_built_limit):
    houses = data[(data['price'] <= price_limit) & 
                  (data['is_waterfront'] == waterfront_bar) & 
                  (data['sqft_living'] <= sqft_living_limit) & 
                  (data['bathrooms'] <= bathrooms_limit) & 
                  (data['sqft_basement'] <= sqft_basement_limit) & 
                  (data['condition_type'] == condition_type_bar) & 
                  (data['yr_built'] <= yr_built_limit)][['id', 'lat', 'long', 'price', 'level']]
    
    fig = px.scatter_mapbox(houses,
                            lat='lat', 
                            lon='long',
                            color='level',
                            size='price',
                            color_continuous_scale=px.colors.cyclical.IceFire,
                            size_max=15,
                            zoom=10)
    
    fig.update_layout(mapbox_style='open-street-map')
    fig.update_layout(height=600, margin={'r': 0, 'l': 0, 't': 0, 'b': 0})
    fig.show()

In [None]:
widgets.interactive(update_map, data=fixed(data), price_limit=price_limit, waterfront_bar=waterfront_bar, sqft_living_limit=sqft_living_limit, bathrooms_limit=bathrooms_limit, sqft_basement_limit=sqft_basement_limit, condition_type_bar=condition_type_bar, yr_built_limit=yr_built_limit)

In [None]:
, sqft_living_limit=sqft_living_limit, bathrooms_limit=bathrooms_limit, sqft_basement_limit=sqft_basement_limit, condition_type_bar, yr_built_limit=yr_built_limit)

### 5. Adicione os seguintes filtros no dashboard:
> - Filtro por data disponível para compra - IntSlider
> - Filtro por ano de renovação - IntSlider
> - Filtro se possui vista para água ou não - Radiobuttons

In [None]:
# Preparando o dataset
data = pd.read_csv('kc_house_data.csv')

# Transformando os tipos de dados de datas
data['yr_renovated'] = pd.to_datetime(data['date']).dt.strftime('%Y')
data['date'] = pd.to_datetime(data['date']).dt.strftime('%Y-%m-%d')
data['year'] = pd.to_datetime(data['date']).dt.strftime('%Y')
data['year_week'] = pd.to_datetime(data['date']).dt.strftime('%Y-%U')

# Criando a coluna 'is_waterfront' para aplicação do widget
data['is_waterfront'] = data['waterfront'].apply(lambda x: 'yes' if x == 1 else 'no')

# Preparando os widgets interativos
date_limit = widgets.SelectionSlider(options=data['date'].sort_values().unique().tolist(),
                               value=data['date'].min(),
                               min=data['date'].min(),
                               max=data['date'].max(),
                               step=1,
                               description='Date available',
                               disabled=False,
                               continuous_update=False)

yr_renovated_limit = widgets.IntSlider(options=data['yr_renovated'].sort_values().unique().tolist(),
                                       value=data['yr_renovated'].min(),
                                       min=data['yr_renovated'].min(),
                                       max=data['yr_renovated'].max(),
                                       step=1,
                                       description='Year of renovation',
                                       disabled=False,
                                       continuous_update=False)

is_waterfront = widgets.RadioButtons(options=data['is_waterfront'].unique().tolist(),
                                     value=data['is_waterfront'].unique().tolist()[0],
                                     description='Is Waterfront',
                                     disabled=False)

# Função update_map
def update_map(data, date_limit, yr_renovated_limit, is_waterfront):
    # Filtrando os dados
    houses = data[(data['date'] <= date_limit) &
             (data['yr_renovated'].astype(dtype='int64') == yr_renovated_limit) &
             (data['is_waterfront'] == is_waterfront)]

    # Criando dashboard
    fig = plt.figure(figsize=(24, 12))
    specs=gridspec.GridSpec(ncols=2, nrows=2, figure=fig)

    ax1 = fig.add_subplot(specs[0, :])
    ax2 = fig.add_subplot(specs[1, 0])
    ax3 = fig.add_subplot(specs[1, 1])

    by_year = data[['id', 'year']].groupby('year').sum().reset_index()
    ax1.bar(by_year['year'], by_year['id'])
    ax1.set_title('Preços por ano')

    by_day = data[['id', 'date']].groupby('date').mean().reset_index()
    ax2.plot(by_day['date'], by_day['id'])
    ax2.set_title('Preço médio por dia')

    by_week_of_year = data[['id', 'year_week']].groupby('year_week').mean().reset_index()
    ax3.bar(by_week_of_year['year_week'], by_week_of_year['id'])
    ax3.set_title('Preço médio por semana do ano')
    plt.xticks(rotation=60)

In [None]:
widgets.interactive(update_map, data=fixed(data), date_limit=date_limit, yr_renovated_limit=yr_renovated_limit, is_waterfront=is_waterfront)