# Estruturas de Controle - Módulo 4

## Novas perguntas do CEO

1. Qual a média do preço de compra dos imóveis por “Nível”? 
- Nível 0 -> Preço entre 0 e 321.950
- Nível 1 -> Preço entre 321.950 e 450.000
- Nível 2 -> Preço entre 450.000 e 645.000
- Nível 3 -> Acima de 645.000

2. Qual a média do tamanho da sala de estar dos imóveis por “Size” ?
- Size 0 -> Tamanho entre 0 e 1427 sqft
- Size 1 -> Tamanho entre 1427 e 1910 sqft
- Size 2 -> Tamanho entre 1910 e 2550 sqft
- Size 3 -> Tamanho acima de 2550 sqft

3. Adicione as seguinte informações ao conjunto de dados original:
- Place ID: Identificação da localização
- OSM Type: Open Street Map type
- Country: Nome do País
- Country Code: Código do País

4. Adicione os seguinte filtros no Mapa:
- Tamanho mínimo da área da sala de estar.
- Número mínimo de banheiros.
- Valor Máximo do Preço.
- Tamanho máximo da área do porão.
- Filtro das Condições do Imóvel.
- Filtro por Ano de Construção.

5. Adicione os seguinte filtros no Dashboard:
- Filtro por data disponível para compra.
- Filtro por ano de renovação.
- Filtro se possui vista para a água ou não.

# Resolução

## Import Libraries

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

from matplotlib import gridspec
from matplotlib import pyplot as plt
import ipywidgets as widgets
import plotly.express as px
from ipywidgets import interact, interactive, fixed, interact_manual

In [2]:
# Supress Scientific Notation
np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

## Loading Data

In [3]:
data = pd.read_csv('datasets/kc_house_data.csv')

data['date'] = pd.to_datetime( data['date'], format='%Y-%m-%d' )

## 1. Qual a média do preço de compra dos imóveis por “Nível”? 
- Nível 0 -> Preço entre 0 e 321.950
- Nível 1 -> Preço entre 321.950 e 450.000
- Nível 2 -> Preço entre 450.000 e 645.000
- Nível 3 -> Acima de 645.000

In [4]:
data['level'] = data['price'].apply(lambda x: 'lv0' if x <= 321950 else
                                   'lv1' if (x > 321950) & (x <= 450000) else
                                   'lv2' if (x > 450000) & (x <= 645000) else
                                   'lv3')

In [5]:
data[['level', 'price']].groupby('level'). mean().reset_index()

Unnamed: 0,level,price
0,lv0,251557.65
1,lv1,385688.68
2,lv2,539730.96
3,lv3,987540.22


## 2. Qual a média do tamanho da sala de estar dos imóveis por “Size” ?
- Size 0 -> Tamanho entre 0 e 1427 sqft
- Size 1 -> Tamanho entre 1427 e 1910 sqft
- Size 2 -> Tamanho entre 1910 e 2550 sqft
- Size 3 -> Tamanho acima de 2550 sqft

In [6]:
data['size'] = data['sqft_living'].apply(lambda x: 'size0' if x <= 1427 else
                                        'size1' if (x > 1427) & (x <= 1910) else
                                        'size2' if (x > 1910) & ( x <= 2550) else 'size3')

In [7]:
data[['sqft_living', 'size']].groupby('size').mean().reset_index()

Unnamed: 0,size,sqft_living
0,size0,1123.83
1,size1,1664.96
2,size2,2211.79
3,size3,3329.61


## 3. Adicione as seguinte informações ao conjunto de dados original:
- Place ID: Identificação da localização
- OSM Type: Open Street Map type
- Country: Nome do País
- Country Code: Código do País

In [8]:
from geopy.geocoders import Nominatim

geolocator = Nominatim(user_agent='geopyTrain')

query = '47.51,-122.26'
response = geolocator.reverse(query)
response.raw

GeocoderUnavailable: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /reverse?lat=47.51&lon=-122.26&format=json&addressdetails=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000025029D3DA90>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))

In [None]:
import time
import dataget
from multiprocessing import Pool

data['query'] = data[['lat', 'long']].apply(lambda x: str(x['lat']) + ',' + str(x['long']), axis=1)
df1 = data[['id', 'query']].head()

p = Pool(2)
start = time.process_time()
df1[['place_id', 'osm_type', 'country', 'country_code']] = p.map(dataget.get_data, df1.iterrows())
print(time.process_time() - start)

In [None]:
df1.head()

In [None]:
data.dtypes

## 4. Adicione os seguintes filtros no Mapa:
- Tamanho mínimo da área da sala de estar: usares o sqft_living para filtrar;
- Número mínimo de banheiros: usaremos o bathrooms;
- Valor Máximo do Preço: usaremos o price;
- Tamanho máximo da área do porão: usaremos o basement;
- Filtro das Condições do Imóvel: usaremos o condition
- Filtro por Ano de Construção: usaremos o yr_built.

In [43]:
data['level'] = data['price'].apply(lambda x: 0 if x <= 321950 else 
                                           1 if (x > 321950) & (x <= 450000) else 
                                           2 if (x > 450000) & (x <= 645000) else 3)

# Iterative buttons
                                    
living_min = widgets.IntSlider(
    min=data['sqft_living'].min(),
    max=data['sqft_living'].max(),
    step=1, description='minimum living room',
    disable=False)

bath_min = widgets.IntSlider(
    min=data['bathrooms'].min(),
    max=data['bathrooms'].max(),
    step=1, description='min bathrooms numbers',
    disable=False)

price_max = widgets.IntSlider(
    value=data['price'].max(),
    min=data['price'].min(),
    max=data['price'].max(),
    step=1, description='max price',
    disable=False)

basemant_max = widgets.IntSlider(
    min=data['sqft_basement'].min(),
    max=data['sqft_basement'].max(),
    step=1, description='max basemant', value=data['sqft_basement'].max(),
    disable=False)

condition_set = widgets.Dropdown(
    options=sorted(data['condition'].unique().tolist()),
    value=1,
    description='condition', disable=False
)

year_min = widgets.IntSlider(
    value = int( data['yr_built'].mean()), 
    min = data['yr_built'].min(),
    max = data['yr_built'].max(),
    step = 1,
    description='year built',
    disable=False,
    style={'description_width': 'initial'}
)

# Creating a uptade_map function
def update_map(df, living, bath, price, basemant, condition, year):
    data_map = df[(df['sqft_living'] >= living) &
                 (df['bathrooms'] >= bath) &
                 (df['price'] <= price) &
                 (df['sqft_basement'] <= basemant) &
                 (df['condition'] == condition) &
                 (df['yr_built'] >= year)]
    
    fig = px.scatter_mapbox( data_map, 
                             lat="lat", 
                             lon="long", 
                             size="price",
                             color="level",
                             color_continuous_scale=px.colors.cyclical.IceFire, 
                             size_max=30, 
                             zoom=10)

    fig.update_layout(mapbox_style="open-street-map")
    fig.update_layout(height=600, margin={"r":0,"t":0,"l":0,"b":0})
    fig.show()

In [44]:
widgets.interactive(update_map, df=fixed(data), living=living_min, 
                    bath=bath_min, price=price_max,
                   basemant=basemant_max, condition=condition_set,
                   year=year_min)

interactive(children=(IntSlider(value=290, description='minimum living room', max=13540, min=290), IntSlider(v…

## 5. Adicione os seguinte filtros no Dashboard:
   - Filtro por data disponível para compra.
   - Filtro por ano de renovação.
   - Filtro se possui vista para a água ou não.

In [45]:
data['year'] = pd.to_datetime(data['date']).dt.strftime('%Y')
data['date'] = pd.to_datetime(data['date']).dt.strftime('%Y-%m-%d')
data['year_week'] = pd.to_datetime(data['date']).dt.strftime('%Y-%U')

Criando os filtros

In [46]:
date_limit = widgets.SelectionSlider( 
    options = data['date'].sort_values().unique().tolist(),
    value='2014-12-01',
    description='Max Available Date',
    disable=False,
    continuous_update=False,
    orientation='horizontal',
    style={'description_width': 'initial'},
    readout=True
)

year_limit = widgets.SelectionSlider( 
    options = data['yr_renovated'].sort_values().unique().tolist(),
    value=2000,
    description='Max Year',
    disable=False,
    continuous_update=False,
    orientation='horizontal',
    style={'description_width': 'initial'},
    readout=True
)

waterfront_limit = widgets.Checkbox(
    value=False,
    description='Waterfront?',
    disabled=False,
    indent=False
)

Criando a função

In [47]:
def update_map( data, date_limit, year_limit, waterfront_limit ):
    
    # Filter data
    df = data[(data['date'] <= date_limit) & 
              (data['yr_renovated'] >= year_limit) &
              (data['waterfront'] == waterfront_limit)].copy()

    fig = plt.figure( figsize=(24, 12) )
    specs = gridspec.GridSpec( ncols=2, nrows=2, figure=fig )

    ax1 = fig.add_subplot( specs[0, :] ) # First Row
    ax2 = fig.add_subplot( specs[1, 0] ) # First Row First Column
    ax3 = fig.add_subplot( specs[1, 1] ) # Second Row First Column

    by_year = df[['id', 'year']].groupby( 'year' ).sum().reset_index()
    ax1.bar( by_year['year'], by_year['id'] )

    # Frist Graph
    by_day = df[['id', 'date']].groupby( 'date' ).mean().reset_index()
    ax2.plot( by_day['date'], by_day['id'] )
    ax2.set_title( "Title: Avg Price by Day" )
    
    df['year_week'] = pd.to_datetime( df['date'] ).dt.strftime( '%Y-%U' )
    by_week_of_year = df[['id', 'year_week']].groupby( 'year_week' ).mean().reset_index()
    ax3.bar( by_week_of_year['year_week'], by_week_of_year['id'] )
    ax3.set_title( "Title: Avg Price by Week of Year" )
    plt.xticks( rotation=60);

Plotando o gráfico com os filtros

In [48]:
widgets.interactive( update_map, 
                     data = fixed( data ), 
                     date_limit=date_limit,
                     year_limit=year_limit,
                     waterfront_limit=waterfront_limit )

interactive(children=(SelectionSlider(continuous_update=False, description='Max Available Date', index=212, op…