## Importando as bibliotecas

### Biblioteca pandas 

In [1]:
import pandas as pd

### Biblioteca Plotly

In [2]:
import plotly.express as px

### Atribuindo o dataset em uma variável 

In [3]:
df = pd.read_csv('kc_house_data.csv')

### Imprimindo o conjunto de dados com as cinco primeiras linhas

In [4]:
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### Imprimindo os tipos de variáveis em cada coluna

In [5]:
df.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above         int64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

### Imprimindo a quantidade de linhas e colunas, respectivamente
#### Agora sabemos que existem 21.613 imóveis a venda, contendo até 21 atributos

In [6]:
df.shape

(21613, 21)

### Imprimindo todos os atributos dos imóveis

In [7]:
df.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

### Imóveis mais caros do portfólio, ordenados em ordem decrescente

In [8]:
df[['id','price']].sort_values('price', ascending=False)

Unnamed: 0,id,price
7252,6762700020,7700000.0
3914,9808700762,7062500.0
9254,9208900037,6885000.0
4411,2470100110,5570000.0
1448,8907500070,5350000.0
...,...,...
8274,3883800011,82000.0
16198,3028200080,81000.0
465,8658300340,80000.0
15293,40000362,78000.0


### Filtrando o número de imóveis por ano de construção

In [9]:
df[['id', 'yr_built']].groupby('yr_built').count()

Unnamed: 0_level_0,id
yr_built,Unnamed: 1_level_1
1900,87
1901,29
1902,27
1903,46
1904,45
...,...
2011,130
2012,170
2013,201
2014,559


### Tamanho médio das salas dos imóveis por ano de construção?
#### Será que ficaram cada vez maior conforme o passar dos anos? Saberemos...

In [10]:
df[['sqft_living', 'yr_built']].groupby('yr_built').mean()

Unnamed: 0_level_0,sqft_living
yr_built,Unnamed: 1_level_1
1900,1732.011494
1901,1763.620690
1902,1919.629630
1903,1507.739130
1904,1603.177778
...,...
2011,2313.684615
2012,2378.741176
2013,2636.592040
2014,2615.389982


### Média de preço dos imóveis

In [11]:
df['price'].mean()

540088.1417665294

### Lembra que mais acima foi impresso os tipos das variáveis?
#### Por default, o pandas lê todas as datas como objetos
#### Como converter para data? faremos isso no código abaixo

In [12]:
df['date'] = pd.to_datetime(df['date'])

### Data convertida, agora por curiosidade, vamos saber quais são os imóveis mais antigos do portfólio, apenas os últimos cinco

In [13]:
df.sort_values('date', ascending=True).head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
16768,5561000190,2014-05-02,437500.0,3,2.25,1970,35100,2.0,0,0,...,9,1970,0,1977,0,98027,47.4635,-121.991,2340,35100
9596,472000620,2014-05-02,790000.0,3,2.5,2600,4750,1.0,0,0,...,9,1700,900,1951,0,98117,47.6833,-122.4,2380,4750
9587,1024069009,2014-05-02,675000.0,5,2.5,2820,67518,2.0,0,0,...,8,2820,0,1979,0,98029,47.5794,-122.025,2820,48351
20602,7853361370,2014-05-02,555000.0,4,2.5,3310,6500,2.0,0,0,...,8,3310,0,2012,0,98065,47.515,-121.87,2380,5000
11577,5056500260,2014-05-02,440000.0,4,2.25,2160,8119,1.0,0,0,...,8,1080,1080,1966,0,98006,47.5443,-122.177,1850,9000


### Próximo passo para deixar o dataset mais completo, irei definir o atributo 'level' como standard
#### E também definir os imóveis em duas categorias, setando um valor para criar essas categorias
#### As duas categorias serão low_level e high_level

In [14]:
df['level'] = 'standard'
df.loc[df['price'] < 500000, 'level'] = 'low_level'
df.loc[df['price'] > 500000, 'level'] = 'high_level'

### Será que funcionou?
#### Vamos descobrir...

In [15]:
df['level']

0         low_level
1        high_level
2         low_level
3        high_level
4        high_level
            ...    
21608     low_level
21609     low_level
21610     low_level
21611     low_level
21612     low_level
Name: level, Length: 21613, dtype: object

### Muito bem, vamos gerar um relátorio para guardar essas informações, seria legal né?!
#### Este relatório terá os atributos mais importantes e será ordenado pelo preço de forma decrescente

In [16]:
report = df[['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_lot', 'level']].sort_values('price', ascending=False)
report.to_csv('report.csv', index=False)

### Pensando bem, acho que mostrar um mapa com os imóveis será mais legal
#### Mãos a obra!
#### A biblioteca foi importada no início do código e agora chegou a hora de usar
#### Obs: no momento visualizar aqui no GitHub, o mapa não carrega por ser pesado na hora de rodar, por este fato eu não vou rodar este trecho do código

In [None]:
data_map = df[['id', 'lat', 'long', 'price']]
map = px.scatter_mapbox(data_map, lat='lat', lon='long', hover_name='id', 
                            hover_data=['price'], color_discrete_sequence=['fuchsia'],
                            zoom=3, height=300)

map.update_layout(mapbox_style='open-street-map')
map.update_layout(height=600, margin={'r':0, 't':0, 'l':0, 'b':0})
map.show()

### Pensando nesse detalhe acima, irei gerar um HTML do mapa
#### Assim fica mais fácil de visualizar o conteúdo sem ter a necessidade de rodar direto no código

In [None]:
map.write_html('map.html')

#### Dataset bem explorado e **insights** finalizados com sucesso.