# Ideia do Projeto Slot 3 - Setor Imobiliário

Case: A LOFT,

Empresa do ramo imobiliário Brasileiro, quer expandir sua área de atuação e fazer um investimento internacional. 

Devido a questões estratégicas, a empresa irá investir em imóveis no Condado de County, nos Estatos Unidos. 

Utilizando o dataset disponibilizado, você irá aplicar os conceitos de CRISP-DM aprendidos até o momento em um projeto prático, que busca desenvolver seu pensamento analítico, insights e tomada de decisões.

O que devo fazer? 

Você deve montar um colab bem redigido mostrando o passo a passo das etapas de análise do case, fazendo uma introdução e dados atuais sobre o problema.

Também é importante ressaltar/explicar passagens complexas ou insights que você tiver durante a resolução desse projeto.

# Descrição do projeto

O Projeto de Insight cobre 5 questionamentos basicamente (Que você estabelecer):

* A Questão de Negócio:
  - Qual a minha meta?
  - Como posso chegar?

* O Entendimento do Negócio:
  - Quais dados eu tenho disponível?
  - Eles são relevantes para o problema?
  - Eles me trazem uma solução direta?
  - Qual o meu setor ou range de negócio?

* A Coleta de Dados:
  - Os dados que eu tenho fazem sentido?
  - Estão no formato que eu gostaria?
  - O que mais eu consigo obter de informação destes dados?

* A Limpeza de Dados:
  - Remoção de dados outliers e valores ausentes
  - Data
  
* A Exploração de Dados:
  - Visualização dos dados
  - Quais as minhas métricas essenciais
  - Baseado nos dados, qual imóvel ou tipo de imóveis eu deveria comprar.


Baseado nestes pensamentos que você utilizou para responder as perguntas acima, qual seria os 5 imóveis que você compraria e o porquê e quais 5 você não compraria de jeito nenhum.

# Dicas de insights:
- Encontre a cidade de cada imóvel
- Calcule o preço por área de imóvel
- Calcule o lucro/ perda de investimento caso o imóvel seja vendido mais de uma vez naquele período.

# King County - Condado de King - Washington
O Condado de King é um dos 39 condados do estado americano de Washington. A sede e cidade mais populosa do condado é Seattle. Foi fundado em 1852. Com mais de 2,2 milhões de habitantes, de acordo com o censo nacional de 2020, é o condado mais populoso do estado e o 12º mais populoso do país. [Wikipédia](https://pt.wikipedia.org/wiki/Condado_de_King_(Washington))

O Datset apresenta a venda de imóveis e suas características na região de Maio de 2014 à Maio de 2015. Tem um totoal de 21613 registros com um total de 21 atributos. 

Dataset: https://www.kaggle.com/harlfoxem/housesalesprediction

Dataset detalhado: https://geodacenter.github.io/data-and-lab/KingCounty-HouseSales2015/

Variável | Descrição
--- | ---
id	| Identificador único do imóvel
date	| Data da Venda
price	| Preço de venda
bedrooms	| Nº de Quartos
bathrooms	| Nº de Banheiros
sqft_liv	| Tamanho de área habitável em ft²
sqft_lot	| Tamanho do terreno em ft²
floors	| Número de andares
waterfront	| Indicativo se o imóvel é a beira-mar
view	| Grau de quão belo é a vista do imóvel (0 a 4)
condition	| Condição da casa (1 a 5) 
grade	| Classificação por qualidade de material utilizado na construção
sqft_above	| Área em acima do solo em ft²
sqft_basmt	|  Área em abaixo do solo em ft²
yr_built	| Ano de construção
yr_renov	| Ano de restauração, caso o contrário, 0.
zipcode	| Zip Code 5 - Similar ao CEP
lat	| Latitude
long	| Longitude
squft_liv15	| Média da área habitável dos 15 imóveis mais próximos, em ft²
squft_lot15	| Média da área habitável dos 15 imóveis mais próximos, em ft²

# 0.0 Bibliotecas utilizadas

In [21]:
# Importação
import pandas as pd

## 0.1 Funções auxiliares

In [22]:
def personal_settings():
    
    pd.set_option('display.float_format', '{:.2f}'.format)

# 1.0 Descrição dos dados

## 1.1 Importação dos dados

In [23]:
URL = "https://drive.google.com/file/d/1mzl0FMFGz8ye9KqDLHev4weeB5vWzJII/view?usp=sharing"
path = "https://drive.google.com/uc?export=download&id="+URL.split("/")[-2]
df = pd.read_csv(path)

In [24]:
# Verificar as cinco primeiras linhas
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [25]:
# Verificar as cinco últimas linhas
df.tail()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
21608,263000018,20140521T000000,360000.0,3,2.5,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.5,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.5,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287
21612,1523300157,20141015T000000,325000.0,2,0.75,1020,1076,2.0,0,0,...,7,1020,0,2008,0,98144,47.5941,-122.299,1020,1357


## 1.2 Renomear colunas

In [26]:
print(df.columns)

df = df.rename(columns={'price': 'buying_price'})

df.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')


Index(['id', 'date', 'buying_price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

## 1.3 Dimensão dos dados

In [31]:
print(df.shape[0], 'Linhas')
print(df.shape[1], 'Colunas')

21613 Linhas
21 Colunas


## 1.4 Tipos de dados

In [32]:
description = []

for i in df.columns:
    description.append([
        i,
        df[i].dtypes,
        df[i].nunique(),
        df[i].drop_duplicates().sample(2).values
    ])

pd.DataFrame(data=description, columns=['attributes', 'dtypes', 'nunique', 'sample'])

Unnamed: 0,attributes,dtypes,nunique,sample
0,id,int64,21436,"[2193300620, 1217000270]"
1,date,datetime64[ns],372,"[2014-10-27T00:00:00.000000000, 2015-05-06T00:..."
2,buying_price,float64,4028,"[413450.0, 1411600.0]"
3,bedrooms,int64,13,"[3, 0]"
4,bathrooms,float64,30,"[3.25, 0.75]"
5,sqft_living,int64,1038,"[3361, 1894]"
6,sqft_lot,int64,9782,"[955, 10888]"
7,floors,float64,6,"[1.0, 3.0]"
8,waterfront,int64,2,"[1, 0]"
9,view,int64,5,"[4, 1]"


## 1.5 Métricas estatísticas  inicias

In [28]:
df.describe()

Unnamed: 0,id,buying_price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
count,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0
mean,4580302000.0,540088.1,3.370842,2.114757,2079.899736,15106.97,1.494309,0.007542,0.234303,3.40943,7.656873,1788.390691,291.509045,1971.005136,84.402258,98077.939805,47.560053,-122.213896,1986.552492,12768.455652
std,2876566000.0,367127.2,0.930062,0.770163,918.440897,41420.51,0.539989,0.086517,0.766318,0.650743,1.175459,828.090978,442.575043,29.373411,401.67924,53.505026,0.138564,0.140828,685.391304,27304.179631
min,1000102.0,75000.0,0.0,0.0,290.0,520.0,1.0,0.0,0.0,1.0,1.0,290.0,0.0,1900.0,0.0,98001.0,47.1559,-122.519,399.0,651.0
25%,2123049000.0,321950.0,3.0,1.75,1427.0,5040.0,1.0,0.0,0.0,3.0,7.0,1190.0,0.0,1951.0,0.0,98033.0,47.471,-122.328,1490.0,5100.0
50%,3904930000.0,450000.0,3.0,2.25,1910.0,7618.0,1.5,0.0,0.0,3.0,7.0,1560.0,0.0,1975.0,0.0,98065.0,47.5718,-122.23,1840.0,7620.0
75%,7308900000.0,645000.0,4.0,2.5,2550.0,10688.0,2.0,0.0,0.0,4.0,8.0,2210.0,560.0,1997.0,0.0,98118.0,47.678,-122.125,2360.0,10083.0
max,9900000000.0,7700000.0,33.0,8.0,13540.0,1651359.0,3.5,1.0,4.0,5.0,13.0,9410.0,4820.0,2015.0,2015.0,98199.0,47.7776,-121.315,6210.0,871200.0


# 2.0 Limpeza, Formatação e enriquecimento dos dados

## 2.1 Identificando valores ausentes

In [33]:
description = []
for i in df.columns:
    description.append([
        i,
        df[i].isna().sum(),
        round((df[i].isna().sum()/len(df))*100)
    ])

pd.DataFrame(data=description, columns=['attributes','null', '%null'])

Unnamed: 0,attributes,null,%null
0,id,0,0
1,date,0,0
2,buying_price,0,0
3,bedrooms,0,0
4,bathrooms,0,0
5,sqft_living,0,0
6,sqft_lot,0,0
7,floors,0,0
8,waterfront,0,0
9,view,0,0


## 2.2 Alterar tipo de dados

In [34]:
# Transformação em "Date" de OBJECT > DATE
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

## checking 'date' type
display(df[['date']].head())
display(df[['date']].dtypes)

Unnamed: 0,date
0,2014-10-13
1,2014-12-09
2,2015-02-25
3,2014-12-09
4,2015-02-18


date    datetime64[ns]
dtype: object