# House Market

Imagine que você é um investidor imobiliário em King County, USA. Você deseja comprar um casa e revendê-la, obtendo o maior lucro possível. Neste projeto, iremos explorar os dados de vendas de casas na região, com o objetivo de responder às seguintes perguntas:
- Qual casa você deve comprar? Qual o custo estimado de compra?
- Quando a casa deve ser vendida? Por qual valor?
- Você fazer uma reforma para aumentar o preço da venda? Quais seriam as sugestões de mudanças? Qual o incremento no preço dado por cada opção de reforma?

## Base de Dados
Nossa base de dados possui as seguintes informações:

| Coluna             | Descrição                                                                 |
|--------------------|---------------------------------------------------------------------------|
| **id**             | Identificador único do imóvel.                                            |
| **date**           | Data do registro da venda do imóvel.                                      |
| **price**          | Preço de venda do imóvel (em dólares).                                    |
| **bedrooms**       | Número de quartos no imóvel.                                               |
| **bathrooms**      | Número de banheiros no imóvel (pode incluir frações, como 1.5).            |
| **sqft_living**    | Área interna útil da casa em pés quadrados (1 pé² ≈ 0,093 m²).             |
| **sqft_lot**       | Área total do terreno em pés quadrados.                                   |
| **floors**         | Número de andares da residência.                                           |
| **waterfront**     | Indica se o imóvel possui vista direta para a água (0 = não, 1 = sim).     |
| **view**           | Índice de qualidade da vista (escala de 0 a 4).                            |
| **condition**      | Índice de condição geral do imóvel (escala de 1 a 5).                      |
| **grade**          | Classificação da construção e design do imóvel (escala de 1 a 13).         |
| **sqft_above**     | Área construída acima do nível do solo, em pés quadrados.                  |
| **sqft_basement**  | Área do porão, em pés quadrados.                                           |
| **yr_built**       | Ano de construção do imóvel.                                               |
| **yr_renovated**   | Ano da última reforma (0 se nunca foi reformado).                         |
| **zipcode**        | Código postal da localização do imóvel.                                   |
| **lat**            | Latitude da localização geográfica do imóvel.                             |
| **long**           | Longitude da localização geográfica do imóvel.                            |
| **sqft_living15**  | Área interna média das 15 casas vizinhas mais próximas, em pés quadrados. |
| **sqft_lot15**     | Área média dos terrenos das 15 casas vizinhas mais próximas.              |


## Pré-processamento 

In [1]:
# import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# load the dataset
kc_house_df = pd.read_csv("datasets/kc_house_data.csv")

In [None]:
# lets take a look at our data
kc_house_df.head(10)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
5,7237550310,20140512T000000,1225000.0,4,4.5,5420,101930,1.0,0,0,...,11,3890,1530,2001,0,98053,47.6561,-122.005,4760,101930
6,1321400060,20140627T000000,257500.0,3,2.25,1715,6819,2.0,0,0,...,7,1715,0,1995,0,98003,47.3097,-122.327,2238,6819
7,2008000270,20150115T000000,291850.0,3,1.5,1060,9711,1.0,0,0,...,7,1060,0,1963,0,98198,47.4095,-122.315,1650,9711
8,2414600126,20150415T000000,229500.0,3,1.0,1780,7470,1.0,0,0,...,7,1050,730,1960,0,98146,47.5123,-122.337,1780,8113
9,3793500160,20150312T000000,323000.0,3,2.5,1890,6560,2.0,0,0,...,7,1890,0,2003,0,98038,47.3684,-122.031,2390,7570


In [4]:
kc_house_df.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')