# House Sales Price

<br>
<img src="img/house_sale.png">
<br>

Os preços de venda de casas de conjunto de dados para King County, Seattle. Inclui casas vendidas entre maio de 2014 e maio de 2015. O conjunto de dados fornece recursos que as casas têm e o preço pelo qual elas foram vendidas. Pode ser usado para modelar a previsão de preços de casas.

O conjunto de dados está disponível em kaggle https://www.kaggle.com/harlfoxem/housesalesprediction

Alguns dos atributos capturados no conjunto de dados são

- Número de quartos e banheiros
- Total de pés quadrados 
- Quantos andares
- Se tem um porão e tamanho do porão
- Classificação da casa
- Clima tem beira-mar e a qualidade da vista
- Quando a casa foi construída e se a casa é renovada, se for renovado
- Latitude e longitude
- preço da casa
- Quando a casa foi vendida

Perguntas:


- Quais as 10 melhores oportunidades de compra segundo o preço pela área total a casa?
- Qual a correlação do nível de classificação as casas em relação ao seu preço?
- Podemos afirmar que estar de frente para o lago representa um fator que eleva o preço médio das casas, com uma confiança superior a 95%?


## Lendo e conhecendo o dataset

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline
%config InlineBackend.figure_formats=['svg']

import warnings
warnings.filterwarnings("ignore")

In [None]:
kc = pd.read_csv(r'../../99 Datasets/KingCounty_house_data.csv.zip')
kc.head()

In [None]:
kc.info()

In [None]:
kc.price.hist(bins=100)

In [None]:
import matplotlib.pyplot as plt

plt.scatter(x=kc.id, y=kc.price, alpha=0.5)
plt.show()

## Quais as 10 melhores oportunidades de compra segundo o preço pela área total a casa?

In [None]:
import seaborn as sns

sns.jointplot(x="sqft_living", y="price", data=kc, kind = 'reg',fit_reg= True, size = 7)
plt.show()

In [None]:
kc['price_per_sqft'] = kc.price / kc.sqft_living
kc['price_per_sqft'].hist(bins=100)

In [None]:
kc['price_per_sqft'].sort_values()[:10]

## Qual a correlação do nível de classificação as casas em relação ao seu preço?

In [None]:
kc.grade.value_counts()

In [None]:
sns.jointplot(x="grade", y="price", data=kc, kind = 'reg',fit_reg= True, size = 7)
plt.show()

In [None]:
np.corrcoef(x=kc.grade, y=kc.price)

## Podemos afirmar que estar de frente para o lago representa um fator que eleva o preço médio das casas, com uma confiança superior a 95%?

In [None]:
kc.info()

In [None]:
kc.waterfront.value_counts()

In [None]:
import scipy.stats as stats

wf_mu = kc[kc['waterfront'] == 0]['price'].mean()
wf_sigma = kc[kc['waterfront'] == 0]['price'].std()

nwf_mu = kc[kc['waterfront'] == 1]['price'].mean()
nwf_sigma = kc[kc['waterfront'] == 1]['price'].std()

In [None]:
x = np.linspace(wf_mu - 3*nwf_sigma, nwf_mu + 3*nwf_sigma, 100)

fig, ax = plt.subplots(1, 1)
ax.plot(x, stats.norm.pdf(x, wf_mu, wf_sigma),label='waterfront')
ax.plot(x, stats.norm.pdf(x, nwf_mu, nwf_sigma),label='no-waterfront')
ax.legend(loc='best', frameon=False)


In [None]:
stats.norm.interval(0.95, loc=wf_mu, scale=wf_sigma)

In [None]:
stats.norm.interval(0.95, loc=wf_mu, scale=wf_sigma)[0] < nwf_mu < stats.norm.interval(0.95, loc=wf_mu, scale=wf_sigma)[1]

Como a média das casas de frente para a água não está no intervalo de confiança da distribuição normal das casas que não estão de frente para a água, podemos afirmar que estar de frente para a água eleva o preço das casas.

In [None]:
nwf_mu

In [None]:
import scipy.stats as st

a = kc[kc['waterfront'] == 0]['price']
popmean = nwf_mu
st.ttest_1samp(a, popmean)