# Brincando de casinha

## O que queremos?
- Verificar a correlação entre o ano de contrução da casa e seu preço.

## O que temos que fazer?
- "Limpar" os dados (tirar os valores faltantes e os outliers)
- Analisar os dados (pensar usando a estatística)
- tirar conclusões  (...)

### Primeiros passos

In [None]:
import pandas as pd
import seaborn as sns

path = "./"
file = "kc_house_data.csv"
ds = pd.read_csv(f"{path+file}", sep=",")

In [None]:
ds.head()

### Pre processamento (limpeza)

In [None]:
# reduzindo nossa "area de trabalho"
q1 = ds.loc[:, ("yr_built", "yr_renovated", "price")] # recomendado
#q1 = ds[["yr_built", "yr_renovated", "price"]] - não recomendado
q1.describe()

In [None]:
# retirando linhas que tem algum valor faltando
q1.dropna(inplace=True)
# ds = ds.dropna()
q1.isna().sum()

In [None]:
# procurando outliers no preço (valores muito maiores ou menores que o "normal" da amastra)
sns.boxplot(q1.price)

In [None]:
# existem varias formas de definir um intervalo valido
print(f"intervalo antes: [{q1.price.min()}, {q1.price.max()}]")


# algumas vezes, aliás, não é necessário redimensionar o intervalo dos dados
# em outras você não Deve. Aqui vou fazer.
muitoAbaixo = q1["price"].quantile(0.15)
muitoAcima  = q1["price"].quantile(0.85)

q1 = q1.loc[(q1["price"] < muitoAcima) & (q1["price"] > muitoAbaixo)]
print(f"intervalo depois: [{df_filtered.price.min()}, {df_filtered.price.max()}]")

In [None]:
sns.boxplot(data = q1, x = "price")

### Analisando

In [None]:
# Vamos discretizar, separar os preços em faixas bem definidas
faixas = ["barato", "medio", "caro"]
q1["classification"] = pd.cut(q1.price, 3, labels=faixas)
# 3 intervalos igualmente espaçados
q1.head()

In [None]:
sns.histplot(data=q1, x="classification")
#eixo y é o número de elementos dentro desse intervalo

In [None]:
# criando outras colunas para filtra
q1.loc[q1["yr_renovated"] > 0, "isRenovated"] = 1
# 0 = não renovada, 1 = renovada

q1["idadeCasa"] = pd.cut(q1.yr_built, 3, labels=["velha", "adulta", "nova"])

q1.head(10)

In [None]:
sns.barplot(data=q1, x="idadeCasa", y="price", hue="isRenovated")

In [None]:
sns.heatmap(q1.corr(numeric_only=True))

### conclusões

- Pelos gráficos (não mostraram tendência) e pelo valor da correlação (perto de 0) podemos afirmar que o preço não varia de acordo com a idade da casa, ao menos não diretamente.