# House Sales in King County, USA

https://www.kaggle.com/datasets/harlfoxem/housesalesprediction/data

Temos 21 colunas no conjunto de dados, conforme segue:

- **id:** Identificação única de cada imóvel.
- **date:** Data em que a venda foi registrada.
- **price:** Preço de venda do imóvel (em dólares).
- **bedrooms:** Número de quartos no imóvel.
- **bathrooms:**  Número de banheiros no imóvel (pode incluir frações, como 0.5 para lavabo).
- **sqft living:** Área habitável do imóvel (em pés quadrados).
- **sqft lot:** Área total do lote do imóvel (em pés quadrados).
- **floors:** Número de andares (pavimentos) do imóvel.
- **waterfront:**  Indica se o imóvel possui vista para a água (1 = sim, 0 = não).
- **view:** Índice de qualidade da vista (0 a 4).
- **condition:** Índice de condição geral do imóvel (1 = muito ruim, 5 = excelente).
- **grade:** Qualidade da construção e design (escala de 1 a 13, com base em padrões de avaliação locais).
- **sqft above:** Área habitável acima do solo (em pés quadrados).
- **sqft basement:** Área habitável no porão (em pés quadrados).
- **yr built:** Ano em que o imóvel foi construído.
- **yr renovated:** Ano em que o imóvel foi reformado (0 se nunca foi reformado).
- **zipcode:** CEP do imóvel, indicando a região dentro do condado.
- **lat:** Latitude da localização do imóvel (coordenada geográfica).
- **long:** Longitude da localização do imóvel (coordenada geográfica).
- **sqft living15:** Área habitável média dos 15 imóveis mais próximos (em pés quadrados).
- **sqft lot15:** Área do lote média dos 15 imóveis mais próximos (em pés quadrados).

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

import os

# Exibe o diretório de trabalho atual
#print(os.getcwd())

In [None]:
# Alterar o formato global para notação padrão com 6 casas decimais
pd.options.display.float_format = '{:.2f}'.format


# Restaurar o formato original
#pd.reset_option('display.float_format')

## Carregar o conjunto de dados

In [None]:
df = pd.read_csv('archive/kc_house_data.csv')
df.head()

## Informações básicas sobre o conjunto de dados

#### Dimensado do dataset

In [None]:
print(f'Número de linhas: {df.shape[0]}  \nNúmero de colunas: {df.shape[1]}')

#### Exibir os tipos de dados de cada coluna do nosso conjunto de dados

In [None]:
df.dtypes

Aparentemente todas as variáveis apresentam formato adequado, exceto a variável "date", que iremos converter adiante para uma forma de data mais legível.

#### Resumo estatístico dos dados

In [None]:
colunas_de_interesse = [col for col in df.select_dtypes(include = ['int64','float64']) if col not in ['zipcode','lat','long']]

df[colunas_de_interesse].describe().T

## Data Wrangling

Data Wrangling, também chamado de data cleaning ou data preprocessing, é o processo de preparar dados brutos para análise. Ele envolve transformar, limpar e organizar os dados para que estejam em um formato adequado para extração de informações úteis, geração de relatórios ou desenvolvimento de modelos de aprendizado de máquina.

#### Conversão de tipos de variáveis

In [None]:
df['date'] = pd.to_datetime(df['date'])

In [None]:
df['date'].info()

#### Remover coluna "id"

Tal coluna não será relebante para nossa análise.

In [None]:
df.drop(labels = 'id', axis=1, inplace=True)

#### Existe valores (nulos) ausentes e/ou valores duplicados?

In [None]:
df.isnull().sum()

In [None]:
df.duplicated().sum()

O nosso conjunto de dados não possui valores nulos nem valores duplicados.

#### Converter variáveis de dimensões dos imóveis de pés quadrado para metros quadrado

Trabalhar com unidade de medida em metros facilita o entendimento do nosso case.

Temos que :    $$ 1 ft^2 = 0,0929 m^2 $$

Portanto, nossa fórmula de conversão será:

$$ Metros Quadrados = Pés Quadrados/10,7639$$

In [None]:
divisor_conversao = 10.7639

In [None]:
df['sqft_living'] = (df['sqft_living']/divisor_conversao).round(2)
df['sqft_lot'] = (df['sqft_lot']/divisor_conversao).round(2)
df['sqft_above'] = (df['sqft_above']/divisor_conversao).round(2)
df['sqft_basement'] = (df['sqft_basement']/divisor_conversao).round(2)

In [None]:
df['sqft_living15'] = (df['sqft_living15']/divisor_conversao).round(2)
df['sqft_lot15'] = (df['sqft_lot15']/divisor_conversao).round(2)

In [None]:
variaveis_de_dimensoes = ['sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'sqft_living15', 'sqft_lot15']

df[variaveis_de_dimensoes].describe().round(2).T

## Análise Exploratória dos dados

In [None]:
df.head()

#### Distribuição das variáveis do nosso conjunto de dados

In [None]:
# Atualizar comando pois a coluna "id" não é de nosso interesse
colunas_de_interesse = [col for col in df.select_dtypes(include = ['int64','float64']) if col not in ['zipcode','lat','long']]

In [None]:
# Criar uma figura com uma grade de subplots
fig, axes = plt.subplots(2, 4, figsize=(9, 4), facecolor = '#fbf5e7')

# Iterar sobre cada subplot e os dados correspondentes usando axes.flat
for ax, num in zip(axes.flat, range(len(colunas_de_interesse[0:8]))):
    sns.histplot(df[colunas_de_interesse[num]],bins = 75, kde=False, ax=ax)
    ax.set_xlabel("Valor")
    ax.set_ylabel("Frequência")
    ax.set_title(f'{colunas_de_interesse[num]}')

# Ajustar o layout
plt.tight_layout()
plt.show()

In [None]:
# Criar uma figura com uma grade de subplots
fig, axes = plt.subplots(2, 4, figsize=(9, 4), facecolor = '#fbf5e7')

# Iterar sobre cada subplot e os dados correspondentes usando axes.flat
for ax, num in zip(axes.flat, range(8,len(colunas_de_interesse))):
    sns.histplot(df[colunas_de_interesse[num]],bins = 75, kde=False, ax=ax)
    ax.set_xlabel("Valor")
    ax.set_ylabel("Frequência")
    ax.set_title(f'{colunas_de_interesse[num]}')

# Ajustar o layout
plt.tight_layout()
plt.show()

- Price

In [None]:
df['price'].describe()

In [None]:
plt.figure(figsize=(5,3))
sns.boxplot(df['price'], orient='h')
plt.show()

In [None]:
#np.percentile(df['price'], 95)

In [None]:
df.loc[df['price'] > 5000000]

As caracteristicas dos imóveis (como View, Condition, Grade e demais aspectos) parecem ser coerentes com o preço. Imóveis antigos com boa qualidade de construção e design e com boas condições gerais são bem avaliados, tendo grande valor agregado.
<br>
<br>
Apesar destas características poderem ser condizentes, essas observações com outliers podem gerar problemas para modelos que possuem distribuição normal como pressuposição.

- Bedrooms

In [None]:
df['bedrooms'].value_counts().to_frame().sort_values(by='bedrooms').T

In [None]:
df.loc[df['bedrooms'] == 33]

É improvável que um imóvel de 150 metros quadrados de área habitavel tenha 33 quartos em um único andar e apenas um banheiro completo e outro quase completo para atender todos os "hospedes" simultaneamente. Portanto, vamos remover esta linha de nosso conjunto de dados.

In [None]:
df.drop(np.where(df['bedrooms'] == 33)[0], axis=0, inplace=True)

In [None]:
df.loc[(df['bedrooms'].isin([9,10,11]))]

A metragem quadrada para os demais números de quartos parece ser coerente, portanto, vamos manter.

In [None]:
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.countplot(data=df, x='bedrooms', color = '#021841ff')
plt.subplot(1,2,2)
sns.boxplot(data=df, x='bedrooms', y='price')
plt.show()

- Bathrooms

Os valores fracionários indicam a presença de lavabos ou banheiros parciais. Um lavabo é um banheiro que geralmente contém apenas um vaso sanitário e uma pia, sem chuveiro ou banheira.

Exemplos:

1.0: Um banheiro completo (com chuveiro/banheira).     <br>
1.5: Um banheiro completo e um lavabo (1 banheiro completo + 0.5 de lavabo). <br>
2.25: Dois banheiros completos e um lavabo pequeno (1 lavabo = 0.25).<br>
0.75: Um banheiro quase completo (pode ter vaso sanitário, pia e um chuveiro pequeno, mas sem banheira).<br>

A fracionária é usada para refletir a funcionalidade do banheiro, atribuindo pesos aos componentes.

In [None]:
np.sort(df['bathrooms'].unique())

In [None]:
df['bathrooms'].value_counts().to_frame().sort_values(by='bathrooms').T

In [None]:
plt.figure(figsize=(7,5.5))
sns.countplot(y = 'bathrooms', data = df, color = '#021841ff')
plt.show()

In [None]:
df.loc[df['bathrooms'] == 8]

A quantidade de quartos é condizente com a metragem o imóvel.

- Sqft_living

In [None]:
plt.figure(figsize=(5,3))
sns.boxplot(df['sqft_living'], orient='h')
plt.show()

In [None]:
df.loc[df['sqft_living' ] > 1000]

- Sqft_basement

In [None]:
plt.figure(figsize=(5,3))
sns.boxplot(df['sqft_basement'], orient='h')
plt.show()

In [None]:
df.query('sqft_basement > 300')

In [None]:
df['sqft_basement'].value_counts().to_frame().sort_values(by='sqft_basement').T

In [None]:
has_basement = list()
for i in df['sqft_basement']:
    if i == 0:
        has_basement.append(0)
    else:
        has_basement .append(1)
       
df['has_basement'] = has_basement 

In [None]:
plt.figure(figsize=(4.5,3.5))
sns.countplot(x = 'has_basement', data = df, width=0.35, color = '#021841ff')
plt.show()

In [None]:
(df['has_basement'].value_counts()/df.shape[0])*100

- Sqft_lot

In [None]:
plt.figure(figsize=(8.5,3))
sns.boxplot(df['sqft_lot'], orient='h')
plt.show()

In [None]:
df.query('sqft_lot >= 65000')

In [None]:
df.query('sqft_lot >= 65000').shape

Temos 12 imóveis com tamanho de lote acima de 65 mil metros quadrados. As áreas internas dos apartamentos são pequenas qunado comparadas com o tamanho do lote, ou seja, grande área externa.

- Floors

Os valores fracionários em floors representam pavimentos intermediários ou mezaninos. Essas estruturas podem ser níveis parciais que não se estendem por toda a área da casa.

Exemplos:

1.0: Uma casa com um andar completo.<br>
1.5: Uma casa com um andar completo e um mezanino ou nível parcial.<br>
2.0: Uma casa com dois andares completos.<br>


In [None]:
df['floors'].value_counts().to_frame().sort_values(by='floors').T

In [None]:
plt.figure(figsize=(4.5,3.5))
sns.countplot(y = 'floors', data = df, width=0.35, color = '#021841ff')
plt.show()

In [None]:
(df['floors'].value_counts().to_frame().sort_values(by='floors')['count'])/(df['floors'].value_counts().to_frame()['count'].sum())*100

87,54% dos imóveis possuem 1 ou 2 andares completos, isto é, sem mezaninos ou níveis parciais.

- Condition

In [None]:
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.countplot(data=df, x='condition', color = '#021841ff')
plt.subplot(1,2,2)
sns.boxplot(data=df, x='condition', y='price')
plt.show()

Imóveis com condições intermediárias, como, as de classificação 3 e 4, possuem valores de outliers mais altos do que imóveis mais bem avaliados. Isso implica que as avaliações não existe um padrão bem definido.
<br>
Contudo, observando **dentro dos limites inferiores e superiores**, os imóveis com classificação 3 e 4 possuem mesmo configuração de distribuição para o 1° quartil, mediana e 3° quartil. Já os imóveis de classificação 5 tem o simite superior levemente maior que os demais. Os imóveis com classificação 1 2 dois também apresentão configurações parecidas para o intervalo interquartil e seus limites.
<br>
Tais características implicam não haver um critério bem definido para as avaliações dos imóveis. Assim, a maior diferenciação é dada pelos valores outlires.

- Waterfront

In [None]:
df['waterfront'].value_counts().to_frame().T

Menos de 1% dos imóveis tem vista para água.

- View

In [None]:
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.countplot(data=df, x='view', color = '#021841ff')
plt.subplot(1,2,2)
sns.boxplot(data=df, x='view', y='price')
plt.show()

In [None]:
df['view'].value_counts().to_frame().sort_values(by='view').T

Já para a avaliação da vista dos imóveis é bem mais claro que vistas melhores são mais bem recompensadas.

- Grade

In [None]:
df['grade'].value_counts().to_frame().sort_values(by='grade').T

In [None]:
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
sns.countplot(data=df, x='grade', color = '#021841ff')
plt.subplot(1,2,2)
sns.boxplot(data=df, x='grade', y='price')
plt.show()

A medida que a qualidade da construção e design são mais bem avaliadas aumenta também o valor de venda dos imóveis.

- yr_renovated

In [None]:
df['yr_renovated'].value_counts().to_frame().sort_values(by='yr_renovated').T

In [None]:
((20698/df['yr_renovated'].value_counts().to_frame()['count'].sum())*100).round(2)

95,77% dos imóveis nunca passaram por reforma, apesar de 50% do total de imóveis possuir mais de 40 anos de construção.  

In [None]:
plt.figure(figsize=(5,3))
sns.histplot(data=df, x='yr_renovated')
plt.show()

In [None]:
yr_reforma = list()
for i in df['yr_renovated']:
    if i == 0:
        yr_reforma.append(0)
    else:
        yr_reforma .append(1)
       
df['has_renovated'] = yr_reforma 

In [None]:
plt.figure(figsize=(5,3))
sns.histplot(data=df, x='has_renovated')
plt.show()

#### Coeficiente de correlação

In [None]:
colunas_de_interesse = [col for col in df.select_dtypes(include = ['int64','float64']) if col not in ['zipcode','lat','long']]
colunas_de_interesse

In [None]:
coolwarm_cmap = plt.colormaps['coolwarm']
coolwarm = [coolwarm_cmap(i/255) for i in range(256)]
coolwarm_colors = [f"rgba({int(r*255)}, {int(g*255)}, {int(b*255)}, {a})" for r, g, b, a in coolwarm]

cor = df[colunas_de_interesse].corr().round(2)
mask = np.triu(np.ones_like(cor, dtype=bool))
cor = cor.mask(mask)

fig = px.imshow(
    cor,
    text_auto=True,
    aspect="auto",
    height= 550,
    width=1000,
    color_continuous_scale=coolwarm_colors,
    labels=dict(color="Correlação"),
    title='Correlação entre variáveis'
)

fig.update_layout(plot_bgcolor='#fbf5e7')
fig.show()

- Observações:

1. **sqft_living** tem correlação FORTE com **sqft_above**.            
2. **sqft_living** tem correlação FORTE com **sqft_living15**.           
3. **sqft_living** tem correlação FORTE com **grade**.                
4. **sqft_living** tem correlação FORTE com **bathrooms**.
5. **sqft_living** tem correlação MODERADA com **bedrooms**.          
6. **sqft_lot** tem correlação FORTE com **sqft_lot15**.              
7. **sqft_above** tem correlação FORTE com **sqft_lot15**.
8. **sqft_living15** tem correlação FORTE com **grade**.
9. **sqft_above** tem correlação FORTE com **grade**.
10. **sqft_above** tem correlação MODERADA com **bathrooms**.
11. **bathrooms** tem correlação MODERADA com **grade**.
12. **bathrooms** tem correlação MODERADA com **sqft_living15**.
13. **yr_built** tem correlação MODERADA com **bathrooms**.
14. **yr_built** tem correlação NEGATIVA FRACA com **condition**.
15. **bathrooms** tem correlação MODERADA com **bedrooms**.
16. **bathrooms** tem correlação MODERADA com **floors**.
17. **floors** tem correlação NEGATIVA FRACA com **condition**.
19. **floors** tem correlação NEGATIVA FRACA com **sqft_basement**.