### **Carregando os Dados**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/analise_vendas_imoveis/dados_imoveis.csv')

In [3]:
qtd_linhas = df.shape[0]
qtd_colunas = df.shape[1]
print(f'Tamanho do DataFrame:\nColunas: {qtd_colunas}\nLinhas: {qtd_linhas}')

Tamanho do DataFrame:
Colunas: 21
Linhas: 21613


In [4]:
nome_colunas = df.columns
print(f'COLUNAS DATAFRAME: \n\n{nome_colunas}')

COLUNAS DATAFRAME: 

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long',
       'sqft_living15', 'sqft_lot15'],
      dtype='object')


In [5]:
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639


### **Dicionário de Dados**

| Coluna | Descrição |
|--------|-----------|
| id | referência de cada imóvel |
| date | data de registro do imóvel na base de dados |
| price | refere-se ao preço do imóvel |
| bedrooms | quantidade de banheiros |
| bathrooms | quantidade de quartos |
| sqft_living | área construida do imóvel em pés quadrados(f²) |
| sqft_lot | área total do lote em pés quadrados(f²) |
| floors | quantidade de andares |
| waterfront | campo booleano que indica se o imóvel possui vista para o mar |
| view | indica a qualidade da vista em uma escala de [0 - 4] |
| condition | indica as condicoes do imóvel em uma escala de [1 - 5] |
| grade | avaliacao do imovel |
| sqft_above | area construida nos pavimentos de cima do imóvel em pés quadrados(f²) |
| sqft_basement | area construida no subsolo do imovel em pés quadrados(f²) |
| yr_built | ano de construção do imóvel |
| yr_renovated | ano de reforma do imóvel |
| zipcode | cep |
| lat | latitude |
| long | logitude |
| sqft_living15 | área habitável do imóvel, em pés quadrados(f²), em relação aos 15 vizinhos mais próximos |
| sqft_lot15 | area habitável do terreno, em pés quadrados(f²), em relação aos 15 vizinhos mais próximos |

### **Explorando os Dados**

In [6]:
# Avaliando Dados Nulos
df.isnull().sum()

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

Por se tratar de uma base do Kaggle, é esperado que alguns tratamentos prévios foram realizados, o que se comprova pela falta de dados Nulos.

In [7]:
print('Informações do DataFrame, antes do tratamento:\n')
print(df.info())

Informações do DataFrame, antes do tratamento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat

Algumas variáveis parecem estar em um formato não habitual, como por exemplo **bathrooms** e **floors** que estão com o tipo *float*. Uma transformação na coluna **date** também seria interessante para facilitar cálculos futuros.

In [8]:
df = df.astype({'bathrooms': 'int', 'floors': 'int'})

In [9]:
df['date'] = pd.to_datetime(df['date'])

In [10]:
print('Informações do DataFrame, após tratamento:\n')
print(df.info())

Informações do DataFrame, após tratamento:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             21613 non-null  int64         
 1   date           21613 non-null  datetime64[ns]
 2   price          21613 non-null  float64       
 3   bedrooms       21613 non-null  int64         
 4   bathrooms      21613 non-null  int64         
 5   sqft_living    21613 non-null  int64         
 6   sqft_lot       21613 non-null  int64         
 7   floors         21613 non-null  int64         
 8   waterfront     21613 non-null  int64         
 9   view           21613 non-null  int64         
 10  condition      21613 non-null  int64         
 11  grade          21613 non-null  int64         
 12  sqft_above     21613 non-null  int64         
 13  sqft_basement  21613 non-null  int64         
 14  yr_built       21613 non-nu