# Exploração de Dados
Exercício para exploração e compreensão de estatística dos dados lidos

In [6]:
# Configurações úteis:
import pandas as pd

# Variável que recebe o ano atual
import datetime

todays_date = datetime.date.today()

In [5]:
# Caminho para o arquivo
iowa_file_path = '../data/train.csv'

# Armazena o arquivo na variável home_data
home_data = pd.read_csv(iowa_file_path)

# Imprime o sumário de estatísticas
home_data.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [11]:
# Tamanho médio dos lotes (arredondado para o inteiro mais próximo)
avg_lot_size = round(home_data['LotArea'].mean())

# Recebe a idade da casa mais nova no dataset (ano_atual - maior_ano_de_construção)
newest_home_age = (todays_date.year - home_data['YearBuilt'].max())

print("Tamanho médio dos lotes:", avg_lot_size)
print("Idade da casa mais nova no dataset:", newest_home_age)

Tamanho médio dos lotes: 10517
Idade da casa mais nova no dataset: 13


### Selecionando dados para o modelo
Um dataset com muitas variáveis pode ser demais para lidar de um jeito bom. Podemos reduzir essa quantidade de informações para algo mais compreensível.

Vamos começar selecionando algumas variáveis intuitivamente. Podemos visualizar uma lista das colunas de um conjunto de dados para escolher dentre elas.

In [12]:
melbourne_file_path = '../data/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [13]:
# O dataset possui alguns valores em falta
# Vamos apagar casas com valores em falta do conjunto. 
# dropna apaga valores em falta (pense em na como "not available")
melbourne_data = melbourne_data.dropna(axis=0)

Há diferentes formas de selecionar um subconjunto dos dados, vamos focar em duas:
1. Dot notation, que usamos para selecionar o "prediction target" (o alvo a ser predito)
2. Selecionando com uma lista de colunas, que usamos para selecionar as "features" (As colunas de entrada para a previsão)

Podemos sacar uma variável para ser nosso alvo com `dot_notation`, essa coluna única é armazenada em uma `Series`, que funciona como um DataFrame com uma única coluna de dados.

Para selecionar as features da previsão, nós provemos uma lista de strings com os nomes das colunas com as colunas desejadas para determinar o alvo. Ás vezes serão todas as colunas exceto o alvo, outras vezes é melhor trabalhar com um subconjunto menor das colunas.

In [15]:
# Salvando a coluna que queremos prever em uma Series
y = melbourne_data.Price

y.describe()

count    6.196000e+03
mean     1.068828e+06
std      6.751564e+05
min      1.310000e+05
25%      6.200000e+05
50%      8.800000e+05
75%      1.325000e+06
max      9.000000e+06
Name: Price, dtype: float64

In [19]:
# Definindo a lista de colunas para features
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
# Salvando o conjunto de dados com as colunas desejadas em um DataFrame
X = melbourne_data[melbourne_features]

# Para um sumário dos dados
# X.describe()

# Para mostrar as primeiras linhas do DataFrame
# X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954
