## Introdução ao Machine Learning - Kaggle

### Importando Pacotes

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split

### Importando os dados

In [None]:
# colocando o arquivo numa variável para facilitar o acesso
melbourb_file_path = 'C:/Users/Fred/OneDrive/Documentos/Datasets/archive/melb_data.csv'

# lendo os dados e salvado-os em um DataFrame chamado melbourne_data
melbourne_data = pd.read_csv(melbourb_file_path)

# mostrando um sumário dos dados em melbourne_data
melbourne_data.describe()

In [None]:
# visualizando todas as colunas da tabela
melbourne_data.columns

# removendo valores ausentes. axis = 0 linhas com valores ausentes;  axis = 1 remove colunas com valores ausentes.
melbourne_data = melbourne_data.dropna(axis= 0)

# elegendo alvo da predição, i. e., os valores reais. Por convenção, é nomeado como "y"
y = melbourne_data.Price

# elegendo características/colunas usadas para o modelo de predição
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

# Criando os dados correspondendo às características elegidas. Por convenção, esses dados são chamados X
X = melbourne_data[melbourne_features]

# verificando
X.describe()

In [None]:
# verificando de outra maneira, mostrando algumas linhas
X.head()

### Treinando Modelo

In [None]:
# definindo modelo. random_state=1 garante que o mesmo algoritmo de divisão da árvore de divisão será executado, garantindo os mesmos resultados 
melbourne_model = DecisionTreeRegressor(random_state=1)

# treinar modelo
melbourne_model.fit(X, y)

In [None]:
print('Fazendo predições para as próximas 5 casas:')
print(X.head())
print('As predições são:')
print(melbourne_model.predict(X.head()))

### Validação do Modelo
Mensurando a qualidade do modelo:
Na maioria dos casos, a precisão nas predições é a medida mais relevante para avaliar a qualidade de um modelo.

Obs: a performance de um modelo deve ser medida a partir de novos dados, e não sobre os mesmos dados que treinaram o modelo. A estes novos dados chamamos de _Dados de Validação_.

In [None]:
# calculando o erro absoluto médio (MAE)
predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

Pela função _train_test_split()_ Podemos dividir um conjunto de dados em dois conjuntos distintos. Assim, um pode desempenhar como Dados de Treinamento; ao passo que o outro pode servir de Dados de Validação.

a função train_test_split() vai alimentada com:
1- conjunto de entrada; 
2- conjunto de saída; 
3- random_state para garantir reprodutibilidade

In [None]:
# dividindo um conjunto de dados  
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)

# definindo modelo
melbourne_model = DecisionTreeRegressor()

# treinando modelo
melbourne_model.fit(train_X, train_y)

# predizendo preços sobre os Dados de Validação
val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))