#Primeiro Modelo de ML

Agora vamos construir nosso primeiro modelo de ML. Para começar, vamos ver as informações que temos coletadas sobre o mercado imobiliário (ou seja, vamos analisar as colunas):

In [1]:
import pandas as pd

file_path='/content/drive/MyDrive/Data Science/notebooks/Intro_to_Machine_Learning_Kagle/melbourne-housing-snapshot/melb_data.csv'

dados_melbourne=pd.read_csv(file_path) #Leitura e armazenamento dos dados csv no DataFrame intitulado dados_melbourne
dados_melbourne.columns #Retorna o nome das colunas

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

Tendo as colunas listadas, iremos escolher as variáveis mais importantes com base na nossa intuição. Mas antes, o Kaggle informa que há valores vazios e adotando a opção mais simples, iremos removê-las. Segue o tamanho do dataset antes de remover os vazios:

In [2]:
dados_melbourne.shape #Dados antes da remoção de vazios

(13580, 21)

Agora iremos remover os valores vazios:

In [3]:
dados_melbourne=dados_melbourne.dropna(axis=0) #Remove valores vazios
dados_melbourne.shape

(6196, 21)

Após a remoção de valores vazios, o data set passou de 13580 linhas e 21 colunas para 6196 linhas e 21 colunas.

##Selecionando o alvo de predição

Temos duas maneiras de selecionar um subconjunto de dados:


1.   **Dot notation** para selecionar o alvo de predição
2.   Seleção de características utilizando o **column list**

Obs.: temos duas maneiras de delecionar uma coluna de um Dataframe. A primeira é através do dot notation (df.col_name) e o segundo é através do bracket notation (df['col_name']). Não há diferenças significativas entre um e outro. O bracket notation acaba sendo mais simples de ser feito, mas o dot notation é mais fácil de ler e de ser lembrado, por exemplo. Então, fica a gosto do freguês. 





Iremos utilizar o preço das casas para fazer a predição. Por convenção, o alvo de predição é representado pela variável **y**:

In [8]:
y=dados_melbourne.Price #armazenei a coluna preço em uma variável do tipo séries

##Escolhendo as características

Iremos utilizar as colunas como características. Então conforme formos adicionando as colunas para prever o preço de uma casa, vamos adicionando o que chamamos de características, conforme o exemplo abaixo. Por convenção, estas características são chamadas de X:

In [17]:
X=dados_melbourne[['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']] #Características selecionadas

Como cientista de dados, é importante utilizar o describe() para ver a descrição estatística e o head() para verificarmos as primeiras linhas do nosso conjunto de características:

In [19]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [20]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


## Construindo o Modelo

Para construir o nosso modelo, iremos utilizar a biblioteca scikit-learn, uma das bibliotecas mais conhecidas para modelagem de dados.

Os passos para construir e utilizar um modelo são:


1.   **Definir:** Qual tipo de modelo iremos utilizar? 
2.   **Ajustar (Fit):** Capturar padrões dos dados fornecidos
3.   **Predizer (Predict):** O nome já diz por si só. Devemos predizer.
4.   **Validar (Evaluate):** Determinar a acurácia do modelo de predição



Para este curso, será utilizado a árvore de decisão como modelo exemplo:

In [23]:
from sklearn.tree import DecisionTreeRegressor

modelo_melbourne= DecisionTreeRegressor(random_state=1) #Defini o modelo e especifiquei o random_state=1

modelo_melbourne.fit(X, y) #Ajustando o modelo

random_state=1 significa que os dados serão reorganizados em dois estados (random_state=0 e random_state=1). Definindo a quantidade de estados, teremos sempre a mesma possibilidade de combinação de dados de treino e de teste. Caso não tivéssemos dado um valor, o modelo poderia escolher um valor diferente para cada estado, gerando resultados diferentes cada vez que fosse rodado o código.

Após ter o modelo, é necessário que ajustemos para ver o quão bem o modelo é genérico a dados semelhantes ao que foi treinado, conforme o passo a passo de como construir e utilizar um modelo.

Nós queremos prever o valor das casas que virão para o mercado imobiliário e não das casas que já existem no mercado. Porém, entretanto, todavia, iremos predizer o valor das primeiras linhas dos dados de treinamento para vermos como a predição funciona:

In [27]:
print("Realizando a predição das 5 primeiras casas dos dados de treino:")
print(X.head())
print('A predição dos valores são:')
print(modelo_melbourne.predict(X.head()))

Realizando a predição das 5 primeiras casas dos dados de treino:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
A predição dos valores são:
[1035000. 1465000. 1600000. 1876000. 1636000.]
