# EXEMPLO DE APRENDIZADO DE MÁQUINA.

Esse exemplo é um modelo de previsão, **"Prever Preços de Habitação"**, usando dados fornecidos pelo Kaggle (https://www.kaggle.com/datasets/harlfoxem/housesalesprediction). 

## Pever preços de habitação.

In [7]:
#importando pandas.
import pandas as pd
#importando o arquivo, excluindo duas colunas não necessárias.
df = pd.read_csv("C:\\Users\\engce\\OneDrive\\Documentos\\Estoque\\archive.zip").drop(columns=["id", "date"])
df

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,221900.0,3,1.00,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,180000.0,2,1.00,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,604000.0,4,3.00,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,510000.0,3,2.00,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,360000.0,3,2.50,1530,1131,3.0,0,0,3,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,400000.0,4,2.50,2310,5813,2.0,0,0,3,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,402101.0,2,0.75,1020,1350,2.0,0,0,3,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,400000.0,3,2.50,1600,2388,2.0,0,0,3,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


## Como trabalhar com tantas informações?

É mostrado a seguir, aqui consiste em trabalhar com a predominância da variável preço. Simplificar, reconhecendo o preço e associando as colunas. Isso já é grande parte do modelo, pois aqui é feita o reconhecimento dos dados.

In [8]:
#importação da biblioteca responsável pelo modelo.
from sklearn.model_selection import train_test_split

#Definindo as váriaveis(colunas), variável destino sendo o preço.
train_df, test_df = train_test_split(df, test_size=0.2, random_state=4)


X_train = train_df.drop(columns=["price"])
y_train = train_df["price"]
X_test = test_df.drop(columns=["price"])
y_test = test_df["price"]

## Como o modelo reconhecerá os dados?

Os dados vão ser transformados em "números", assim criando **padrões dos dados** é possível operar melhor o que os dados nos comunicam.

In [9]:
#Transformando os dados em padrões.
from xgboost import XGBRegressor

model = XGBRegressor()
model.fit(X_train, y_train);

In [10]:
#Novo dataframe com as predições já trabalhadas.
pred_df = pd.DataFrame({
    "predicted_price": model.predict(X_test),
    "actual_price": y_test
})
pred_df.join(X_test)

Unnamed: 0,predicted_price,actual_price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
13248,350672.68750,311100.0,4,2.25,2130,8078,1.0,0,0,4,7,1380,750,1977,0,98055,47.4482,-122.209,2300,8112
5309,634253.37500,535000.0,3,2.50,2210,7620,2.0,0,0,3,8,2210,0,1994,0,98052,47.6938,-122.130,1920,7440
10962,316480.40625,271000.0,4,1.50,1800,9576,1.0,0,0,4,7,1800,0,1977,0,98045,47.4664,-121.747,1370,9576
20976,618786.62500,705000.0,3,2.50,1580,1321,2.0,0,2,3,8,1080,500,2014,0,98107,47.6688,-122.402,1530,1357
19957,834558.37500,840000.0,2,2.50,1680,975,3.0,0,0,3,9,1680,0,2009,0,98119,47.6321,-122.361,1680,977
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8527,730077.62500,610000.0,4,2.75,2640,8400,1.0,0,2,3,8,1440,1200,1947,0,98144,47.5882,-122.290,2610,6000
16521,240445.50000,187000.0,3,2.50,1730,1803,2.0,0,0,3,7,1730,0,2005,0,98166,47.4648,-122.335,1190,7980
17198,329056.96875,305000.0,3,2.00,1490,7697,1.0,0,0,3,7,1490,0,1994,0,98059,47.4852,-122.164,1540,7529
7539,950900.50000,809000.0,4,1.50,1840,4337,2.0,0,0,4,8,1840,0,1917,0,98112,47.6312,-122.307,2250,4337


# As predições estão concluidas?

Sim, basicamente o que foi feito: 
    
   **Treinamento do Modelo:** Você treina um modelo de aprendizado de máquina usando um conjunto de dados de treinamento, onde o modelo aprende a reconhecer padrões nos dados.

   **Previsões:** Depois de treinado, o modelo é capaz de fazer previsões com base nas características fornecidas, usando os padrões que aprendeu durante o treinamento.

   **Criação do DataFrame de Previsões:** Para avaliar o desempenho do modelo, você cria um DataFrame, como pred_df, que contém as previsões feitas pelo modelo (geralmente na coluna "predicted_price"), bem como os valores reais da variável de destino (geralmente na coluna "actual_price") para os dados de teste.

   **Avaliação do Desempenho:** Você pode então usar esse DataFrame para comparar as previsões do modelo com os valores reais. Isso permite avaliar o quão bem o modelo está funcionando e se está fazendo previsões precisas.

## Ou seja, foi feito um processo de treinamento do modelo. 

Para não conferir por coluna por vez, basta conferir o modelo por inteiro. Para isso, é estar entre **0 e 1 sobre a qualidade geral do nosso modelo.**

In [11]:
model.score(X_test, y_test)

0.8906220203134019