[<- Anterior](README.md)  |  [Proximo ->](cross_validation.ipynb)

# Conjunto de Treino e Conjunto de teste

A divisão dos dados em conjunto de treino e teste consiste em dividir o dataset utilizado para treinar o modelo separando parte desses dados para avaliar o modelo, garantindo que os resultados fornecidos pela avaliação do modelo sejam mais precisos e confiáveis. 

**O que será abordado**
- Imports
- Dataset de teste
- Conjunto de Treino e Conjunto de Teste

# Imports

In [1]:
# Import da biblioteca Pandas -> Utilizada na visualização dos dados e criação do Dataframe
import pandas as pd

# Import da Classe LinearRegression -> Utilizada para criar o modelo de regressão linear que será avaliado adiante
from sklearn.linear_model import LinearRegression

# Importação da função train_test_split -> Utilizada para divisão do dataset em conjunto de treino e conjunto de teste
from sklearn.model_selection import train_test_split

# Dataset de teste

Para o estudo do processo de separação dos dados será utilizado um dataset que possui diferentes tipos de dados e valores nulos. Dessa forma o dataframe de teste pode se aproximar de um caso real e pode ser usado para estudar diferentes ferramentas de pré-processamento.

O dataset utilizado está disponível na pasta Data desse diretório ([aperte aqui para acessar](../Data/PreProcessing_Test.csv)) e possui 100 linhas, apresentando valores nulos nas colunas 'Genero' e 'Salario'. O dataset apresenta uma coluna binaria 'Comprou' que indica se uma pessoa comprou um certo produto

In [7]:
#leitura do dataset
df = pd.read_csv('../Data/multilinearregression.csv')
df.head()

Unnamed: 0,ano,km_rodado,num_portas,preco
0,2012,60624,4,9557.521209
1,2015,50133,4,8862.174782
2,2021,103790,4,1082.340815
3,2000,72756,2,19852.921917
4,2003,134834,4,15053.799335


# Conjunto de Treino e Conjunto de Teste

Para realizar a separação dos datasets é possível utilizar a função `train_test_split()` da biblioteca scikit-learn. Essa função permite realizar a separação dos dados, retornando tanto os valores de entrada como os valores de saída esperados para realizar o treino e o teste do modelo.

Para realizar a separação do conjunto de treino e teste, é necessário primeiramente realizar a separação das features (valores de entrada - x) e target (valores de entrada - y). Após separar os valores é possível utilizar a função `train_test_split()`, a função recebe como parâmetros os conjuntos x (features) e y (target). Outros parâmetros da função são:

- train_size -> Define qual porcentagem do conjunto será usada para treino

- test_size -> Define qual porcentagem do conjunto será usada para teste

- randon_state -> Os conjuntos de dados devem ser embaralhados para realizar a separação, esse parâmetro garante que os dados de treino e de teste serão os mesmos sempre que a função for executada.

Os parâmetros train_size e test_size não precisam ser declarados juntos, isso é, basta declarar um deles.

O retorno da função são 4 conjuntos de dados que contém respectivamente:

- features_de_treino -> Valores de entrada do conjunto de treino
- features_de_teste -> Valores de entrada do conjunto de teste
- target_de_treino -> Valores de saída do conjunto de treino
- target_de_teste -> Valores de saída do conjunto de teste
  
Veja a aplicação no exemplo abaixo:

In [9]:
#separação dos conjuntos em features e target
x = df.drop(columns='preco') # x recebe todas as colunas do dataframe, exceto 'Comprou' pois esses são os valores que se deseja prever
y = df[['preco']] # y recebe os valores da coluna 'Comprou', esses são so valores que devem ser previstos.

#Separa os conjuntos de dados em treino e teste - train_size = 0.8 indica que os dados de treino representam 80% do conjunto
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=42)

Ao executar o comando dessa forma, os dados de treino e teste são distribuidos estre as variaveis x_train, x_test, y_train, y_test

Assim:

- x_train -> features de treino
- x_test -> features de teste 
- y_train -> target de treino
- y_test -> target de teste

À partir desse momento, os dados estão separados e podem ser usados para validar o desempenho do modelo.

Veja abaixo um exemplo de como os datasets criados com `train_test_split()` podem ser usados para avaliar o modelo.

In [13]:
# Cria o modelo que será avaliado
model = LinearRegression()

# Treino do modelo realizado com o conjunto de teste
model.fit(x_train, y_train)

# Faz a avaliação do modelo e armazena o resultado na variavel score
score = model.score(x_test, y_test)

# Exibição do desempenho do modelo
print(f'O score do modelo é: {score:.2f}')

O score do modelo é: 0.97


Percaba que nessa etapa, foram utilizados os conjuntos de treino gerados pela função `train_test_split()` para treinar um modelo de Regressão Linear, o que é feito com o método `.fit()` do modelo criado, que recebeu como parametro os conjuntos de treino ocmo parametro.

Em seguida, através do método `.score()` é possivel avaliar o desempenho do modelo utilizando os conjuntos de teste gerados pela função `train_test_split()`. Nessa ocasião, como os dados de treino são diferentes dos dados de teste, é possivel ter uma maior confiança no retorno exibido pela função `.score()`.

> A criação de modelos de Regressão Linear conforme demonstrado nesse exemplo é abordada de forma mais profunda em no documento [linearregression_multi.ipynb](../Modelos/Regressao/linearregression_multiple.ipynb)

#
[<- Anterior](README.md)  |  [Proximo ->](cross_validation.ipynb)