[<- Anterior](train_test_split.ipynb)  |  [Proximo ->](../Metricas/README.md)

# Validação Cruzada

A técnica de validação cruzada é uma forma de realizar a validação de um modelo de Inteligencia Artificial. Essa técnica consiste em dividir um unico conjunto de dados em varias partes que serão usadas para treinar e avaliar o modelo.

Essa técnica permite ter uma maior confiança no desempenho do modelo, já que realiza o treino e o teste em diferentes conjuntos de dados.

**O que será abordado**
- Imports
- Dataset de teste
- Validação Cruzada

# Imports

In [1]:
# Import da biblioteca Pandas -> Utilizada na visualização dos dados e criação do Dataframe
import pandas as pd

# Importação do modelo para teste -> Será utilizado para verificar o funcionamento do modelo
from sklearn.linear_model import LinearRegression

# Importação da função de média do numpy -> utilizado para medir o desempenho médio do modelo
from numpy import mean

# Importação da função train_test_split -> Utilizada para divisão do dataset em conjunto de treino e conjunto de teste
from sklearn.model_selection import cross_val_score

# Dataset de teste

Para o estudo do processo de separação dos dados será utilizado um dataset que possui diferentes tipos de dados e valores nulos. Dessa forma o dataframe de teste pode se aproximar de um caso real e pode ser usado para estudar diferentes ferramentas de pré-processamento.

O dataset utilizado está disponível na pasta Data desse diretório ([aperte aqui para acessar](../Data/PreProcessing_Test.csv)) e possui 100 linhas, apresentando valores nulos nas colunas 'Genero' e 'Salario'. O dataset apresenta uma coluna binaria 'Comprou' que indica se uma pessoa comprou um certo produto

In [2]:
#leitura do dataset
df = pd.read_csv('../Data/multilinearregression.csv')
df.head()

Unnamed: 0,ano,km_rodado,num_portas,preco
0,2012,60624,4,9557.521209
1,2015,50133,4,8862.174782
2,2021,103790,4,1082.340815
3,2000,72756,2,19852.921917
4,2003,134834,4,15053.799335


# Validação Cruzada

Para realizar a validação de um modelo é possível utilizar a função `cross_val_score()` da biblioteca scikit-learn. Essa função permite realizar o processo de validação cruzada, retornando os dados da avaliação do modelo em cada conjunto de dados utilizado pelo método.

Para realizar a validação cruzada de um modelo, é necessário primeiramente realizar a separação das features (valores de entrada - x) e target (valores de entrada - y). Em seguida, é necessário a criação de um modelo para ser validado de acordo com o método. Após separar os valores é possível utilizar a função `cross_val_score()`, a função recebe como parâmetros o modelo que se deseja validar e os conjuntos x (features) e y (target). Outros parâmetros da função são:

- **cv** = quantos conjuntos de dados devem ser criados para validar o modelo

Um resumo da função pode ser entendido como:

- 1° O conjunto de dados do modelo é dividido em *cv* partes.
- 2° Uma parte do conjutno é utilizada para treinar o modelo.
- 3° O modelo é avaliado utilizando as demais partes do conjunto original.
- 4° Os processos 2 e 3 são repetidos até que todas as partes do conjunto de dados tenham sido utilizadas para o treino.
- 5° Avaliamos o desepenho do modelo para cada conjunto utilizado no processo de treino.

O retorno da função é um array com o score de cada teste realizado.

Veja a aplicação no exemplo abaixo:

In [3]:
# Separação dos conjuntos em features e target
x = df.drop(columns=['preco']) # x recebe todas as colunas do dataframe, exceto 'Comprou' pois esses são os valores que se deseja prever
y = df[['preco']] # y recebe os valores da coluna 'Comprou', esses são so valores que devem ser previstos.

# Criação do modelo para validação
model = LinearRegression()

# Execuxão da validação
score = cross_val_score(model, x, y, cv=5)

# Exibição do desempenho do modelo
print(f'O desempenho do modelo é: {score}')
print(f'O desempenho médio do modelo é {mean(score):.2f}')

O desempenho do modelo é: [0.95743995 0.9662767  0.97859876 0.94840873 0.9706752 ]
O desempenho médio do modelo é 0.96


Perceba que, ao usar a função `cross_val_score()` o resultado é um array com 5 valores. Isso ocorre por que o valor 5 foi fonecido para o parametro cv.

Dessa forma, o conjunto de dados formado pelas features (x) e targets (y) é dividido em 5 conjuntos diferentes, sendo que, para cada conjunto diferente, um conjunto foi usado para treinar o modelo, enquanto os demais foram usados para avaliar o desempenho do modelo. Os resultados obtidos se referem ao desempenho do modelo para cada conjunto utilizado para treino durante a execução do desse processo.

Nesse caso, podemos perceber que o modelo de Regressão Linear criado possui um desempenho médio de 96% para o conjunto de dados utilizados.

> A criação de modelos de Regressão Linear conforme demonstrado nesse exemplo é abordada de forma mais profunda em no documento [linearregression_multi.ipynb](../Modelos/Regressao/linearregression_multiple.ipynb)

#
[<- Anterior](train_test_split.ipynb)  |  [Proximo ->](../Metricas/README.md)