# Divisão de dados em treino e teste


**Notebook destinado á prática de divisão de bases de dados em treino e teste**  

###  Breve explicação sobre o tema: 

 
Quando estamos trabalhando com aprendizado supervisionado, geralmente estamos interessados em prever valores. A avaliação do modelo é feita de acordo com as medidas que forem adequadas para cada caso.  

Para avaliar o modelo, poderíamos simplesmente calcular estas medidas nos dados que foram utilizados para modelagem, no entanto, fazendo desta forma não conseguimos avaliar o desempenho do modelo em dados desconhecidos. 

A divisão a base em treino e teste vem com o objetivo de possibilitar a testagem do modelo em dados não conhecidos ainda. Basicamente, é feita uma separação da base em duas partes, uma para ajustar o modelo e outra para testá-lo após o ajuste. Geralmente, esta divisão é de 30% para teste e 70% para treino, no entanto isso não é uma regra, e para cada problema deve-se pensar em qual proporção adotar para cada caso. 

Além da divisão também devemos considerar a importância da representatividade de grupos, e em casos que for importante, garantir a estratificação trazendo no treino e teste proporções parecidas com a proporção geral. 

### Carregando pacotes

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

### Algumas configurações padrão
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

### Base de dados

Para exemplificar utilizarei uma base de dados referente aos preços e pontuações de cada jogador ao longo das rodadas do brasileirão no cartola em 2019 e 2020.

[Link para a base no kaggle](https://www.kaggle.com/lgmoneda/cartola-fc-brasil-scouts)

In [2]:
df = pd.read_csv('jogadores.csv',encoding= 'utf8', sep=',',decimal='.', header=0)
print('Base de dados importada com sucesso! \n{} linhas e {} colunas'.format(df.shape[0], df.shape[1]))

Base de dados importada com sucesso! 
16404 linhas e 29 colunas


In [3]:
df.head()

Unnamed: 0,Nome,Clube,Preço,J,Média,Últ. Pont.,Variação,DS,G,A,SG,FS,FF,FD,FT,DD,DP,GC,CV,CA,PP,GS,FC,I,PI,rodada,ano,RB,PE
0,Elton (ATA),Sport,14.21,1.0,15.6,15.6,10.21,,2.0,,,,,,1.0,,,,,1.0,,,1.0,1.0,4.0,1,2020,,
1,Saravia (LAT),Internacional,13.19,1.0,12.2,12.2,7.19,8.0,,,1.0,3.0,1.0,1.0,,,,,,1.0,,,3.0,,8.0,1,2020,,
2,Marinho (ATA),Santos,12.1,1.0,11.7,11.7,7.1,1.0,1.0,,,6.0,,1.0,,,,,,,,,2.0,,5.0,1,2020,,
3,Igor Rabello (ZAG),Atlético-MG,13.41,1.0,10.5,10.5,5.41,5.0,,,1.0,2.0,,,,,,,,,,,,,5.0,1,2020,,
4,Léo Cittadini (MEI),Athlético-PR,12.9,1.0,9.8,9.8,4.9,,1.0,,,2.0,1.0,,,,,,,,,,,,,1,2020,,


### Entendendo a função e seus parâmetros: 

  
**train_test_split** 

  

Para fazer a divisão em treino e teste via pyhton, utilizamos a função train_test_split do sklearn.  Os possíveis argumentos para a função são: 

  

* **arrays** 

    * São os objetos que queremos dividir, pode ser um só ou vários mas devem ter o mesmo tamanho, pois representam a mesma base de dados. Usualmente, a base é divida em X = features, Y= target antes de fazermos a divisão. e os dois data grames são passados para a função. 

* **test_size** 

    * *Opcional*  - Poder ser um valor entre 0.0 e 1.0 que indica a proporção dos dados que ficará destinada a base de teste, ou um número inteiro que indica a quantidade de linhas  a serem separadas para a base teste. Se este parâmetro estiver em branco e o train_size também. O default é 0.25.  

* **train_size** 

    * *Opcional*  - Poder ser um valor entre 0.0 e 1.0 que indica a proporção dos dados que ficará destinada a base de treino, ou um número inteiro que indica a quantidade de linhas  a serem separadas para a base treino. Se este parâmetro estiver em branco, o valor dele será o complemento da base de teste. 

* **random_state** 

   * Semente para controlar a aleatoriedade de divisão (O seu uso deixa os calores reproduzíveis), o default é deixar esse parâmetro em banco, para gerar divisões aleatórias. 

* **shuffle** 

    * Parâmetro para "misturar" os dados antes de dividir. O default é True 

* **stratify** 

    * Colunas para determinar a estratificação a ser feita. Por default, não há estratificação. 

### Utilizando a função para separar a base e vendo o comportamento dos parâmetros

**Utilizando somente o Data frame como parâmetro obrigatório**

O retorno são dois data frames, com proporção 25% teste e 75% treino. A cada rodada os resultados são diferentes, pois não foi fixada nenhuma semente para controle de aleatoriedade. 

In [4]:
### Podemos atribuir o train test a somente uma variável e cada posiçaõ dela será um data frame, o de treino e o de teste, respectivamente
T1 = train_test_split(df)
#T1[0]
#T1[1]
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T1[0].shape, T1[1].shape))

As dimensões do banco de treino são: (12303, 29) 
As dimensões do banco de teste são: (4101, 29)


In [5]:
#### Podemos também atribuir já separadamente os data frames de treino e teste
T1_treino, T1_teste = train_test_split(df)
#T1_treino
#T1_teste
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T1_treino.shape, T1_teste.shape))

As dimensões do banco de treino são: (12303, 29) 
As dimensões do banco de teste são: (4101, 29)


**Separando a base em X e Y e passando-os para a função**

*Y = "Preço do jogador"*

O retorno são Quatro saídas apresentando as bases de treino e teste para X e Y, com proporção 25% teste e 75% treino. A cada rodada os resultados são diferentes, pois não foi fixada nenhuma semente para controle de aleatoriedade. 

In [6]:
#### Separando a base em X e Y
X = df.drop("Preço", axis = 1)
Y = df.Preço

In [7]:
### Atribuindo a somente um objeto
T2 = train_test_split(X,Y)
print("As dimensões dos bancos de treino são: {} e {} \nAs dimensões dos bancos de teste são: {} e {} \n \n".format(T2[0].shape,T2[2].shape, T2[1].shape, T2[3].shape ))
### Atribuindo a objetos separados
T2_Xtrain,T2_Xtest, T2_Ytrain, T2_Ytest  =train_test_split(X,Y) 
print("As dimensões dos bancos de treino são: {} e {} \nAs dimensões dos bancos de teste são: {} e {}".format(T2_Xtrain.shape,T2_Ytrain.shape, T2_Xtest.shape, T2_Ytest.shape ))

As dimensões dos bancos de treino são: (12303, 28) e (12303,) 
As dimensões dos bancos de teste são: (4101, 28) e (4101,) 
 

As dimensões dos bancos de treino são: (12303, 28) e (12303,) 
As dimensões dos bancos de teste são: (4101, 28) e (4101,)


**Testando a inclusão do Random State**

As separações com a  mesma semente trazem resultados iguais, utilizando uma semente diferente o resultado difere.

In [8]:
### Utilizaremos só um data frame para facilitar a comparação
T3_1 = train_test_split(df, random_state = 1406)
T3_2 = train_test_split(df, random_state = 1406)
T3_3 = train_test_split(df, random_state = 1415)

In [9]:
T3_1[0].equals(T3_2[0])

True

In [10]:
T3_1[0].equals(T3_3[0])

False

**Especificando a proporção de cada base** 

Testaremos a especificação a partir do train_size e do test_size, em ambos casos especificando por proporção e por valor.

Após testar combinações foi possível ver que os parâmetros train e test size podem ser utilizados em conjunto. Se os valores especificados ultrapassarem 1 em proporção ou mais linhas que o total, um erro é retornado. 

In [11]:
## test_size usando a proporção
T4_1 = train_test_split(df,test_size = 0.4 )
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T4_1[0].shape, T4_1[1].shape))

As dimensões do banco de treino são: (9842, 29) 
As dimensões do banco de teste são: (6562, 29)


In [12]:
## test_size usando o número de linhas
T4_2 = train_test_split(df,test_size = 5000)
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T4_2[0].shape, T4_2[1].shape))

As dimensões do banco de treino são: (11404, 29) 
As dimensões do banco de teste são: (5000, 29)


In [13]:
## train_size usando o número de linhas
T4_3 = train_test_split(df,train_size = 10001)
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T4_3[0].shape, T4_3[1].shape))

As dimensões do banco de treino são: (10001, 29) 
As dimensões do banco de teste são: (6403, 29)


In [14]:
## train_size usando a proporção
T4_4 = train_test_split(df,train_size = 0.9)
print("As dimensões do banco de treino são: {} \nAs dimensões do banco de teste são: {}".format(T4_4[0].shape, T4_4[1].shape))

As dimensões do banco de treino são: (14763, 29) 
As dimensões do banco de teste são: (1641, 29)


**Testando a estratificação**

Vamos ver a proporção de observações em cada ano e em cada clube, E fazer a separação da base de treino e teste de acordo com tais categorias individualemnte e combinadas

In [15]:
## Entendendo a distribuição do ano 
pd.concat([round(df['ano'].value_counts()),round(df['ano'].value_counts()/df['ano'].shape[0]*100,2)],
            axis=1, ignore_index=True).rename(columns={0: 'Qtde', 1: 'Percentual' })
#df['ano'].value_counts()

Unnamed: 0,Qtde,Percentual
2019,8522,51.95
2020,7882,48.05


In [16]:
## Dividindo a base em Outros e ano
X_ano = df.drop("ano", axis = 1)
Y_ano = df.ano

In [17]:
## Separando em treino e teste
T5 = train_test_split(X_ano,Y_ano,stratify = Y_ano )
#T5[3]

In [18]:
## Verificando a distribuição do ano na base de teste
pd.concat([round(T5[3].value_counts()),
           round(T5[3].value_counts()/T5[3].shape[0]*100,2),
          round(df['ano'].value_counts()),
           round(df['ano'].value_counts()/df['ano'].shape[0]*100,2)
          ],
            axis=1, ignore_index=True).rename(columns={0: 'Qtde teste', 1: 'Percentual teste', 2:'Quantidade total', 3:"Percentual total"  })
#df['ano'].value_counts()

Unnamed: 0,Qtde teste,Percentual teste,Quantidade total,Percentual total
2019,2131,51.96,8522,51.95
2020,1970,48.04,7882,48.05


In [19]:
## Verificando a distribuição do ano na base de treino
pd.concat([round(T5[2].value_counts()),
           round(T5[2].value_counts()/T5[2].shape[0]*100,2),
          round(df['ano'].value_counts()),
           round(df['ano'].value_counts()/df['ano'].shape[0]*100,2)
          ],
            axis=1, ignore_index=True).rename(columns={0: 'Qtde treino', 1: 'Percentual treino', 2:'Quantidade total', 3:"Percentual total"  })
#df['ano'].value_counts()

Unnamed: 0,Qtde treino,Percentual treino,Quantidade total,Percentual total
2019,6391,51.95,8522,51.95
2020,5912,48.05,7882,48.05


In [20]:
## Dividindo a base em Outros e Clube
X_Clube = df.drop("Clube", axis = 1)
Y_Clube = df.Clube

In [21]:
## Dividindo a base treino e teste
T5_1 = train_test_split(X_Clube,Y_Clube,stratify = Y_Clube)

In [22]:
## Entendendo a distribuição dos clubes na base de teste
pd.concat([round(T5_1[3].value_counts()),
           round(T5_1[3].value_counts()/T5_1[3].shape[0]*100,2),
          round(df['Clube'].value_counts()),
           round(df['Clube'].value_counts()/df['Clube'].shape[0]*100,2)
          ],
            axis=1, ignore_index=True).rename(columns={0: 'Qtde teste', 1: 'Percentual teste', 2: 'Qtde total', 3: "Percentual total" })
#df['ano'].value_counts()

Unnamed: 0,Qtde teste,Percentual teste,Qtde total,Percentual total
Ceará,220,5.36,879,5.36
Internacional,213,5.19,852,5.19
Fluminense,209,5.1,835,5.09
Fortaleza,207,5.05,827,5.04
Athlético-PR,207,5.05,827,5.04
Vasco,206,5.02,825,5.03
Santos,205,5.0,821,5.0
Goiás,204,4.97,816,4.97
Atlético-MG,204,4.97,815,4.97
Botafogo,203,4.95,811,4.94


In [23]:
## Testando a combinação de estratos
X_anoClube = df.drop(["ano", "Clube"], axis = 1)
Y_anoClube = df[["ano", "Clube"]]

In [24]:
## Separando a base
T5_2 = train_test_split(X_anoClube,Y_anoClube,stratify = Y_Clube)

In [25]:
## Comparando as distribuições de forma geral com a de treino
pd.concat([round(T5_2[2].value_counts()),
           round(T5_2[2].value_counts()/T5_2[2].shape[0]*100,2),
          round(df[["ano", "Clube"]].value_counts()),
            round(df[["ano", "Clube"]].value_counts()/df[["ano", "Clube"]].shape[0]*100,2)],
            axis=1, ignore_index=True).rename(columns={0: 'Qtde base treino', 1: 'Percentual treino', 2:'qtde total', 3: 'percentual total' })

Unnamed: 0_level_0,Unnamed: 1_level_0,Qtde base treino,Percentual treino,qtde total,percentual total
ano,Clube,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,Athlético-PR,303,2.46,421,2.57
2019,Atlético-MG,315,2.56,431,2.63
2019,Avaí,335,2.72,446,2.72
2019,Bahia,337,2.74,435,2.65
2019,Botafogo,324,2.63,435,2.65
2019,CSA,333,2.71,444,2.71
2019,Ceará,328,2.67,447,2.72
2019,Chapecoense,329,2.67,439,2.68
2019,Corinthians,314,2.55,409,2.49
2019,Cruzeiro,326,2.65,434,2.65


Versão python 3.8.3