## Dividindo o dataset

### Representação dos dados  
Na figura abaixo temos a representação da iris dataset. Cada linha refere-se a uma única flor observada e o número de linhas é o número total de flores no conjunto de dados. Em geral, nos referiremos às linhas da matriz como **samples (amostras)** e ao número de linhas como n_samples (n_amostras). Da mesma forma, cada coluna refere-se a uma informação quantitativa específica que descreve cada amostra. Em geral, nos referiremos às colunas da matriz como **fetures (atributos)** e ao número de colunas como n_features (n_atributos). Na última coluna temos a **class label (classe)** que informa sobre a categoria da flor. Essa última coluna é usada para treinarmos os modelos de apresndizagem supervisionada e é também conhcecida como **target (alvo)**.

In [1]:
import seaborn as sns
iris_sns = sns.load_dataset('iris')
iris_sns.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


<img src="figuras/iris-data-set.png" width="450"/>

Antes de trabalharmos com as predições necessitamos organizar o dataset entre **treino** e **teste**. Além disso para os casos de aprendizagem supervisionada necessitamos dividir o dataset entre **feature** e **target**. Podemos essas divisões utilizando o Python ou Pandas, porém o próprio Scikit-Laern posui farramentas para isso.

### Dividindo entre feature e target  
Por padrão o dataset de feature é instanciado como X maiúsculo (variável independente) e o target instanciado como y minúsculo (variável dependente).  

**Importante:** A representação de dados no Scikit-Learn requer uma feature matrix **bidimensional** e a target **unidimensional**.

![](feature-target.png)

**Scikit-Learn**  
No Scikit-Learn, usamos as funções ``.data`` e ``.target`` para executar essa divisão.

In [2]:
# Importando o dataset Iris
from sklearn import datasets
iris = datasets.load_iris()

# Dividindo o dataset
X_iris, y_iris = iris.data, iris.target
print (X_iris.shape, y_iris.shape)

(150, 4) (150,)


**Seaborn/Pandas**  
Podemos utilizar o comando drop, presente no Seaborn e Pandas para dividir.

In [3]:
X_iris_sns = iris_sns.drop('species', axis=1)
y_iris_sns = iris_sns['species']

print (X_iris_sns.shape, y_iris_sns.shape)

(150, 4) (150,)


### Dividindo entre train e test 
Para dividir entre treino e teste, o Scikit-Laern possui a função ``train_test_split()``, pertencente ao módulo ``.model_selection``.

A função train_test_split embaralha o conjunto de dados usando um gerador de números pseudo-aleatórios antes de fazer a divisão.  
Caso queiramos que as amostras sejam sempre as mesmas para poder replicar o teste, devemos preencher o parâmetro ``random_state`` que serve como um seed na geração dos números pseudo-aleatórios.  
Caso o parâmetro ``train_size`` não seja preenchido, por padrão, o dataset será dividido entre 75% para treino e 25% para teste. 

In [4]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X_iris, y_iris)

print (ytrain.shape, ytest.shape)

(112,) (38,)
