O aspecto mais importante antes de qualquer aplicação de Machine Learning é sem sombra de dúvidas o pré-processamento dos dados. 

Por mais que grande parte dos tutoriais e livros atenham-se somente à parte de volume de dados (e.g. Big Data) ou mesmo na parte de técnicas propriamente ditas (e.g. Regressão Linear, Support Vector Machines, Redes Neurais, et cetera...) o conjunto de dados (a.k.a. dataset, base de dados, et cetera) exerce função determinante no sucesso ou a falta dele na aplicação de Machine Learning. 

Em uma analogia rápida, os dados são como uma chave e os algoritmos são como uma fechadura de uma porta.

Você pode ter uma chave com desgaste... 
(e.g. truncamento de dados, missing data, dados não normalizados, et cetera)

Você pode ter a fechadura da porta com desgaste... 
(e.g. ajuste paramétrico para 'fittar', eliminação de steps de cálculos, utilização de 'ensembles' para gambiarra no pipeline de algoritmos, et cetera)

Mas a fechadura somente vai abrir com a chave correspondente. 
(e.g. base de dados com os atributos de predição e de resultado (target) corretas).

Agora que já sabemos a importância de se ter os dados para aplicação dos algoritmos, e por consequência criação de modelos, vamos falar de um aspecto importante na questão do input dos dados que é o Pré-Processamento (Preprocessing)

O pré-processamento de dados é toda e qualquer atividade relativa ao ajuste dos dados tanto em termos de formatação, amostragem para que os algoritmos consigam realizar as atividades de construção dos modelos de forma a ter um melhor aproveitamento em termos computacionais (complexidade temporal + complexidade espacial).

As principais atividades do pré-processamento de dados são:

- Amostragem (Sampling)
- Feature Engineering que contém (i) Feature Extraction e (ii) Feature Selection
- Binning 
- Scaling
- Padronização (Standarize)
- Normalização
- Dimensionality Reduction

Vamos começar com primeiramente com a importação dos dados.

Nesse primeiro chunk vamos utilizar os dados da própria bilbioteca do Scikit-Learn relativa aos dados da base de dados Iris.



Primeiramente vamos importar os datasets do pacote do Scikit.

In [None]:
from sklearn import datasets

Agora, vamos criar um objeto com o nome de 'datasets' e vamos carregar a base de dados iris.

In [None]:
datasets = datasets.load_iris()

Essa base de dados Iris é dividida em duas partes, uma chamada 'data' e outra chamada 'target'.

O conjunto de dados 'data' possuí todos os atributos (i.e. variáveis independentes, predictors, features, etc) relativos à base Iris.

O conjunto de dados 'target' possuí todos as classes (i.e. variável dependente, target features, etc.) da mesma base Iris.

Vamos ver agora a quantidade de dados em cada um dos datasets usando a função 'shape'.


In [None]:
print(datasets.data.shape)

No dataset 'data' temos 150 registros (i.e. tuplas, linhas, etc) e 4 atributos. 

Vejamos o que temos no datset 'target'.

In [None]:
print(datasets.target.shape)

Como era de se esperar, temos somente uma coluna, que é a variável dependente.

Mas uma das boas práticas de pré-processamento é sempre conferir se os dados foram realmente carregados. Pra isso vamos ver cada um dos datasets.

In [None]:
datasets.data

In [None]:
datasets.target

Agora que já vimos que os nossos dados foram carregados, apenas para fins de exemplificação vamos colocar cada um desses dados em um objeto distinto. 


Para padronização de nomenclatura, sempre que usarmos um conjunto de dados que consta os atributos, vamos atribuir o objeto 'X', e no caso da variável dependente vamos atribuir um objeto de dados com o nome de 'y'.


In [None]:
X = datasets.data

In [None]:
y = datasets.target

Vamos conferir os nossos objetos 'X' e 'y'.

In [None]:
X

In [None]:
y

Para importar dados que estejam na web, podemos usar o numpy que é uma bilbioteca específica para tratamento de dados.

In [6]:
import numpy as np
import urllib
import urllib.request

Vamos criar um objeto chamado url que terá a string do dataset.

In [7]:
with urllib.request.urlopen("http://goo.gl/j0Rvxq") as url:
    s = url.read()

O objeto 'raw_data' vai abrir uma url e vai armazenar os dados.

In [8]:
raw_data = s

Com o objeto armazenado, vamos realizar a atribuição, já realizar a separaçnao pelo delimitador que será uma vírgula.

In [9]:
dataset = np.loadtxt(raw_data, delimiter=",")

Agora vamos conferir o nosso dataset como está.

In [10]:
print(dataset.shape)

(23279,)


Aos moldes do exemplo anterior, vamos atribuir as variáveis independentes no objeto X e a variável dependente no objeto y; sendo que:

- Da variável 0 até a 7 serão as variáveis independentes (X)
- A variável 8 será a variável dependente.



In [None]:
X = dataset[:,0:7]

In [None]:
y = dataset[:,8]

Dados carregados e checados, vamos agora realizar algumas atividades de pré-processamento. 

A primeira de pré-processamento que vamos utilizar será o Scaling. 

O Scaling é bastante utilizado quando se tem um conjunto de dados com valores com uma variância muito alta, e que em termos custo computacional seria custoso.



Primeiramente, vamos importar a biblioteca 'preprocessing' do pacote do Scikit-Learn. 

In [None]:
from sklearn import preprocessing

Vamos criar um objeto chamado 'normalized_X' em que vamos aplicar a função scale da biblioteca preprocessing. 

In [None]:
normalized_X = preprocessing.scale(X)

Objeto criado, vamos agora fazer uma pequena comparação entre o objeto X (nossos dados) e o objeto normalized_X (o que acabamos de normalizar).

In [None]:
X

In [None]:
normalized_X

Como podemos atestar visualmente, tivemos uma mudança significativa de dos valores, em que  praticamente os valores sairam da casa da metade de dezena, para um nível muito maior de precisão decimal e também possuí valores negativos.


Outra forma de pré-processamento é a normalização.

A normalização tem o mesmo princípio que a padronização, porém com a diferença fundamental que o nível de escala é reduzido.

Da mesma forma que fizemos na padronização, vamos criar um objeto e vamos usar a função 'normalize' da biblioteca preprocessing. 

In [None]:
standarized_X = preprocessing.normalize(X)

Vamos agora comparar o output dos dados dos objetos X e standarized_X.

In [None]:
X

In [None]:
standarized_X

Todos os dados foram para a escala de 0 a 1. 

Com isso os algoritmos podem fazer um trabalho muito melhor, dado que o range de dados foi diminuído. 

Agora, um aspecto fundamental quando lidamos com um grande volume de dados em que diz respeito ao número de atributos (ou dimensionalidade) é saber quais variáveis independentes são importantes para treinamento do modelo de predição. 

Para fazer essa atividade, vamos usar uma das bibliotecas do Scikit chamada 'ExtraTreesClassifier' que tem uma função que atesta quais variáveis tem o maior poder preditivo. 

Primeiramente, vamos importar a biblioteca.

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

Biblioteca importada, agora vamos criar o nosso modelo realizando uma chamada na biblioteca.

In [None]:
model = ExtraTreesClassifier()

Agora vamos realizar o 'fitting' do modelo. 

Uma dica é que sempre que for ser utilizado algum modelo para fitting, usando bibliotecas de aprendizado supervisionado, a regra sempre será:

- objeto_do_modelo.fit (X,y)

Em que objeto_do_modelo é o modelo preditivo utilizado, X as variáveis independentes e y a variável dependente a ser predita.

In [None]:
model.fit(datasets.data, datasets.target)

Ajustamos o modelo, porém vamos usar as configurações básicas. Mas de maneira geral usamos o algoritmo de árvores de decisão para obtermos a métrica de importância de cada variável.

In [None]:
print(model.feature_importances_)

In [None]:
model.fit(X, y)

In [None]:
print(model.feature_importances_)

Esse resultado mostra que em termos de importância preditiva, as variáveis mais significativas são a 3(57%), 4(33%), 1 e (5% cada).

Caso houvessem muitas variáveis a serem consideradas, e quisessemos diminuir o custo computacional (e consequentemente o tempo) poderiamos eliminar essas duas variáveis, mas como estamos simplificando vamos considerar tudo.

Com isso terminamos o pré-processamento básico. 

Como regra geral de modelagem, o ideal é que essas informações venham já processadas do banco de dados, dado que o mecanismo do SGBD é apto para esse tipo de atividade, tanto em termos de velocidade quanto em robustez de processamento. 

E além do mais, o importante é que quanto mais modularizado em que há uma cadeia de ferramentas fazendo aquilo o que ela faz de melhor funcionando, a complexidade do sistema como um todo caí, e aumenta a robuztez quanto à problemas que possam acontecer. 