# Introdução ao pré-processamento de dados

É necessário pré-processar os dados par viabilizar a criação da rede, tratando os dados da melhor maneira para se utilizar a ML.
Casos como os dados inexistentes, dados que fogem aos padrões do usuário podem inviezar o modelo de ML.

In [1]:
import pandas as pd #Importar a biblioteca pandas

In [1]:
#Método para ler o banco de dados com algumas cores faltantes
data = pd.read_table('fruit_data_with_colors_miss.txt')

NameError: name 'pd' is not defined

In [None]:
data #apresentar o conjunto de dados

## Imputando valores faltantes

Os valores faltantes na base dados pode gerar problemas na criação da rede, já que alguns dados não são preechidos de forma satisfatória, causando problema para a ML. O parâmetro *na_values* indica quais os dados faltantes da base de dados.

In [None]:
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values = ['.','?'])

In [None]:
data #Onde havia valores faltantes é substituido por NaN

Para imputar dados na base basta utilizar o comando *data.fillna(0)* que injeta/complete os não disponíveis com o valor 0, ou seja, os valores NaN são sunstituidos pelo paraparâmetro passado no método.

In [None]:
data.fillna(0) #Após isso é subsitituido por 0

In [None]:
#Substitui pela a média de cada colula os valores faltantes NaN. O python identifica a média independende de cada coluna
data = data.fillna(data.mean()) 

Para os dados não numéricos a imputação dos dados ocorre utilizando o comando *data['fruit_subtype'].value_counts().argmax()*. Nele é contado os valores que se repete na coluna por meio do método *value_counts* e retorna o que se repete mais por meio do método *argmax()*.


In [None]:
data['fruit_subtype'] = data['fruit_subtype'].fillna(data['fruit_subtype'].value_counts().argmax())

## Eliminando colunas

Para muitos dados faltantes em uma coluna ou quando se deseja desconsiderar um volume de dados presentes na coluna é possível apagar uma coluna.

In [None]:
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values = ['.','?'])

In [None]:
data

In [None]:
#Total de dados nas linhas
data.shape[0]

In [None]:
#Total de dados faltantes (NaN) por colunas
data.isnull().sum()

Se a percentagem dos dados faltantes for superior a 25% é necessário eliminar a coluna, caso contrário é possivel utilizar a técnica de imputar valores. Existe a mesma abordagem só que com a porcentagem de 10%.

In [None]:
#Porcentagem de dados faltantes por colunas
(data.isnull().sum()/data.shape) * 100

Apagar as colunas com muitos dados faltantes e manter as colunas que serão usadas. Nesse caso, foi retirado uma coluna a titulo de exemplo.

In [None]:
data = data[['fruit_label','fruit_name','fruit_subtype','width','heigth','color_score']]

## Transformando a escala dos dados
**Normalizar os dados**

Quando os dados possuiem ordem de grandezas/escalas diferente, ou seja, possui um rand muito grande nos seus valores podem levar o algoritmo a resultados erronios.

In [None]:
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values = ['.','?'])
data = data.fillna(data.mean()) 
data = data[['mass','width','heigth','color_score']]

In [None]:
data.describe()

A técnica, para cada coluna é capurado o valor - mínimo da coluna dividido a diferença do valor máximo e mínimo da coluna.

            (valor - min) / (max - min)
            
Para tanto, é aplicado uma função do sklearn chamada de MinMaxScaler, que é uma classe que efetua a ttransformação dos dados.

In [2]:
from sklearn.preprocessing import MinMaxScaler

In [3]:
#Variável que armazenara o objeto MinMaxScalar
mm = MinMaxScaler()

Função *Fit* bastante utilizada que irá construir para cada coluna do conjuto de dados o máximo e o mínimo do conjuto de dados. Por fim, é transformado os dados de acordo com os maximos e minimos usando a função *transform()*, transformando os dados em uma mesma escala.

In [None]:
mm.fit(data)

In [None]:
data_escala = mm.transform(data)

## Encontrando Outliers

Nome dado a elementos que estão fora dos padões do conjuto de dados da base de dados e que tormam-se prejudiciais aos algoritmos de aprendizado de máquina.

In [None]:
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values = ['.','?'])
data = data.fillna(data.mean()) 

In [None]:
#Pega apenas as maças que é um subtipo dos dados da base
macas = data[data['fruit_name'] == 'apple']

In [None]:
#Pega as estatisticas das maçãs armazenadas
est = macas['mass'].describe()

Pega as maçãs com massa maior que a média do total de maças, mais duas vez o desvio padrão das maçãs, essas maçãs devem ser vistas como Outliers.

In [None]:
#Outliers maior
macas[(macas['mass'] > est['mean'] + (est['std']) * 2)]

In [None]:
#Outliers menor
macas[(macas['mass'] < est['mean'] - (est['std']) * 2)]