# Introdução ao Pré-processamento de Dados com Python

**Objetivos**

* Demonstração da leitura de arquivos em modo texto com valores faltantes (missing values)
* Demonstração da tabela e informações básicas com valores faltantes

**Características do Data Set**

* Linhas: 59
* Colunas: 7
* Formato do arquivo: txt

In [1]:
import pandas as pd

In [2]:
# Preparando os dados para para imputar NaN
data = pd.read_table('fruit_data_with_colors_miss.txt')

In [3]:
# Mostrando toda a tabela com três dados faltantes representados pelos símbolos '.' e '?'
data

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,?,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79
5,2,mandarin,mandarin,80,5.8,4.3,0.77
6,2,mandarin,mandarin,80,5.9,4.3,0.81
7,2,mandarin,.,76,5.8,4.0,0.81
8,1,apple,braeburn,178,7.1,.,0.92
9,1,apple,braeburn,172,7.4,7.0,0.89


# Imputando Valores Faltantes

**Objetivos**

* Tratar os dados de modo que os valores faltantes passem a não existirem

In [4]:
# Segundo parâmetro da função read_table para indicar quais são os dados faltantes do conjunto de dados
data = pd.read_table('fruit_data_with_colors_miss.txt', na_values=['.', '?'])

In [5]:
# Onde tinha símbolos agora é representado por NaN (Not a Number) que é entendido pelo Python como valor faltante
data.head(9)

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55
1,1,apple,granny_smith,180.0,8.0,6.8,0.59
2,1,apple,granny_smith,176.0,7.4,7.2,0.6
3,2,mandarin,mandarin,,6.2,4.7,0.8
4,2,mandarin,mandarin,84.0,6.0,4.6,0.79
5,2,mandarin,mandarin,80.0,5.8,4.3,0.77
6,2,mandarin,mandarin,80.0,5.9,4.3,0.81
7,2,mandarin,,76.0,5.8,4.0,0.81
8,1,apple,braeburn,178.0,7.1,,0.92


In [6]:
# Imputando o valor 0 nos valores faltantes NaN
# Porém substituir por um valor e manter a coesão do conjunto de dados é mais trabalhoso
data.fillna(0)

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55
1,1,apple,granny_smith,180.0,8.0,6.8,0.59
2,1,apple,granny_smith,176.0,7.4,7.2,0.6
3,2,mandarin,mandarin,0.0,6.2,4.7,0.8
4,2,mandarin,mandarin,84.0,6.0,4.6,0.79
5,2,mandarin,mandarin,80.0,5.8,4.3,0.77
6,2,mandarin,mandarin,80.0,5.9,4.3,0.81
7,2,mandarin,0,76.0,5.8,4.0,0.81
8,1,apple,braeburn,178.0,7.1,0.0,0.92
9,1,apple,braeburn,172.0,7.4,7.0,0.89


In [7]:
# Precisamos manter a coesão escolhendo alguma abordagem, como por exemplo, a média dos valores de uma coluna
# Uma coluna de strings não pode ser alterado pela média, obviamente
data.fillna(data.mean())

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55
1,1,apple,granny_smith,180.0,8.0,6.8,0.59
2,1,apple,granny_smith,176.0,7.4,7.2,0.6
3,2,mandarin,mandarin,164.448276,6.2,4.7,0.8
4,2,mandarin,mandarin,84.0,6.0,4.6,0.79
5,2,mandarin,mandarin,80.0,5.8,4.3,0.77
6,2,mandarin,mandarin,80.0,5.9,4.3,0.81
7,2,mandarin,,76.0,5.8,4.0,0.81
8,1,apple,braeburn,178.0,7.1,7.691379,0.92
9,1,apple,braeburn,172.0,7.4,7.0,0.89


In [8]:
# Uma outra possibilidade de tratar valor faltante é usar a moda
# A coluna de strings iremos tratar pegando o valor que mais se repete
data['fruit_subtype'].value_counts().index[0] #.argmax() doesn't work for value

'unknown'

In [9]:
# Armazenando a imputação das médias
data = data.fillna(data.mean())

In [10]:
# Resultado
data.head(9)

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55
1,1,apple,granny_smith,180.0,8.0,6.8,0.59
2,1,apple,granny_smith,176.0,7.4,7.2,0.6
3,2,mandarin,mandarin,164.448276,6.2,4.7,0.8
4,2,mandarin,mandarin,84.0,6.0,4.6,0.79
5,2,mandarin,mandarin,80.0,5.8,4.3,0.77
6,2,mandarin,mandarin,80.0,5.9,4.3,0.81
7,2,mandarin,,76.0,5.8,4.0,0.81
8,1,apple,braeburn,178.0,7.1,7.691379,0.92


In [11]:
# Armazenando a imputação da string mais repitida
data['fruit_subtype'] = data['fruit_subtype'].fillna(data['fruit_subtype'].value_counts().index[0])

In [12]:
# Resultado final das imputações
data.head(9)

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55
1,1,apple,granny_smith,180.0,8.0,6.8,0.59
2,1,apple,granny_smith,176.0,7.4,7.2,0.6
3,2,mandarin,mandarin,164.448276,6.2,4.7,0.8
4,2,mandarin,mandarin,84.0,6.0,4.6,0.79
5,2,mandarin,mandarin,80.0,5.8,4.3,0.77
6,2,mandarin,mandarin,80.0,5.9,4.3,0.81
7,2,mandarin,unknown,76.0,5.8,4.0,0.81
8,1,apple,braeburn,178.0,7.1,7.691379,0.92


# Eliminação de Colunas

**Objetivos**

* Demonstração de eliminação de coluna quando a imputação de dados se mostrar ineficiente por serem muitos dados faltantes

In [13]:
# Para eliminação de colunas
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values=['.','?'])

In [14]:
# Primeiro ver o nosso total de dados
data.shape[0]

59

In [15]:
# Verifica a quantidade de dados faltantes em cada coluna
data.isnull().sum()

fruit_label      0
fruit_name       0
fruit_subtype    1
mass             1
width            0
height           1
color_score      0
dtype: int64

In [16]:
# Se a porcentagem de dados faltantes de uma coluna for superior a 25%, eliminamos a coluna (existe para 10% - abordagem cética)
# Abaixo calcula a porcentagem
data.isnull().sum()/data.shape[0] * 100

fruit_label      0.000000
fruit_name       0.000000
fruit_subtype    1.694915
mass             1.694915
width            0.000000
height           1.694915
color_score      0.000000
dtype: float64

In [17]:
# Supondo que precisemos deletar a coluna 'mass', basta armazenar todas as colunas menos a massa
data = data[['fruit_label','fruit_name','fruit_subtype','width','height','color_score']]

data.head(9)

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,width,height,color_score
0,1,apple,granny_smith,8.4,7.3,0.55
1,1,apple,granny_smith,8.0,6.8,0.59
2,1,apple,granny_smith,7.4,7.2,0.6
3,2,mandarin,mandarin,6.2,4.7,0.8
4,2,mandarin,mandarin,6.0,4.6,0.79
5,2,mandarin,mandarin,5.8,4.3,0.77
6,2,mandarin,mandarin,5.9,4.3,0.81
7,2,mandarin,,5.8,4.0,0.81
8,1,apple,braeburn,7.1,,0.92


# Transformando a escala dos dados

**Objetivos**

* A diferença de grandeza pode levar algoritmos de aprendizado de máquina a resultados errôneos. Valores de escala maior podem ter uma maior importância no algoritmo. Transformar a escala dos dados deixará os dados com importâncias iguais.

In [18]:
# Preparando os dados para transformação da escala
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values=['.','?'])
data = data.fillna(data.mean())
data = data[['mass','width','height','color_score']]

data.describe()

Unnamed: 0,mass,width,height,color_score
count,59.0,59.0,59.0,59.0
mean,164.448276,7.105085,7.691379,0.762881
std,54.062599,0.816938,1.360943,0.076857
min,76.0,5.8,4.0,0.55
25%,141.0,6.6,7.2,0.72
50%,160.0,7.2,7.6,0.75
75%,177.0,7.5,8.2,0.81
max,362.0,9.6,10.5,0.93


In [19]:
# Escolhemos a abordagem que converte os valores para o intervalo entre 0 e 1
# (valor - min) / (max - min): max = valor máximo da coluna e min = valor mínimo da coluna
# Uma coluna somente com valores iguais não possui informação para conversão de escala
(25 - 12) / (59-12)

0.2765957446808511

In [20]:
# Função para conversão de escala
from sklearn.preprocessing import MinMaxScaler

In [21]:
# Armazenando a função
mm = MinMaxScaler()

In [22]:
# Função fit irá construir, para cada coluna de dados de data, o máximo e o mínimo do conjunto de dados
mm.fit(data)

MinMaxScaler()

In [23]:
# Transforma os dados de acordo com os valores máximos e mínimos armazenados
data_escala = mm.transform(data)

data_escala

array([[0.40559441, 0.68421053, 0.50769231, 0.        ],
       [0.36363636, 0.57894737, 0.43076923, 0.10526316],
       [0.34965035, 0.42105263, 0.49230769, 0.13157895],
       [0.30925971, 0.10526316, 0.10769231, 0.65789474],
       [0.02797203, 0.05263158, 0.09230769, 0.63157895],
       [0.01398601, 0.        , 0.04615385, 0.57894737],
       [0.01398601, 0.02631579, 0.04615385, 0.68421053],
       [0.        , 0.        , 0.        , 0.68421053],
       [0.35664336, 0.34210526, 0.56790451, 0.97368421],
       [0.33566434, 0.42105263, 0.46153846, 0.89473684],
       [0.31468531, 0.28947368, 0.50769231, 1.        ],
       [0.33566434, 0.34210526, 0.55384615, 0.97368421],
       [0.27272727, 0.31578947, 0.47692308, 0.86842105],
       [0.30769231, 0.39473684, 0.56923077, 0.39473684],
       [0.26573427, 0.47368421, 0.50769231, 0.36842105],
       [0.27972028, 0.5       , 0.47692308, 0.36842105],
       [0.27972028, 0.47368421, 0.53846154, 0.31578947],
       [0.32167832, 0.44736842,

# Encontrando outliers

**Objetivos**

* Demonstrar como encontrar os dados discrepantes, elementos que possuem uma de suas características fora de um padrão

In [24]:
# Preparando os dados para encontrar outliers
data = pd.read_table('fruit_data_with_colors_miss.txt',na_values=['.','?'])
data = data.fillna(data.mean())

In [25]:
# Procurando o que está fora do padrão apenas nas frutas
macas = data[data['fruit_name'] == 'apple']

In [26]:
# Informações a serem usadas na busca por outliers
macas.describe()

Unnamed: 0,fruit_label,mass,width,height,color_score
count,19.0,19.0,19.0,19.0,19.0
mean,1.0,165.052632,7.457895,7.336388,0.783684
std,0.0,11.969747,0.345311,0.282648,0.124196
min,1.0,140.0,6.9,6.8,0.55
25%,1.0,156.0,7.3,7.1,0.69
50%,1.0,164.0,7.4,7.3,0.84
75%,1.0,172.0,7.6,7.55,0.88
max,1.0,192.0,8.4,7.9,0.93


In [27]:
# Armazenado as estatísticas de massa das maçãs
est = macas['mass'].describe()

In [28]:
# Encontra outliers pelo lado de cima
macas[(macas['mass'] > est['mean'] + (est['std']) * 2)]

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192.0,8.4,7.3,0.55


In [29]:
# Encontra outliers pelo lado de baixo
macas[(macas['mass'] < est['mean'] - (est['std']) * 2)]

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
22,1,apple,cripps_pink,140.0,7.3,7.1,0.87
