Um dos primeiros passos em Ciência de Dados é a preparação e transformação dos dados, de modo a prepará-los para etapas posteriores. <br>
Nessa aula, vamos considerar dados com elementos duplicados ou faltantes e realizar sua limpeza. Também vamos considerar métodos básiscos de pré-processamento e transformação de dados. <br>
Vamos ler um conjunto de dados com erros:

In [1]:
#gerador de números aleatórios
import random
random.seed(1) #inicia a semente do gerador de números aleatórios. 
import pandas as pd #biblioteca pandas é usada para manipulação de dados
import matplotlib.pyplot as plt #biblioteca para visualização dos dados

#csv file
data = pd.read_csv('iris-with-errors.csv', header=(0))
print("Número de linhas e colunas:", data.shape)
data.head(25)

Número de linhas e colunas: (25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Primeiramente, vamos remover os "NaN" (not a number, que representam valores desconhecidos) do arquivo, apagando as linhas que contém esse problema. Notem que algumas linhas serão removidas, tais como a 5 e 9.

In [2]:
#remove as linhas com NaN
data = data.dropna()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada


Vamos remover as linhas duplicadas. Para isso, inicialmente verificamos se há a ocorrência dessas linhas.

In [3]:
#Retorna True na posição em que há uma linha duplicada
data.duplicated()

0     False
1      True
2     False
3     False
4      True
6     False
7     False
8      True
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17     True
18    False
19    False
20    False
21    False
22    False
23    False
dtype: bool

Notem que indicamos nos dados originais, na última coluna, quais linhas estão duplicadas. <br>
Para realizarmos a remoção, usamos um método da biblioteca Pandas.

In [4]:
#Remove as linhas duplicadas
data = data.drop_duplicates()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


Compara essa tabela com a original (acima) e verifique se a remoção das linhas foi feita de forma correta. As linhas duplicadas são indicadas na última coluna. <br>
Vamos remover as linhas que contenham "?" ou qualquer outro caracter que indique um erro ou entrada faltante. <br>
Primeiramente, convertemos essas entradas para "NaN":

In [6]:
import numpy as np
#Substitui NaN por um caracter desejado
data = data.replace('?', np.nan)
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


A seguir, fazemos a remoção, como anteriormente.

In [7]:
#Remove as linhas com NaN
data = data.dropna()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa
16,4.8,3.0,1.4,0.1,setosa


Dessa forma, temos um conjunto de dados sem erros e entradas duplicadas. É fundamental realizar essas operações em qualquer conjunto de dados antes de aplicarmos os métodos de aprendizado de máquina e estatística. <br>
Podemos também remover determinadas linhas e colunas dos dados. Para remover a segunda e quarta colunas:

In [8]:
print("Atributos atuais:", data.columns)
print("Colunas removidas:", data.columns[[1, 3]])
#Remove as linhas especificadas
data = data.drop(data.columns[[1, 3]], axis=1)
data.head(25)

Atributos atuais: Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')
Colunas removidas: Index(['sepal_width', 'petal_width'], dtype='object')


Unnamed: 0,sepal_length,petal_length,species
0,5.1,1.4,duplicada
3,4.7,1.3,setosa
6,5.0,1.4,setosa
7,5.4,1.7,duplicada
10,5.0,1.5,setosa
11,4.4,1.4,duplicada
12,4.9,1.5,setosa
13,5.4,1.5,setosa
15,4.8,1.6,setosa
16,4.8,1.4,setosa


Para remover a primeira e terceira linhas:

In [9]:
data = data.drop(data.index[[0, 2]], axis=0)
print("Linhas Removidas:", data.index[[0, 2]])
data.head(25)

Linhas Removidas: Int64Index([3, 10], dtype='int64')


Unnamed: 0,sepal_length,petal_length,species
3,4.7,1.3,setosa
7,5.4,1.7,duplicada
10,5.0,1.5,setosa
11,4.4,1.4,duplicada
12,4.9,1.5,setosa
13,5.4,1.5,setosa
15,4.8,1.6,setosa
16,4.8,1.4,setosa
18,4.3,1.1,setosa
19,5.8,1.2,setosa


### Substituição de valores ausentes <br>
Em muitas situações, a matriz de atributos pode conter valores ausentes. Nesse caso, podemos usar diferentes métodos para substituir tais valores, como preenche-lhos com valores médios ou medianas. <br>
Vamos ler os dados novamente:

In [10]:
data = pd.read_csv('iris-with-errors.csv', header=(0))
print(data.shape)
data.head(25)

(25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Vamos substituir os valores com "NaN" e "?" pelos valores médios dos atributos. Primeiramente, mudamos as entradas "?" para "NaN", como foi feito anteriormente.

In [11]:
import numpy as np
data = data.replace('?', np.nan)
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


A seguir, inserirmos a média de cada atributo nas entradas com valores "NaN".

In [13]:
#convertemos para o formato Numpy e ignoramos a última coluna (classe)
X = np.array(data[data.columns[0:data.shape[1]-1]], dtype=float)
#calculamos a média de cada atributo e armazenamos em um vetor
#usamos a função nanmean que calcula a média ignorando os NaN
averages = np.nanmean(X, axis=0) 
for i in np.arange(0, X.shape[0]):
  for j in np.arange(0, X.shape[1]):
    if(np.isnan(X[i,j]) == True): #verificar se é uma entrada com NaN
      X[i,j] = averages[j] #insere a média
print(X)

[[5.1        3.5        1.4        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [5.4        3.9        1.7        0.4       ]
 [4.6        3.4        1.4        0.22608696]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.4        2.9        1.4        0.2       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        

Assim como inserimos a média, poderíamos inserir a mediana ou qualquer outro valor.