
---

<h1 align=left><font size = 8, style="color:rgb(200,0,0)"><b>Preparação e transformação dos dados - **PARTE 1**  </b></font></h1>

---

**Para que serve a preparação de dados?**



>> <h align=left><font size = 4, style="color:rgb(0,20,20)">Um dos principais objetivos da preparação de dados é garantir que as informações resultantes serão precisas e consistentes. Permitindo, assim, uma análise válida e realista.</font></h>

Um dos primeiros passos em Ciência de Dados é a preparação e transformação dos dados, de modo a prepará-los para etapas posteriores.

- Dados duplicados
- Removendo dados nulos
- Remoção de caracteres estranhos ou faltantes
- Remoção de linhas ou colunas com dados falatantes
- Substituição de linhas ou colunas com dados faltantes
- Substituição de valores ausentes

>> Nessa aula, vamos considerar dados com elementos duplicados ou faltantes e realizar a sua limpeza. Também vamos considerar métodos básicos de pré-processamento e transformação de dados.

# **Importando bibliotecas e dados para o exemplo**

**Importando as bibliotecas**

In [None]:
# gerador de números aleatórios
import random

# inicia a semente do gerador de números aleatórios. Importante para reprodução dos resultados
random.seed(1)

# bibliote Pandas é usada para manipulação de dados
import pandas as pd

# biblioteca para visualização dos dados
import matplotlib.pyplot as plt

**Importando os dados**

<h align=left><font size = 4, style="color:rgb(100,10,10)">Importando as bases de dados: GitHub</font></h>

> Lembre-se que todas as bases de dados estão no meu GitHub

```
https://github.com/tuliofor/dados_aula     
```

```
iris-with-errors.csv
```


**Vamos ler um conjunto de dados com erros:**

In [None]:
link = 'https://raw.githubusercontent.com/tuliofor/dados_aula/main/iris-with-errors.csv'

# CSV file
data = pd.read_csv(link, header=(0))

# imprimimos o numero de linhas e colunas
print("Número de linhas e colunas:",data.shape)
print()
data.head(5)

Número de linhas e colunas: (25, 5)



Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada


# **1. Removendo dados Nulos (_`NaN`_)**

Primeiramente, vamos remover os dados nulos (_"NaN" --> Not a Number, que representam valores desconhecidos_) do arquivo. <br> Apagando as linhas que contém esse problema.  

```
df.dropna()
```

In [None]:
data = data.dropna()
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada


> **Resultado:**  Notem que algumas linhas serão removidas, tais como a 5 e 9.

# **2. Dados duplicados**


Vamos remover as linhas duplicadas. Para isso, inicialmente verificamos se há a ocorrência dessas linhas.

- Inicialmente verificamos se há a ocorrência dessas linhas. **_`df.duplicated()`_**.

In [None]:
# Retorna True na posição em que há uma linha duplicada
data.duplicated()

Unnamed: 0,0
0,False
1,True
2,False
3,False
4,True
6,False
7,False
8,True
10,False
11,False


> **Resultado:** Notem que a resposta `True` indica que existem dados duplicados

- Para realizamos a remoção, usamos um método da biblioteca Pandas **_`df.drop.duplicates()`_**.

In [None]:
# Remove as linhas duplicadas
data = data.drop_duplicates()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


> Compare essa tabela com a original (acima) e verifique se a remoção das linhas foi feita de forma correta. As linhas duplicadas são indicadas na última coluna.

# **3. Remoção de carateres estranhos ou dados faltantes**


> Vamos remover as linhas que contenham "?" ou qualquer outro caracter que indique um erro ou entrada faltante.

Primeiramente, convertemos essas entradas para **"NaN"**:  **_`df.replace('x', 'X')`_**.

In [None]:
import numpy as np
# Substitui Nan por um caracter desejado
data = data.replace('?', np.nan)
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada


> Resultado: Substituidos os valores 'estranhos' por 'NaN'

- A seguir, fazemos a remoção dos calores 'NaN'

In [None]:
# Remove as linhas com Nan
data = data.dropna()
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa


> **resultado:** Desse forma, temos um conjunto de dados sem erros e entradas duplicadas. É fundamental realizar essas operações em qualquer conjunto de dados antes de aplicarmos os métodos de aprendizado de máquina e estatística.

# **4. Remoção de linhas ou Colunas com dados faltantes**

- Vamos remover a **segunda e quarta COLUNAS**

In [None]:
print("Atributos atuais:",data.columns.values)
print()

Atributos atuais: ['sepal_length' 'sepal_width' 'petal_length' 'petal_width' 'species']



In [None]:
# Remove as linhas especificadas
print("Colunas a serem removidas:", data.columns[[1, 3]].values)
print()
data = data.drop(data.columns[[1, 3]], axis=1)
data.head(5)

Colunas a serem removidas: ['sepal_width' 'petal_width']



Unnamed: 0,sepal_length,petal_length,species
0,5.1,1.4,duplicada
3,4.7,1.3,setosa
6,5.0,1.4,setosa
7,5.4,1.7,duplicada
10,5.0,1.5,setosa


> **Resultado:** as colunas ['sepal_width' 'petal_width'] foram removidas

- Para remover a **primeira e terceira LINHAS**

In [None]:
print("Linhas a serem Removidas:", data.index[[0, 2]].values)
print()

data = data.drop(data.index[[0, 2]], axis=0)
data.head(5)

Linhas a serem Removidas: [0 6]



Unnamed: 0,sepal_length,petal_length,species
3,4.7,1.3,setosa
7,5.4,1.7,duplicada
10,5.0,1.5,setosa
11,4.4,1.4,duplicada
12,4.9,1.5,setosa


> **Resultado:** as linhas 0 e 2 foram removidas

# **5. Substituição de valores ausentes**

Em muitas siutações, a matriz de atributos pode conter valores ausentes. Nesse caso, podemos usar diferentes métodos para substituir tais valores, como **preenche-los com valores médios ou medianas**.

Vamos ler os dados novamente:

In [None]:
data = pd.read_csv(link, header=(0))
print(data.shape)
data.head(5)

(25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada


- Vamos substituir os valores com 'NaN' e '?' pelos valores médios dos atributos. Primeiramente, mudamos as entradas '?' para 'NaN', como foi feito anteriormente.

In [None]:
import numpy as np
data = data.replace('?', np.nan)
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada


- A seguir, inserimos a **média** de cada atributo nas entradas com valores 'NaN'.

[Click--> Calculando a média dos valores ignorando NaN](https://docs.scipy.org/doc/numpy/reference/generated/numpy.nanmean.html)

In [None]:
# ==> Passo 1
# convertemos para o formato Numpy e ignoramos a última coluna (classe)
X = np.array(data[data.columns[0:data.shape[1]-1]], dtype = float)
print("Resultado _ Passo 1 \n\n", X)

# ==> Passo 2
# Usamos a função nanmean que calcula a média por coluna ignorando os Nan e armazena em um vetor
averages = np.nanmean(X, axis = 0)
print("\n\nResultado _ Passo 2\n\n", averages)

# ==> Passo 3
# Realizamos esse ciclo For para localizar e inserir o valor da média
for i in np.arange(0, X.shape[0]):        # movemos por linha
    for j in np.arange(0, X.shape[1]):    # movemos por coluna

        if(np.isnan(X[i,j]) == True):     # verificar se é uma entrada com Nan
            X[i,j] = averages[j]          # insere a média
print("\n\nResultado _ Passo 3\n\n", X)

Resultado _ Passo 1 

 [[5.1 3.5 1.4 0.2]
 [5.1 3.5 1.4 0.2]
 [nan 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [5.1 3.5 1.4 0.2]
 [nan 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 nan]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.4 2.9 1.4 0.2]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 nan]
 [5.1 3.5 1.4 0.3]
 [5.7 nan 1.7 0.3]
 [nan 3.8 1.5 0.3]]


Resultado _ Passo 2

 [5.02272727 3.4375     1.44       0.22608696]


Resultado _ Passo 3

 [[5.1        3.5        1.4        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [5.4        3.9        1.7    

>> Assim como inserimos a média, poderíamos inserir a **mediana ou qualquer outro valor**.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

#carregando a base de dados contida na biblioteca seaborn
base_dados = sns.load_dataset('iris')
# Visualizando a base de dados
base_dados.head(10)
# Use essa flag caso esteja utilizando o jupyter notebook ou o console ipython
%matplotlib inline