# **Introdução à manipulação de Dados (Data Wrangling)**

## **Definição de Data Wrangling**

O Data Wrangling, também chamado de manipulação, disputa, ou transformação de dados, é o processo de limpeza e unificação de conjuntos de dados complexos e desordenados para facilitar seu acesso, análise e modelagem. Geralmente, esse processo inclui a conversão e mapeamento dos dados brutos (raw data), os deixando em um formato mais adequado para o uso.

## **Etapas do data wrangling**
### **Descobrimento**
Antes de começar qualquer análise, é importante compreender as estruturas, tipos e quantidade dos dados. Também é importante saber como e por que uma companhia os utiliza. Isso serve para tomar decisões posteriores com um percurso claro.

### **Estruturação**
A ideia dessa etapa é padronizar o formato dos dados. Dependendo de certos fatores, como se há ou não diferentes fontes ou origens e se os dados estarão em diferentes formatos e estruturas.

### **Limpeza**
Devemos eliminar os dados que não adicionam nenhuma informação extra, como os duplicados, e revisar dados ausentes, entre outros procedimentos. Essa propriedade padroniza o formato das colunas (float, datatimes, etc).

### **Enriquecimento**
Essa etapa se refere ao acréscimo de dados extras que complementem os existentes, acrescentando informação extra à análise.

### **Validação**
Para as equipes, é muito importante se certificar de que os dados são precisos e que a informação não foi alterada durante o processo. Em outras palavras, é necessário garantir a confiabilidade, credibilidade e qualidade dos dados formatados ou limpos, já que serão utilizados para tomar decisões.

### **Publicação**
Assim que os dados estiverem validados, podem ser compartilhados para serem usados, realizar análises exploratórias, treinar modelos e tomar decisões.

## **Combinar e fundir objetos com Pandas. Merge e concat**
### **Merge**

* ```pandas.merge()```: conecta linhas de dois ou mais DataFrames baseados em uma, ou mais keys. É similar ao Join em uma query de SQL.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'first': range(7)})
df1

Unnamed: 0,key,first
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [3]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'second': range(3)})
df2

Unnamed: 0,key,second
0,a,0
1,b,1
2,d,2


In [4]:
pd.merge(df1,df2, on ='key', how = 'inner')

Unnamed: 0,key,first,second
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [5]:
pd.merge(df1,df2, on ='key', how = 'outer')

Unnamed: 0,key,first,second
0,a,2.0,0.0
1,a,4.0,0.0
2,a,5.0,0.0
3,b,0.0,1.0
4,b,1.0,1.0
5,b,6.0,1.0
6,c,3.0,
7,d,,2.0


In [6]:
pd.merge(df1,df2, on ='key',how= 'left')

Unnamed: 0,key,first,second
0,b,0,1.0
1,b,1,1.0
2,a,2,0.0
3,c,3,
4,a,4,0.0
5,a,5,0.0
6,b,6,1.0


In [7]:
pd.merge(df1,df2, on ='key',how= 'right')

Unnamed: 0,key,first,second
0,a,2.0,0
1,a,4.0,0
2,a,5.0,0
3,b,0.0,1
4,b,1.0,1
5,b,6.0,1
6,d,,2


### **Concatenate**
* ```pandas.concat()```: concatena ou empilha dois, ou mais dataframes ao longo de um arquivo.

In [8]:
arrays1 = [
    np.array(["A0", "A1",  "A2", "A3"]),
    np.array(["B0", "B1",  "B2", "B3"]),
    np.array(["C0", "C1",  "C2", "C3"]),
    np.array(["D0", "D1",  "D2", "D3"])
]

dfconc1 = pd.DataFrame(arrays1, index = np.array([1,2,3,4])).T
dfconc1.columns = ["A","B","C","D"]
dfconc1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [9]:
arrays2 = [
    np.array(["B2", "B3",  "B6", "B7"]),
    np.array(["D2", "D3",  "D6", "D4"]),
    np.array(["F2", "F3",  "F6", "F4"])
]

dfconc2 = pd.DataFrame(arrays2).T
dfconc2.columns = ["B","D","F"]
dfconc2.index = [2,3,6,7]
dfconc2

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D4,F4


**Exemplo:**

```Axis = 0``` é o valor por default e significa que as linhas dos Dataframes serão empilhadas.
As únicas colunas em comum são B e D.

In [10]:
pd.concat([dfconc1, dfconc2], axis = 0)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D4,F4


**Exemplo:**

```Axis = 1``` Significa que colunas dos Dataframes serão empilhadas.
As linhas com índices em comum têm valores em todas as colunas

In [12]:
pd.concat([dfconc1, dfconc2], axis = 0)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D4,F4


## **Opções de remoção de duplicados**

### **Primeira opção**
Muitos datasets vêm com dados duplicados ou com informação replicadas em muitas linhas. Um exemplo disso pode ser visto abaixo, em que as duas últimas linhas são duplicadas. O mais típico é eliminar uma delas.

In [13]:
df1

Unnamed: 0,key,first
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [14]:
df1.duplicated("key")

0    False
1     True
2    False
3    False
4     True
5     True
6     True
dtype: bool

In [15]:
df1.drop_duplicates("key")

Unnamed: 0,key,first
0,b,0
2,a,2
3,c,3


In [16]:
df1.drop_duplicates("key", keep = "last")

Unnamed: 0,key,first
3,c,3
5,a,5
6,b,6


In [17]:
df1.drop_duplicates("key", keep = False)

Unnamed: 0,key,first
3,c,3


In [18]:
df1.groupby("key", as_index = False).mean()

Unnamed: 0,key,first
0,a,3.666667
1,b,2.333333
2,c,3.0
