# **Introdução à manipulação de Dados (Data Wrangling)**

## **Definição de Data Wrangling**

O Data Wrangling, também chamado de manipulação, disputa, ou transformação de dados, é o processo de limpeza e unificação de conjuntos de dados complexos e desordenados para facilitar seu acesso, análise e modelagem. Geralmente, esse processo inclui a conversão e mapeamento dos dados brutos (raw data), os deixando em um formato mais adequado para o uso.

## **Etapas do data wrangling**
### **Descobrimento**
Antes de começar qualquer análise, é importante compreender as estruturas, tipos e quantidade dos dados. Também é importante saber como e por que uma companhia os utiliza. Isso serve para tomar decisões posteriores com um percurso claro.

### **Estruturação**
A ideia dessa etapa é padronizar o formato dos dados. Dependendo de certos fatores, como se há ou não diferentes fontes ou origens e se os dados estarão em diferentes formatos e estruturas.

### **Limpeza**
Devemos eliminar os dados que não adicionam nenhuma informação extra, como os duplicados, e revisar dados ausentes, entre outros procedimentos. Essa propriedade padroniza o formato das colunas (float, datatimes, etc).

### **Enriquecimento**
Essa etapa se refere ao acréscimo de dados extras que complementem os existentes, acrescentando informação extra à análise.

### **Validação**
Para as equipes, é muito importante se certificar de que os dados são precisos e que a informação não foi alterada durante o processo. Em outras palavras, é necessário garantir a confiabilidade, credibilidade e qualidade dos dados formatados ou limpos, já que serão utilizados para tomar decisões.

### **Publicação**
Assim que os dados estiverem validados, podem ser compartilhados para serem usados, realizar análises exploratórias, treinar modelos e tomar decisões.

## **Combinar e fundir objetos com Pandas. Merge e concat**
### **Merge**

* ```pandas.merge()```: conecta linhas de dois ou mais DataFrames baseados em uma, ou mais keys. É similar ao Join em uma query de SQL.

In [2]:
import pandas as pd
import numpy as np

In [16]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'first': range(7)})
df1

Unnamed: 0,key,first
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [17]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'second': range(3)})
df2

Unnamed: 0,key,second
0,a,0
1,b,1
2,d,2


In [18]:
pd.merge(df1,df2, on ='key', how = 'inner')

Unnamed: 0,key,first,second
0,b,0,1
1,b,1,1
2,a,2,0
3,a,4,0
4,a,5,0
5,b,6,1


In [19]:
pd.merge(df1,df2, on ='key', how = 'outer')

Unnamed: 0,key,first,second
0,a,2.0,0.0
1,a,4.0,0.0
2,a,5.0,0.0
3,b,0.0,1.0
4,b,1.0,1.0
5,b,6.0,1.0
6,c,3.0,
7,d,,2.0


In [20]:
pd.merge(df1,df2, on ='key',how= 'left')

Unnamed: 0,key,first,second
0,b,0,1.0
1,b,1,1.0
2,a,2,0.0
3,c,3,
4,a,4,0.0
5,a,5,0.0
6,b,6,1.0


In [21]:
pd.merge(df1,df2, on ='key',how= 'right')

Unnamed: 0,key,first,second
0,a,2.0,0
1,a,4.0,0
2,a,5.0,0
3,b,0.0,1
4,b,1.0,1
5,b,6.0,1
6,d,,2


### **Concatenate**
* ```pandas.concat()```: concatena ou empilha dois, ou mais dataframes ao longo de um arquivo.

In [22]:
arrays1 = [
    np.array(["A0", "A1",  "A2", "A3"]),
    np.array(["B0", "B1",  "B2", "B3"]),
    np.array(["C0", "C1",  "C2", "C3"]),
    np.array(["D0", "D1",  "D2", "D3"])
]

dfconc1 = pd.DataFrame(arrays1, index = np.array([1,2,3,4])).T
dfconc1.columns = ["A","B","C","D"]
dfconc1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [23]:
arrays2 = [
    np.array(["B2", "B3",  "B6", "B7"]),
    np.array(["D2", "D3",  "D6", "D4"]),
    np.array(["F2", "F3",  "F6", "F4"])
]

dfconc2 = pd.DataFrame(arrays2).T
dfconc2.columns = ["B","D","F"]
dfconc2.index = [2,3,6,7]
dfconc2

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D4,F4


**Exemplo:**

```Axis = 0``` é o valor por default e significa que as linhas dos Dataframes serão empilhadas.
As únicas colunas em comum são B e D.

In [24]:
pd.concat([dfconc1, dfconc2], axis = 0)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D4,F4


**Exemplo:**

```Axis = 1``` Significa que colunas dos Dataframes serão empilhadas.
As linhas com índices em comum têm valores em todas as colunas

In [25]:
pd.concat([dfconc1, dfconc2], axis = 0)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D4,F4


## **Opções de remoção de duplicados**

### **Primeira opção**
Muitos datasets vêm com dados duplicados ou com informação replicadas em muitas linhas. Um exemplo disso pode ser visto abaixo, em que as duas últimas linhas são duplicadas. O mais típico é eliminar uma delas.

In [26]:
df1

Unnamed: 0,key,first
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [27]:
df1.duplicated("key")

0    False
1     True
2    False
3    False
4     True
5     True
6     True
dtype: bool

In [28]:
df1.drop_duplicates("key")

Unnamed: 0,key,first
0,b,0
2,a,2
3,c,3


In [29]:
df1.drop_duplicates("key", keep = "last")

Unnamed: 0,key,first
3,c,3
5,a,5
6,b,6


In [30]:
df1.drop_duplicates("key", keep = False)

Unnamed: 0,key,first
3,c,3


In [31]:
df1.groupby("key", as_index = False).mean()

Unnamed: 0,key,first
0,a,3.666667
1,b,2.333333
2,c,3.0


## **Índices hierárquicos**

A indexação hierárquica é uma característica importante do Pandas que o permite ter vários (dois ou mais) níveis de índice em um arquivo.
De forma um pouco abstrata, fornece uma maneira de trabalhar com dados de dimensões superiores em uma forma de dimensões inferiores.

In [32]:
arrays = [
    np.array(["a", "a",  "b", "b",  "c", "c","d","d"]),
    np.array([1, 2, 1, 2, 1, 2, 1, 2]),
]
s = pd.Series(np.random.randn(8), index=arrays)
df = pd.DataFrame(np.random.randn(8, 4), index=arrays)
df

Unnamed: 0,Unnamed: 1,0,1,2,3
a,1,-0.25156,0.76742,1.88248,0.56903
a,2,-3.09475,1.887807,1.188429,0.061386
b,1,0.953812,-0.187633,0.037931,-0.361594
b,2,-0.339483,-1.394801,-0.897077,1.367538
c,1,-0.200964,-0.908102,0.728138,-1.080917
c,2,1.609413,0.276018,0.121974,0.777394
d,1,0.273977,-0.969541,-0.204341,-0.490377
d,2,-1.593437,2.587687,-0.280667,-1.764692


In [33]:
df.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2),
            ('d', 1),
            ('d', 2)],
           )

In [34]:
df.loc[(["a","b"])]

Unnamed: 0,Unnamed: 1,0,1,2,3
a,1,-0.25156,0.76742,1.88248,0.56903
a,2,-3.09475,1.887807,1.188429,0.061386
b,1,0.953812,-0.187633,0.037931,-0.361594
b,2,-0.339483,-1.394801,-0.897077,1.367538


In [35]:
df.loc[(["a","b"],2),:]

Unnamed: 0,Unnamed: 1,0,1,2,3
a,2,-3.09475,1.887807,1.188429,0.061386
b,2,-0.339483,-1.394801,-0.897077,1.367538


In [36]:
df.loc[("b",2)]

0   -0.339483
1   -1.394801
2   -0.897077
3    1.367538
Name: (b, 2), dtype: float64

In [37]:
df.loc[("b",2),0]

np.float64(-0.3394827678425035)

In [38]:
df.unstack()

Unnamed: 0_level_0,0,0,1,1,2,2,3,3
Unnamed: 0_level_1,1,2,1,2,1,2,1,2
a,-0.25156,-3.09475,0.76742,1.887807,1.88248,1.188429,0.56903,0.061386
b,0.953812,-0.339483,-0.187633,-1.394801,0.037931,-0.897077,-0.361594,1.367538
c,-0.200964,1.609413,-0.908102,0.276018,0.728138,0.121974,-1.080917,0.777394
d,0.273977,-1.593437,-0.969541,2.587687,-0.204341,-0.280667,-0.490377,-1.764692


In [39]:
df.groupby(level=1).sum()

Unnamed: 0,0,1,2,3
1,0.775264,-1.297856,2.444208,-1.363858
2,-3.418257,3.356711,0.132659,0.441627


In [40]:
df.groupby(level=0).sum()

Unnamed: 0,0,1,2,3
a,-3.346311,2.655227,3.070909,0.630417
b,0.614329,-1.582434,-0.859146,1.005944
c,1.408448,-0.632083,0.850112,-0.303523
d,-1.31946,1.618146,-0.485008,-2.255069


## **GroupBy**

* A sentença **GROUP BY** identifica uma coluna selecionada para ser utilizada no agrupamento de resultados.
* Divide os dados em grupos pelos valores da coluna especificada e retorna uma linha de resultados para cada grupo.
* Podemos utilizar **GROUP BY** com mais de um nome de coluna.

In [41]:
df1

Unnamed: 0,key,first
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [42]:
df1.groupby(["key"]).count()

Unnamed: 0_level_0,first
key,Unnamed: 1_level_1
a,3
b,3
c,1


In [43]:
df1.groupby(["key"]).mean()

Unnamed: 0_level_0,first
key,Unnamed: 1_level_1
a,3.666667
b,2.333333
c,3.0


In [44]:
df1.groupby(["key"])["first"].agg(["sum","mean"])

Unnamed: 0_level_0,sum,mean
key,Unnamed: 1_level_1,Unnamed: 2_level_1
a,11,3.666667
b,7,2.333333
c,3,3.0


In [45]:
p25 = lambda x: x.quantile(0.25)
df1.groupby(["key"])["first"].agg(p25)

key
a    3.0
b    0.5
c    3.0
Name: first, dtype: float64

## **Pivot**

O PIVOT rotaciona uma tabela convertendo os valores únicos de uma coluna em várias colunas. 
Assim, executa agregações, onde forem requisitadas, em qualquer valor de coluna restante que desejar que esteja no resultado final.

In [47]:
df = pd.DataFrame({'A': ['John', 'Boby', 'Mina'],
      'B': ['Masters', 'Graduate', 'Graduate'],
      'C': [27, 23, 21]})
df

Unnamed: 0,A,B,C
0,John,Masters,27
1,Boby,Graduate,23
2,Mina,Graduate,21


In [48]:
df.pivot(columns='B')

Unnamed: 0_level_0,A,A,C,C
B,Graduate,Masters,Graduate,Masters
0,,John,,27.0
1,Boby,,23.0,
2,Mina,,21.0,


In [49]:
df.pivot(index ='A', columns ='B', values =['C'])

Unnamed: 0_level_0,C,C
B,Graduate,Masters
A,Unnamed: 1_level_2,Unnamed: 2_level_2
Boby,23.0,
John,,27.0
Mina,21.0,


In [50]:
df.pivot(index ='A', columns ='B', values =['C', 'A'])

Unnamed: 0_level_0,C,C,A,A
B,Graduate,Masters,Graduate,Masters
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Boby,23.0,,Boby,
John,,27.0,,John
Mina,21.0,,Mina,
