# Pandas - ETL
- Há diversas operações no Pandas para manipulação de dados. Algumas delas serão mostradas ao longo desse notebook. E para isso usaremos os seguintes três dataframes: **df_a**, **df_b** e **df_new**

In [1]:
import pandas as pd
#from IPython.display import display
#from IPython.display import Image

In [2]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


In [3]:
raw_data = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_b

Unnamed: 0,subject_id,first_name,last_name
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


In [4]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}
df_n = pd.DataFrame(raw_data, columns = ['subject_id','test_id'])
df_n

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


# Concat
- Uma das operações comuns é unir registros que estão em diferentes dataframes. Para isso usaremos o comando concat que recebe uma lista com n dataframes como parâmetro.

In [5]:
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


# Merge
- Uma das operações comuns com dados é o merge, onde os registros são mesclados baseados em alguma coluna comum.
- No exemplo abaixo os registros de **df_a** e **df_n** foram mesclados onde o **subject_id** (left_on) de um registro de um dataframe é igual ao **subject_id** (right_on) do outro dataframe. Como você pode ver, as colunas e ambos os dataframes são mostradas.

In [6]:
pd.merge(df_a, df_n, left_on='subject_id', right_on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16


# Tipos de Merge
- Outros tipos de merge podem ser utilizados usando o parâmetro **how**: ‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’.

## Outer
- Todos os registros são mesclados usando uma coluna, ainda que não haja correspondência em um dos lados da relação que nesse caso os dados não correspondidos ficarão com valor **NaN**.

In [7]:
pd.merge(df_a, df_n, on='subject_id', how='outer')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16
5,7,,,14
6,8,,,15
7,9,,,1
8,10,,,61
9,11,,,16


## Left
- Todos os registros do lado esquerdo da relação são mantidos, ainda que não haja correspondência no lado direito.

In [8]:
pd.merge(df_a, df_n, on='subject_id', how='left')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16


## Right
- Todos os registros do lado direito da relação são mantidos, ainda que não haja correspondência no lado esquerdo.

In [9]:
pd.merge(df_a, df_n, on='subject_id', how='right')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,5,Ayoung,Atiches,16
5,7,,,14
6,8,,,15
7,9,,,1
8,10,,,61
9,11,,,16


# Groupby
- Dados podem ser agrupados para que operações possam ser executadas nesses grupos, para isso usamos o **groupby**. Para demonstrar sua utilização utilizaremos um dataframe de uma planta da espécie Íris que é fornecido pelo **seaborn**.
- Os dados podem ser agrupados por qualquer coluna.
- No exemplo abaixo estamos agrupando pela coluna **species**,
- Diversas operações podem ser utilizadas nesses grupos: sum, mean

In [10]:
import seaborn as sns
df = sns.load_dataset('iris')
gk = df.groupby('species')
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [11]:
gk.get_group('versicolor').head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


# Exemplos de operações em grupos

In [12]:
gk.mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [13]:
gk.min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.3,2.3,1.0,0.1
versicolor,4.9,2.0,3.0,1.0
virginica,4.9,2.2,4.5,1.4


In [14]:
gk.max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.8,4.4,1.9,0.6
versicolor,7.0,3.4,5.1,1.8
virginica,7.9,3.8,6.9,2.5


In [15]:
gk.describe()

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,...,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
setosa,50.0,5.006,0.35249,4.3,4.8,5.0,5.2,5.8,50.0,3.428,...,1.575,1.9,50.0,0.246,0.105386,0.1,0.2,0.2,0.3,0.6
versicolor,50.0,5.936,0.516171,4.9,5.6,5.9,6.3,7.0,50.0,2.77,...,4.6,5.1,50.0,1.326,0.197753,1.0,1.2,1.3,1.5,1.8
virginica,50.0,6.588,0.63588,4.9,6.225,6.5,6.9,7.9,50.0,2.974,...,5.875,6.9,50.0,2.026,0.27465,1.4,1.8,2.0,2.3,2.5


# Pivot Tables
- Pivot Tables são tabelas derivadas a partir de um dataframe

In [18]:
from collections import OrderedDict
table = {
    "Item": ['Item0', 'Item0', 'Item1', 'Item1'],
    "CType": ['Gold', 'Bronze', 'Gold', 'Silver'],
    "USD": ['1$', '2$', '3$', '4$'],
    "EU": ['1€', '2€', '3€', '4€'],
    }
df = pd.DataFrame(table)
df

Unnamed: 0,Item,CType,USD,EU
0,Item0,Gold,1$,1€
1,Item0,Bronze,2$,2€
2,Item1,Gold,3$,3€
3,Item1,Silver,4$,4€


- Nesse exemplo os novos indices são criados a partir dos valores da coluna **Item**, e a novas colunas são criadas a partir dos valores da coluna **CType** e os novos valores do cruzamento de Item com Ctype são os valores da coluna **EU**.

In [19]:
df.pivot(index='Item', columns='CType', values='EU')

CType,Bronze,Gold,Silver
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item0,2€,1€,
Item1,,3€,4€
