<a href="https://colab.research.google.com/github/andrepegoraro/Metrologia_Industrial/blob/main/Apostila_04_Modelando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Modelando DataFrames

Agora que já sabemos trabalhar tanto com uma única tabela quando com a junção de 2 ou mais, vamos rever mais a fundo alguns conceitos, além de conhecer alguns novos.

In [None]:
import pandas as pd
import numpy as np

##MULTI-ÍNDICES
O primeiro tópico que vamos trabalhar é sobre multi-índinces. Se você tiver uma memória boa, vai lembrar que ele apareceu lá na apostila 03, na parte de aggregation. Mas se você não lembra, tudo bem. Vamos refazer aqui.

A ideia de multi-indíces (ou multi-index) é mais intuitiva quando pensamos em Excel. Sabe a função "mesclar células"? Então! Imagina que você é um professor e ainda não sabe como mexer com pandas (só finge né?! porque agora você já é expert nisso que eu sei!), e aí você quer *transformar em tabela* um dicionário que você fez lá no início do semestre, onde registrou todos as listas de exercícios entregues, com nome do aluno, a nota da lista e o semestre em que ele fez essa lista. Por último, você quer que essa planilha seja organizada de forma que todos as listas feitas no mesmo semestre fiquem **agregados** ao mesmo **index**, além disso, você quer a quantidade de listas entregues e a média das notas, ambas por aluno e por semestre.

In [None]:
notas_listas_dic = {'aluno':['Maria', 'Augusto', 'Natalia', 'Ricardo', 'Maria', 'Augusto', 'Ricardo', 'Natalia', 'Maria', 'Augusto',
                             'Ricardo', 'Natalia', 'Maria', 'Augusto', 'Ricardo', 'Natalia', 'Ricardo', 'Natalia'],
                    'nota':[9, 2, 6, 7, 0, 3, 5, 10, 0, 7, 10, 8, 1, 7, 10, 3, 9, 6],
                    'quantidade':[1, 3, 3, 4, 1, 5, 1, 3, 4, 4, 5, 2, 4, 2, 2, 5, 4, 4],
                    'semestre':['semestre 1', 'semestre 1', 'semestre 1', 'semestre 1', 'semestre 1', 'semestre 1', 'semestre 1',
                                'semestre 1', 'semestre 1', 'semestre 2', 'semestre 2', 'semestre 2', 'semestre 2', 'semestre 2',
                                'semestre 2', 'semestre 2', 'semestre 2', 'semestre 2']}

In [None]:
#Primeiro, convertemos o dicionário para um DataFrame
notas_listas = pd.DataFrame(notas_listas_dic)
notas_listas

Unnamed: 0,aluno,nota,quantidade,semestre
0,Maria,9,1,semestre 1
1,Augusto,2,3,semestre 1
2,Natalia,6,3,semestre 1
3,Ricardo,7,4,semestre 1
4,Maria,0,1,semestre 1
5,Augusto,3,5,semestre 1
6,Ricardo,5,1,semestre 1
7,Natalia,10,3,semestre 1
8,Maria,0,4,semestre 1
9,Augusto,7,4,semestre 2


In [None]:
notas_listas_gb = notas_listas.groupby(['semestre', 'aluno']).sum()
notas_listas_gb

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,quantidade
semestre,aluno,Unnamed: 2_level_1,Unnamed: 3_level_1
semestre 1,Augusto,5,8
semestre 1,Maria,9,6
semestre 1,Natalia,16,6
semestre 1,Ricardo,12,5
semestre 2,Augusto,14,6
semestre 2,Maria,1,4
semestre 2,Natalia,17,11
semestre 2,Ricardo,29,11


Reparou que o Ricardo ficou com uma nota 29?
A verdade é que não faz muito sentido somarmos as notas! Precisamos usar a média das notas.

In [None]:
notas_listas_agg = notas_listas.groupby(['semestre', 'aluno']).agg({'nota': np.average, 'quantidade': np.sum})

In [None]:
notas_listas_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,quantidade
semestre,aluno,Unnamed: 2_level_1,Unnamed: 3_level_1
semestre 1,Augusto,2.5,8
semestre 1,Maria,3.0,6
semestre 1,Natalia,8.0,6
semestre 1,Ricardo,6.0,5
semestre 2,Augusto,7.0,6
semestre 2,Maria,1.0,4
semestre 2,Natalia,5.666667,11
semestre 2,Ricardo,9.666667,11


Lembra disso desses índices "acumulados" na última apostila? Aqui, nosso intuito é mostrar que podemos partir de um DataFrame com um índice (que no caso eram os números de 0 a 17) e formar um novo DataFrame com uma **composição de índices** (mesclamos os dados dos "semestres" e "alunos" formando dois índices para o mesmo DataFrame).
>
Ali nós usamos a nossa funçãozinha querida `groupby` e `aggregation` para a formação de mais índices, mas existem funções especiais justamente para isso, vamos ver?


In [None]:
#Primeiro vamos pegar um DataFrame com um único index

notas_listas

Unnamed: 0,aluno,nota,quantidade,semestre
0,Maria,9,1,semestre 1
1,Augusto,2,3,semestre 1
2,Natalia,6,3,semestre 1
3,Ricardo,7,4,semestre 1
4,Maria,0,1,semestre 1
5,Augusto,3,5,semestre 1
6,Ricardo,5,1,semestre 1
7,Natalia,10,3,semestre 1
8,Maria,0,4,semestre 1
9,Augusto,7,4,semestre 2


Com a função <font color = "orange">**`.set_index()`</font>** (já vimos essa função antes, para trocar o índice de um DataFrame) podemos selecionar mais de um índice!

In [None]:
#Vamos criar um novo DF com os índices semestre e alunos

multi_indices = notas_listas.set_index(['semestre', 'aluno'])
multi_indices

Unnamed: 0_level_0,Unnamed: 1_level_0,nota,quantidade
semestre,aluno,Unnamed: 2_level_1,Unnamed: 3_level_1
semestre 1,Maria,9,1
semestre 1,Augusto,2,3
semestre 1,Natalia,6,3
semestre 1,Ricardo,7,4
semestre 1,Maria,0,1
semestre 1,Augusto,3,5
semestre 1,Ricardo,5,1
semestre 1,Natalia,10,3
semestre 1,Maria,0,4
semestre 2,Augusto,7,4


Perceba que diferentemente do `groupby`, essa função vai apenas formar duas colunas principais para o DF, não mudou em nada as informações do DF anterior.

Outra função que podemos utilizar: <font color = "orange">**`.index.summary()`</font>**, ela nos permite retirar algumas informações do índice do DataFrame

In [None]:
multi_indices.index.summary()

'MultiIndex: 18 entries, (semestre 1, Maria) to (semestre 2, Natalia)'

In [None]:
#Se pedirmos as informações do Df original

notas_listas.index.summary()

'RangeIndex: 18 entries, 0 to 17'

Podemos observar que temos 18 entradas nos dois DataFrames, porém, no primeiro temos 2 índices e no segundo apenas um.

Para saber os nomes dos índices <font color = "orange">**`.index.names()`</font>**

In [None]:
multi_indices.index.names

FrozenList(['semestre', 'aluno'])

Por último, podemos resetar os índices com a função <font color = "orange">**`.reset_index()`</font>**

In [None]:
#Voltamos ao nosso DataFrame original

multi_indices.reset_index()

Unnamed: 0,semestre,aluno,nota,quantidade
0,semestre 1,Maria,9,1
1,semestre 1,Augusto,2,3
2,semestre 1,Natalia,6,3
3,semestre 1,Ricardo,7,4
4,semestre 1,Maria,0,1
5,semestre 1,Augusto,3,5
6,semestre 1,Ricardo,5,1
7,semestre 1,Natalia,10,3
8,semestre 1,Maria,0,4
9,semestre 2,Augusto,7,4


Para vermos uma última função, <font color = 'orange'>`MultiIndex`</font>, tome o exemplo inicial:

Agora o professor lá do exemplo já sabe vários conceitos de Pandas! Então, no ano seguinte, em vez de criar um dicionário para somente ao fim do semestre transformá-lo em DataFrame, ele já calcula as médias e as quantidades de listas entregues por alunos e as médias. Tudo isso com essa  função <font color = 'orange'>`MultiIndex`</font>!

Dá uma olhada:

In [None]:
#Primeiro, ele define quem são as colunas usando o MultiIndex do tipo from_product (da ideia de produtos cartesianos)

colunas = pd.MultiIndex.from_product([['Semestre 1', 'Semestre 2'], ['quantidade', 'média']])

#Depois ele define os dados por alunos

d=([[5, 9.5, 5, 10], [3, 6, 2, 4], [1, 2, 4, 7.5], [0, 0, 5, 9.5]])
  
#Por último, ele converte tudo isso num DataFrame, com dados (d), index (a lista de alunos)
#e colunas (definidas pelo MultiIndex)

df = pd.DataFrame(d,
                  index=['Julia', 'Mateus', 'João', 'Manu'],
                  columns=colunas)

df

Unnamed: 0_level_0,Semestre 1,Semestre 1,Semestre 2,Semestre 2
Unnamed: 0_level_1,quantidade,média,quantidade,média
Julia,5,9.5,5,10.0
Mateus,3,6.0,2,4.0
João,1,2.0,4,7.5
Manu,0,0.0,5,9.5


##STACK & UNSTACK

Acabamos de aprender uma forma de organizar o DataFrame em relação ao seu índice, agora vamos dar uma olhadinha em outra maneira de modelar nosso `DataFrame`.

Os métodos <font color = "orange">**`.stack()`</font>** e <font color = "orange">**`.unstack()`</font>** podem ser usados tanto em `Series` quanto em `DataFrames` e são usados juntamente com o conceito de `Multi-index` que acabamos de ver.

###STACK

Em português, "empilhar", é um método que, basicamente, empilha os dados do DataFrame em uma ou mais linhas.

In [None]:
#Primeiro vamos criar um DataFrame

colunas = pd.MultiIndex.from_product([['2017', '2018'],['Vendas', 'Clientes']])
d=([[12, 45, 67, 56],[78, 89, 45, 67],[45, 67, 89, 90],[67, 44, 56, 55]])

 
df = pd.DataFrame(d,
                  index=['Ana', 'Bruno', 'Cristina', 'Jackson'],
                  columns=colunas)
df

Unnamed: 0_level_0,2017,2017,2018,2018
Unnamed: 0_level_1,Vendas,Clientes,Vendas,Clientes
Ana,12,45,67,56
Bruno,78,89,45,67
Cristina,45,67,89,90
Jackson,67,44,56,55


Nesta célula estamos mostrando uma maneira diferente de criar um `DataFrame` Multi-indexado, com dois níveis de índices de colunas (2017/2018 e Vendas/Clientes).

In [None]:
empilhado = df.stack()
empilhado

Unnamed: 0,Unnamed: 1,2017,2018
Ana,Clientes,45,56
Ana,Vendas,12,67
Bruno,Clientes,89,67
Bruno,Vendas,78,45
Cristina,Clientes,67,90
Cristina,Vendas,45,89
Jackson,Clientes,44,55
Jackson,Vendas,67,56


Ao "empilhar" o DataFrame multi-indexado em colunas (ou seja, antes ele possuia dois índices nas colunas), nós transferimos os índices interiores das colunas - nesse caso, as Vendas/Clientes - para serem índices interiores das linhas.

###UNSTACK

É o método inverso ao `stack`, ou seja, ele pega os índices interiores de linhas e transforma em índices interiores de colunas. 

In [None]:
desempilhado = empilhado.unstack()
desempilhado

Unnamed: 0_level_0,2017,2017,2018,2018
Unnamed: 0_level_1,Clientes,Vendas,Clientes,Vendas
Ana,45,12,56,67
Bruno,89,78,67,45
Cristina,67,45,90,89
Jackson,44,67,55,56


Perceba que o "desempilhado" é o mesmo DataFrame que o original "df". Portanto, o `unstack` desfez o que o `stack` tinha feito, por isso esses dois métodos são como duas operações inversas.

Basicamente, usamos o `stack` quando queremos os dados agrupados em menos colunas e mais linhas, e, caso contrário, usamos o `unstack`.
>
---
Os exemplos anteriores foram para mostrar os dois métodos de forma geral (o modo "default" do Pandas), porém, eles também permitem a escolha de quais índices empilhar ou desempilhar!

In [None]:
#Vamos usar o stack para o índice mais externo do df (ou seja "2017" e "2018)

empilhar_externo = df.stack(0)
empilhar_externo

Unnamed: 0,Unnamed: 1,Clientes,Vendas
Ana,2017,45,12
Ana,2018,56,67
Bruno,2017,89,78
Bruno,2018,67,45
Cristina,2017,67,45
Cristina,2018,90,89
Jackson,2017,44,67
Jackson,2018,55,56


In [None]:
#ou desempilhar os nomes

desempilhar_externo = empilhar_externo.unstack(0)
desempilhar_externo

Unnamed: 0_level_0,Clientes,Clientes,Clientes,Clientes,Vendas,Vendas,Vendas,Vendas
Unnamed: 0_level_1,Ana,Bruno,Cristina,Jackson,Ana,Bruno,Cristina,Jackson
2017,45,89,67,44,12,78,45,67
2018,56,67,90,55,67,45,89,56


Como neste exemplo de `DataFrame` tínhamos dois níveis de índices, o exterior seria o nível 0 e o interior o nível 1 (que é o mesmo que o default).

##PIVOT TABLE

A ideia é que existe outro recurso muito interessante para agrupar e visualizar os nossos dados de forma simples e prático. Lembra das tabelas dinâmicas que usamos no Excel? É algo bem parecido! Inclusive, o termo em português para Pivot Tabela é justamente Tabela Dinâmica.

Basicamente, uma `pivot table` é uma tabela com dados retirados de um banco de dados maior, que foram agrupados de maneira significativa para a busca de informações.
Ela nos permite organizar e reorganizar os dados para podermos visualizá-los mais facilmente, e também, resumir os dados de forma a retirar as informações realmente importantes e úteis.


In [None]:
sales = [{'conta': 'Jota LLC', 'gerente': 'Artur Nascimento', 'cliente': 'Diego Lima' ,'saldo': 150, 'movimentações': 1, 'tipo': 'C'},
         {'conta': 'Alfa Co','gerente': 'Artur Nascimento','cliente': 'César Pereira', 'saldo': 200, 'movimentações': 4, 'tipo': 'A'},
         {'conta': 'Novo Inc','gerente': 'Débora Souza', 'cliente': 'Alana Madeiros', 'saldo': 260, 'movimentações': 2, 'tipo': 'C' },
         {'conta': 'Delta A','gerente': 'Artur Nascimento', 'cliente': 'José Thompson', 'saldo': 50, 'movimentações': 2, 'tipo': 'B' },
         {'conta': 'Lib Inc','gerente': 'Débora Souza', 'cliente': 'Lara Nandi', 'saldo': 195, 'movimentações': 3, 'tipo': 'A'},
         {'conta': 'Alfa Co','gerente': 'Artur Nascimento','cliente': 'César Pereira', 'saldo': 105, 'movimentações': 2, 'tipo': 'A'},
         {'conta': 'Novo Inc','gerente': 'Débora Souza', 'cliente': 'Alana Madeiros', 'saldo': 130, 'movimentações': 1, 'tipo': 'C' }]
df = pd.DataFrame(sales)

In [None]:
df

Unnamed: 0,cliente,conta,gerente,movimentações,saldo,tipo
0,Diego Lima,Jota LLC,Artur Nascimento,1,150,C
1,César Pereira,Alfa Co,Artur Nascimento,4,200,A
2,Alana Madeiros,Novo Inc,Débora Souza,2,260,C
3,José Thompson,Delta A,Artur Nascimento,2,50,B
4,Lara Nandi,Lib Inc,Débora Souza,3,195,A
5,César Pereira,Alfa Co,Artur Nascimento,2,105,A
6,Alana Madeiros,Novo Inc,Débora Souza,1,130,C


Algumas funcionalidades do `pivot table` nós já vimos anteriormente com o método `groupby()`, porém veremos como esse novo método oferece algumas facilidades no conceito de multi-indexing.

Tudo o que precisamos para começar a usá-lo é um `DataFrame` e um `index`:

In [None]:
#Vamos começar definindo a "conta" como nosso index:

pd.pivot_table(df, index=['conta'])

Unnamed: 0_level_0,movimentações,saldo
conta,Unnamed: 1_level_1,Unnamed: 2_level_1
Alfa Co,3.0,152.5
Delta A,2.0,50.0
Jota LLC,1.0,150.0
Lib Inc,3.0,195.0
Novo Inc,1.5,195.0


Percebemos que a `pivot table` já começa a agrupar e resumir os dados de maneira inteligente. Primeiro, ela agrupou os dados pelo índice que indicamos e fez as médias dos valores das colunas "saldo" e "movimentações".
>
Usando o conceito de `multi-index`, podemos támbem usar vários índices no `pivot table`:


In [None]:
pd.pivot_table(df, index=['conta', 'gerente', 'cliente'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,movimentações,saldo
conta,gerente,cliente,Unnamed: 3_level_1,Unnamed: 4_level_1
Alfa Co,Artur Nascimento,César Pereira,3.0,152.5
Delta A,Artur Nascimento,José Thompson,2.0,50.0
Jota LLC,Artur Nascimento,Diego Lima,1.0,150.0
Lib Inc,Débora Souza,Lara Nandi,3.0,195.0
Novo Inc,Débora Souza,Alana Madeiros,1.5,195.0


Vemos que essa funcionalidade é muito interessante, mas nem sempre é útil - como neste caso.

Uma dica para usar esse método, é começar com poucos argumentos e testar cada vez, assim, a medida que aumentar, verificar o resultado, até chegar na informação que você precisa. Por exemplo, começamos com um índice - a conta - mas precisamos de mais informações, queremos ver as contas de cada gerente, porém ao adicionar os 3 índices, não se tornou uma informação útil, por isso vamos testar mais uma vez.

In [None]:
#testar mais uma vez

pd.pivot_table(df, index=['conta', 'gerente'])

Unnamed: 0_level_0,Unnamed: 1_level_0,movimentações,saldo
conta,gerente,Unnamed: 2_level_1,Unnamed: 3_level_1
Alfa Co,Artur Nascimento,3.0,152.5
Delta A,Artur Nascimento,2.0,50.0
Jota LLC,Artur Nascimento,1.0,150.0
Lib Inc,Débora Souza,3.0,195.0
Novo Inc,Débora Souza,1.5,195.0


In [None]:
#testar outra vez

pd.pivot_table(df, index=['gerente', 'conta'])

Unnamed: 0_level_0,Unnamed: 1_level_0,movimentações,saldo
gerente,conta,Unnamed: 2_level_1,Unnamed: 3_level_1
Artur Nascimento,Alfa Co,3.0,152.5
Artur Nascimento,Delta A,2.0,50.0
Artur Nascimento,Jota LLC,1.0,150.0
Débora Souza,Lib Inc,3.0,195.0
Débora Souza,Novo Inc,1.5,195.0


Como você pode ver, a ordem dos índices importa e faz bastante diferença! Por isso, testar e observar o comportamento dos dados é bem importante para conseguirmos retirar as informações da melhor maneira. Agora podemos visualizar com facilidade quais contas são de cada gerente.


In [None]:
#Podemos escolher as colunas que desejamos ver

pd.pivot_table(df, index=['gerente', 'conta'], values=['movimentações'])

Unnamed: 0_level_0,Unnamed: 1_level_0,movimentações
gerente,conta,Unnamed: 2_level_1
Artur Nascimento,Alfa Co,3.0
Artur Nascimento,Delta A,2.0
Artur Nascimento,Jota LLC,1.0
Débora Souza,Lib Inc,3.0
Débora Souza,Novo Inc,1.5


Aqui, podemos ver que como não indicamos o que queremos fazer com os dados, o método simplismente faz uma média dos valores das colunas, mas e se quisermos uma realizar uma operação diferente para as colunas?
Lembra da função `agg`? Usávamos com o groupby para realizar alguma operação nos dados agrupados. Aqui podemos usar o método `aggfunc` 


In [None]:
#Vamos somar as quantidades de cada conta:

pd.pivot_table(df, index=['gerente', 'conta'], values=['movimentações'], aggfunc=np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,movimentações
gerente,conta,Unnamed: 2_level_1
Artur Nascimento,Alfa Co,6
Artur Nascimento,Delta A,2
Artur Nascimento,Jota LLC,1
Débora Souza,Lib Inc,3
Débora Souza,Novo Inc,3


E se quisermos mais de uma função? Temosss

In [None]:
#Vamos contar a quantidade de cada conta e ver quantas vezes cada conta aparece no DataFrame:

pd.pivot_table(df, index=['gerente', 'conta'], values=['movimentações'], aggfunc=[np.sum,len])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,len
Unnamed: 0_level_1,Unnamed: 1_level_1,movimentações,movimentações
gerente,conta,Unnamed: 2_level_2,Unnamed: 3_level_2
Artur Nascimento,Alfa Co,6,2
Artur Nascimento,Delta A,2,1
Artur Nascimento,Jota LLC,1,1
Débora Souza,Lib Inc,3,1
Débora Souza,Novo Inc,3,2


Ainda, se quisermos ver colunas diferentes e aplicar funções diferentes em cada uma? Temosssss

In [None]:
pd.pivot_table(df, index=['gerente', 'conta'], values=['movimentações', 'saldo'], aggfunc={'movimentações': np.sum,'saldo': np.mean})

Unnamed: 0_level_0,Unnamed: 1_level_0,movimentações,saldo
gerente,conta,Unnamed: 2_level_1,Unnamed: 3_level_1
Artur Nascimento,Alfa Co,6,152.5
Artur Nascimento,Delta A,2,50.0
Artur Nascimento,Jota LLC,1,150.0
Débora Souza,Lib Inc,3,195.0
Débora Souza,Novo Inc,3,195.0


Lembra do `unstack`? Aqui também podemos "desempilhar" os dados, por exemplo, podemos selecionar dados que estavam em formato coluna e transformá-los em linhas, com o método `columns`:


In [None]:
#Organizando dados de modo que os tipos sejam colunas:

pd.pivot_table(df, index=['gerente', 'conta'], values=['saldo'], columns=['tipo'], aggfunc=[np.sum])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,saldo,saldo,saldo
Unnamed: 0_level_2,tipo,A,B,C
gerente,conta,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
Artur Nascimento,Alfa Co,305.0,,
Artur Nascimento,Delta A,,50.0,
Artur Nascimento,Jota LLC,,,150.0
Débora Souza,Lib Inc,195.0,,
Débora Souza,Novo Inc,,,390.0


Ficou meio ruim de visualizar com todos esses `NaNs` né? Vamos substitui-los com o método `fill_value`


In [None]:
pd.pivot_table(df, index=['gerente', 'conta'], values=['saldo'], columns=['tipo'], aggfunc=[np.sum], fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,saldo,saldo,saldo
Unnamed: 0_level_2,tipo,A,B,C
gerente,conta,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
Artur Nascimento,Alfa Co,305,0,0
Artur Nascimento,Delta A,0,50,0
Artur Nascimento,Jota LLC,0,0,150
Débora Souza,Lib Inc,195,0,0
Débora Souza,Novo Inc,0,0,390


In [None]:
#Se quisermos visualizar as 'movimentações' também:

pd.pivot_table(df, index=['gerente', 'conta'], values=['saldo', 'movimentações'], columns=['tipo'], aggfunc=[np.sum], fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,movimentações,movimentações,movimentações,saldo,saldo,saldo
Unnamed: 0_level_2,tipo,A,B,C,A,B,C
gerente,conta,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3
Artur Nascimento,Alfa Co,6,0,0,305,0,0
Artur Nascimento,Delta A,0,2,0,0,50,0
Artur Nascimento,Jota LLC,0,0,1,0,0,150
Débora Souza,Lib Inc,3,0,0,195,0,0
Débora Souza,Novo Inc,0,0,3,0,0,390


O que queremos mostrar é que o método `pivot table` é muito útil e versátil para visualizarmos os dados da maneira em que desejamos! Podemos brincar com ele e descobrir diversas maneiras eficientes para entendermos melhor os dados que temos.

Por exemplo, podemos mover outros itens para o `index` para termos diferentes modos de visualização. Como remover o 'tipo' de `columns` e movê-lo para o `index`

In [None]:
pd.pivot_table(df, index=['gerente', 'conta', 'tipo'], values=['saldo', 'movimentações'], aggfunc=[np.sum], fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,movimentações,saldo
gerente,conta,tipo,Unnamed: 3_level_2,Unnamed: 4_level_2
Artur Nascimento,Alfa Co,A,6,305
Artur Nascimento,Delta A,B,2,50
Artur Nascimento,Jota LLC,C,1,150
Débora Souza,Lib Inc,A,3,195
Débora Souza,Novo Inc,C,3,390


E se quisermos ver um total de tudo isso? Dá uma olhadinha nesse método: `margins=True`, ele nos mostra a soma das colunas de valores:


In [None]:
pd.pivot_table(df, index=['gerente', 'conta', 'tipo'], values=['saldo', 'movimentações'], aggfunc=[np.sum], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,movimentações,saldo
gerente,conta,tipo,Unnamed: 3_level_2,Unnamed: 4_level_2
Artur Nascimento,Alfa Co,A,6,305
Artur Nascimento,Delta A,B,2,50
Artur Nascimento,Jota LLC,C,1,150
Débora Souza,Lib Inc,A,3,195
Débora Souza,Novo Inc,C,3,390
All,,,15,1090


E mais, podemos dar um nome para essa nova linha com `margins_name`:

In [None]:
pd.pivot_table(df, index=['gerente', 'conta', 'tipo'], values=['saldo', 'movimentações'], aggfunc=[np.sum], margins=True, margins_name='Total')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,movimentações,saldo
gerente,conta,tipo,Unnamed: 3_level_2,Unnamed: 4_level_2
Artur Nascimento,Alfa Co,A,6,305
Artur Nascimento,Delta A,B,2,50
Artur Nascimento,Jota LLC,C,1,150
Débora Souza,Lib Inc,A,3,195
Débora Souza,Novo Inc,C,3,390
Total,,,15,1090


***

<font color=grey>
 Adendo! Estamos vendo alguns conceitos no Pandas que podem ter usos muito semelhantes, até parecendo muito repetitivo, não? Mas o importante é saber que existem DIVERSAS formas de obter o resultado que você precisa no Pandas, tudo depende de como você os métodos que estamos mostrando, vamos comparar o `pivot table` e o `groupby` para isso ficar mais claro:

Para exemplificar, vamos ver um exemplo em que podemos modelar o DataFrame usando os esses métodos que aprendemos e chegar no mesmo resultado. E, sim, você pode chegar ao resultado maneiras diferentes do que vamos mostrar aqui, mas vamos ver como essas funções tem diversas aplicações:


No semestre de 19.1, o grupo do PET Engenharia de Produção divide seus membros em diferentes grupos, sendo estes a liderança, o grupo da Qualidade (GQ), o grupo do Marketing (MKT), o grupo do Desenvolvimento Humano (DH) e o de Projetos (CP). Vamos pegar uma lista dos membros e de seus grupos.


In [None]:
#lista dos membros e seus grupos

pet = {'Membro': ['Duda', 'Nati', 'Nath', 'Ju', 'Paulo', 'Mateus', 'Manu', 'João', 'Jackson', 'Anna', 'Edu', 'Mickael', 'Igor'],
       'Grupo': ['GQ', 'MKT', 'Lider', 'DH', 'CP', 'MKT', 'GQ', 'MKT', 'DH', 'MKT', 'DH', 'GQ', 'DH']}

df = pd.DataFrame(pet)

In [None]:
df

Unnamed: 0,Grupo,Membro
0,GQ,Duda
1,MKT,Nati
2,Lider,Nath
3,DH,Ju
4,CP,Paulo
5,MKT,Mateus
6,GQ,Manu
7,MKT,João
8,DH,Jackson
9,MKT,Anna


O objetivo desse exemplo é remodelarmos esse DataFrame para podermos contar quantos membros existem em cada grupo. Podemos utilizar a função que acabamos de aprender,  `pivot table`, para modelar o nosso DF, deixando fácil para encontrar o número de membros em cada grupo.

In [None]:
#Criar DataFrame com os grupos em colunas e os membros em linhas, pedindo o número de itens

pivot = df.pivot_table(df, index=['Membro'], columns=['Grupo'], aggfunc=len)
pivot

Grupo,CP,DH,GQ,Lider,MKT
Membro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Anna,,,,,1.0
Duda,,,1.0,,
Edu,,1.0,,,
Igor,,1.0,,,
Jackson,,1.0,,,
João,,,,,1.0
Ju,,1.0,,,
Manu,,,1.0,,
Mateus,,,,,1.0
Mickael,,,1.0,,


In [None]:
#Podemos usar "fill_value" para deixar mais claro

pivot = df.pivot_table(df, index=['Membro'], columns=['Grupo'], aggfunc=len, fill_value=0)
pivot

Grupo,CP,DH,GQ,Lider,MKT
Membro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Anna,0,0,0,0,1
Duda,0,0,1,0,0
Edu,0,1,0,0,0
Igor,0,1,0,0,0
Jackson,0,1,0,0,0
João,0,0,0,0,1
Ju,0,1,0,0,0
Manu,0,0,1,0,0
Mateus,0,0,0,0,1
Mickael,0,0,1,0,0


In [None]:
#Agora podemos contar somar os membros de cada coluna:

membros_dh = pivot['DH'].sum()
membros_dh

4

Também podemos usar a função `groupby`, que agrupa os dados. Lembre-se que essa função é a versão que resume diretamente os dados, portanto, para esse exemplo ela é direta!

In [None]:
#Podemos já agrupar os membros por grupo, pedindo o tamanho de cada grupo!

groupby = df.groupby(['Grupo']).size()
groupby

Grupo
CP       1
DH       4
GQ       3
Lider    1
MKT      4
dtype: int64

Conseguiu ver a diferença entre os métodos? O importante é saber que podemos obter informações de várias formas diferentes, por isso, para usar o Pandas é essencial saber claramente o que você está procurando, assim fica mais fácil escolher o método mais adequado.

Para resumir o que acabamos de discutir:

* Métodos `stack/unstack` e `pivot table`: são aqueles que nos permitem reorganizar e modelar todas as informações do DataFrame para melhor visualização ou para conseguirmos extrair dados importantes - eles mantém todas as informações iniciais.

* Método `groupby`: nos permite retirar informações resumidas de um DataFrame - portanto, devolve apenas os dados de saída, não retorna o DataFrame original.