# Agregação dos Dados 🎒 🎲

## Sumário da Aula

<ul>
    <li>Aspectos de GroupBy 🎒</li>
    <li>Dividir ➗ para Conquistar ➕ (apply)</li>
</ul>

### Biblioteca Principal 📚: pandas

<img src="https://pandas.pydata.org/docs/_static/pandas.svg" width="100" style="float: right;">

In [1]:
import pandas as pd

## Aspectos de GroupBy 🎒 

<ul>
    <li>As operações de limpar, preparar e tratar são possíveis em bancos de dados relacionais. Por que aprendemos aqui?</li>
    <ul>
        <li>A principal vantagem de fazer essas etapas com Python 🐍 e Pandas 🐼:
            <ul>
                <li>A expressividade de linguagem de programação permite executar operações mais complexas!</li>
            </ul>
        </li>
        <li>Veremos hoje o momento em que a expressividade apresenta seus maiores ganhos.</li>
    </ul>
    <li>Em um fluxo de trabalho de análise de dados, frequentemente é essencial:
        <ul>
            <li>dividir seus dados em grupos separados; aplicar uma função em cada um dos grupos; e juntar os resultados.</li>     
        </ul>
    </li>
</ul>

👉 Referência: <a href='https://pandas.pydata.org/docs/user_guide/groupby.html'>pandas.pydata.org</a>

<ul>
    <li>O termo separar-aplicar-combinar (<i>split-apply-combine</i>) descreve operações em grupo.</li>
    <ol>
        <li>Os dados contidos em um objeto do pandas são separados (<i>split</i>) em grupos (com base em chaves especificadas);</li>
        <ul>
            <li>
                A separação pode ser feita tanto pelo índice (<i>axis='index'</i>), quanto pela coluna (<i>axis='columns'</i>)
            </li>
        </ul>
        <li>Posteriormente, uma função é aplicada (<i>apply</i>) em cada grupo, gerando um novo valor; e</li>
        <li>Por fim, os resultados são combinados (<i>combine</i>), fomando um objeto resultante.</li>
    </ol>
</ul>

<img src="https://wesmckinney.com/book/images/pda3_1001.png" width='300' style="margin-left: auto; margin-right: auto;">

<pre>Vamos...

<b>separar-</b> <i>chave1</i> em grupos...

<b>-aplicar-</b> a 🚨 média 🚨 em <i>dados1</i> e...

<b>-combinar</b> os resultados</pre>

In [2]:
df = pd.DataFrame({"chave1" : ["a", "a", None, "b", "b", "a", None],
                   "chave2" : pd.Series([1, 2, 1, 2, 1, None, 1], dtype="Int64"),
                   "dados1" : [-0.204708, 0.478943, -0.519439, -0.555730, 1.965781, 1.393406, 0.092908],
                   "dados2" : [0.281746, 0.769023, 1.246435, 1.007189, -1.296221, 0.274992, 0.228913]})
df

Unnamed: 0,chave1,chave2,dados1,dados2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


👉 1) Separar

In [3]:
grouped = df[['dados1']].groupby(df['chave1'])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10596fa10>

👉 2) Aplicar e 3) Combinar

In [4]:
grouped.mean()

Unnamed: 0_level_0,dados1
chave1,Unnamed: 1_level_1
a,0.55588
b,0.705026


<pre>Vamos...

<b>separar-</b> o par <i>(chave1, chave2)</i> em grupos...

<b>-aplicar-</b> a 🚨 média 🚨 em <i>dados1</i> e...

<b>-combinar</b> os resultados</pre>

👉 1) Separar

In [5]:
grouped = df[['dados1']].groupby([df['chave1'], df['chave2']])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1221158d0>

👉 2) Aplicar e 3) Combinar

In [6]:
grouped.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dados1
chave1,chave2,Unnamed: 2_level_1
a,1,-0.204708
a,2,0.478943
b,1,1.965781
b,2,-0.55573


<pre>Vamos...

<b>separar-</b> <i>chave1</i> em grupos...

<b>-aplicar-</b> a 🚨 média 🚨 em todas as colunas e...

<b>-combinar</b> os resultados</pre>

👉 Separar-aplicar-combinar

In [7]:
df.groupby('chave1').mean()

Unnamed: 0_level_0,chave2,dados1,dados2
chave1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.5,0.55588,0.44192
b,1.5,0.705026,-0.144516


<pre>Vamos...

<b>separar-</b> o par <i>(chave1, chave2)</i> em grupos...

<b>-aplicar-</b> a 🚨 média 🚨 em todas as colunas e...

<b>-combinar</b> os resultados</pre>

👉 Separar-aplicar-combinar

In [8]:
df.groupby(['chave1', 'chave2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,dados1,dados2
chave1,chave2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,-0.204708,0.281746
a,2,0.478943,0.769023
b,1,1.965781,-1.296221
b,2,-0.55573,1.007189


👉 dica: caso esteja aplicando uma métrica para atributos numéricos, os atributos não numéricos são excluídos do resultado

In [9]:
df.groupby(['chave2']).mean(numeric_only=True)

Unnamed: 0_level_0,dados1,dados2
chave2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.333636,0.115218
2,-0.038393,0.888106


👉 mais dica: uma métrica muito útil é a métrica <i>size</i>, que computa os tamanhos dos grupos

In [10]:
df.groupby(['chave1', 'chave2'], dropna=False).size()

chave1  chave2
a       1         1
        2         1
        <NA>      1
b       1         1
        2         1
NaN     1         2
dtype: int64

### Quadro-resumo das métricas para o 🚨 -aplicar- 🚨

<table>
    <tr><th>Métrica</th><th>Descrição</th></tr>
    <tr><td>any, all</td><td>Retorna True se algum (respectivamente todos os valores) não-NA forem verdadeiros</td></tr>
    <tr><td>count</td><td>Número de valores não-NA</td></tr>
    <tr><td>cummin, cummax</td><td>Mínimo cumulativo (respectivamente máximo cumulativo) de valores não-NA</td></tr>
    <tr><td>cumsum</td><td>Soma cumulativa de valores não-NA</td></tr>
    <tr><td>cumprod</td><td>Produto cumulativo de valores não-NA</td></tr>
    <tr><td>first, last</td><td>Primeiro (respectivamente último) valores não NA</td></tr>
    <tr><td>mean</td><td>Média de valores não-NA</td></tr>
    <tr><td>median</td><td>Mediana de valores não-NA</td></tr>
    <tr><td>min, max</td><td>Mínimo (respectivamente máximo) de valores não-NA</td></tr>
    <tr><td>nth</td><td>Recupera o valor que apareceria na posição n com os dados ordenados</td></tr>
    <tr><td>ohlc</td><td>Calcula quatro estatísticas “abrir-alto-baixo-fechar” para dados semelhantes a séries temporais</td></tr>
    <tr><td>prod</td><td>Produto de valores não-NA</td></tr>
    <tr><td>quantil</td><td>Calcula o quantil da amostra</td></tr>
    <tr><td>prod</td><td>Produto de valores não-NA</td></tr>
    <tr><td>rank</td><td>Rank de valores não-NA</td></tr>
    <tr><td>size</td><td>Computa tamanhos de grupo, retornando o resultado como uma série</td></tr>
    <tr><td>sum</td><td>Soma de valores não-NA</td></tr>
    <tr><td>std, var</td><td>Desvio padrão (respectivamente variância) da amostra</td></tr>
</table>

<pre>🍒 🎂 Você pode também aplicar mais de uma métrica ao mesmo tempo, ...</pre>

In [11]:
df.groupby('chave1').agg(['count', 'first', 'last', 'mean', 'median'])

Unnamed: 0_level_0,chave2,chave2,chave2,chave2,chave2,dados1,dados1,dados1,dados1,dados1,dados2,dados2,dados2,dados2,dados2
Unnamed: 0_level_1,count,first,last,mean,median,count,first,last,mean,median,count,first,last,mean,median
chave1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
a,2,1,2,1.5,1.5,3,-0.204708,1.393406,0.55588,0.478943,3,0.281746,0.274992,0.44192,0.281746
b,2,2,1,1.5,1.5,2,-0.55573,1.965781,0.705026,0.705026,2,1.007189,-1.296221,-0.144516,-0.144516


<pre>... bem como escolher as colunas em que deseja aplicar cada métrica</pre>

In [12]:
df.groupby('chave1').agg({'chave2': 'count', 'dados1': ['first', 'last'], 'dados2': ['mean', 'median']})

Unnamed: 0_level_0,chave2,dados1,dados1,dados2,dados2
Unnamed: 0_level_1,count,first,last,mean,median
chave1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,2,-0.204708,1.393406,0.44192,0.281746
b,2,-0.55573,1.965781,-0.144516,-0.144516


👉 dica: se acostume com uma notação para não se confundir. a última notação é recomendável.

## Dividir ➗ para Conquistar ➕ (apply)

<ul>
    <li>O método apply é um método GroupBy de propósito-geral para a etapa de <b>-aplicar-</b></li>
    <li>Impressionantemente, é um método que existe tanto para agrupamentos, quanto para dados não agrupados</li>
    <li>A desvantagem do método apply é que os métodos não são otimizados comos os métodos do quadro-resumo</li>
</ul>

<pre>Você pode aplicar o apply em dados não agregados a cada coluna, ...</pre>

In [13]:
df[['dados1', 'dados2']].apply(lambda coluna: coluna.iloc[0]**2, axis='index')

dados1    0.041905
dados2    0.079381
dtype: float64

<pre>... você pode aplicar o apply em dados não agregados a cada linha, ...</pre>

In [14]:
df[['dados1', 'dados2']].apply(lambda linha: linha.iloc[0]**2, axis='columns')

0    0.041905
1    0.229386
2    0.269817
3    0.308836
4    3.864295
5    1.941580
6    0.008632
dtype: float64

<pre>... bem como você pode aplicar em dados agregados a cada agrupamento</pre>

In [15]:
df[['dados1', 'dados2']].groupby(df['chave1']).apply(lambda grupo: grupo.iloc[0]**2)

Unnamed: 0_level_0,dados1,dados2
chave1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.041905,0.079381
b,0.308836,1.01443


<pre>O método apply tem papel fundamental. 

Você consegue fazer <b>qualquer</b> operação com dados agrupados.

Operações muito mais complexas em Python 🐍 e Pandas 🐼 vs. Banco de Dados 🏦 🎲</pre>

<font size=7><center><code>Executem todo este caderno...</code></center></font>

<font size=7><center><code>... bem como o caderno Juntando as Peças</code></center></font>