<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/An%C3%A1lise%20de%20Dados/Aula_06_Pandas_Agrupamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Agrupamento de dados.**

Nessa aula, veremos uma interface do Pandas que facilita a manipulação e seleção de conjunto de dados de acordo com grupos predefinidos. Ela é chamada de *GroupBy*. Com essa interface, segmentaremos o conjunto de dados em grupos e, para cada grupo, extrairemos informações de interesse de maneira simplificada.

Lembre-se das aulas anteriores que em alguns casos era interessante extrair informações de um grupo específico dos dados. Por exemplo, determinar a idade média das pessoas casadas, onde a categoria "married" define um grupo de indivíduos. Essa mesma análise poderia ser feita a partir de outros grupos, como "single" ou "divorced". Temos, então, análises e informações a serem extraídas de diferentes grupos.

Com o uso do *GroupBy*, separamos esses grupos com base em uma ou mais chaves. Depois disso, uma função é aplicada em cada grupo gerando novos valores. Por fim, os resultados são combinados em um objeto. O formato desse objeto dependerá, em geral, do que está sendo feito com os dados.

# Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np

## Exemplo

Utilizaremos nessa aula um exemplo bastante simples com o objetivo de facilitar a compreensão do uso do *GroupBy*. Neste exemplo, analisamos a classificação de clientes de um banco como 'pagou o empréstimo' ou 'não pagou o empréstimo' (valores 1 e 0, respectivamente, na coluna `Repayment`). para caca cliente (linhas no conjunto de dados), temos os seguintes atributos: `Age` (idade de cliente), `Loan` (valor de empréstimo que o cliente pegou) e `Duration` (duração do crédito cedido, sendo curta, longa ou indefinida).

In [None]:
dados = pd.DataFrame({'Age':[40,35,45,34,45,48,53,60,50,48,53],
                      'Loan':[100000,60000,80000,40000,120000,98000,95000,92000,100000,170000,150000],
                      'Duration':['Short','Long','Short','Undefined','Long','Short','Long','Short','Undefined','Long', 'Short'],
                      'Repayment':[1,1,0,0,1,0,1,0,1,0,0] }) # 1=vai pagar 0=não vai pagar
dados

Unnamed: 0,Age,Loan,Duration,Repayment
0,40,100000,Short,1
1,35,60000,Long,1
2,45,80000,Short,0
3,34,40000,Undefined,0
4,45,120000,Long,1
5,48,98000,Short,0
6,53,95000,Long,1
7,60,92000,Short,0
8,50,100000,Undefined,1
9,48,170000,Long,0


# Segmentando os dados

Usando o *GroupBy*, segmentamos o conjunto de dados segundo as chaves definidas pelas categorias da variável categórica.

Note nos códigos abaixo que o uso do *GroupBy* produz um objeto do tipo `DataFrameGroupBy`.

In [None]:
dados.groupby("Repayment")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7afb4fa83520>

Veja, agora, como extrair as chaves definidas pela variável *Repayment*.

In [None]:
dados.groupby("Repayment").groups.keys() # mostra as categorias da variável selecionada

dict_keys([0, 1])

# Iterando através dos grupos

Para visualizar os dados separados pelas chaves, podemos iterar sobre os atributos do objeto `DataFrameGrupoBy`. Para cada subconjunto de dados definido por cada chave, o agrupamento preservará a ordem em que as observações apareceram no `DataFrame` original (ver os índices das linhas).

In [None]:
grouped = dados.groupby("Repayment")

for chave,grupo in grouped:
  print(chave)
  print(grupo)

0
    Age    Loan   Duration  Repayment
2    45   80000      Short          0
3    34   40000  Undefined          0
5    48   98000      Short          0
7    60   92000      Short          0
9    48  170000       Long          0
10   53  150000      Short          0
1
   Age    Loan   Duration  Repayment
0   40  100000      Short          1
1   35   60000       Long          1
4   45  120000       Long          1
6   53   95000       Long          1
8   50  100000  Undefined          1


# Extraindo estatísticas dos grupos

Assim como a aplicação das funções `max()`, `min()`, `mean()`, `quantile()`, `count()`, `sum()`, etc., pode ser feita ao objeto `Series`, elas também funcionam no objeto *GroupBy* para obter resultados para cada grupo.

Há aqui, também, outras funções interessantes, como `first()` e `last()`, as quais descrevem os primeiros ou últimos dados, respectivamente.

O comando utilizado nesse caso é `objeto.groupby("chave").function()`.

In [None]:
# Número de clientes que pagaram ou não o empréstimo

dados.groupby("Repayment").count()

Unnamed: 0_level_0,Age,Loan,Duration
Repayment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,6,6,6
1,5,5,5


In [None]:
# Média de idades e de empréstimos

dados.groupby("Repayment").mean()

  dados.groupby("Repayment").mean()


Unnamed: 0_level_0,Age,Loan
Repayment,Unnamed: 1_level_1,Unnamed: 2_level_1
0,48.0,105000.0
1,44.6,95000.0


Como anteriorment definimos `grouped = dados.groupby("Repayment")`, podemos aplicar a função diretamente sobre o objeto `grouped`.

In [None]:
# Média de idades e de empréstimos

grouped.last()

Unnamed: 0_level_0,Age,Loan,Duration
Repayment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,53,150000,Short
1,50,100000,Undefined


# Seleção de colunas

Indexar um objeto *GroupBy* criado a partir de um `DataFrame` permite criar subconjuntos de colunas para visualização. Para isso, o seguinte comando extrai informações de colunas específicas:

`objeto.groupby("chave")[["coluna_1",...,"coluna_n"]].function()`

**Lembre-se**: Um `DataFrame` é composto por um conjunto de colunas nomeadas.



In [None]:
dados.groupby("Repayment")[["Age","Loan"]].mean()

Unnamed: 0_level_0,Age,Loan
Repayment,Unnamed: 1_level_1,Unnamed: 2_level_1
0,48.0,105000.0
1,44.6,95000.0


Ou, no caso de uma única coluna (reparem na diferença entre os dois comandos abaixo).

In [None]:
dados.groupby("Repayment")[["Age"]].mean()

Unnamed: 0_level_0,Age
Repayment,Unnamed: 1_level_1
0,48.0
1,44.6


In [None]:
dados.groupby("Repayment")["Loan"].sum()


Repayment
0    630000
1    475000
Name: Loan, dtype: int64

Se queremos extrair diversas estatísticas ao mesmo tempo, podemos usar a função `describe()`.

In [None]:
dados.groupby("Repayment")[["Age","Loan"]].describe()

Unnamed: 0_level_0,Age,Age,Age,Age,Age,Age,Age,Age,Loan,Loan,Loan,Loan,Loan,Loan,Loan,Loan
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Repayment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
0,6.0,48.0,8.648699,34.0,45.75,48.0,51.75,60.0,6.0,105000.0,47577.305514,40000.0,83000.0,95000.0,137000.0,170000.0
1,5.0,44.6,7.300685,35.0,40.0,45.0,50.0,53.0,5.0,95000.0,21794.494718,60000.0,95000.0,100000.0,100000.0,120000.0


# Segmentando os dados usando mais de uma chave

É possível separar os dados em grupos com base em mais de uma chave. Para isso, usamos o seguinte comando:

`objeto.groupby(["chave 1","chave 2",...,"chave k"]).function`

In [None]:
# Exemplo

dados.groupby(['Duration', 'Repayment']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Loan
Duration,Repayment,Unnamed: 2_level_1,Unnamed: 3_level_1
Long,0,48.0,170000.0
Long,1,44.333333,91666.666667
Short,0,51.5,105000.0
Short,1,40.0,100000.0
Undefined,0,34.0,40000.0
Undefined,1,50.0,100000.0


In [None]:
# Para uma única coluna

dados.groupby(['Duration', 'Repayment'])[['Loan']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Loan
Duration,Repayment,Unnamed: 2_level_1
Long,0,170000.0
Long,1,91666.666667
Short,0,105000.0
Short,1,100000.0
Undefined,0,40000.0
Undefined,1,100000.0


# Selecionando dados de apenas um grupo

Com o uso da função `get_group()`, podemos selecionar uma única categoria após os resultados serem combinados em um objeto.

`objeto.groupby("chave")[["var_1",...,"var_n"]].get_group().function()`

In [None]:
dados.groupby('Repayment')[['Age', 'Loan']].get_group(0).describe()

Unnamed: 0,Age,Loan
count,6.0,6.0
mean,48.0,105000.0
std,8.648699,47577.305514
min,34.0,40000.0
25%,45.75,83000.0
50%,48.0,95000.0
75%,51.75,137000.0
max,60.0,170000.0


Esse comando também pode ser usado quando segmentamos os dados usando mais chaves. O comando é o seguinte:

`objeto.groupby(["chave 1",..."chave n"]).get_group(("categoria 1",..., "categoria n"))[["var"]].function()`



In [None]:
dados.groupby(['Repayment', 'Duration'])[['Age', 'Loan']].get_group((0,'Short')).describe()

Unnamed: 0,Age,Loan
count,4.0,4.0
mean,51.5,105000.0
std,6.557439,30919.249667
min,45.0,80000.0
25%,47.25,89000.0
50%,50.5,95000.0
75%,54.75,111000.0
max,60.0,150000.0


## Definind funções específicas

Dado um objeto *GroupBy* criado, também podemos passar uma lista de funções para aplicá-las ao mesmo tempo usando a função agg(). O comando é o seguinte:

`objeto.groupby().agg([function_1(),...,function_n()])`

Podemos usar a biblioteca `numpy` para definira s funções que queremos utilizar, por exemplo, `sum, `mean` e `std`.

In [None]:
dados.groupby("Repayment").agg([np.sum, np.mean, np.std])

Se estivermos interessados em selecionar uma coluna (ou colunas) específicas e aplicar tais funções, usamos o código seguinte.

`objeto.groupby("chave")[["coluna_1",...,"coluna_n"]].agg([function_1(),...,function_n()])`

Note que esse procedimento é interessante quando temos muitas variáveis em nossa base de dados.

In [None]:
# Com uma chave
dados.groupby("Repayment")[["Age", "Loan"]].agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,Age,Age,Age,Loan,Loan,Loan
Unnamed: 0_level_1,sum,mean,std,sum,mean,std
Repayment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
0,288,48.0,8.648699,630000,105000.0,47577.305514
1,223,44.6,7.300685,475000,95000.0,21794.494718


In [None]:
# Com múltiplas chaves
dados.groupby(["Repayment", 'Duration'])[["Age", "Loan"]].agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Age,Loan,Loan,Loan
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,std,sum,mean,std
Repayment,Duration,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,Long,48,48.0,,170000,170000.0,
0,Short,206,51.5,6.557439,420000,105000.0,30919.249667
0,Undefined,34,34.0,,40000,40000.0,
1,Long,133,44.333333,9.0185,275000,91666.666667,30138.568867
1,Short,40,40.0,,100000,100000.0,
1,Undefined,50,50.0,,100000,100000.0,


# Outros pontos sobre o *GroupBy*

Por padrão, as chaves de grupo são ordenadas (em ordem alfabética ou numérica) durante a operação de agrupamento. No entanto, você pode passar `sort = False` para alterar a ordem.

In [None]:
dados.groupby("Repayment",sort = False).groups.keys() # mostra as categorias da variável selecionada

dict_keys([1, 0])

Além disso, por padrão, os valores `NaN` são excluídos das chaves de grupo durante a operação *GroupBy*. No entanto, caso você queira incluir os valores `NaN` nas chaves de grupo, pode passar `dropna = False` para obtê-lo.

Veja o exemplo abaixo.

In [None]:
dados2 = pd.DataFrame({'Age':[40,35,45,34,45,48,53,60,50,48,53],
                      'Loan':[100000,60000,80000,40000,120000,98000,95000,92000,100000,170000,150000],
                      'Duration':['Short','Long','Short','Undefined','Long','Short','Long','Short','Undefined','Long', 'Short'],
                      'Repayment':[1,1,0,0,1,None,1,0,1,0,0] }) # 1=vai pagar 0=não vai pagar
dados2

Unnamed: 0,Age,Loan,Duration,Repayment
0,40,100000,Short,1.0
1,35,60000,Long,1.0
2,45,80000,Short,0.0
3,34,40000,Undefined,0.0
4,45,120000,Long,1.0
5,48,98000,Short,
6,53,95000,Long,1.0
7,60,92000,Short,0.0
8,50,100000,Undefined,1.0
9,48,170000,Long,0.0


In [None]:
dados2.groupby("Repayment")[["Age"]].count()

Unnamed: 0_level_0,Age
Repayment,Unnamed: 1_level_1
0.0,5
1.0,5


In [None]:
dados2.groupby("Repayment", dropna=False)[["Age"]].count()

Unnamed: 0_level_0,Age
Repayment,Unnamed: 1_level_1
0.0,5
1.0,5
,1


# Veja o exemplo abaixo da atividade da aula anterior

In [None]:
# Lendo os dados
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/Datasets/data_european_energy.csv", sep = ',')
df.head(5)

Unnamed: 0,country,country_name,type,level,2016,2017,2018
0,BE,Belgium,Conventional thermal,Level 1,30728.0,31316.0,30092.635
1,BE,Belgium,Nuclear,Level 1,41430.0,40128.5,26995.628
2,BE,Belgium,Hydro,Level 1,1476.0,1360.9,1239.248
3,BE,Belgium,Pumped hydro power,Level 2,1110.0,1093.2,983.19
4,BE,Belgium,Wind,Level 1,5340.0,6387.9,7177.346


In [None]:
# Média da produção de energia Solar na França em 2017

df.groupby(['country_name', 'type'])[["2017"]].get_group(('France', 'Solar')).mean()

2017    9572.843
dtype: float64

In [None]:
# Porcentagem da produção de energia Solar na França em 2017

df.groupby(['country_name', 'type'])[["2018"]].get_group(('France', 'Solar')).sum()/df.groupby(['country_name'])[["2018"]].get_group(('France')).sum()

2018    0.017211
dtype: float64

# **Atividade Prática**

Para a atividade prática desta aula, considere a base de dados dos salários de uma companhia, disponível no link [Salários](http://www.orlandoalbarracin.com.br/phyton/data2.csv).

Responda o que se pede no questionário disponível no Moodle.