<a href="https://colab.research.google.com/github/GuilhermePelegrina/Mackenzie/blob/main/Aulas/An%C3%A1lise%20de%20Dados/Aula_06_Pandas_Agrupamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src='https://raw.githubusercontent.com/guilhermepelegrina/Mackenzie/main/logo_mackenzie.png'>


# **Agrupamento de dados.**

Nessa aula, veremos uma interface do Pandas que facilita a manipulação e seleção de conjunto de dados de acordo com grupos predefinidos. Ela é chamada de *GroupBy*. Com essa interfce, segmentaremos o conjunto de dados em grupos e, para cada grupo, extrairemos informações de interesse de maneira simplificada.

Lembre-se das aulas anteriores que em alguns casos era interessante extrair informações de um grupo específico dos dados. Por exemplo, determinar a idade média das pessoas casadas, onde a categoria "married" define um grupo de indivíduos. Essa mesma análise poderia ser feita a partir de outros grupos, como "single" ou "divorced". Temos, então, análises e informações a serem extraídas de diferentes grupos.

**Com o uso do *GroupBy*, separamos esses grupos com base em uma ou mais chaves. Depois disso, uma função é aplicada em cada grupo gerando novos valores. Por fim, os resultados são combinados em um objeto. O formato desse objeto dependerá, em geral, do que está sendo feito com os dados.**

# Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np

## Exemplo

Utilizaremos nessa aula um exemplo bastante simples com o objetivo de facilitar a compreensão do uso do *GroupBy*. Neste exemplo, analisamos a classificação de clientes de um banco como 'pagou o empréstimo' ou 'não pagou o empréstimo' (valores 1 e 0, respectivamente, na coluna `Repayment`). para caca cliente (linhas no conjunto de dados), temos os seguintes atributos: `Age` (idade de cliente), `Loan` (valor de empréstimo que o cliente pegou) e `Duration` (duração do crédito cedido, sendo curta, longa ou indefinida).

In [None]:
dados = pd.DataFrame({'Age':[40,35,45,34,45,48,53,60,50,48,53],
                      'Loan':[100000,60000,80000,40000,120000,98000,95000,92000,100000,170000,150000],
                      'Duration':['Short','Long','Short','Undefined','Long','Short','Long','Short','Undefined','Long', 'Short'],
                      'Repayment':[1,1,0,0,1,0,1,0,1,0,0] }) # 1=vai pagar 0=não vai pagar
dados

# Segmentando os dados

Usando o *GroupBy*, segmentamos o conjunto de dados segundo as chaves definidas pelas categorias da variável categórica.

Note nos códigos abaixo que o uso do *GroupBy* produz um objeto do tipo `DataFrameGroupBy`.

In [None]:
dados.groupby("Repayment")

Veja, agora, como extrair as chaves definidas pela variável *Repayment*.

In [None]:
dados.groupby("Repayment").groups.keys() # mostra as categorias da variável selecionada

# Iterando através dos grupos

Para visualizar os dados separados pelas chaves, podemos iterar sobre os atributos do objeto `DataFrameGrupoBy`. Para cada subconjunto de dados definido por cada chave, o agrupamento preservará a ordem em que as observações apareceram no `DataFrame` original (ver os índices das linhas).

In [None]:
grouped = dados.groupby("Repayment")

for chave,grupo in grouped:
  print(chave)
  print(grupo)

# Extraindo estatísticas dos grupos

Assim como a aplicação das funções `max()`, `min()`, `mean()`, `quantile()`, `count()`, `sum()`, etc., pode ser feita ao objeto `Series`, elas também funcionam no objeto *GroupBy* para obter resultados para cada grupo.

Há aqui, também, outras funções interessantes, como `first()` e `last()`, as quais descrevem os primeiros ou últimos dados, respectivamente.

O comando utilizado nesse caso é `objeto.groupby("chave").function()`.

In [None]:
# Número de clientes que pagaram ou não o empréstimo

dados.groupby("Repayment").count()

In [None]:
# Média de idades e de empréstimos

dados.groupby("Repayment").mean()

Como anteriorment definimos `grouped = dados.groupby("Repayment")`, podemos aplicar a função diretamente sobre o objeto `grouped`.

In [None]:
# Média de idades e de empréstimos

grouped.last()

# Seleção de colunas

Indexar um objeto *GroupBy* criado a partir de um `DataFrame` permite criar subconjuntos de colunas para visualização. Para isso, o seguinte comando extrai informações de colunas específicas:

`objeto.groupby("chave")[["coluna_1",...,"coluna_n"]].function()`

**Lembre-se**: Um `DataFrame` é composto por um conjunto de colunas nomeadas.



In [None]:
dados.groupby("Repayment")[["Age","Loan"]].mean()

Ou, no caso de uma única coluna (reparem na diferença entre os dois comandos abaixo).

In [None]:
dados.groupby("Repayment")[["Age"]].mean()

In [None]:
dados.groupby("Repayment")["Loan"].sum()


Se queremos extrair diversas estatísticas ao mesmo tempo, podemos usar a função `describe()`.

In [None]:
dados.groupby("Repayment")[["Age","Loan"]].describe()

# Segmentando os dados usando mais de uma chave

É possível separar os dados em grupos com base em mais de uma chave. Para isso, usamos o seguinte comando:

`objeto.groupby(["chave 1","chave 2",...,"chave k"]).function`

In [None]:
# Exemplo

dados.groupby(['Duration', 'Repayment']).mean()

In [None]:
# Para uma única coluna

dados.groupby(['Duration', 'Repayment'])[['Loan']].mean()

# Selecionando dados de apenas um grupo

Com o uso da função `get_group()`, podemos selecionar uma única categoria após os resultados serem combinados em um objeto.

`objeto.groupby("chave")[["var_1",...,"var_n"]].get_group().function()`

In [None]:
dados.groupby('Repayment')[['Age', 'Loan']].get_group(0).describe()

Esse comando também pode ser usado quando segmentamos os dados usando mais chaves. O comando é o seguinte:

`objeto.groupby(["chave 1",..."chave n"]).get_group(("categoria 1",..., "categoria n"))[["var"]].function()`



In [None]:
dados.groupby(['Repayment', 'Duration'])[['Age', 'Loan']].get_group((0,'Short')).describe()

## Definind funções específicas

Dado um objeto *GroupBy* criado, também podemos passar uma lista de funções para aplicá-las ao mesmo tempo usando a função agg(). O comando é o seguinte:

`objeto.groupby().agg([function_1(),...,function_n()])`

Podemos usar a biblioteca `numpy` para definira s funções que queremos utilizar, por exemplo, `sum, `mean` e `std`.

In [None]:
dados.groupby("Repayment").agg([np.sum, np.mean, np.std])

Se estivermos interessados em selecionar uma coluna (ou colunas) específicas e aplicar tais funções, usamos o código seguinte.

`objeto.groupby("chave")[["coluna_1",...,"coluna_n"]].agg([function_1(),...,function_n()])`

Note que esse procedimento é interessante quando temos muitas variáveis em nossa base de dados.

In [None]:
# Com uma chave
dados.groupby("Repayment")[["Age", "Loan"]].agg([np.sum, np.mean, np.std])

In [None]:
# Com múltiplas chaves
dados.groupby(["Repayment", 'Duration'])[["Age", "Loan"]].agg([np.sum, np.mean, np.std])

# Outros pontos sobre o *GroupBy*

Por padrão, as chaves de grupo são ordenadas (em ordem alfabética ou numérica) durante a operação de agrupamento. No entanto, você pode passar `sort = False` para alterar a ordem.

In [None]:
dados.groupby("Repayment",sort = False).groups.keys() # mostra as categorias da variável selecionada

Além disso, por padrão, os valores `NaN` são excluídos das chaves de grupo durante a operação *GroupBy*. No entanto, caso você queira incluir os valores `NaN` nas chaves de grupo, pode passar `dropna = False` para obtê-lo.

Veja o exemplo abaixo.

In [None]:
dados2 = pd.DataFrame({'Age':[40,35,45,34,45,48,53,60,50,48,53],
                      'Loan':[100000,60000,80000,40000,120000,98000,95000,92000,100000,170000,150000],
                      'Duration':['Short','Long','Short','Undefined','Long','Short','Long','Short','Undefined','Long', 'Short'],
                      'Repayment':[1,1,0,0,1,None,1,0,1,0,0] }) # 1=vai pagar 0=não vai pagar
dados2

In [None]:
dados2.groupby("Repayment")[["Age"]].count()

In [None]:
dados2.groupby("Repayment", dropna=False)[["Age"]].count()

# Veja o exemplo abaixo da atividade da aula anterior

In [None]:
# Lendo os dados
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-08-04/energy_types.csv", sep = ',')
df.head(5)

In [None]:
# Média e desvio padrão da produção de energia Solar na França em 2017

df.groupby(['country_name', 'type'])[["2017"]].get_group(('France', 'Solar')).mean()

In [None]:
# Porcentagem da produção de energia Solar na França em 2017

df.groupby(['country_name', 'type'])[["2018"]].get_group(('France', 'Solar')).sum()/df.groupby(['country_name'])[["2018"]].get_group(('France')).sum()

# **Atividade Prática**

Para a atividade prática desta aula, considere a base de dados dos salários de uma companhia, disponível no link [Salários](http://www.orlandoalbarracin.com.br/phyton/data2.csv).

Responda o que se pede no questionário disponível no Moodle.