# 🎯 Aula 3 - Funções agregadas no Pandas 🎯

# Caso Real

Designaram-te uma tarefa de análise do desempenho de diferentes agências em relação ao número de processos tributários realizados no ano atual. Você possui um conjunto de dados que contém informações sobre os processos, incluindo a agência onde foi realizados e a custo de ônus para a agência.

Utilizando os dados abaixo, qual agência que mais é onerosa nos processos tributários? E qual é a agência que mais recorre a processos? 

Aqui está um exemplo de possíveis dados:

```python
{
    'Agencia': ['Andaluz', 'Betina', 'Andaluz', 'Cordoba', 'Betina', 'Betina', 'Betina', 'Cordoba', 'Andaluz', 'Betina', 'D. Pedro', 'Andaluz',...],
    'Gastos': [1000, 1500, 2000, 800, 1200, 800, 740, 1980 ,900, 1800, 1100, 1000, ...]
}
```

Observando os dados, como você faria para obter as respostas?

---
Funções agregadas são essenciais no Pandas para sumarização, análise e interpretação de grandes conjuntos de dados. Elas ajudam a condensar informações, facilitando o entendimento de tendências, padrões e discrepâncias. As principais são: 
* soma, 
* máximo, 
* mínimo, 
* contagem e 
* média (já visto na aula anterior)

A sumarização de dados é um passo crucial na análise de dados. Ela permite transformar dados brutos em informações compreensíveis, resumindo características importantes dos dados e fornecendo insights valiosos.

## Soma
A função `.sum()` calcula a soma total dos elementos de uma série ou coluna de um DataFrame.

Utilizaremos o famoso dataset `titanic`, no qual contém informações dos passageiros do Titanic e se sobreviveram ao naufrágio ou não.

In [2]:
#import 
import pandas as pd

#load dataset
df = pd.read_excel('./data/titanic.xlsx')

Se quisermos saber quantos sobreviventes no total sobreviveram, somamos a coluna `Survived`:

In [5]:
df['Survived'].sum()

342.0

Já se quisermos saber qual é a porcentagem de sobreviventes, podemos realizar a contagem total de dados que temos:


## Contagem

A função `.count()` é usada para contar o número de itens em um conjunto de dados.

Usando o dataframe do exemplo anterior, podemos encontrar a contagem de passageiros no dataset:

In [6]:
df['Survived'].count()

891

Assim, é possível, por exemplo, calcular a porcentagem de sobreviventes:

In [7]:
df['Survived'].sum()/df['Survived'].count()

0.3838383838383838

**Obs:** Também é possível ter o mesmo resultado utilizando a função `len()` ou `shape[0]`, porém é recomendado usar o `count` já que ele NÃO leva em consideração valores nulos, o que normalmente é desejável.

## Máximo e Mínimo

A função `.max()` identifica o maior valor em uma série ou coluna. Já a função `.min()` encontra o menor valor em uma série ou coluna. É crucial para análises que necessitam identificar extremos e valores máximos e mínimos.

Consideremos o dataframe do exemplo anterior. Podemos calcular a maior e a menor idade dos passageiros:

In [9]:
print('Maior idade:',df['Age'].max(),'\nMenor idade',df['Age'].min())

Maior idade: 80.0 
Menor idade 0.17


## Agrupamento com *groupby*

O `.groupby()` é uma técnica que permite agrupar dados com base em categorias e aplicar funções agregadas a cada grupo. Isso é particularmente útil para análises segmentadas e comparativas, como calcular médias, somas ou outros agregados por categorias específicas.

Vamos pesquisar qual é a proporção de sobreviventes por classe embarcada:

In [14]:
print('Sobreviventes:')
df.groupby('Pclass')['Survived'].sum()/df.groupby('Pclass')['Survived'].count()
print('Sobreviventes:')

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

Todas as outras funções que aprendemos na aula passada sobre medidas de centralidade também podem ser aplicadas às agregações.

---
# Hands-on

Vamos continuar com as tarefas no mesmo dataset de empréstimos pessoais.

Agora estamos mais interessados em agregar os resultados. Quem sabe podemos descobrir alguma peculiaridade nos dados. 

* Qual é o salário médio por educação pros clientes que aceitaram ou rejeitaram o empréstimo?
* Qual é a mediana da quantidade de serviços financeiros dos clientes que aceitaram ou rejeitaram o empréstimo? (Considere o credit card como um serviço financeiro também)
* Qual é a porcentagem de clientes que possuem o cartão de crédito do banco que aceitaram ou rejeitaram o empréstimo?

In [1]:
import pandas as pd
df_loan = pd.read_csv('./data/Projectdata_Bank_Personal_Loan_Modelling.csv')

In [22]:
# Qual é o salário médio por educação pros clientes que aceitaram ou rejeitaram o empréstimo?
df_loan.groupby(['Education','Personal Loan'])['Income'].mean()

Education  Personal Loan
1.0        0                 83.054501
           1                136.061856
2.0        0                 52.103175
           1                145.464865
3.0        0                 53.206922
           1                148.094340
Name: Income, dtype: float64

In [16]:
# Qual é a mediana da quantidade de serviços financeiros dos clientes que 
# aceitaram ou rejeitaram o empréstimo? (Considere o credit card como um serviço financeiro também)
 
#convert mortgage to hasMortgage
has_mortgage = (df_loan['Mortgage']>0).astype('int0')
df_loan_w_finserv = df_loan.assign(finservices = lambda x: df_loan[['CD Account','Securities Account','CreditCard']].sum(axis=1) + has_mortgage)

df_loan_w_finserv.groupby('Personal Loan')['finservices'].median()

Personal Loan
0    1.0
1    1.0
Name: finservices, dtype: float64

In [20]:
# Qual é a porcentagem de clientes que possuem o cartão de crédito do banco que aceitaram ou rejeitaram o empréstimo?
df_loan.groupby(['Personal Loan','CreditCard'])['CreditCard'].count()/df_loan.groupby(['Personal Loan'])['CreditCard'].count()

Personal Loan  CreditCard
0              0             0.706410
               1             0.293590
1              0             0.700803
               1             0.299197
Name: CreditCard, dtype: float64


## Referências
[Documentação Pandas](https://pandas.pydata.org/docs/)

[Referencia para funções agregadas](https://sparkbyexamples.com/pandas/pandas-aggregate-functions-with-examples/)