# üéØ Aula 3 - Fun√ß√µes agregadas no Pandas üéØ

# Caso Real

Designaram-te uma tarefa de an√°lise do desempenho de diferentes ag√™ncias em rela√ß√£o ao n√∫mero de processos tribut√°rios realizados no ano atual. Voc√™ possui um conjunto de dados que cont√©m informa√ß√µes sobre os processos, incluindo a ag√™ncia onde foi realizados e a custo de √¥nus para a ag√™ncia.

Utilizando os dados abaixo, qual ag√™ncia que mais √© onerosa nos processos tribut√°rios? E qual √© a ag√™ncia que mais recorre a processos? 

Aqui est√° um exemplo de poss√≠veis dados:

```python
{
    'Agencia': ['Andaluz', 'Betina', 'Andaluz', 'Cordoba', 'Betina', 'Betina', 'Betina', 'Cordoba', 'Andaluz', 'Betina', 'D. Pedro', 'Andaluz',...],
    'Gastos': [1000, 1500, 2000, 800, 1200, 800, 740, 1980 ,900, 1800, 1100, 1000, ...]
}
```

Observando os dados, como voc√™ faria para obter as respostas?

---
Fun√ß√µes agregadas s√£o essenciais no Pandas para sumariza√ß√£o, an√°lise e interpreta√ß√£o de grandes conjuntos de dados. Elas ajudam a condensar informa√ß√µes, facilitando o entendimento de tend√™ncias, padr√µes e discrep√¢ncias. As principais s√£o: 
* soma, 
* m√°ximo, 
* m√≠nimo, 
* contagem e 
* m√©dia (j√° visto na aula anterior)

A sumariza√ß√£o de dados √© um passo crucial na an√°lise de dados. Ela permite transformar dados brutos em informa√ß√µes compreens√≠veis, resumindo caracter√≠sticas importantes dos dados e fornecendo insights valiosos.

## Soma
A fun√ß√£o `.sum()` calcula a soma total dos elementos de uma s√©rie ou coluna de um DataFrame.

Utilizaremos o famoso dataset `titanic`, no qual cont√©m informa√ß√µes dos passageiros do Titanic e se sobreviveram ao naufr√°gio ou n√£o.

In [2]:
#import 
import pandas as pd

#load dataset
df = pd.read_excel('./data/titanic.xlsx')

Se quisermos saber quantos sobreviventes no total sobreviveram, somamos a coluna `Survived`:

In [5]:
df['Survived'].sum()

342.0

J√° se quisermos saber qual √© a porcentagem de sobreviventes, podemos realizar a contagem total de dados que temos:


## Contagem

A fun√ß√£o `.count()` √© usada para contar o n√∫mero de itens em um conjunto de dados.

Usando o dataframe do exemplo anterior, podemos encontrar a contagem de passageiros no dataset:

In [6]:
df['Survived'].count()

891

Assim, √© poss√≠vel, por exemplo, calcular a porcentagem de sobreviventes:

In [7]:
df['Survived'].sum()/df['Survived'].count()

0.3838383838383838

**Obs:** Tamb√©m √© poss√≠vel ter o mesmo resultado utilizando a fun√ß√£o `len()` ou `shape[0]`, por√©m √© recomendado usar o `count` j√° que ele N√ÉO leva em considera√ß√£o valores nulos, o que normalmente √© desej√°vel.

## M√°ximo e M√≠nimo

A fun√ß√£o `.max()` identifica o maior valor em uma s√©rie ou coluna. J√° a fun√ß√£o `.min()` encontra o menor valor em uma s√©rie ou coluna. √â crucial para an√°lises que necessitam identificar extremos e valores m√°ximos e m√≠nimos.

Consideremos o dataframe do exemplo anterior. Podemos calcular a maior e a menor idade dos passageiros:

In [9]:
print('Maior idade:',df['Age'].max(),'\nMenor idade',df['Age'].min())

Maior idade: 80.0 
Menor idade 0.17


## Agrupamento com *groupby*

O `.groupby()` √© uma t√©cnica que permite agrupar dados com base em categorias e aplicar fun√ß√µes agregadas a cada grupo. Isso √© particularmente √∫til para an√°lises segmentadas e comparativas, como calcular m√©dias, somas ou outros agregados por categorias espec√≠ficas.

Vamos pesquisar qual √© a propor√ß√£o de sobreviventes por classe embarcada:

In [14]:
print('Sobreviventes:')
df.groupby('Pclass')['Survived'].sum()/df.groupby('Pclass')['Survived'].count()
print('Sobreviventes:')

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

Todas as outras fun√ß√µes que aprendemos na aula passada sobre medidas de centralidade tamb√©m podem ser aplicadas √†s agrega√ß√µes.

---
# Hands-on

Vamos continuar com as tarefas no mesmo dataset de empr√©stimos pessoais.

Agora estamos mais interessados em agregar os resultados. Quem sabe podemos descobrir alguma peculiaridade nos dados. 

* Qual √© o sal√°rio m√©dio por educa√ß√£o pros clientes que aceitaram ou rejeitaram o empr√©stimo?
* Qual √© a mediana da quantidade de servi√ßos financeiros dos clientes que aceitaram ou rejeitaram o empr√©stimo? (Considere o credit card como um servi√ßo financeiro tamb√©m)
* Qual √© a porcentagem de clientes que possuem o cart√£o de cr√©dito do banco que aceitaram ou rejeitaram o empr√©stimo?

In [1]:
import pandas as pd
df_loan = pd.read_csv('./data/Projectdata_Bank_Personal_Loan_Modelling.csv')

In [22]:
# Qual √© o sal√°rio m√©dio por educa√ß√£o pros clientes que aceitaram ou rejeitaram o empr√©stimo?
df_loan.groupby(['Education','Personal Loan'])['Income'].mean()

Education  Personal Loan
1.0        0                 83.054501
           1                136.061856
2.0        0                 52.103175
           1                145.464865
3.0        0                 53.206922
           1                148.094340
Name: Income, dtype: float64

In [16]:
# Qual √© a mediana da quantidade de servi√ßos financeiros dos clientes que 
# aceitaram ou rejeitaram o empr√©stimo? (Considere o credit card como um servi√ßo financeiro tamb√©m)
 
#convert mortgage to hasMortgage
has_mortgage = (df_loan['Mortgage']>0).astype('int0')
df_loan_w_finserv = df_loan.assign(finservices = lambda x: df_loan[['CD Account','Securities Account','CreditCard']].sum(axis=1) + has_mortgage)

df_loan_w_finserv.groupby('Personal Loan')['finservices'].median()

Personal Loan
0    1.0
1    1.0
Name: finservices, dtype: float64

In [20]:
# Qual √© a porcentagem de clientes que possuem o cart√£o de cr√©dito do banco que aceitaram ou rejeitaram o empr√©stimo?
df_loan.groupby(['Personal Loan','CreditCard'])['CreditCard'].count()/df_loan.groupby(['Personal Loan'])['CreditCard'].count()

Personal Loan  CreditCard
0              0             0.706410
               1             0.293590
1              0             0.700803
               1             0.299197
Name: CreditCard, dtype: float64


## Refer√™ncias
[Documenta√ß√£o Pandas](https://pandas.pydata.org/docs/)

[Referencia para fun√ß√µes agregadas](https://sparkbyexamples.com/pandas/pandas-aggregate-functions-with-examples/)