## Script até aqui

In [None]:
caminho_dados = '/content/drive/MyDrive/Curso AD/dados_viagens/2023_Viagem.csv'

In [None]:
import pandas as pd

pd.set_option('display.max_columns', None)

# Lendo os dados
df_viagens = pd.read_csv(caminho_dados, encoding='Windows-1252', sep=';', decimal=',')

# Criando nova coluna de despesas
df_viagens['Despesas'] = df_viagens['Valor diárias'] + df_viagens['Valor passagens'] + df_viagens['Valor outros gastos']

### Outras métricas agrupadas

O método `df.value_counts()` nos retorna a contagem ou proporção de elementos em uma coluna. Mas como aplicar outras métricas?

Por exemplo: **agrupar a tabela por cada cargo** e mostrar a soma de despesas.

para isso, podemos usar o `df.groupby`, que **agrupa** por uma coluna e agrega valores:

In [None]:
df_viagens.groupby('Cargo')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7c285a33ada0>

Este código apenas agrupa os dados em memória. Precisamos ainda:

1. Escolher uma coluna pela qual agregar
2. Definir qual agregação fazer

Vamos por exemplo **somar as despesas de cada cargo**:

In [None]:
df_viagens.groupby('Cargo')['Despesas'].sum()

Unnamed: 0_level_0,Despesas
Cargo,Unnamed: 1_level_1
AAD-AUX DE RECURSOS MATERIAIS,17960.50
AAD-AUXILIAR ADMINISTRATIVO,1620.65
AAD-AUXILIAR DE OPERACOES,55813.76
AAD-AUXILIAR DE RECURSOS FINANCEIROS,31091.89
AAD-OPERADOR DE MICROCOMPUTADOR,1186.47
...,...
VICE-PRESIDENTE DA REPUBLICA,14136.40
VIDREIRO,0.00
VIGILANTE,739331.55
VISITADOR SANITARIO,58907.74


In [None]:
df_viagens.groupby('Cargo')['Despesas'].sum().reset_index()

Unnamed: 0,Cargo,Despesas
0,AAD-AUX DE RECURSOS MATERIAIS,17960.50
1,AAD-AUXILIAR ADMINISTRATIVO,1620.65
2,AAD-AUXILIAR DE OPERACOES,55813.76
3,AAD-AUXILIAR DE RECURSOS FINANCEIROS,31091.89
4,AAD-OPERADOR DE MICROCOMPUTADOR,1186.47
...,...,...
816,VICE-PRESIDENTE DA REPUBLICA,14136.40
817,VIDREIRO,0.00
818,VIGILANTE,739331.55
819,VISITADOR SANITARIO,58907.74


In [None]:
df_viagens.groupby('Cargo')['Despesas'].sum().reset_index().sort_values(by='Despesas')

Unnamed: 0,Cargo,Despesas
454,LOCUTOR,0.000000e+00
301,CENOTECNICO,0.000000e+00
152,ASG - OPERADOR DE MAQUINA E EQUIPAMENTOS,0.000000e+00
817,VIDREIRO,0.000000e+00
723,TECNICO EM GEOLOGIA,0.000000e+00
...,...,...
72,ANALISTA AMBIENTAL,3.530205e+07
685,TECNICO DO SEGURO SOCIAL,4.575657e+07
569,PROFESSOR ENS BASICO TECN TECNOLOGICO,5.245477e+07
568,PROFESSOR DO MAGISTERIO SUPERIOR,1.107000e+08


In [None]:
df_viagens.groupby('Cargo')['Despesas'].sum().reset_index().sort_values(by='Despesas', ascending=False)

Unnamed: 0,Cargo,Despesas
443,Informações protegidas por sigilo,3.692976e+08
568,PROFESSOR DO MAGISTERIO SUPERIOR,1.107000e+08
569,PROFESSOR ENS BASICO TECN TECNOLOGICO,5.245477e+07
685,TECNICO DO SEGURO SOCIAL,4.575657e+07
72,ANALISTA AMBIENTAL,3.530205e+07
...,...,...
152,ASG - OPERADOR DE MAQUINA E EQUIPAMENTOS,0.000000e+00
733,TECNICO EM METALURGIA,0.000000e+00
817,VIDREIRO,0.000000e+00
220,AUXILIAR - AUXILIAR DE SERVICOS GERAIS,0.000000e+00


Os números ficaram em notação científica, mas conseguimos corrigir isso mudando o formato de exibição de floats:

In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [None]:
df_viagens.groupby('Cargo')['Despesas'].sum().reset_index().sort_values(by='Despesas', ascending=False)

Unnamed: 0,Cargo,Despesas
443,Informações protegidas por sigilo,369297630.96
568,PROFESSOR DO MAGISTERIO SUPERIOR,110699956.30
569,PROFESSOR ENS BASICO TECN TECNOLOGICO,52454765.16
685,TECNICO DO SEGURO SOCIAL,45756570.47
72,ANALISTA AMBIENTAL,35302045.45
...,...,...
152,ASG - OPERADOR DE MAQUINA E EQUIPAMENTOS,0.00
733,TECNICO EM METALURGIA,0.00
817,VIDREIRO,0.00
220,AUXILIAR - AUXILIAR DE SERVICOS GERAIS,0.00


## Outros agrupamentos
No exemplo acima, usamos o método `.sum()` depois do `groupby` para calcular a soma (total) de despesas por cargo.

Existem diversos outros métodos de agregação do pandas, como:
- `.mean()`
- `.median()`
- `.std()`
- `.min()`
- `.max()`
- `.first()`
- `.last()`

E muitos outros!

In [None]:
df_viagens.groupby('Cargo')['Despesas'].mean().reset_index().sort_values(by='Despesas', ascending=False)

Unnamed: 0,Cargo,Despesas
615,SEGUNDO TENENTE,40372.27
325,DELEGADO DE POLICIA - PRIMEIRA CLASSE,34105.32
616,SEGUNDO-TENENTE,19820.29
480,MINISTRO DE PRIMEIRA CLASSE,19072.66
800,TERCEIRO SARGENTO,19032.81
...,...,...
723,TECNICO EM GEOLOGIA,0.00
733,TECNICO EM METALURGIA,0.00
152,ASG - OPERADOR DE MAQUINA E EQUIPAMENTOS,0.00
817,VIDREIRO,0.00


In [None]:
df_viagens.groupby('Cargo')['Despesas'].max().reset_index().sort_values(by='Despesas', ascending=False)

Unnamed: 0,Cargo,Despesas
480,MINISTRO DE PRIMEIRA CLASSE,195192.15
443,Informações protegidas por sigilo,184787.42
541,PESQUISADOR EM SAUDE PUBLICA,172409.29
83,ANALISTA DE PLANEJAMENTO E ORCAMENTO,157255.53
385,ESP EM REG DE SERV PUB DE TELECOMUNIC,155655.76
...,...,...
301,CENOTECNICO,0.00
817,VIDREIRO,0.00
733,TECNICO EM METALURGIA,0.00
723,TECNICO EM GEOLOGIA,0.00
