# Pandas - Agregação e Resumo de dados
## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [1]:
import numpy as np
import pandas as pd
from functools import partial

## Agregações de dados com groupby

In [2]:
df = pd.read_csv('totaisestadoscomregiao_arr.csv', sep=';',names =['REGIAO','UF','CASOS','OBITOS'])
df

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355
5,Nordeste,BA,1844481,32034
6,Nordeste,CE,1508135,28215
7,Nordeste,MA,501121,11103
8,Nordeste,PB,725917,10669
9,Nordeste,PE,1235360,23240


In [3]:
df.describe()

Unnamed: 0,CASOS,OBITOS
count,27.0,27.0
mean,1444141.0,26447.333333
std,1535571.0,36864.20657
min,169625.0,2083.0
25%,469898.5,7986.0
50%,901045.0,14531.0
75%,1952500.0,28442.0
max,6907741.0,184235.0


In [4]:
df.dtypes

REGIAO    object
UF        object
CASOS      int64
OBITOS     int64
dtype: object

In [5]:
df.groupby('REGIAO')[['CASOS', 'OBITOS']].mean()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,1143668.0,16813.0
Nordeste,841328.6,15217.444444
Norte,426291.6,7444.857143
Sudeste,3898618.0,86134.25
Sul,2755554.0,37739.333333


In [6]:
df.groupby('REGIAO')[['CASOS', 'OBITOS']].sum()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,4574674,67252
Nordeste,7571957,136957
Norte,2984041,52114
Sudeste,15594474,344537
Sul,8266663,113218


In [7]:
df.groupby('REGIAO')[['CASOS', 'OBITOS']].max()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,2060518,28669
Nordeste,1844481,32034
Norte,901045,19291
Sudeste,6907741,184235
Sul,3144956,47029


In [8]:
df.groupby(["REGIAO"]).count()

Unnamed: 0_level_0,UF,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,4,4,4
Nordeste,9,9,9
Norte,7,7,7
Sudeste,4,4,4
Sul,3,3,3


In [9]:
df.groupby(by=["REGIAO"])[['OBITOS', 'CASOS']].count()

Unnamed: 0_level_0,OBITOS,CASOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,4,4
Nordeste,9,9
Norte,7,7
Sudeste,4,4
Sul,3,3


## API de agregação  com DataFrame.aggregate(), ou o alias DataFrame.agg()
A API de agregação permite expressar, possivelmente, várias operações de agregação de uma forma única e concisa.

In [10]:
df.sum()

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                              38991809
OBITOS                                               714078
dtype: object

In [11]:
df.agg(np.sum)

  df.agg(np.sum)


REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                              38991809
OBITOS                                               714078
dtype: object

In [12]:
df.agg('sum')

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                              38991809
OBITOS                                               714078
dtype: object

# Equivalente ao ``.sum()`` 

In [13]:
df.sum()

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                              38991809
OBITOS                                               714078
dtype: object

Agregações únicas em um Series retornarão um valor escalar:

In [14]:
df['CASOS'].sum()

38991809

In [15]:
df['CASOS'].agg('sum')

38991809

### Agregando com múltiplas funções 
Pode-se passar vários argumentos de agregação como uma lista. 

Os resultados de cada uma das funções passadas formarão uma linha no resultado DataFrame. 

As colunas receberão os nomes das fuções de agregação.

In [16]:
df[['CASOS', 'OBITOS']].sum()

CASOS     38991809
OBITOS      714078
dtype: int64

In [17]:
df[['CASOS', 'OBITOS']].agg(['sum'])

Unnamed: 0,CASOS,OBITOS
sum,38991809,714078


In [18]:
df[['CASOS', 'OBITOS']].agg(['sum', 'mean', 'max', 'min', 'std'])

Unnamed: 0,CASOS,OBITOS
sum,38991810.0,714078.0
mean,1444141.0,26447.333333
max,6907741.0,184235.0
min,169625.0,2083.0
std,1535571.0,36864.20657


Em a Series, várias funções retornam a Series, indexado pelos nomes das funções:

In [19]:
df['OBITOS'].agg(['sum', 'mean', 'max', 'min', 'std'])

sum     714078.000000
mean     26447.333333
max     184235.000000
min       2083.000000
std      36864.206570
Name: OBITOS, dtype: float64

In [20]:
df['OBITOS'].agg(['sum', lambda x: x.sum()])

sum         714078
<lambda>    714078
Name: OBITOS, dtype: int64

Passar uma função nomeada produzirá esse nome para a linha:

In [21]:
def media(x):
    return x.mean()

In [22]:
df['OBITOS'].agg(['sum','mean', media])

sum      714078.000000
mean      26447.333333
media     26447.333333
Name: OBITOS, dtype: float64

### Agregando com um dict 
DataFrame.agg permite que você personalize quais funções são aplicadas a quais colunas por meio de um dicionário.

In [23]:
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


In [24]:
df.agg({'OBITOS': 'mean', 'CASOS': 'sum'})

OBITOS    2.644733e+04
CASOS     3.899181e+07
dtype: float64

Passar por uma lista irá gerar uma DataFramesaída. Você obterá uma saída tipo matriz de todos os agregadores. A saída consistirá em todas as funções exclusivas. Aqueles que não são indicados para uma coluna específica serão NaN:

In [25]:
df.agg({'OBITOS': ['sum', 'mean', 'max', 'min', 'std'], 'CASOS': 'sum'})

Unnamed: 0,OBITOS,CASOS
sum,714078.0,38991809.0
mean,26447.333333,
max,184235.0,
min,2083.0,
std,36864.20657,


# Tipos de dados mistos 
Quando apresentado com dtypes mistos que não podem agregar, .agg só aceitará as agregações válidas. 

In [26]:
df.dtypes

REGIAO    object
UF        object
CASOS      int64
OBITOS     int64
dtype: object

In [27]:
df[['CASOS', 'OBITOS']].agg(['min', 'sum', 'mean'])

Unnamed: 0,CASOS,OBITOS
min,169625.0,2083.0
sum,38991810.0,714078.0
mean,1444141.0,26447.333333


## Descrição personalizada 
Com .agg() ele é possível criar facilmente uma função personalizada.

In [28]:
df['CASOS'].quantile(q=.75)

1952499.5

In [29]:
np.quantile(df['CASOS'] ,  q=.75)

1952499.5

In [30]:
q_75 = partial(pd.Series.quantile, q=0.75)
q_75.__name__ = '75%'
q_75(df['CASOS'])

1952499.5

In [31]:
q_25 = partial(pd.Series.quantile, q=0.25)
q_25.__name__ = '25%'
q_75 = partial(pd.Series.quantile, q=0.75)
q_75.__name__ = '75%'
df[[ 'CASOS', 'OBITOS']].agg(['count', 'mean', 'std', 'min', q_25, 'median', q_75, 'max'])

Unnamed: 0,CASOS,OBITOS
count,27.0,27.0
mean,1444141.0,26447.333333
std,1535571.0,36864.20657
min,169625.0,2083.0
25%,469898.5,7986.0
median,901045.0,14531.0
75%,1952500.0,28442.0
max,6907741.0,184235.0


In [32]:
df.groupby(by=["REGIAO"])[['CASOS','OBITOS']].mean()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,1143668.0,16813.0
Nordeste,841328.6,15217.444444
Norte,426291.6,7444.857143
Sudeste,3898618.0,86134.25
Sul,2755554.0,37739.333333


In [33]:
df.groupby('REGIAO')[['CASOS','OBITOS']].agg(['count', 'mean', 'std', 'min', q_25, 'median', q_75, 'max'])

Unnamed: 0_level_0,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS
Unnamed: 0_level_1,count,mean,std,min,25%,median,75%,max,count,mean,std,min,25%,median,75%,max
REGIAO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Centro-Oeste,4,1143668.0,627675.5,637169,850377.5,938493.5,1231784.5,2060518,4,16813.0,8088.290796,11305,11845.0,13639.0,18607.0,28669
Nordeste,9,841328.6,550178.4,348701,438676.0,601493.0,1235360.0,1844481,9,15217.444444,9816.155868,6575,8445.0,10669.0,23240.0,32034
Norte,7,426291.6,276084.0,169625,191097.5,382320.0,574428.0,901045,7,7444.857143,6884.988851,2083,2188.5,4305.0,11029.0,19291
Sudeste,4,3898618.0,2340550.0,1384800,2570864.25,3650966.5,4978720.75,6907741,4,86134.25,70917.022105,15214,53941.0,72544.0,104737.25,184235
Sul,3,2755554.0,579269.8,2089867,2560853.5,3031840.0,3088398.0,3144956,3,37739.333333,12795.154565,23145,33094.5,43044.0,45036.5,47029
