# **Mestrado em Informática**
# **Pós-Graduação em Data Science and Digital Transformation**

## *(Ambientes de) Programação para Ciência de Dados*

# Mónica Vieira Martins
---

> #  Agregação de dados em Pandas

---
Um aspeto fundamental da análise de dados é a obtenção eficiente de medidas sobre os dados, como médias, desvios padrão, valores máximos e mínimos.  Neste documento apresenta-se os métodos fundamentais de agregação em DataFrames. 

Adicionalmente, pode ser útil obter tais métricas para subconjuntos dos dados, sobretudo quando estes são muito volumosos.  

Em Pandas,  o método `groupby` facilita a obtenção de tais métricas em subconjuntos de uma dado dataset. Apresenta-se também este método e exemplos da sua utilização 


In [1]:
import pandas as pd
import numpy as np

Para exemplificação dos métodos, será usado o dataset `planets`, disponível na biblioteca de visualização `seaborn`.  
Contém informação sobre exo-planetas.

In [3]:
import seaborn as sns
planets = sns.load_dataset('planets')

In [4]:
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


O significado das colunas é o seguinte: 
* *method*  - método que foi usado na descoberta do 
* *number*  - número de planetas no sistema a que esse planeta pertence
* *orbital_period* - período orbital  em dias terrestes. 
* *mass* - massa do planeta em massa de Júpiter.
* *distance* - distância do planeta à Terra, em anos-luz.
*  *year* - ano em que foi descoberto

In [5]:
planets.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1035 entries, 0 to 1034
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   method          1035 non-null   object 
 1   number          1035 non-null   int64  
 2   orbital_period  992 non-null    float64
 3   mass            513 non-null    float64
 4   distance        808 non-null    float64
 5   year            1035 non-null   int64  
dtypes: float64(3), int64(2), object(1)
memory usage: 48.6+ KB


In [6]:
planets.method.unique()

array(['Radial Velocity', 'Imaging', 'Eclipse Timing Variations',
       'Transit', 'Astrometry', 'Transit Timing Variations',
       'Orbital Brightness Modulation', 'Microlensing', 'Pulsar Timing',
       'Pulsation Timing Variations'], dtype=object)

In [10]:
planets.method.nunique()

10

In [11]:
planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


# Métodos de agregação em Pandas

Os métodos mais comuns para obter métricas de agregação em objetos Pandas estão descritos na tabela seguinte: 

| **Método**          | **Descrição**                                                    | **Exemplo**                                         |
|---------------------|------------------------------------------------------------------|-----------------------------------------------------|
| `sum()`             | Soma os valores numéricos.                                        | `df.sum()`                                           |
| `mean()`            | Calcula a média dos valores numéricos.                            | `df.mean()`                                          |
| `median()`          | Calcula a mediana dos valores numéricos.                          | `df.median()`                                        |
| `min()`             | Retorna o valor mínimo dos dados.                                 | `df.min()`                                           |
| `max()`             | Retorna o valor máximo dos dados.                                 | `df.max()`                                           |
| `count()`           | Conta o número de valores não nulos.                              | `df.count()`                                         |
| `std()`             | Calcula o desvio padrão dos valores numéricos.                    | `df.std()`                                           |
| `var()`             | Calcula a variância dos valores numéricos.                        | `df.var()`                                           |
| `agg()`             | Permite usar múltiplas funções de agregação ao mesmo tempo.      | `df.agg({'col1': 'sum', 'col2': 'mean'})`            |


Exemplifiquemos a utlização destes métodos no dataset *planets*

In [13]:
#Soma dos valores da coluna 'number'
planets.number.sum()

np.int64(1848)

In [14]:
#média da distância dos planetas à terra
planets.distance.mean()

np.float64(264.06928217821786)

In [15]:
#... e respetivo desvio padrão
planets.distance.std()

np.float64(733.1164929404421)

In [16]:
#distância mínima
planets.distance.min()

np.float64(1.35)

In [20]:
# Ano de descoberta mais antigo e mais recente
{'min': planets.year.min(), 'max': planets.year.max()}

{'min': np.int64(1989), 'max': np.int64(2014)}

In [9]:
planets.year

0       2006
1       2008
2       2011
3       2007
4       2009
        ... 
1030    2006
1031    2007
1032    2007
1033    2008
1034    2008
Name: year, Length: 1035, dtype: int64

In [None]:
# Contagem dos valores no ano 2008
mask_year = planets.year == 2008
planets[mask_year].count()

method            74
number            74
orbital_period    69
mass              43
distance          64
year              74
dtype: int64

In [28]:
#Agregação múltipla (ano minímo e máximo)
agg_anos = planets['number'].agg(['min', 'max', 'mean'])
agg_anos

min     1.000000
max     7.000000
mean    1.785507
Name: number, dtype: float64

# O método `groupby()`

O método `groupby` permite aplicar funções de agregação a partes dos dados.

Pode ser encarado como um método que realiza sequencialmente as operações de *split* (separação do sub-conjunto de interesse), *apply* (aplicação da função de agregação) e *combine* (junção dos resultados num único objeto)

!["Fonte: "Python Data Science Handbook"](https://github.com/mvmartins/images/blob/main/Imagem_groupby.png?raw=true)


Ao aplicar o método `groupby()` é obtido um objeto *DataFrameGroupBy*

In [29]:
type(planets.groupby('method'))

pandas.core.groupby.generic.DataFrameGroupBy

In [30]:
planets.groupby('method')['mass']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7f83a5959e50>

O objeto `groupby()` permite a indexação por colunas, à semelhança dos objetos DataFrame.

As funções de agregação podem então ser aplicadas às colunas de interesse, como se verifica nos seguintes exemplos: 

Na célula seguinte agrupam-se os dados pelo método de descoberta, e depois seleciona-se a coluna massa e  usan-se a função de agregação `mean()`.  
Isto é, obtém-se a média dos valores das massas dos planetas para cada valor único da coluna *method*

In [31]:
planets.groupby('method')['mass'].mean()

method
Astrometry                            NaN
Eclipse Timing Variations        5.125000
Imaging                               NaN
Microlensing                          NaN
Orbital Brightness Modulation         NaN
Pulsar Timing                         NaN
Pulsation Timing Variations           NaN
Radial Velocity                  2.630699
Transit                          1.470000
Transit Timing Variations             NaN
Name: mass, dtype: float64

Existem muitos valores *NaN* para a massa, o que significa que a média é calculada apenas para os valores existentes.

In [None]:
#agrupar por método e determinar o mínimo do ano para cada método
planets.groupby('method')['year'].min()

method
Astrometry                       2010
Eclipse Timing Variations        2008
Imaging                          2004
Microlensing                     2004
Orbital Brightness Modulation    2011
Pulsar Timing                    1992
Pulsation Timing Variations      2007
Radial Velocity                  1989
Transit                          2002
Transit Timing Variations        2011
Name: year, dtype: int64

In [34]:
#agrupar por método, determinar o máximo do ano para cada método e ordenar por valores decrescentes
planets.groupby('method')['year'].max().sort_values(ascending=False)

method
Transit Timing Variations        2014
Transit                          2014
Radial Velocity                  2014
Astrometry                       2013
Microlensing                     2013
Imaging                          2013
Orbital Brightness Modulation    2013
Eclipse Timing Variations        2012
Pulsar Timing                    2011
Pulsation Timing Variations      2007
Name: year, dtype: int64

In [36]:
#agrupar por método e determinar o mínimo do ano e a média da massa para cada método
planets.groupby('method').agg({'year': 'sum', 'mass': 'mean'})

Unnamed: 0_level_0,year,mass
method,Unnamed: 1_level_1,Unnamed: 2_level_1
Astrometry,4023,
Eclipse Timing Variations,18090,5.125
Imaging,76347,
Microlensing,46225,
Orbital Brightness Modulation,6035,
Pulsar Timing,9992,
Pulsation Timing Variations,2007,
Radial Velocity,1110158,2.630699
Transit,798461,1.47
Transit Timing Variations,8050,


Podemos usar o groupby para responder a questões como: quantos planetas foram descobertos por cada método?

In [37]:
#quantos planetas foram descobertos por cada método?
planets.groupby('method')['year'].count().sort_values()

method
Pulsation Timing Variations        1
Astrometry                         2
Orbital Brightness Modulation      3
Transit Timing Variations          4
Pulsar Timing                      5
Eclipse Timing Variations          9
Microlensing                      23
Imaging                           38
Transit                          397
Radial Velocity                  553
Name: year, dtype: int64

In [46]:
# e relacionar com a antiguidade do método
planets.groupby('method').agg({'number': 'count', 'year': 'min'}).sort_values(by='number', ascending=False)

Unnamed: 0_level_0,number,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1
Radial Velocity,553,1989
Transit,397,2002
Imaging,38,2004
Microlensing,23,2004
Eclipse Timing Variations,9,2008
Pulsar Timing,5,1992
Transit Timing Variations,4,2011
Orbital Brightness Modulation,3,2011
Astrometry,2,2010
Pulsation Timing Variations,1,2007


O método mais antigo é também o que originou mais descobertas. Todavia, métodos mais recentes também originaram bastantes descobertas.

Também se pode usar o método `describe()` a resultados agrupados. Por exemplo:  

In [50]:
planets.groupby('method')['distance'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,17.875,4.094148,14.98,16.4275,17.875,19.3225,20.77
Eclipse Timing Variations,4.0,315.36,213.203907,130.72,130.72,315.36,500.0,500.0
Imaging,32.0,67.715937,53.736817,7.69,22.145,40.395,132.6975,165.0
Microlensing,10.0,4144.0,2076.611556,1760.0,2627.5,3840.0,4747.5,7720.0
Orbital Brightness Modulation,2.0,1180.0,0.0,1180.0,1180.0,1180.0,1180.0,1180.0
Pulsar Timing,1.0,1200.0,,1200.0,1200.0,1200.0,1200.0,1200.0
Pulsation Timing Variations,0.0,,,,,,,
Radial Velocity,530.0,51.600208,45.559381,1.35,24.4125,40.445,59.2175,354.0
Transit,224.0,599.29808,913.87699,38.0,200.0,341.0,650.0,8500.0
Transit Timing Variations,3.0,1104.333333,915.819487,339.0,597.0,855.0,1487.0,2119.0


Também se podem aplicar máscaras booleanas. Por exemplo, podemos responder à   questão: 

**Quantos planetas foram descobertos pelo método *Astrometry*?**


seguindo os passos seguintes: 

1. Selecionar os elementos para os quais o método é *Astrometry*
2.  Agrupar por *method* e somar os elementos na coluna  *number*

(Sabemos antecipadamente que a resposta é 2, pela visualização do quadro anterior)

In [55]:
mask = planets['method'] == 'Astrometry'
planets[mask].groupby('method')['number'].count()


method
Astrometry    2
Name: number, dtype: int64

In [58]:
#Agrupar por método e encontrar o máximo de ano e de número
planets.groupby('method').max(['year', 'number'])

Unnamed: 0_level_0,number,orbital_period,mass,distance,year
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Astrometry,1,1016.0,,20.77,2013
Eclipse Timing Variations,2,10220.0,6.05,500.0,2012
Imaging,4,730000.0,,165.0,2013
Microlensing,2,5100.0,,7720.0,2013
Orbital Brightness Modulation,2,1.544929,,1180.0,2013
Pulsar Timing,3,36525.0,,1200.0,2011
Pulsation Timing Variations,1,1170.0,,,2007
Radial Velocity,6,17337.5,25.0,354.0,2014
Transit,7,331.60059,1.47,8500.0,2014
Transit Timing Variations,3,160.0,,2119.0,2014


In [59]:
planets.groupby('method')[['year', 'number']].max()

Unnamed: 0_level_0,year,number
method,Unnamed: 1_level_1,Unnamed: 2_level_1
Astrometry,2013,1
Eclipse Timing Variations,2012,2
Imaging,2013,4
Microlensing,2013,2
Orbital Brightness Modulation,2013,2
Pulsar Timing,2011,3
Pulsation Timing Variations,2007,1
Radial Velocity,2014,6
Transit,2014,7
Transit Timing Variations,2014,3


In [67]:
#Um exemplo de aplicação: agrupar os métodos por décadas
decada = 10*(planets.year//10)
decada.name = "decade"
planets.groupby([decada])['number'].count()

decade
1980      1
1990     31
2000    406
2010    597
Name: number, dtype: int64

O resultado é um DataFrame com índice múltiplo ( method e Década), que não tem grande legibilidade. Pode-se usar o método `unstack` para obter uma tabela com maior legibilidade. Neste caso, preenchem-se os valores ausentes com 0 (fillna(0))

In [74]:
# agrupar por método e decadoas e encontrar o máximo de 'mass
#muitos nan.... usar fillna(0)
planets.groupby(['method', decada])['number'].count().unstack().fillna(0)

decade,1980,1990,2000,2010
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,3.0,6.0
Imaging,0.0,0.0,20.0,18.0
Microlensing,0.0,0.0,10.0,13.0
Orbital Brightness Modulation,0.0,0.0,0.0,3.0
Pulsar Timing,0.0,3.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,28.0,309.0,215.0
Transit,0.0,0.0,62.0,335.0
Transit Timing Variations,0.0,0.0,0.0,4.0


---  
**Mónica Vieira Martins**  
*Data Science and Digital Transformation*