# <center>Curso de Modelagem de Dados para IA - PARTE 9</center>

<img src="image.jpg" alt="Drawing" style="width: 300px;"/>


## Operação de Agregação sobre os Dados
Às vezes, os dados que se deseja analisar chegam em um formato que não é o ideal para as necessidades ou contêm campos de dados adicionais que podem não ser interessantes. Nesse caso, convém pré-processar os dados para obtê-los em um formato adequado para análise posterior. Ilustramos alguns desses tipos de problemas aqui, no contexto dos dados do Twitter. Conforme observado anteriormente, os arquivos de dados do Twitter estão disponíveis por meio de links de download separados.

### Operações de agregação
Além de definir objetos de array multidimensionais, o NumPy também suporta operações de agregação compactas e eficientes para operar em todos os dados em um array. Essa mesma funcionalidade foi estendida ao Pandas, para permitir operações agregadas em dataframes. Isso inclui operações matemáticas como <span style="font-family: 'Courier'">sum, mean, std, min, max, abs</span> e <span style="font-family: 'Courier'">round</span>, entre outras. Muitas dessas funções podem atuar não apenas em um array ou dataframe inteiro, mas também em um eixo específico. (Esta é uma das razões pelas quais é importante conhecer a anatomia de arrays e dataframes.) Daremos alguns exemplos simples aqui. Também veremos a seguir o uso de agregações em conjunto com operações de agrupamento.

Com o dataframe de rebatidas de beisebol, podemos estar interessados no número total de diferentes tipos de resultados de rebatidas ao longo de toda a história do beisebol da MLB. Podemos calcular isso facilmente somando todas as linhas (eixo = 0) do dataframe de rebatidas:

In [1]:
import glob, os
import pandas as pd

In [2]:
def read_all_databank_core_csv(directory):
    """
    read all csv files in the specified baseball databank directory and
    populate a dictionary storing each of the tables keyed to its name
    """
    dfs = {}
    files = glob.glob('{}/*.csv'.format(directory))
    for f in files:
        d, name = os.path.split(f)
        table = os.path.splitext(name)[0]
        df = pd.read_csv(f)
        dfs[table] = df
    return dfs

bbdfs = read_all_databank_core_csv('data/baseballdatabank/core')

In [3]:
# extract a few for further processing
batting = bbdfs['Batting']
pitching = bbdfs['Pitching']
teams = bbdfs['Teams']

In [8]:
batting.sum(axis=0)

playerID    abercda01addybo01allisar01allisdo01ansonca01ar...
yearID                                              211264730
stint                                                  115938
teamID      TRORC1CL1WS3RC1FW1RC1BS1FW1BS1CL1CL1WS3TROPH1T...
G                                                     5493285
AB                                                   15088892
R                                                     2002457
H                                                     3944241
2B                                                     671889
3B                                                     135427
HR                                                     307761
RBI                                                 1805938.0
SB                                                   309734.0
CS                                                   100075.0
BB                                                    1391075
SO                                                  2177919.0
IBB     

Parte da saída é um pouco sem sentido (por exemplo, somar strings de texto). Se quisermos restringir a soma apenas a dados numéricos, podemos incluir uma opção adicional ao método soma: <span style="font-family: 'Courier'">batting.sum(axis=1, numeric_only=True)</span>, embora, mesmo assim, alguns dados ainda não façam sentido (por exemplo, soma de anos).

Da mesma forma, podemos estar interessados em quantos jogos por temporada os jogadores jogaram em média. O código a seguir retornará a média e o desvio padrão do número anual de jogos ('G') por jogador:

In [5]:
games_mean = batting['G'].mean()
games_std = batting['G'].std()

In [7]:
print(games_mean)
print(games_std)

51.134097869290414
47.01589575697166
