O método groupby do Pandas permite agrupar e resumir dados de um DataFrame, com base em um ou mais critérios. Esses critérios podem ser variáveis numéricas ou categóricas, como colunas ou índices do DataFrame.

A ideia por trás do groupby é dividir os dados em grupos com base nos critérios selecionados e, em seguida, aplicar uma operação a esses grupos. Essa operação pode ser uma função de agregação, como soma, média, contagem, desvio padrão, entre outras, ou mesmo uma operação personalizada definida pela pessoa usuária.

Esse método possui diversos parâmetros, alguns deles são:

- by: esse é o parâmetro mais comum e é usado para especificar a coluna ou colunas que queremos agrupar. Como argumento dele, podemos passar o nome de uma coluna ou uma lista de nomes de colunas;

- axis: utilizamos esse parâmetro para especificar o eixo ao longo do qual queremos agrupar. O valor padrão dele é 0, o que significa que as linhas serão agrupadas. Se quisermos agrupar as colunas, devemos definir esse parâmetro como 1;

- sort: esse parâmetro é um booleano (True ou False) que indica se os grupos devem ser ordenados pelo valor da coluna de agrupamento. O valor padrão é True;

- dropna: utilizamos esse parâmetro para controlar se os valores ausentes (NaN) serão excluídos ou não durante o processo de agrupamento. O valor padrão é True.

Vamos analisar um exemplo simples utilizando o groupby. Suponha que temos o seguinte DataFrame:

In [1]:
import pandas as pd

df = pd.DataFrame({
   'Animal': ['Cachorro', 'Gato', 'Elefante', 'Cachorro', 'Gato', 'Elefante'],
   'Cor': ['Preto', 'Branco', 'Cinza', 'Marrom', 'Preto', 'Marrom'],
   'Quantidade': [2, 3, 1, 4, 2, 2]
})
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


Aqui nós temos um DataFrame com dados referentes a alguns animais. Vamos utilizar o groupby para agrupar os dados pelo tipo de animal e realizarmos a soma da coluna "Quantidade" para conferirmos o total de cada tipo de animal:

In [4]:
df.groupby('Animal').sum(numeric_only=True)

Unnamed: 0_level_0,Quantidade
Animal,Unnamed: 1_level_1
Cachorro,6
Elefante,3
Gato,5


Podemos também usar o método groupby para agrupar os dados por múltiplas colunas. Por exemplo, vamos agrupar pelo tipo do animal e também pela cor e realizar a soma da coluna "Quantidade":

In [5]:
df.groupby(['Animal', 'Cor'])[['Quantidade']].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade
Animal,Cor,Unnamed: 2_level_1
Cachorro,Marrom,4
Cachorro,Preto,2
Elefante,Cinza,1
Elefante,Marrom,2
Gato,Branco,3
Gato,Preto,2


Assim, podemos observar que o groupby é um método muito útil para situações em que precisamos dividir os dados em grupos para analisar o comportamento desses grupos. Utilizando esse método, nós podemos responder perguntas específicas sobre nossos conjuntos de dados.

Caso queira aprender mais sobre esse método, deixo a sugestão de dois artigos:

- [Pandas GroupBy: Your Guide to Grouping Data in Python](https://realpython.com/pandas-groupby/)
- [Pandas’ groupby explained in detail](https://towardsdatascience.com/pandas-groupby-aggregate-transform-filter-c95ba3444bbb)

Ambos os artigos estão em inglês.

---

Quando trabalhamos com bases de dados, em alguns momentos, pode ser necessário fazermos alterações nos nomes das colunas.

In [16]:
df

Unnamed: 0,Animal,Cor,Quantidade
0,Cachorro,Preto,2
1,Gato,Branco,3
2,Elefante,Cinza,1
3,Cachorro,Marrom,4
4,Gato,Preto,2
5,Elefante,Marrom,2


In [24]:
df.Animal.unique()

array(['Cachorro', 'Gato', 'Elefante'], dtype=object)

In [25]:
df.Animal.value_counts()

Animal
Cachorro    2
Gato        2
Elefante    2
Name: count, dtype: int64

In [26]:
df.Animal.value_counts(normalize=True)

Animal
Cachorro    0.333333
Gato        0.333333
Elefante    0.333333
Name: proportion, dtype: float64

In [27]:
df.Animal.value_counts(normalize=True).to_frame()

Unnamed: 0_level_0,proportion
Animal,Unnamed: 1_level_1
Cachorro,0.333333
Gato,0.333333
Elefante,0.333333


Podemos notar que a coluna com os percentuais, ficou nomeada como "proportion". E se quiséssemos mudar o nome dela para "Percentuais"?

Nesse caso, nós podemos utilizar o método rename() para mudar o nome dessa coluna. Esse método nos permite especificar um dicionário que associa o nome antigo da coluna ao novo nome que queremos atribuir. Então, vamos fazer isso:

In [29]:
# salvando o dataframe em uma variável
df_exemplo = df['Animal'].value_counts(normalize=True).to_frame().sort_values('proportion')

# alterando o nome da coluna "proportion" para "Percentuais"
df_exemplo.rename(columns={'proportion': 'Percentuais'}, inplace=True)

# visualizando o dataframe
df_exemplo 

Unnamed: 0_level_0,Percentuais
Animal,Unnamed: 1_level_1
Cachorro,0.333333
Gato,0.333333
Elefante,0.333333


Nós utilizamos o parâmetro <inplace=True> para que essa alteração seja definitivamente aplicada no nosso DataFrame <df_exemplo>.