# **`groupby()`**

## **INTRODUÇÃO**

Neste notebook iremos discorrer sobre o objeto `GroupBy` do pandas, que aparece quando, por exemplo, usamos o método `groupby()` de um DataFrame.

Para tal, vamos usar o conjunto de dados das pétalas Iris.

In [1]:
from seaborn import load_dataset

df = load_dataset('iris')

df.sample(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
36,5.5,3.5,1.3,0.2,setosa
66,5.6,3.0,4.5,1.5,versicolor
24,4.8,3.4,1.9,0.2,setosa
123,6.3,2.7,4.9,1.8,virginica
86,6.7,3.1,4.7,1.5,versicolor


A ideia aqui é agrupar esse DataFrame em cada tipo de espécie: setosa, versicolor e virginica.

## **Método `groupby()`**

O objeto `DataFrame` possui um método chamado `groupby()`, que realiza o agrupamento de uma tabela a partir de um critério definido pelo usuário. Sua documentação contendo todos os parâmetros se encontra [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html). 

Dentre os parâmetros, destacamos:

* `by`: Pode ser uma função, uma string contendo o nome de uma coluna ou uma lista de nomes das colunas da tabela. É esse parâmetro que será usado como critério para o agrupamento.

Como queremos agrupar conforme a espécie, usaremos essa coluna como parâmetro do método.

In [6]:
objeto = df.groupby(by = 'species')

print(objeto, '\n')

print(type(objeto))

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc60192c5e0> 

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


Note que aparece um local na memória quando imprimimos `objeto`. Assim, para usarmos desse objeto, devemos conhecer seus métodos.

## **Objeto `GroupBy` e seus métodos**

A página contendo todos os atributos e métodos do objeto `GroupBy` está [neste link](https://pandas.pydata.org/docs/reference/groupby.html). Comecemos vendo alguns atributos.

In [7]:
objeto.groups

{'setosa': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49], 'versicolor': [50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99], 'virginica': [100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149]}

In [8]:
objeto.indices

{'setosa': array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
        34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]),
 'versicolor': array([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
        67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
        84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99]),
 'virginica': array([100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112,
        113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125,
        126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138,
        139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149])}

Já com relação aos métodos desse objeto, boa parte deles aplica a função em cada grupo formado, e retorna esses resultados como DataFrame. 

Por exemplo, vamos calcular a média do comprimento da pétala de cada espécie de planta com o método `mean()`.

In [11]:
objeto = df[['species','petal_length']].groupby(by = 'species')

objeto.mean()

Unnamed: 0_level_0,petal_length
species,Unnamed: 1_level_1
setosa,1.462
versicolor,4.26
virginica,5.552


Para transformar as espécies em coluna de volta, é só usar o método `reset_index` de um DataFrame.

In [12]:
objeto.mean().reset_index()

Unnamed: 0,species,petal_length
0,setosa,1.462
1,versicolor,4.26
2,virginica,5.552
