In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("wine_data.csv", index_col=0)

#### Group By

In [None]:
# replicando value_counts()
# contando a frequência de cada pontuação
df.groupby("points").points.count()

In [None]:
# preço mínimo de cada "classe de pontos"
df.groupby("points").price.min()

In [None]:
# apply normal depende do axis (1 ou 0, linha ou coluna)
# apply com groupby recebe sub dataframes

# agrupando por 'winery'
# cada grupo é composto de sub DataFrames
# para cada grupo, aplicar a função
# recebo o sub DataFrame e retorno o primeiro elemento da Series que representa os 'title's' (de cada grupo)
# 'winery' aqui é o índice dos valores ('title')
df.groupby("winery").apply(lambda sub_df: sub_df.title.iloc[0])

In [None]:
# melhor vinho por país e província

# agrupando por 2 colunas
# cada grupo são sub DataFrames
# em cada grupo eu aplico a função
# função recebe o sub DataFrame e retorna o mesmo filtrado pelo índice da linha que possui o valor máximo de pontos
# 'idxmax' é índice do valor máximo
# índice múltiplo!
df.groupby(["country", "province"]).apply(lambda sub_df: sub_df.loc[sub_df.points.idxmax()])

In [None]:
# usando o preço para calcular 3 medidas diferentes
df.groupby("country").price.agg([len, min, max])

#### Múltiplos índices

In [13]:
# Dependendo da operação executada com o group by, o resultado pode gerar múltiplos índices
# Múltiplos índices possuem níveis diferentes

# agrupando por 2 colunas
# selecionando a coluna description desse grupo e aplicando função de agregação
# o resultado será uma Serie com 2 índices, além da medida calculada
multi_index_df = df.groupby(["country", "province"]).description.agg([len])

In [None]:
# objeto MultiIndex
type(multi_index_df.index)

In [None]:
# transforma o índice múltiplo em colunas normais
# é o método mais últil para trabalhar com índices múltiplos ^^'
multi_index_df.reset_index()

#### Ordenação

In [None]:
new_df = multi_index_df.reset_index()
new_df.sort_values(by='len', ascending=False) # ASC é default

In [None]:
# ordenação por índice
new_df.sort_index()

In [21]:
# ordenação por várias colunas
new_df.sort_values(by=["country", "len"])

Unnamed: 0,country,province,len
1,Argentina,Other,536
0,Argentina,Mendoza Province,3264
2,Armenia,Armenia,2
6,Australia,Tasmania,42
4,Australia,New South Wales,85
...,...,...,...
421,Uruguay,Montevideo,11
422,Uruguay,Progreso,11
420,Uruguay,Juanico,12
424,Uruguay,Uruguay,24
