In [1]:
import pandas as pd
import numpy as np

In [2]:
drinks = pd.read_csv('drinks_consumo.csv')
d = pd.read_csv('drinks_consumo.csv')

In [3]:
drinks.head(5)

Unnamed: 0.1,Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
0,0,Afghanistan,0,0,0,0.0,34.660.000,Asia,low
1,1,Albania,89,132,54,4.9,2.876.000,Europe,middle
2,2,Algeria,25,0,14,0.7,40.061.000,Africa,low
3,3,Andorra,245,138,312,12.4,77.281.000,Europe,high
4,4,Angola,217,57,45,5.9,28.081.000,Africa,high


# Selection a Single Column of Data
- seleciona uma unica coluna como uma série

In [4]:
drinks['country']

0      Afghanistan
1          Albania
2          Algeria
3          Andorra
4           Angola
          ...     
188      Venezuela
189        Vietnam
190          Yemen
191         Zambia
192       Zimbabwe
Name: country, Length: 193, dtype: object

# Selection with dot notation
- outra forma 

In [5]:
drinks.country

0      Afghanistan
1          Albania
2          Algeria
3          Andorra
4           Angola
          ...     
188      Venezuela
189        Vietnam
190          Yemen
191         Zambia
192       Zimbabwe
Name: country, Length: 193, dtype: object

## Problema com dot notation 
- Quando houver espaço nos nomes da coluna( ex: df.favorite food is wrong this way
- Quando o nome da coluna é igual do métado do DataFrame 
- Quand o nome da coluna é uma variável 


## Nunca use o indexador ix (absoleto)

- O indexador ix foi criado nos primeiros dias do Pandas para selecionar linhas e colunas por rótulo e local inteiro. Isso acabou sendo bastante ambíguo, pois os nomes de linhas e colunas do Pandas podem ser números inteiros e seqüências de caracteres.


## Para fazer seleções explícitas, os indexadores iloc e loc foram disponibilizados
- loc seleciona apenas por label 
- iloc seleciona apenas por local inteiro

## Seleção com at e iat
- seleciona uma unica cedula do dataframe
- Eles fornecem uma ligeira vantagem de desempenho em relação aos indexadores análogos loc e iloc


# groupby aggregation

<b> - Grouping column </b>  Valores únicos formam grupos independentes

<b> - Aggregation column </b> Colunas cujos os valores vão ser agregados. Geralmente numéricos

<b> - Aggregation function </b> Como os valores serão agregados (soma,min,max,média etc)

### Sintaxes 
- há algumas sintaxes diferentes que o Pandas permite executar uma agregação por grupo. 
<b> Exemplo </b>

<i> df.groupby('grouping column').agg({'aggregating column': 'aggregating function'})</i>


In [6]:
drinks.head()

Unnamed: 0.1,Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
0,0,Afghanistan,0,0,0,0.0,34.660.000,Asia,low
1,1,Albania,89,132,54,4.9,2.876.000,Europe,middle
2,2,Algeria,25,0,14,0.7,40.061.000,Africa,low
3,3,Andorra,245,138,312,12.4,77.281.000,Europe,high
4,4,Angola,217,57,45,5.9,28.081.000,Africa,high


In [7]:
drinks.groupby('country').agg({'beer_servings':'max'}).head()

Unnamed: 0_level_0,beer_servings
country,Unnamed: 1_level_1
Afghanistan,0
Albania,89
Algeria,25
Andorra,245
Angola,217


# Sintaxe prefirida 

- Pode lidar com problemas de agrupamentos mais complexos 
- por exemplo se quisermos encontrar o máximo e o mínimo, juntamente com a média 

In [8]:
drinks.groupby('country').agg({'beer_servings':['min','max'],
                              'wine_servings': ['min','max'],
                              'total_litres_of_pure_alcohol':'mean'})

Unnamed: 0_level_0,beer_servings,beer_servings,wine_servings,wine_servings,total_litres_of_pure_alcohol
Unnamed: 0_level_1,min,max,min,max,mean
country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Afghanistan,0,0,0,0,0.0
Albania,89,89,54,54,4.9
Algeria,25,25,14,14,0.7
Andorra,245,245,312,312,12.4
Angola,217,217,45,45,5.9
...,...,...,...,...,...
Venezuela,333,333,3,3,7.7
Vietnam,111,111,1,1,2.0
Yemen,6,6,0,0,0.1
Zambia,32,32,4,4,2.5


# Guidance — Use

df.groupby('grouping column').agg({'aggregating column': 'aggregating function'}) as your primary syntax of choice

# Manipulando um MultIndex
- Um índice MultiIndex ou de vários níveis é uma adição complicada ao DataFrame do Pandas que ocasionalmente facilita a visualização dos dados, mas geralmente dificulta a manipulação. Você geralmente encontra um MultiIndex após uma chamada para o grupo ao usar várias colunas de agrupamento ou várias colunas de agregação.

In [9]:
agg_dict = {'beer_servings':['min','max'],
            'wine_servings': ['min','max'],
            'total_litres_of_pure_alcohol':'mean'}

drinks.groupby(['continent']).agg(agg_dict)

Unnamed: 0_level_0,beer_servings,beer_servings,wine_servings,wine_servings,total_litres_of_pure_alcohol
Unnamed: 0_level_1,min,max,min,max,mean
continent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Africa,0,376,0,233,3.007547
Asia,0,247,0,123,2.170455
Europe,0,361,0,370,8.617778
North America,1,285,1,100,5.995652
Oceania,0,306,0,212,3.38125
South America,93,333,1,221,6.308333


In [10]:
drinks

Unnamed: 0.1,Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
0,0,Afghanistan,0,0,0,0.0,34.660.000,Asia,low
1,1,Albania,89,132,54,4.9,2.876.000,Europe,middle
2,2,Algeria,25,0,14,0.7,40.061.000,Africa,low
3,3,Andorra,245,138,312,12.4,77.281.000,Europe,high
4,4,Angola,217,57,45,5.9,28.081.000,Africa,high
...,...,...,...,...,...,...,...,...,...
188,188,Venezuela,333,100,3,7.7,30.620.404,South America,high
189,189,Vietnam,111,2,1,2.0,93.448.000,Asia,middle
190,190,Yemen,6,0,0,0.1,27.058.000,Asia,low
191,191,Zambia,32,19,4,2.5,15.473.905,Africa,low


In [11]:
drinks.groupby(['country','continent']).agg({'total_litres_of_pure_alcohol':'mean'})

Unnamed: 0_level_0,Unnamed: 1_level_0,total_litres_of_pure_alcohol
country,continent,Unnamed: 2_level_1
Afghanistan,Asia,0.0
Albania,Europe,4.9
Algeria,Africa,0.7
Andorra,Europe,12.4
Angola,Africa,5.9
...,...,...
Venezuela,South America,7.7
Vietnam,Asia,2.0
Yemen,Asia,0.1
Zambia,Africa,2.5


### Vamos usar groupby para encontrar media de consumo por pais de vinho

In [12]:
drinks.groupby(['country''continent']).agg({'wine_servings':'mean'})

KeyError: 'countrycontinent'