In [2]:
import pandas as pd
import numpy as np
import re

tb_veic = pd.read_csv("data/dados_veiculos.csv")


Na aula de hoje vamos continuar utilizando a tabela `dados_veículos.csv`. Além de carregá-la vamos realizar uma limpeza dos nomes das colunas:

In [3]:
pattern = r"[^a-zA-Z0-9]"
tb_veic.columns = [re.sub(pattern, "_", column.lower()) for column in tb_veic.columns]


Vamos utilizar o método `.info()` para ver o resultado:

In [4]:
tb_veic.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35952 entries, 0 to 35951
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   make                     35952 non-null  object 
 1   model                    35952 non-null  object 
 2   year                     35952 non-null  int64  
 3   engine_displacement      35952 non-null  float64
 4   cylinders                35952 non-null  float64
 5   transmission             35952 non-null  object 
 6   drivetrain               35952 non-null  object 
 7   vehicle_class            35952 non-null  object 
 8   fuel_type                35952 non-null  object 
 9   fuel_barrels_year        35952 non-null  float64
 10  city_mpg                 35952 non-null  int64  
 11  highway_mpg              35952 non-null  int64  
 12  combined_mpg             35952 non-null  int64  
 13  co2_emission_grams_mile  35952 non-null  float64
 14  fuel_cost_year        

# Data Manipulation - Group By

- `.groupby()` é uma forma de **agregar** todos os resultados para cada chave única
- Sempre que você faz uma **agregação**, o resultado final terá 1 linha para cada valor pelo qual você agregou, portanto, é obrigatório que se aplique uma função agregadora para que todos os valores sejam sumarizados em um único valor associado àquela chave.

Por exemplo, se tivermos:

Fruta | Quantidade
-----|----:
Laranja | 10
Maçã | 10
Abacate | 2
Abacate | 1
Melancia  | 1
Laranja  | 4

O resultado de um `.groupby` por 'Fruta' resultaria em 4 linhas

Fruta | Função Agregadora
----|-----
Laranja | ?
Maçã | ?
Abacate | ?
Melancia | ?

O `?` representa o valor agregado. Temos, obrigatoriamente, que sumarizar os dados relacionados àquele registro em um único dado. Para isso, podemos fazer a média, soma, contagem, ou qualquer outra função agregadora.

Fruta | soma(Quantidade)
----|----:
Laranja | 14
Maçã | 10
Abacate | 3
Melancia | 1

**Funções agregadora/Métodos**

- `.mean()`
- `.median()`
- `.max()`
- `.min()`
- `.sum()`
- `.count()`
- `.describe()`
- `.agg()`
- Uma função sua!

## Chave Única e Função Única

Vamos começar com o tipo mais simples de agregação: utilizando apenas uma coluna como **chave** e uma função como **agregação**. Vamos começar analisando a média de nossas variáveis numéricas, utilizando como chave a coluna `drivetrain` (*transmissão*).

Para isso utilizaremos o método `.groupby()` - um método dos DataFrames. Para utilizarmos este método, vamos analisar sua sintaxe:

* `tb_veic` - tabela que vamos agregar
* `.groupby(by = 'drivetrain')` - método para criar os grupos de **chaves**, especificada no argumento `by`
* `.mean()` - método para agregar as variáveis restantes (que não compõe a chave), neste caso através da média.

Juntando tudo temos:

In [5]:
tb_veic.head()

Unnamed: 0,make,model,year,engine_displacement,cylinders,transmission,drivetrain,vehicle_class,fuel_type,fuel_barrels_year,city_mpg,highway_mpg,combined_mpg,co2_emission_grams_mile,fuel_cost_year
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550


In [6]:
tb_veic['drivetrain'].value_counts()

Front-Wheel Drive             13044
Rear-Wheel Drive              12726
4-Wheel or All-Wheel Drive     6503
All-Wheel Drive                2039
4-Wheel Drive                  1058
2-Wheel Drive                   423
Part-time 4-Wheel Drive         158
2-Wheel Drive, Front              1
Name: drivetrain, dtype: int64

In [16]:
tb_veic.head()

Unnamed: 0,make,model,year,engine_displacement,cylinders,transmission,drivetrain,vehicle_class,fuel_type,fuel_barrels_year,city_mpg,highway_mpg,combined_mpg,co2_emission_grams_mile,fuel_cost_year
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550


In [7]:
tb_veic.groupby(by="drivetrain").mean()


Unnamed: 0_level_0,year,engine_displacement,cylinders,fuel_barrels_year,city_mpg,highway_mpg,combined_mpg,co2_emission_grams_mile,fuel_cost_year
drivetrain,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2-Wheel Drive,1984.434988,3.958392,6.156028,21.069467,15.624113,19.340426,17.009456,567.245856,2115.01182
"2-Wheel Drive, Front",2017.0,2.0,4.0,11.771786,25.0,33.0,28.0,315.0,1450.0
4-Wheel Drive,2013.137996,4.022306,6.364839,17.942952,16.913989,22.741966,19.077505,483.555289,1971.644612
4-Wheel or All-Wheel Drive,1998.014916,3.746917,6.143626,20.48472,15.035061,19.633708,16.744733,552.307814,2165.023835
All-Wheel Drive,2013.678274,3.299019,5.980383,16.349672,18.312898,25.597352,20.930358,439.612624,1863.217263
Front-Wheel Drive,2000.290632,2.353657,4.608172,14.266654,21.174563,28.616759,23.91222,385.094288,1503.131708
Part-time 4-Wheel Drive,2013.816456,4.543671,7.113924,20.628218,14.620253,19.088608,16.272152,556.205134,2131.64557
Rear-Wheel Drive,1999.801037,4.053245,6.643486,19.587486,15.422049,21.22568,17.526481,529.438424,2140.397611


Vamos testar a mesma **chave** mas utilizando o método de **agregação** `.count()`, que calcula o # de linhas com valores não-nulos.

In [8]:
tb_veic.groupby(by="drivetrain").count()


Unnamed: 0_level_0,make,model,year,engine_displacement,cylinders,transmission,vehicle_class,fuel_type,fuel_barrels_year,city_mpg,highway_mpg,combined_mpg,co2_emission_grams_mile,fuel_cost_year
drivetrain,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2-Wheel Drive,423,423,423,423,423,423,423,423,423,423,423,423,423,423
"2-Wheel Drive, Front",1,1,1,1,1,1,1,1,1,1,1,1,1,1
4-Wheel Drive,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058
4-Wheel or All-Wheel Drive,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503
All-Wheel Drive,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039
Front-Wheel Drive,13044,13044,13044,13044,13044,13044,13044,13044,13044,13044,13044,13044,13044,13044
Part-time 4-Wheel Drive,158,158,158,158,158,158,158,158,158,158,158,158,158,158
Rear-Wheel Drive,12726,12726,12726,12726,12726,12726,12726,12726,12726,12726,12726,12726,12726,12726


In [9]:
tb_veic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35952 entries, 0 to 35951
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   make                     35952 non-null  object 
 1   model                    35952 non-null  object 
 2   year                     35952 non-null  int64  
 3   engine_displacement      35952 non-null  float64
 4   cylinders                35952 non-null  float64
 5   transmission             35952 non-null  object 
 6   drivetrain               35952 non-null  object 
 7   vehicle_class            35952 non-null  object 
 8   fuel_type                35952 non-null  object 
 9   fuel_barrels_year        35952 non-null  float64
 10  city_mpg                 35952 non-null  int64  
 11  highway_mpg              35952 non-null  int64  
 12  combined_mpg             35952 non-null  int64  
 13  co2_emission_grams_mile  35952 non-null  float64
 14  fuel_cost_year        

Podemos guardar o resultado de uma agregação em uma variável: o resultado (após aplicação da função de agregação) é um `DataFrame` onde os índices (*nome das linhas*) são os valores da chave e cada coluna é o resultado da aplicação da função de agregação.

In [10]:
tb_agg_drivetrain = tb_veic.groupby(by="drivetrain").count()
type(tb_agg_drivetrain)


pandas.core.frame.DataFrame

In [11]:
tb_agg_drivetrain.head()


Unnamed: 0_level_0,make,model,year,engine_displacement,cylinders,transmission,vehicle_class,fuel_type,fuel_barrels_year,city_mpg,highway_mpg,combined_mpg,co2_emission_grams_mile,fuel_cost_year
drivetrain,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2-Wheel Drive,423,423,423,423,423,423,423,423,423,423,423,423,423,423
"2-Wheel Drive, Front",1,1,1,1,1,1,1,1,1,1,1,1,1,1
4-Wheel Drive,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058,1058
4-Wheel or All-Wheel Drive,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503,6503
All-Wheel Drive,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039,2039


In [12]:
tb_agg_drivetrain.index

Index(['2-Wheel Drive', '2-Wheel Drive, Front', '4-Wheel Drive',
       '4-Wheel or All-Wheel Drive', 'All-Wheel Drive', 'Front-Wheel Drive',
       'Part-time 4-Wheel Drive', 'Rear-Wheel Drive'],
      dtype='object', name='drivetrain')

In [15]:
tb_agg_drivetrain.loc["4-Wheel or All-Wheel Drive", :]


make                       6503
model                      6503
year                       6503
engine_displacement        6503
cylinders                  6503
transmission               6503
vehicle_class              6503
fuel_type                  6503
fuel_barrels_year          6503
city_mpg                   6503
highway_mpg                6503
combined_mpg               6503
co2_emission_grams_mile    6503
fuel_cost_year             6503
Name: 4-Wheel or All-Wheel Drive, dtype: int64

### Agregando apenas uma variável

No exemplo acima, ao utilizarmos os métodos `.mean()` e `.median()` recebemos de volta uma agregação de todas as variáveis numéricas (no caso, todas as variáveis para as quais estes métodos funcionam).

No entanto, muitas vezes queremos agregar apenas uma (ou algumas) variáveis. Vamos ver como fazer isso de uma maneira simples, calculando o número de ciclindros médio por tipo de tração:

In [27]:
tb_veic.groupby(by="drivetrain")["cylinders"].mean()


drivetrain
2-Wheel Drive                 6.156028
2-Wheel Drive, Front          4.000000
4-Wheel Drive                 6.364839
4-Wheel or All-Wheel Drive    6.143626
All-Wheel Drive               5.980383
Front-Wheel Drive             4.608172
Part-time 4-Wheel Drive       7.113924
Rear-Wheel Drive              6.643486
Name: cylinders, dtype: float64

Um método muito utilizado após a agregação é o `.reset_index()` que transforma o índice da chave de volta em coluna:

In [24]:
tb_veic.groupby(by="drivetrain")["cylinders"].mean().reset_index()


Unnamed: 0,drivetrain,cylinders
0,2-Wheel Drive,6.156028
1,"2-Wheel Drive, Front",4.0
2,4-Wheel Drive,6.364839
3,4-Wheel or All-Wheel Drive,6.143626
4,All-Wheel Drive,5.980383
5,Front-Wheel Drive,4.608172
6,Part-time 4-Wheel Drive,7.113924
7,Rear-Wheel Drive,6.643486


Podemos utilizar um iterável no lugar do string `"cylinders"` para calcular a média de múltiplas variáveis:

In [29]:
lista_vars = ["cylinders", "city_mpg"]
tb_veic.groupby(by="drivetrain")[lista_vars].mean().reset_index()


Unnamed: 0,drivetrain,cylinders,city_mpg
0,2-Wheel Drive,6.156028,15.624113
1,"2-Wheel Drive, Front",4.0,25.0
2,4-Wheel Drive,6.364839,16.913989
3,4-Wheel or All-Wheel Drive,6.143626,15.035061
4,All-Wheel Drive,5.980383,18.312898
5,Front-Wheel Drive,4.608172,21.174563
6,Part-time 4-Wheel Drive,7.113924,14.620253
7,Rear-Wheel Drive,6.643486,15.422049


In [26]:
tb_veic.groupby(by="drivetrain")[["cylinders", "city_mpg"]].mean().reset_index()

Unnamed: 0,drivetrain,cylinders,city_mpg
0,2-Wheel Drive,6.156028,15.624113
1,"2-Wheel Drive, Front",4.0,25.0
2,4-Wheel Drive,6.364839,16.913989
3,4-Wheel or All-Wheel Drive,6.143626,15.035061
4,All-Wheel Drive,5.980383,18.312898
5,Front-Wheel Drive,4.608172,21.174563
6,Part-time 4-Wheel Drive,7.113924,14.620253
7,Rear-Wheel Drive,6.643486,15.422049


## Chave Múltipla e Função Única

As chaves especificadas no *argumento* `by = ` do método `.groupby()` não precisa ser um `string`! Podemos utilizar um iterável para criar uma chave combinada. Por exemplo, queremos analisar a média das variáveis `city_mpg` (eficiência urbana do automóvel) e `highway_mpg` (eficiência na estrada) para as diferentes combinações de tração, `drivetrain`, e # de cilíndros, `cylinders`:

In [30]:
lista_vars = ["city_mpg", "highway_mpg"]
tb_veic.groupby(by=["drivetrain", "cylinders"])[lista_vars].mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,city_mpg,highway_mpg
drivetrain,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1
2-Wheel Drive,4.0,20.4375,24.710938
2-Wheel Drive,6.0,14.291045,18.126866
2-Wheel Drive,8.0,12.906832,16.080745
"2-Wheel Drive, Front",4.0,25.0,33.0
4-Wheel Drive,4.0,21.252475,26.856436
4-Wheel Drive,5.0,15.909091,21.0
4-Wheel Drive,6.0,17.439535,23.753488
4-Wheel Drive,8.0,14.248139,19.719603
4-Wheel Drive,12.0,11.0,13.0
4-Wheel or All-Wheel Drive,3.0,25.545455,29.363636


O resultado é um DataFrame com um `MultIndex`: um índice com mais de um *nível*. Para cada tipo de transmissão temos todos os # de ciclindros daquela transmissão (`4`, `6` e `8` para `2-Wheel Drive` por exemplo). Para acessar diferentes linhas através de nossa chave, utilizaremos um índice em tupla:

In [31]:
tb_agg_cyldt = tb_veic.groupby(by=["drivetrain", "cylinders"])[lista_vars].mean()
tb_agg_cyldt.index

MultiIndex([(             '2-Wheel Drive',  4.0),
            (             '2-Wheel Drive',  6.0),
            (             '2-Wheel Drive',  8.0),
            (      '2-Wheel Drive, Front',  4.0),
            (             '4-Wheel Drive',  4.0),
            (             '4-Wheel Drive',  5.0),
            (             '4-Wheel Drive',  6.0),
            (             '4-Wheel Drive',  8.0),
            (             '4-Wheel Drive', 12.0),
            ('4-Wheel or All-Wheel Drive',  3.0),
            ('4-Wheel or All-Wheel Drive',  4.0),
            ('4-Wheel or All-Wheel Drive',  5.0),
            ('4-Wheel or All-Wheel Drive',  6.0),
            ('4-Wheel or All-Wheel Drive',  8.0),
            ('4-Wheel or All-Wheel Drive', 10.0),
            ('4-Wheel or All-Wheel Drive', 12.0),
            ('4-Wheel or All-Wheel Drive', 16.0),
            (           'All-Wheel Drive',  3.0),
            (           'All-Wheel Drive',  4.0),
            (           'All-Wheel Drive',  5.0),


In [32]:
tb_agg_cyldt.loc[("2-Wheel Drive", 4), :]

city_mpg       20.437500
highway_mpg    24.710938
Name: (2-Wheel Drive, 4.0), dtype: float64

Podemos utilizar o método `.reset_index()` para construir uma tabela *normal* a partir disto:

In [34]:
tb_agg_cyldt = (
    tb_veic.groupby(by=["drivetrain", "cylinders"])[lista_vars].median().reset_index()
)
tb_agg_cyldt.head(10)


Unnamed: 0,drivetrain,cylinders,city_mpg,highway_mpg
0,2-Wheel Drive,4.0,20.0,25.0
1,2-Wheel Drive,6.0,14.0,17.0
2,2-Wheel Drive,8.0,12.0,15.0
3,"2-Wheel Drive, Front",4.0,25.0,33.0
4,4-Wheel Drive,4.0,21.0,27.0
5,4-Wheel Drive,5.0,16.0,21.0
6,4-Wheel Drive,6.0,18.0,24.0
7,4-Wheel Drive,8.0,14.0,19.0
8,4-Wheel Drive,12.0,11.0,13.0
9,4-Wheel or All-Wheel Drive,3.0,25.0,29.0


## Chave Múltipla e Múltiplas Funções

Além de incluirmos mais que uma variável como chave de nosso agrupamento, podemos utilizar mais que uma função de agregação ao mesmo tempo. Por exemplo, vamos calcular a média e a mediana para a variável `city_mpg`. Para isso utilizaremos o método `.agg()` no lugar da nossa função de agregação. Vamos passar um iterável com o **nome** de cada função de agregação que utilizaremos:

In [36]:
tb_veic.groupby(by=["drivetrain", "cylinders"])["city_mpg"].median()

drivetrain                  cylinders
2-Wheel Drive               4.0          20.0
                            6.0          14.0
                            8.0          12.0
2-Wheel Drive, Front        4.0          25.0
4-Wheel Drive               4.0          21.0
                            5.0          16.0
                            6.0          18.0
                            8.0          14.0
                            12.0         11.0
4-Wheel or All-Wheel Drive  3.0          25.0
                            4.0          18.0
                            5.0          16.0
                            6.0          15.0
                            8.0          12.0
                            10.0         11.0
                            12.0          9.0
                            16.0          8.0
All-Wheel Drive             3.0          28.0
                            4.0          22.0
                            5.0          20.0
                            6.0          1

In [39]:
tb_agg_musig_cyldt = tb_veic\
    .groupby(by=["drivetrain", "cylinders"])["city_mpg"]\
    .agg(["mean", "median"])

tb_agg_musig_cyldt

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median
drivetrain,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1
2-Wheel Drive,4.0,20.4375,20.0
2-Wheel Drive,6.0,14.291045,14.0
2-Wheel Drive,8.0,12.906832,12.0
"2-Wheel Drive, Front",4.0,25.0,25.0
4-Wheel Drive,4.0,21.252475,21.0
4-Wheel Drive,5.0,15.909091,16.0
4-Wheel Drive,6.0,17.439535,18.0
4-Wheel Drive,8.0,14.248139,14.0
4-Wheel Drive,12.0,11.0,11.0
4-Wheel or All-Wheel Drive,3.0,25.545455,25.0


Vamos utilizar o método `.reset_index()` para colapsar os `MultIndex` de nossa tabela:

In [45]:
tb_agg_cyldt = tb_veic\
    .groupby(by=["drivetrain", "cylinders"])["city_mpg"]\
    .agg(["mean", "median"])\
    .reset_index()
    
tb_agg_cyldt.head(10)

Unnamed: 0,drivetrain,cylinders,mean,median
0,2-Wheel Drive,4.0,20.4375,20.0
1,2-Wheel Drive,6.0,14.291045,14.0
2,2-Wheel Drive,8.0,12.906832,12.0
3,"2-Wheel Drive, Front",4.0,25.0,25.0
4,4-Wheel Drive,4.0,21.252475,21.0
5,4-Wheel Drive,5.0,15.909091,16.0
6,4-Wheel Drive,6.0,17.439535,18.0
7,4-Wheel Drive,8.0,14.248139,14.0
8,4-Wheel Drive,12.0,11.0,11.0
9,4-Wheel or All-Wheel Drive,3.0,25.545455,25.0


In [46]:
tb_agg_cyldt = tb_veic.groupby(by=["drivetrain", "cylinders"])["city_mpg"]

tb_bla = tb_agg_cyldt.agg(["mean", "median"])

tb_bla_sem_indice = tb_bla.reset_index()

Podemos calcular múltiplas agregações de múltiplas chaves mas devemos tomar cuidado com o **nome das colunas**: ele será um `MultIndex`!

In [48]:
lista_vars

['city_mpg', 'highway_mpg']

In [55]:
tb_agg_cyldt = tb_veic.groupby(by=["drivetrain", "cylinders"])[lista_vars].agg(
    ["mean", "median"]
)
tb_agg_cyldt.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,city_mpg,city_mpg,highway_mpg,highway_mpg
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,mean,median
drivetrain,cylinders,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2-Wheel Drive,4.0,20.4375,20.0,24.710938,25.0
2-Wheel Drive,6.0,14.291045,14.0,18.126866,17.0
2-Wheel Drive,8.0,12.906832,12.0,16.080745,15.0
"2-Wheel Drive, Front",4.0,25.0,25.0,33.0,33.0
4-Wheel Drive,4.0,21.252475,21.0,26.856436,27.0
4-Wheel Drive,5.0,15.909091,16.0,21.0,21.0
4-Wheel Drive,6.0,17.439535,18.0,23.753488,24.0
4-Wheel Drive,8.0,14.248139,14.0,19.719603,19.0
4-Wheel Drive,12.0,11.0,11.0,13.0,13.0
4-Wheel or All-Wheel Drive,3.0,25.545455,25.0,29.363636,29.0


In [56]:
tb_agg_cyldt.columns

MultiIndex([(   'city_mpg',   'mean'),
            (   'city_mpg', 'median'),
            ('highway_mpg',   'mean'),
            ('highway_mpg', 'median')],
           )

In [57]:
tb_agg_cyldt.index

MultiIndex([(             '2-Wheel Drive',  4.0),
            (             '2-Wheel Drive',  6.0),
            (             '2-Wheel Drive',  8.0),
            (      '2-Wheel Drive, Front',  4.0),
            (             '4-Wheel Drive',  4.0),
            (             '4-Wheel Drive',  5.0),
            (             '4-Wheel Drive',  6.0),
            (             '4-Wheel Drive',  8.0),
            (             '4-Wheel Drive', 12.0),
            ('4-Wheel or All-Wheel Drive',  3.0),
            ('4-Wheel or All-Wheel Drive',  4.0),
            ('4-Wheel or All-Wheel Drive',  5.0),
            ('4-Wheel or All-Wheel Drive',  6.0),
            ('4-Wheel or All-Wheel Drive',  8.0),
            ('4-Wheel or All-Wheel Drive', 10.0),
            ('4-Wheel or All-Wheel Drive', 12.0),
            ('4-Wheel or All-Wheel Drive', 16.0),
            (           'All-Wheel Drive',  3.0),
            (           'All-Wheel Drive',  4.0),
            (           'All-Wheel Drive',  5.0),


Se utilizarmos o método `.reset_index()` teremos nossas chaves como colunas, mas o nome das colunas agregadas continuará sendo um `MultIndex`:

In [58]:
tb_agg_cyldt = tb_veic.groupby(by=["drivetrain", "cylinders"])[lista_vars].agg(
    ["mean", "median"]
).reset_index()
tb_agg_cyldt.head(10)

Unnamed: 0_level_0,drivetrain,cylinders,city_mpg,city_mpg,highway_mpg,highway_mpg
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,median,mean,median
0,2-Wheel Drive,4.0,20.4375,20.0,24.710938,25.0
1,2-Wheel Drive,6.0,14.291045,14.0,18.126866,17.0
2,2-Wheel Drive,8.0,12.906832,12.0,16.080745,15.0
3,"2-Wheel Drive, Front",4.0,25.0,25.0,33.0,33.0
4,4-Wheel Drive,4.0,21.252475,21.0,26.856436,27.0
5,4-Wheel Drive,5.0,15.909091,16.0,21.0,21.0
6,4-Wheel Drive,6.0,17.439535,18.0,23.753488,24.0
7,4-Wheel Drive,8.0,14.248139,14.0,19.719603,19.0
8,4-Wheel Drive,12.0,11.0,11.0,13.0,13.0
9,4-Wheel or All-Wheel Drive,3.0,25.545455,25.0,29.363636,29.0


In [59]:
tb_agg_cyldt.columns

MultiIndex([( 'drivetrain',       ''),
            (  'cylinders',       ''),
            (   'city_mpg',   'mean'),
            (   'city_mpg', 'median'),
            ('highway_mpg',   'mean'),
            ('highway_mpg', 'median')],
           )

In [61]:
tb_agg_cyldt

Unnamed: 0_level_0,drivetrain,cylinders,city_mpg,city_mpg,highway_mpg,highway_mpg
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,median,mean,median
0,2-Wheel Drive,4.0,20.4375,20.0,24.710938,25.0
1,2-Wheel Drive,6.0,14.291045,14.0,18.126866,17.0
2,2-Wheel Drive,8.0,12.906832,12.0,16.080745,15.0
3,"2-Wheel Drive, Front",4.0,25.0,25.0,33.0,33.0
4,4-Wheel Drive,4.0,21.252475,21.0,26.856436,27.0
5,4-Wheel Drive,5.0,15.909091,16.0,21.0,21.0
6,4-Wheel Drive,6.0,17.439535,18.0,23.753488,24.0
7,4-Wheel Drive,8.0,14.248139,14.0,19.719603,19.0
8,4-Wheel Drive,12.0,11.0,11.0,13.0,13.0
9,4-Wheel or All-Wheel Drive,3.0,25.545455,25.0,29.363636,29.0


### Agregação Nomeada

A situação apresentada acima não é ideal por dois motivos:

1. Muitas vezes queremos especificar colunas específicas para cada agregação (por exemplo, a **média** de `city_mpg` e o máximo de `year`);
1. Além disso seria bom conseguir nomear explicitamente as variáveis criadas (por exemplo, `mean_city_mpg` e `max_year`).

Para resolver esses dois problemas podemos utilizar uma outra maneira de agregação: a agregação nomeada. Ao invés de passar um iterável com o nome das funções que queremos aplicar, vamos utilizar a função `pd.NamedAgg()` para construir cada coluna:

In [63]:
tb_veic.groupby(by=["drivetrain", "cylinders"]).agg(
    mean_city_mpg = pd.NamedAgg(column="city_mpg", aggfunc="mean"),
    max_year = pd.NamedAgg(column="year", aggfunc="max")
).reset_index()


Unnamed: 0,drivetrain,cylinders,mean_city_mpg,max_year
0,2-Wheel Drive,4.0,20.4375,1999
1,2-Wheel Drive,6.0,14.291045,2006
2,2-Wheel Drive,8.0,12.906832,2006
3,"2-Wheel Drive, Front",4.0,25.0,2017
4,4-Wheel Drive,4.0,21.252475,2017
5,4-Wheel Drive,5.0,15.909091,2012
6,4-Wheel Drive,6.0,17.439535,2017
7,4-Wheel Drive,8.0,14.248139,2017
8,4-Wheel Drive,12.0,11.0,2016
9,4-Wheel or All-Wheel Drive,3.0,25.545455,1994


Agora vamos utilizar os conceitos acima para tornar nossa análise da eficiência de automóveis mais robusta: vamos incluir, além da média de `city_mpg` e `highway_mpg`, o # de observações em cada grupo (utilizando a `aggfunc = "count"`) e o desvio padrão das duas variáveis de eficiência (utilizando `aggfunc = "std"`):

In [66]:
tb_agg_veic = (
    tb_veic.groupby(by=["drivetrain", "cylinders"])
    .agg(
        contagem=pd.NamedAgg(column="year", aggfunc="count"),
        avg_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="mean"),
        std_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="std"),
        avg_highway_mpg=pd.NamedAgg(column="highway_mpg", aggfunc="mean"),
        std_highway_mpg=pd.NamedAgg(column="highway_mpg", aggfunc="std")
    )
    .reset_index()
)

In [71]:
mascara_robusta = tb_agg_veic['contagem'] > 100

In [72]:
tb_agg_veic[mascara_robusta]

Unnamed: 0,drivetrain,cylinders,contagem,avg_city_mpg,std_city_mpg,avg_highway_mpg,std_highway_mpg
0,2-Wheel Drive,4.0,128,20.4375,3.266991,24.710938,4.095614
1,2-Wheel Drive,6.0,134,14.291045,1.520905,18.126866,2.959429
2,2-Wheel Drive,8.0,161,12.906832,2.744998,16.080745,3.804562
4,4-Wheel Drive,4.0,202,21.252475,2.748246,26.856436,3.284849
6,4-Wheel Drive,6.0,430,17.439535,1.904435,23.753488,3.076291
7,4-Wheel Drive,8.0,403,14.248139,2.057135,19.719603,2.485438
10,4-Wheel or All-Wheel Drive,4.0,1602,18.540574,2.213448,23.089263,2.778322
11,4-Wheel or All-Wheel Drive,5.0,169,16.04142,1.082078,22.337278,2.115385
12,4-Wheel or All-Wheel Drive,6.0,2691,14.896693,1.491398,19.77369,2.743507
13,4-Wheel or All-Wheel Drive,8.0,1947,12.40113,1.689657,16.468927,2.472549


In [73]:
tb_agg_veic.describe()

Unnamed: 0,cylinders,contagem,avg_city_mpg,std_city_mpg,avg_highway_mpg,std_highway_mpg
count,42.0,42.0,42.0,40.0,42.0,40.0
mean,6.928571,856.0,16.853792,1.836727,22.527794,2.469866
std,3.522699,1769.468806,6.009994,1.322646,6.231891,1.324696
min,2.0,1.0,8.0,0.0,13.0,0.0
25%,4.0,24.0,12.833091,1.051135,17.781716,1.54037
50%,6.0,131.0,16.028523,1.530273,22.014266,2.478993
75%,8.0,440.0,18.916577,2.268954,25.201661,3.306032
max,16.0,8787.0,34.760479,6.280669,41.371257,6.332638


In [None]:
tb_agg_veic_robusto = tb_agg_veic[tb_agg_veic['contagem'] > 100]

In [None]:
tb_agg_veic_robusto

# Data Manipulation - Joins

* Como unir DataFrames através de **CHAVES**
* [Fruits Example](https://docs.google.com/spreadsheets/d/1foV1THfhVc5WduBTMjpxmthAD1BDHS9FUpH-WgGDH5E/edit?usp=sharing)

Um join pode ser classificado ao longo de dois eixos:

1. **Direção**: Esquerda, direita ou interno (left, right e inner);
2. **Cardinalidade**: Um para um, um para muitos, muitos para muitos (1:1, 1:N, M:N).

https://towardsdatascience.com/can-we-stop-with-the-sql-joins-venn-diagrams-insanity-16791d9250c3

## Tipos de Join

Vamos analisar cada tipo de join através de sua cardinalidade

### Um para Um (1:1)

Um join um pra um ocorre quando a **relação entre as chaves** é 1:1, ou seja, para cada chave particular na tabela A teremos apenas uma chave equivalente na tabela B.

Esse é o tipo *desejado* **mais comum de join**, e serve para cruzarmos tabelas onde cada linha representa o **o mesmo tipo de observação** (em termos técnicos, tabelas com a mesma chave única). Por exemplo, se temos uma tabela de informações geográficas por município e outra de informações demográficas podemos utilizar um join 1:1 (usando o município) para termos uma tabela de informações demográficas e geográficas.

In [79]:
nome_frutas = ["Uva", "Abacate", "Melancia", "Atemoia", "Laranja"]
producao_frutas = [10, 1, 1, 3, 4]
tb_prod_frutas = pd.DataFrame(
    {"nome_fruta": nome_frutas, "producao_kg": producao_frutas}
)
tb_prod_frutas


Unnamed: 0,nome_fruta,producao_kg
0,uva,10
1,Abacate,1
2,Melancia,1
3,Atemoia,3
4,Laranja,4


In [80]:
fruta = ["Uva", "Abacate", "Melancia", "Carambola"]
cidade = ["Campinas", "Campinas", "Atibaia", "Rio de Janeiro"]
tb_pomar_cidade = pd.DataFrame({"nome_fruta": fruta, "cidade": cidade})
tb_pomar_cidade


Unnamed: 0,nome_fruta,cidade
0,Uva,Campinas
1,Abacate,Campinas
2,Melancia,Atibaia
3,Carambola,Rio de Janeiro


#### Inner Join (o que é comum às duas tabelas)

In [81]:
pd.merge(tb_prod_frutas, tb_pomar_cidade, on="nome_fruta", how="inner")


Unnamed: 0,nome_fruta,producao_kg,cidade
0,Abacate,1,Campinas
1,Melancia,1,Atibaia


#### Left Join (tudo o que está na tabela a esquerda)

In [77]:
pd.merge(tb_prod_frutas, tb_pomar_cidade, on="nome_fruta", how="left")


Unnamed: 0,nome_fruta,producao_kg,cidade
0,Uva,10,Campinas
1,Abacate,1,Campinas
2,Melancia,1,Atibaia
3,Atemoia,3,
4,Laranja,4,


#### Right Join (tudo o que está na tabela a direita)

In [78]:
pd.merge(tb_prod_frutas, tb_pomar_cidade, on="nome_fruta", how="right")


Unnamed: 0,nome_fruta,producao_kg,cidade
0,Uva,10.0,Campinas
1,Abacate,1.0,Campinas
2,Melancia,1.0,Atibaia
3,Carambola,,Rio de Janeiro


#### Chaves com nomes distintos

Embora seja considerado boa prática que todas as colunas de chave tenham nomes uniformes, muitas vezes vamos nos deparar com situações onde queremos unir duas tabelas através de um chave que está em colunas com nomes diferentes. 

Para tratar isso utilizaremos os argumentos `left_on =` e `right_on =`:

In [82]:
nome_frutas = ["Uva", "Abacate", "Melancia", "Atemoia", "Laranja"]
producao_frutas = [10, 1, 1, 3, 4]
tb_prod_frutas = pd.DataFrame(
    {"nome_fruta": nome_frutas, "producao_kg": producao_frutas}
)
tb_prod_frutas


Unnamed: 0,nome_fruta,producao_kg
0,Uva,10
1,Abacate,1
2,Melancia,1
3,Atemoia,3
4,Laranja,4


In [83]:
fruta = ["Uva", "Abacate", "Melancia", "Carambola"]
cidade = ["Campinas", "Campinas", "Atibaia", "Rio de Janeiro"]
tb_pomar_cidade = pd.DataFrame({"nome_pomar_fruta": fruta, "cidade": cidade})
tb_pomar_cidade


Unnamed: 0,nome_pomar_fruta,cidade
0,Uva,Campinas
1,Abacate,Campinas
2,Melancia,Atibaia
3,Carambola,Rio de Janeiro


In [84]:
pd.merge(
    tb_prod_frutas, tb_pomar_cidade, left_on="nome_fruta", right_on="nome_pomar_fruta"
)


Unnamed: 0,nome_fruta,producao_kg,nome_pomar_fruta,cidade
0,Uva,10,Uva,Campinas
1,Abacate,1,Abacate,Campinas
2,Melancia,1,Melancia,Atibaia


### Um para N (1:N)

A relação 1:N é *quase* tão comum quanto a relação 1:1 e, em geral, surge quando queremos unir uma tabela com uma chave que é **parte** da chave da segunda tabela. Por exemplo, se nossa tabela de informações demográficas do exemplo anterior utilize a chave Município-Mês, o join com a tabela geográfica (chave Município) será 1:N.

Uma situação prática é quando temos informações de clientes que queremos cruzar com informações de pedidos: todo pedido tem apenas um cliente, cada cliente tem múltiplos pedidos.

In [85]:
nome_frutas = ["Uva", "Abacate", "Melancia", "Atemoia", "Laranja"]
preco_frutas = [10, 5, 3, 30, 2]
tb_prod_frutas = pd.DataFrame(
    {"nome_fruta": nome_frutas, "preco_kg": preco_frutas}
)
tb_prod_frutas

Unnamed: 0,nome_fruta,preco_kg
0,Uva,10
1,Abacate,5
2,Melancia,3
3,Atemoia,30
4,Laranja,2


In [86]:
fruta = ["Uva", "Abacate", "Melancia", "Uva", "Carambola"]
cidade = ["Campinas", "Campinas", "Atibaia", "Atibaia", "Rio de Janeiro"]
qtd_prod = [1000, 5000, 2500, 300, 150]
tb_pomar_cidade = pd.DataFrame({"nome_fruta": fruta, "cidade": cidade, "qtd_produzida" : qtd_prod})
tb_pomar_cidade


Unnamed: 0,nome_fruta,cidade,qtd_produzida
0,Uva,Campinas,1000
1,Abacate,Campinas,5000
2,Melancia,Atibaia,2500
3,Uva,Atibaia,300
4,Carambola,Rio de Janeiro,150


In [95]:
pd.merge(tb_pomar_cidade, tb_prod_frutas, on="nome_fruta", how = "inner")


Unnamed: 0,nome_fruta,cidade,qtd_produzida,preco_kg
0,Uva,Campinas,1000,10
1,Uva,Atibaia,300,10
2,Abacate,Campinas,5000,5
3,Melancia,Atibaia,2500,3


### M para N (M:N)

Os joins N para N são mais raros que os outros dois tipos (exceto quando erramos e nosso join 1:1 vira um N:N...). Ele ocorre quando queremos unir duas tabelas por uma chave que **não é única** nas duas tabelas.

Um exemplo comum é quando queremos cruzar informações de produtos e clientes: como cada cliente pode comprar múltiplos produtos diferentes e cada produto pode ser comprado por múltiplos clientes a relação é uma relação M:N.

Tanto no Pandas quanto no SQL raramente criaremos relações M:N - elas são mediadas por uma terceira chave (o código do pedido no exemplo acima). No entanto, **esse tipo de join ocorre MUITO quando fazemos algo errado**, não conhecer as chaves de nossa tabela por exemplo!

In [96]:
nome_frutas = ["Uva", "Uva", "Abacate", "Melancia", "Atemoia", "Laranja"]
producao_frutas = [10, 5, 1, 1, 3, 4]
tb_prod_frutas = pd.DataFrame(
    {"nome_fruta": nome_frutas, "producao_kg": producao_frutas}
)
tb_prod_frutas


Unnamed: 0,nome_fruta,producao_kg
0,Uva,10
1,Uva,5
2,Abacate,1
3,Melancia,1
4,Atemoia,3
5,Laranja,4


In [97]:
fruta = ["Uva", "Abacate", "Melancia", "Uva", "Carambola"]
cidade = ["Campinas", "Campinas", "Atibaia", "Atibaia", "Rio de Janeiro"]
tb_pomar_cidade = pd.DataFrame({"nome_fruta": fruta, "cidade": cidade})
tb_pomar_cidade


Unnamed: 0,nome_fruta,cidade
0,Uva,Campinas
1,Abacate,Campinas
2,Melancia,Atibaia
3,Uva,Atibaia
4,Carambola,Rio de Janeiro


In [98]:
pd.merge(tb_prod_frutas, tb_pomar_cidade, on="nome_fruta")


Unnamed: 0,nome_fruta,producao_kg,cidade
0,Uva,10,Campinas
1,Uva,10,Atibaia
2,Uva,5,Campinas
3,Uva,5,Atibaia
4,Abacate,1,Campinas
5,Melancia,1,Atibaia


In [101]:
ajaja = tb_prod_frutas.merge(tb_pomar_cidade, on = "nome_fruta")
ajaja

Unnamed: 0,nome_fruta,producao_kg,cidade
0,Uva,10,Campinas
1,Uva,10,Atibaia
2,Uva,5,Campinas
3,Uva,5,Atibaia
4,Abacate,1,Campinas
5,Melancia,1,Atibaia


## Chaves Compostas

As chaves de nossos joins não precisam estar localizadas apenas em uma coluna: podemos ter partes diferentes de uma chave em colunas diferentes (por exemplo, em uma tabela cuja chave seja Município-Ano podemos ter uma coluna Município e outra Ano).

Para realizar joins com chaves compostas precisaremos alterar um pouco como especificamos o argumento `on`.

In [102]:
nome_frutas = ["Uva", "Abacate", "Melancia", "Atemoia", "Laranja"]
cidade = ["Campinas", "Atibaia", "Atibaia", "Rio de Janeiro", "Rio de Janeiro"]
preco_frutas = [10, 5, 3, 30, 2]
tb_prod_frutas = pd.DataFrame(
    {"nome_fruta": nome_frutas, "cidade" : cidade, "preco_kg": preco_frutas}
)
tb_prod_frutas

Unnamed: 0,nome_fruta,cidade,preco_kg
0,Uva,Campinas,10
1,Abacate,Atibaia,5
2,Melancia,Atibaia,3
3,Atemoia,Rio de Janeiro,30
4,Laranja,Rio de Janeiro,2


In [103]:
fruta = ["Uva", "Abacate", "Melancia", "Uva", "Carambola"]
cidade = ["Campinas", "Campinas", "Atibaia", "Atibaia", "Rio de Janeiro"]
qtd_prod = [1000, 5000, 2500, 300, 150]
tb_pomar_cidade = pd.DataFrame({"nome_fruta": fruta, "cidade": cidade, "qtd_produzida" : qtd_prod})
tb_pomar_cidade


Unnamed: 0,nome_fruta,cidade,qtd_produzida
0,Uva,Campinas,1000
1,Abacate,Campinas,5000
2,Melancia,Atibaia,2500
3,Uva,Atibaia,300
4,Carambola,Rio de Janeiro,150


In [105]:
pd.merge(tb_prod_frutas, tb_pomar_cidade, on = ['nome_fruta', 'cidade'], how = 'right')

Unnamed: 0,nome_fruta,cidade,preco_kg,qtd_produzida
0,Uva,Campinas,10.0,1000
1,Abacate,Campinas,,5000
2,Melancia,Atibaia,3.0,2500
3,Uva,Atibaia,,300
4,Carambola,Rio de Janeiro,,150


In [107]:
tb_prod_frutas.merge(tb_pomar_cidade, on = ['nome_fruta', 'cidade']).merge()


pandas.core.frame.DataFrame

In [106]:
a.merge()

Unnamed: 0,nome_fruta,cidade,preco_kg,qtd_produzida
0,Uva,Campinas,10,1000
1,Melancia,Atibaia,3,2500


# Bonus - Análise de Eficiência de Automóveis

Vamos utilizar os conceitos vistos hoje para responder a pergunta *Será que a eficiência dos carros aumentou ao longo dos anos?*.

In [None]:
import matplotlib.pyplot as plt

In [None]:
tb_agg_year = tb_veic.groupby(by="year").agg(
    mean_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="mean"),
    mean_highway_mpg=pd.NamedAgg(column="highway_mpg", aggfunc="mean"),
)
plt.plot(tb_agg_year["mean_city_mpg"])


**Quais conclusões podemos tirar do gráfico acima? Como podemos melhorar nossa análise?**

In [None]:
tb_agg_cyl = (
    tb_veic.groupby(by="cylinders")
    .agg(
        mean_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="mean"),
        mean_highway_mpg=pd.NamedAgg(column="highway_mpg", aggfunc="mean"),
    )
    .reset_index()
)
tb_agg_cyl


In [None]:
tb_veic = pd.merge(tb_veic, tb_agg_cyl, on="cylinders")
tb_veic


In [None]:
tb_veic["norm_city_mpg"] = tb_veic["city_mpg"] / tb_veic["mean_city_mpg"]
tb_veic["norm_highway_mpg"] = tb_veic["highway_mpg"] / tb_veic["mean_highway_mpg"]
tb_veic


In [None]:
tb_agg_year = tb_veic.groupby(by="year").agg(
    mean_city_mpg=pd.NamedAgg(column="norm_city_mpg", aggfunc="mean"),
    mean_highway_mpg=pd.NamedAgg(column="norm_highway_mpg", aggfunc="mean"),
    contagem=pd.NamedAgg(column="norm_highway_mpg", aggfunc="count"),
)
plt.plot(tb_agg_year["mean_city_mpg"])
# plt.plot(tb_agg_year['contagem'])


In [None]:
tb_agg_yearcyl = (
    tb_veic.groupby(["cylinders", "year"])
    .agg(
        mean_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="mean"),
        n_linhas=pd.NamedAgg(column="city_mpg", aggfunc="count"),
    )
    .reset_index()
)
tb_agg_yearcyl


In [None]:
tb_agg_yearcyl["last_year"] = tb_agg_yearcyl["year"] - 1
tb_agg_yearcyl


In [None]:
tb_agg_yearcyla = pd.merge(
    tb_agg_yearcyl,
    tb_agg_yearcyl,
    left_on=["cylinders", "last_year"],
    right_on=["cylinders", "year"],
    suffixes=("", "_ly"),
)
tb_agg_yearcyla[tb_agg_yearcyla["cylinders"] == 6]


In [None]:
tb_agg_yearcyla["var_anual"] = (
    tb_agg_yearcyla["mean_city_mpg"] - tb_agg_yearcyla["mean_city_mpg_ly"]
) / tb_agg_yearcyla["mean_city_mpg_ly"]


In [None]:
aa = tb_agg_yearcyla.groupby(["cylinders"]).agg(
    var_anual_media=pd.NamedAgg("var_anual", "mean"),
    min_ano=pd.NamedAgg("year", "min"),
    max_ano=pd.NamedAgg("year", "max"),
    n_linhas=pd.NamedAgg("n_linhas", "sum"),
)
aa[aa["n_linhas"] > 149]


# Bonus - Bins Concept

![Imgs](https://i.stack.imgur.com/pObHa.png)


### two methods: cut vs qcut

The major distinction is that qcut will calculate the size of each bin in order to make sure the distribution of data in the bins is equal. In other words, all bins will have (roughly) the same number of observations but the bin range will vary.

On the other hand, cut is used to specifically define the bin edges. There is no guarantee about the distribution of items in each bin. In fact, you can define bins in such a way that no items are included in a bin or nearly all items are in a single bin.

In [None]:
pd.cut(tb_veic["city_mpg"], bins=10)


In [None]:
tb_veic["classifA_city_mpg"] = pd.cut(tb_veic["city_mpg"], bins=10)
tb_veic["classifA_city_mpg"].value_counts()


In [None]:
tb_veic["classifB_city_mpg"] = pd.qcut(tb_veic["city_mpg"], q=10)
tb_veic["classifB_city_mpg"].value_counts()


# Bonus - Categorical Data Into Columns

>    - dummies
>    - One hot encoding

In [None]:
pd.get_dummies(tb_veic["classifB_city_mpg"])


In [None]:
dummies = pd.get_dummies(tb_veic["classifB_city_mpg"])
pd.concat([tb_veic, dummies], axis=1)


# Bonus - Funções Customizadas de Agregação

In [None]:
def dist_iq(panda_series):
    if len(panda_series) > 5:
        return (
            panda_series.quantile(0.75) - panda_series.quantile(0.25)
        ) / panda_series.quantile(0.5)
    else:
        return np.nan

In [None]:
tb_veic.groupby(by=["drivetrain", "cylinders"]).agg(
    avg_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="mean"),
    std_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc="std"),
    iqn_city_mpg=pd.NamedAgg(column="city_mpg", aggfunc=dist_iq),
)
