# Tópico 04 – Mais Consultas e GroupBy [<img src="images/colag_logo.svg" style="float: right; vertical-align: middle; width: 42px; height: 42px;">](https://colab.research.google.com/github/urielmoreirasilva/urielmoreirasilva.github.io/blob/main/aulas/T%C3%B3pico%2004/04%20%E2%80%93%20GroupBy.ipynb) [<img src="images/github_logo.svg" style="float: right; margin-right: 12px; vertical-align: middle; width: 36px; height: 36px;">](https://github.com/urielmoreirasilva/urielmoreirasilva.github.io/blob/main/aulas/T%C3%B3pico%2004/04%20%E2%80%93%20GroupBy.ipynb)

Vamos aprender a agrupar e a sumarizar dados!

### Resultados Esperados
1. Aprender a utilizar a função `groupby`.
1. Aprender mais sobre o potencial do `pandas`!

### Referências
- [BPD, Capítulos 10 a 11](https://notes.dsc10.com/)
- [CIT, Capítulo 6](https://inferentialthinking.com/)

Material adaptado do [DSC10 (UCSD)](https://dsc10.com/) por [Flavio Figueiredo (DCC-UFMG)](https://flaviovdf.io/fcd/) e [Uriel Silva (DEST-UFMG)](https://urielmoreirasilva.github.io)

In [1]:
# Importando BabyPandas e Numpy
import babypandas as bpd
import numpy as np

In [2]:
# Importando uma nova biblioteca: Matplotlib!
# Utilizaremos essa biblioteca para fazer gráficos
import matplotlib.pyplot as plt
plt.style.use('ggplot')

### Sobre os dados: Ainda estamos na feira da Afonso Pena

O DataFrame `afonso_pena` abaixo contém os dados dos feirantes da Afonso Pena:

In [3]:
# Carregando o DataFrame
afonso_pena = bpd.read_csv('data/afonso_pena.csv')

# Calculando a densidade produtos/área de cada barraca
produtos = afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')
area = afonso_pena.get('AREA')
afonso_pena = afonso_pena.assign(
    DENSIDADE = produtos / area
)

# Atribuindo um índice a cada uma das linhas
afonso_pena = afonso_pena.set_index('ID_FEIRA_AFONSO_PENA_BARRACA')
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911,0.591271
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592,0.253644
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592,0.422740
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911,0.591271


## Qual o número total de barracas de comida? 🍴

### Consultando as _linhas_ de um DataFrame

- **Pergunta:** Como podemos encontrar o _número total_ de linhas de um DataFrame que satisfaçam uma certa condição? 🤔
  
- **Resposta:** Podemos proceder assim:
    1. Realize uma consulta para extrair um DataFrame cujo `'NOME_SETOR'` seja igual a `'Alimentação'`.
    1. Extraia o primeiro elemento `[0]` do método `.shape` aplicado ao DataFrame anterior.

In [4]:
comida = afonso_pena[afonso_pena.get('NOME_SETOR') == 'Alimentação']
comida.shape[0]

100

## Qual o vendedor que vende mais produtos de comida?

## Consultando um _elemento específico_ de um DataFrame

- **Pergunta:** Como podemos encontrar uma _linha específica_ em um DataFrame que satisfaça uma certa condição? 🤔
  
- **Resposta:** Podemos proceder de maneira análoga à pergunta anterior, com alguns passos extras:
    1. Realize uma consulta para extrair um DataFrame cujo `'NOME_SETOR'` seja igual a `'Alimentação'`.
    1. Ordene as linhas do DataFrame resultante por `'NUMERO_PRODUTOS_CADASTRADOS'`, em ordem decrescente.
    1. Extraia o primeiro elemento `[0]` da coluna `'NOME_FEIRANTE'`, utilizando o método `.iloc`.

In [5]:
comida = comida.sort_values(by = 'NUMERO_PRODUTOS_CADASTRADOS', ascending = False)
comida

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
109,Y.F1.V012,BARRACA DAYSE PINTO NORBERTO,DAYSE PINTO NORBERTO,DJALMA ANTÔNIO DE FREITAS,Alimentação,"CERVEJA, TORRESMO, CHIPS, AZEITONA, REFRIGERAN...",21.0,33.611057,0.624794
1406,Z.F1.V007,BARRACA FRANCINERE AMARAL CARDOSO RIBEIRO DE S...,FRANCINERE AMARAL CARDOSO RIBEIRO DE SOUZA,RAYKARD AGUIAR DE JESUS,Alimentação,"CERVEJA, REFRIGERANTE, SUCO INDUSTRIALIZADO, E...",20.0,33.611058,0.595042
1015,X.F1.V020,BARRACA VERA LUIZA DE CARVALHO MACEDO,VERA LUIZA DE CARVALHO MACEDO,ORLANDINEIA ALVES,Alimentação,"CERVEJA, SANDUÍCHE NATURAL, BISCOITO, BOLO, RO...",17.0,33.595966,0.506013
380,Y.F1.V020,BARRACA MARGARET LÚCIA DA COSTA SILVA,MARGARET LÚCIA DA COSTA SILVA,MARIA TRINDADE DECIOLA DE JESUS,Alimentação,"ACARAJÉ, BOLINHO DE CARNE DE SOL, SUCO DE AÇAÍ...",16.0,33.539371,0.477051
26,Y.F2.V007,BARRACA ANA CALDEIRA GOMES,ANA CALDEIRA GOMES,PAULO HENRIQUE DE JESUS CALDEIRA,Alimentação,"CHURRASCO, PÃO DE QUEIJO, LEITE, REFRIGERANTE,...",14.0,33.611058,0.416530
...,...,...,...,...,...,...,...,...,...
1269,X.F2.V013,BARRACA FELIPE RODRIGUES ALVES DE DEUS,FELIPE RODRIGUES ALVES DE DEUS,SIDNEY ALVES DE DEUS,Alimentação,CHURRASCO,1.0,33.558728,0.029799
1457,X.F2.V011,BARRACA WELLINGTON ALVES DE DEUS,WELLINGTON ALVES DE DEUS,SANDRO ALVES DE DEUS,Alimentação,CHURRASCO,1.0,33.595966,0.029765
1423,X.F1.V003,BARRACA CELIA APARECIDA MONTEIRO CIPRIANO,CELIA APARECIDA MONTEIRO CIPRIANO,APARECIDA SANTOS MONTEIRO,Alimentação,ACARAJÉ,1.0,33.697508,0.029676
261,X.F2.V003,BARRACA JOÃO GERALDO MARTINS DE SOUZA,JOÃO GERALDO MARTINS DE SOUZA,CHARLES DAVIDSON ROSA MARTINS,Alimentação,CHURRASCO,1.0,33.569063,0.029789


In [6]:
comida.get('NOME_FEIRANTE').iloc[0]

'DAYSE PINTO NORBERTO'

- O método `.iloc` retorna a n-ésima linha do `DataFrame` (ou `Series`)  correspondente.
- Note que `.iloc` não busca por _índice_, mas sim por _linha_.

Observe que podemos obter o mesmo resultado acima ordenando o DataFrame de maneira _decrescente_ e utilizando o método `.iloc` para obter o _último_ elemento do DataFrame resultante:

In [7]:
comida = comida.sort_values(by = 'NUMERO_PRODUTOS_CADASTRADOS', ascending = True)
comida.get('NOME_FEIRANTE').iloc[-1]

'DAYSE PINTO NORBERTO'

### E se nenhuma condição for satisfeita?

- Quando nenhuma condição da nossa consulta é satisfeita, o resultado ainda é um `DataFrame`, mas com 0 linhas:

In [8]:
afonso_pena[afonso_pena.get('NOME_FEIRANTE') == 'BABY PANDAS']

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1


In [9]:
type(afonso_pena[afonso_pena.get('NOME_FEIRANTE') == 'BABY PANDAS'])

babypandas.bpd.DataFrame

In [10]:
afonso_pena[afonso_pena.get('NOME_FEIRANTE') == 'BABY PANDAS'].shape[0]

0

### Exercício ✅

Qual expressão abaixo possui como resultado o número total de **produtos** para crianças?

A. `afonso_pena[afonso_pena.get('NOME_SETOR') == 'Criança'].shape`

B. `afonso_pena[afonso_pena.get('NOME_SETOR') == 'Criança'].get('NUMERO_PRODUTOS_CADASTRADOS').sum()`

C.`afonso_pena[afonso_pena.get('NOME_SETOR') != 'Criança'].get('NUMERO_PRODUTOS_CADASTRADOS').sum()`

D. Mais de um dos itens acima.

### Exercício ✅

**Pergunta**: Quais são os produtos vendidos pelo feirante que mais vende produtos para crianças?

Escreva abaixo uma linha de código que avalie a resposta.

In [11]:
...

Ellipsis

## Quantos feirantes vendem "roupas para crianças" _ou_ "produtos para crianças"?

### Consultas com múltiplas condições

- **Pergunta:** Como podemos filtrar um DataFrame de acordo com múltiplas condições? 🤔
  
- **Resposta:** Basta proceder de maneira análoga ao que fazemos com uma consulta simples, bastando apenas prestar atenção à alguns pequenos detalhes extras:
    - Para escrever uma consulta com múltiplas condições, use `&` para "e" e `|` para "ou".
    - **Você deve sempre usar parênteses `( )` em torno de cada condição!**

In [12]:
afonso_pena[(afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil') | (afonso_pena.get('NOME_SETOR') == 'Criança')]

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
88,E.F3.V016,BARRACA CELINA MARIA SILVA MARCELINO,CELINA MARIA SILVA MARCELINO,ALBERTINO SERGIO MARCELINO,Vestuário Infantil,"FANTASIA, BERMUDA, CALÇA, SAIA, VESTIDO, CAMISA",6.0,11.827592,0.507288
94,E.F4.V029,BARRACA CLARICE CONCEIÇÃO DAS GRAÇAS DE OLIVEI...,CLARICE CONCEIÇÃO DAS GRAÇAS DE OLIVEIRA LIMA,ANGELICA MARIA DE OLIVEIRA LIMA,Vestuário Infantil,"CONJUNTO, SHORT, CUECA, CAMISA, CAMISETA, BLUS...",7.0,11.838911,0.591271
...,...,...,...,...,...,...,...,...,...
1426,F.F3.V010,BARRACA ALESSANDRA DE ABREU REIS,ALESSANDRA DE ABREU REIS,GLAUCIA HELENA DE ABREU TAVARES,Criança,"ACESSÓRIOS PARA CACHORRO, ALMOFADA, CAMA DE TE...",14.0,11.838911,1.182541
1435,E.F4.V006,BARRACA CILDA LUZIA GUALBERTO,CILDA LUZIA GUALBERTO,CILMA MARIA GUALBERTO DE OLIVEIRA,Vestuário Infantil,"VESTIDO, BOLERO, CUECA, BERMUDA, SAIA, BLUSA",6.0,11.827592,0.507288
1337,F.F2.V004,BARRACA MATHEUS PESSALI TIAGO BARBOSA,MATHEUS PESSALI TIAGO BARBOSA,MIRNA COSTA GONÇALVES,Criança,"QUADRO, TOALHA FRALDA, TOALHA, BRINQUEDO PEDAG...",6.0,11.838911,0.506803
1342,E.F1.V005,BARRACA MAIRA FERNANDES DE MOURA,MAIRA FERNANDES DE MOURA,MAURÍCIO MARTINS TERRINHA,Vestuário Infantil,"JARDINEIRA, VESTIDO, SHORT, SAIA, BLUSA",5.0,11.838911,0.422336


In [13]:
# Nota: dentro de parênteses () ou colchetes [], podemos quebrar a linha!
# Isso nos ajuda na leitura do código
afonso_pena[(afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil') | 
   (afonso_pena.get('NOME_SETOR') == 'Criança')]

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
88,E.F3.V016,BARRACA CELINA MARIA SILVA MARCELINO,CELINA MARIA SILVA MARCELINO,ALBERTINO SERGIO MARCELINO,Vestuário Infantil,"FANTASIA, BERMUDA, CALÇA, SAIA, VESTIDO, CAMISA",6.0,11.827592,0.507288
94,E.F4.V029,BARRACA CLARICE CONCEIÇÃO DAS GRAÇAS DE OLIVEI...,CLARICE CONCEIÇÃO DAS GRAÇAS DE OLIVEIRA LIMA,ANGELICA MARIA DE OLIVEIRA LIMA,Vestuário Infantil,"CONJUNTO, SHORT, CUECA, CAMISA, CAMISETA, BLUS...",7.0,11.838911,0.591271
...,...,...,...,...,...,...,...,...,...
1426,F.F3.V010,BARRACA ALESSANDRA DE ABREU REIS,ALESSANDRA DE ABREU REIS,GLAUCIA HELENA DE ABREU TAVARES,Criança,"ACESSÓRIOS PARA CACHORRO, ALMOFADA, CAMA DE TE...",14.0,11.838911,1.182541
1435,E.F4.V006,BARRACA CILDA LUZIA GUALBERTO,CILDA LUZIA GUALBERTO,CILMA MARIA GUALBERTO DE OLIVEIRA,Vestuário Infantil,"VESTIDO, BOLERO, CUECA, BERMUDA, SAIA, BLUSA",6.0,11.827592,0.507288
1337,F.F2.V004,BARRACA MATHEUS PESSALI TIAGO BARBOSA,MATHEUS PESSALI TIAGO BARBOSA,MIRNA COSTA GONÇALVES,Criança,"QUADRO, TOALHA FRALDA, TOALHA, BRINQUEDO PEDAG...",6.0,11.838911,0.506803
1342,E.F1.V005,BARRACA MAIRA FERNANDES DE MOURA,MAIRA FERNANDES DE MOURA,MAURÍCIO MARTINS TERRINHA,Vestuário Infantil,"JARDINEIRA, VESTIDO, SHORT, SAIA, BLUSA",5.0,11.838911,0.422336


In [14]:
afonso_pena[(afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil') | (afonso_pena.get('NOME_SETOR') == 'Criança')].shape[0]

224

⚠️ **Nota**: Não utilize as palavras-chave Python `and` e `or` aqui! Eles não se comportam como você esperaria.

In [15]:
afonso_pena[(afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil') or (afonso_pena.get('NOME_SETOR') == 'Criança')].shape[0]

121

- Uma maneira de verificarmos quantas condições válidas existem para uma certa coluna é utilizar o método `.unique` para verificar quantos valores _únicos_ as linhas dessa coluna assumem:

In [16]:
afonso_pena.get('NOME_SETOR').unique()

array(['Criança', 'Bijouterias', 'Vestuário Infantil', 'Vestuário',
       'Calçados', 'Alimentação', 'Cintos, Bolsas e Acessórios',
       'Artes e Pintura', 'Arranjos e Complementos',
       'Decoração e Utilidades', 'Cama, Mesa, Banho e Tapeçaria',
       'Mobilário, Flores, Arranjos, Cestaria', 'Esculturas'],
      dtype=object)

### Exercício ✅

Cada uma das perguntas a seguir pode ser respondida consultando o DataFrame `afonso_pena`:

1. Quantos feirantes vendem 'Vestuário'?
1. Qual o nome do feirante que mais vende 'Vestuário'?
1. Qual categoria têm mais produtos: 'Artes e Pintura' ou 'Esculturas'?

Tente escrever um código abaixo para responder a cada pergunta.

In [17]:
...

Ellipsis

In [18]:
...

Ellipsis

In [19]:
...

Ellipsis

### Selecionando linhas por _posição_: o método `.take`

- As consultas nos permitem selecionar linhas que satisfaçam uma determinada _condição_.
- Porém, às vezes podemos estar interessados em selecionar linhas _posições_ específicas do DataFrame.
- Fazemos isso com `.take([list_of_integer_positions])`, onde `list_of_integer_positions` são os índices das linhas nas quais estamos interessados.
- O método `.take` nos retorna apenas as linhas cujas posições estão na lista especificada, e logo é análogo a usar `.iloc[]` em uma série.

In [20]:
afonso_pena.take([1, 3, 5])

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
88,E.F3.V016,BARRACA CELINA MARIA SILVA MARCELINO,CELINA MARIA SILVA MARCELINO,ALBERTINO SERGIO MARCELINO,Vestuário Infantil,"FANTASIA, BERMUDA, CALÇA, SAIA, VESTIDO, CAMISA",6.0,11.827592,0.507288


Podemos também utilizar `.take` junto com intervalos!

In [21]:
afonso_pena.take(np.arange(5))

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592,0.591836


## Qual é área total de cada setor?

### Agrupamentos por colunas

- **Pergunta:** Como podemos agrupar um DataFrame de acordo com certas condições? 🤔
  
- **Resposta:** Uma maneira simples e direta é filtrar o DataFrame de acordo com a condição especificada, e depois utilizar alguma função para resumir as informações contidas nas linhas correspondentes (como por exemplo `.count`, `.sum`, `.mean`, `.min`, `.max`, `.median`).

No nosso exemplo, para encontrar a área total do setor correspondente aos produtos de crianças, basta fazer:

In [22]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Criança'].get('AREA').sum()

1274.9974161428677

Por outro lado, se quisermos a área total correspondente aos produtos relacionados à vestuário infantil, fazemos:

In [23]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil'].get('AREA').sum()

1431.87438966735

- Apesar de resolver nosso problema parcialmente, essa abordagem é bem ineficiente!
- Aqui temos que gravar o nome de cada setor, e escrever no mínimo uma linha de código para cada um.
- Se tivermos um grande número de setores, copiar e colar muitas vezes não é muito prático, e geralmente é uma fonte adicional de erros no código.  

### GroupBy: dividir, agregar e combinar

Podemos utilizar o método `.groupby` para responder à nossa pergunta anterior com apenas uma linha de código:

In [24]:
# Descomente as 2 linhas abaixo caso você queira ver todas as linhas do DataFrame
# import pandas as pd
# pd.set_option("display.max_rows", 20)
afonso_pena.groupby('NOME_SETOR').sum()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,733.0,3359.343283,21.820242
Arranjos e Complementos,379.0,615.329088,32.028438
Artes e Pintura,62.0,713.705731,2.606116
Bijouterias,1047.0,2165.445443,88.479383
Calçados,774.0,1881.447403,65.409968
...,...,...,...
Decoração e Utilidades,423.0,1033.677527,29.927868
Esculturas,6.0,47.580382,0.252205
"Mobilário, Flores, Arranjos, Cestaria",247.0,771.488214,14.012735
Vestuário,1454.0,2591.442504,122.878561


Note que os valores na coluna `'AREA'` correspondentes aos setores `'Criança'` e `'Vestuário Infantil'` são exatamente os mesmos calculados acima!

- Em essência, o `.groupby` opera da seguinte maneira:
1. **Divide** as linhas do `DataFrame` de acordo com a coluna especificada (no nosso exemplo, de acordo com o `'NOME_SETOR'`);
1. **Agrega** todas as outras linhas de acordo com a divisão feita, aplicando a função especificada (no nosso exemplo, `.sum`); 
1. **Combina** os resultados obtidos dessa agregação em um novo `DataFrame`, indexado e classificado de acordo com a coluna escolhida (no nosso exemplo, `'NOME_SETOR'`).

In [25]:
afonso_pena.groupby('NOME_SETOR').sum()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,733.0,3359.343283,21.820242
Arranjos e Complementos,379.0,615.329088,32.028438
Artes e Pintura,62.0,713.705731,2.606116
Bijouterias,1047.0,2165.445443,88.479383
Calçados,774.0,1881.447403,65.409968
...,...,...,...
Decoração e Utilidades,423.0,1033.677527,29.927868
Esculturas,6.0,47.580382,0.252205
"Mobilário, Flores, Arranjos, Cestaria",247.0,771.488214,14.012735
Vestuário,1454.0,2591.442504,122.878561


In [26]:
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911,0.591271
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592,0.253644
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592,0.422740
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911,0.591271


In [27]:
afonso_pena.groupby('NOME_SETOR').sum()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,733.0,3359.343283,21.820242
Arranjos e Complementos,379.0,615.329088,32.028438
Artes e Pintura,62.0,713.705731,2.606116
Bijouterias,1047.0,2165.445443,88.479383
Calçados,774.0,1881.447403,65.409968
...,...,...,...
Decoração e Utilidades,423.0,1033.677527,29.927868
Esculturas,6.0,47.580382,0.252205
"Mobilário, Flores, Arranjos, Cestaria",247.0,771.488214,14.012735
Vestuário,1454.0,2591.442504,122.878561


## Caveats do GroupBy

### Colunas desaparecendo! ✨🐇🎩

- O método de agregação que escolhemos para o `.groupby` é aplicado _a cada_ coluna do nosso DataFrame.
- Quando essa operação não fizer sentido para uma determinada coluna, essa coluna desaparecerá!

No nosso exemplo, não podemos somar strings através do método `.sum`, então é por isso que colunas como `'NOME_FANTASIA'` desaparecem automaticamente após realizarmos o `.groupby`.

### Cuidado com a função de agregação escolhida!

- No `.groupby`, a função de agregação é aplicada a cada coluna **separadamente**.
- Dependendo da função utilizada, as linhas do DataFrame resultante precisam ser interpretadas com cuidado!

No nosso exemplo, se quisermos saber a _densidade total_ ocupada por um setor, podemos ficar tentados a simplesmente utilizar um `.groupby` com a função de agregação `.sum`, e olhar para a coluna `'DENSIDADE'` no DataFrame resultante:

In [28]:
afonso_pena.groupby('NOME_SETOR').sum()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,733.0,3359.343283,21.820242
Arranjos e Complementos,379.0,615.329088,32.028438
Artes e Pintura,62.0,713.705731,2.606116
Bijouterias,1047.0,2165.445443,88.479383
Calçados,774.0,1881.447403,65.409968
...,...,...,...
Decoração e Utilidades,423.0,1033.677527,29.927868
Esculturas,6.0,47.580382,0.252205
"Mobilário, Flores, Arranjos, Cestaria",247.0,771.488214,14.012735
Vestuário,1454.0,2591.442504,122.878561


Porém, como a densidade total na verdade seria dada por $\text{densidade total} = \text{número total de produtos}/\text{área total}$, esse resultado não está correto!

Por exemplo, para '`Vestuário Infantil`', a densidade total correta seria igual a:

In [29]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil'].get('NUMERO_PRODUTOS_CADASTRADOS').sum()/afonso_pena[afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil'].get('AREA').sum()

0.5503276025371656

Por outro lado, a "densidade total" calculada através da soma das densidades no `.groupby` é igual a: 

In [30]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Vestuário Infantil'].get('DENSIDADE').sum()

66.59089228766169

## Mais exemplos de usos do GroupBy

### Duas escolhas principais a serem feitas ao usar `.groupby`

- Ao aplicarmos o `.groupby`, devemos sempre ter duas perguntas em mente:
1. Por qual coluna devemos agrupar?
2. Que método de agregação devemos usar?

Veremos abaixo mais algumas aplicações do GroupBy com os dados da Feira da Afonso Pena.

#### Contando a quantidade de linhas de acordo com uma certa condição

- Se quisermos saber o número de linhas de acordo com os valores de uma outra coluna, podemos aplicar o `.groupby` com a função de agregação `.size`.

Por exemplo, se quisermos saber o número de vendedores (lembre que cada linha do nosso DataFrame é um feirante) de acordo com cada setor de vendas, podemos fazer:

In [31]:
afonso_pena.groupby('NOME_SETOR').size()

NOME_SETOR
Alimentação                              100
Arranjos e Complementos                   52
Artes e Pintura                           30
Bijouterias                              183
Calçados                                 159
                                        ... 
Decoração e Utilidades                    69
Esculturas                                 2
Mobilário, Flores, Arranjos, Cestaria     42
Vestuário                                219
Vestuário Infantil                       121
Length: 13, dtype: int64

Podemos também utilizar o método `.count` para responder a mesma pergunta acima.

A diferença é que com `.count` a saída em geral é mais completa do que precisamos, mostrando o número de _observações_ disponíveis em cada coluna.

Como no nosso exemplo todas as linhas têm todas as observações completas, com `.count` os mesmos números resultantes de `.size` simplesmente se repetem à cada coluna:

In [32]:
afonso_pena.groupby('NOME_SETOR').count()

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alimentação,100,100,100,100,100,100,100,100
Arranjos e Complementos,52,52,52,52,52,52,52,52
Artes e Pintura,30,30,30,30,30,30,30,30
Bijouterias,183,183,183,183,183,183,183,183
Calçados,159,159,159,159,159,159,159,159
...,...,...,...,...,...,...,...,...
Decoração e Utilidades,69,69,69,69,69,69,69,69
Esculturas,2,2,2,2,2,2,2,2
"Mobilário, Flores, Arranjos, Cestaria",42,42,42,42,42,42,42,42
Vestuário,219,219,219,219,219,219,219,219


#### Estatísticas descritivas

Podemos também utilizar como funções de agregação as funções de estatísticas descritivas básicas, tais como `.mean`, `.min`, `.max` e `.median`.

In [33]:
afonso_pena.groupby('NOME_SETOR').mean()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,7.330000,33.593433,0.218202
Arranjos e Complementos,7.288462,11.833252,0.615931
Artes e Pintura,2.066667,23.790191,0.086871
Bijouterias,5.721311,11.833035,0.483494
Calçados,4.867925,11.833003,0.411383
...,...,...,...
Decoração e Utilidades,6.130435,14.980834,0.433737
Esculturas,3.000000,23.790191,0.126102
"Mobilário, Flores, Arranjos, Cestaria",5.880952,18.368767,0.333637
Vestuário,6.639269,11.833071,0.561089


In [34]:
afonso_pena.groupby('NOME_SETOR').min()

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alimentação,X.F1.V001,BARRACA ADVALD MARTINS DOS SANTOS,ADVALD MARTINS DOS SANTOS,ADAIR DE JESUS FERREIRA BRITO,ACARAJÉ,1.0,33.462435,0.029676
Arranjos e Complementos,H.F1.V001,BARRACA ADILMO DE PAIVA VICENTE,ADILMO DE PAIVA VICENTE,ADEIZA DE PAIVA VICENTE,"ANEL, ARCO, BRINCO, PASSADOR, COLAR, PULSEIRA",2.0,11.827592,0.168934
Artes e Pintura,P.F1.V001,BARRACA ACIOLI ALVES DE JESUS,ACIOLI ALVES DE JESUS,ADELIA GONÇALVES DIAS,"DESENHO, PINTURA ACRÍLICA",1.0,23.790191,0.042034
Bijouterias,G.F1.V001,BARRACA ADALGISA COSTA COUTO,ADALGISA COSTA COUTO,ADRIANA DELGADO MORAIS ABURACHID,"ANEL, ARCO, PULSEIRA, COLAR, BRINCO",2.0,11.827592,0.168934
Calçados,J.F1.V001,BARRACA ABÍLIO CESAR FIGUEIREDO FILHO,ABÍLIO CESAR FIGUEIREDO FILHO,ABIGAIL BARBOSA MEDEIROS,"BOLSA DE LONA, CHINELO, SANDÁLIA, SAPATILHA",1.0,11.827592,0.084548
...,...,...,...,...,...,...,...,...
Decoração e Utilidades,B.F1.V001,BARRACA ACYLENE COIMBRA E SILVA,ACYLENE COIMBRA E SILVA,ADRIANA CRISTINA SILVA SANTOS,"ABAJOUR, CACHEPOT, LUMINÁRIA",1.0,11.827592,0.084467
Esculturas,S.F1.V002,BARRACA JACQUELINE DIAS DOS SANTOS VICTOR,JACQUELINE DIAS DOS SANTOS VICTOR,EULER FERREIRA VICTOR,"ORNAMENTOS DECORATIVOS, ESCULTURA",2.0,23.790191,0.084068
"Mobilário, Flores, Arranjos, Cestaria",A.F1.V001,BARRACA AGDA DE CÁSSIA MARIA PEREIRA DAIAN,AGDA DE CÁSSIA MARIA PEREIRA DAIAN,ADAO SOARES PEREIRA,"ARRANJO DE FLOR EMBORRACHADA, FLOR DE TECIDO,...",1.0,11.827592,0.047157
Vestuário,D.F1.V001,BARRACA ADALBERTO FERRAZ DE PAULA DANTAS,ADALBERTO FERRAZ DE PAULA DANTAS,ADALIA DE SOUZA AMORIM,"BATA, PARCA, CANGA, SAÍDA DE PRAIA, SAIA, BLUS...",1.0,11.827592,0.084467


In [35]:
afonso_pena.groupby('NOME_SETOR').median()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alimentação,7.0,33.595966,0.208372
Arranjos e Complementos,7.5,11.833252,0.633787
Artes e Pintura,2.0,23.790191,0.084068
Bijouterias,6.0,11.827592,0.506803
Calçados,5.0,11.827592,0.422740
...,...,...,...
Decoração e Utilidades,5.0,11.838911,0.338192
Esculturas,3.0,23.790191,0.126102
"Mobilário, Flores, Arranjos, Cestaria",6.0,21.205709,0.329097
Vestuário,7.0,11.827592,0.591271


In [36]:
afonso_pena.groupby('NOME_SETOR').max()

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alimentação,Z.F4.V004,BARRACA ZULMA CONCEIÇÃO DE SOUZA,ZULMA CONCEIÇÃO DE SOUZA,WELLINGTON RODRIGUES ALVES,"ÁGUA MINERAL, REFRIGERANTE, CHOPP, ÁGUA DE COC...",21.0,33.697508,0.624794
Arranjos e Complementos,H.F2.V032,BARRACA WAULENO LUIS DE SA,WAULENO LUIS DE SA,WANESSA DE FREITAS MARIANO,"TURBANTE, TIARA, FAIXA, PASSADOR, CHAPÉU DE CR...",12.0,11.838911,1.014577
Artes e Pintura,P.F2.V011,BARRACA WILSON BRAGA HENRIQUE,WILSON BRAGA HENRIQUE,VALDEMIR NASCIMENTO DOS SANTOS,"QUADRO, PINTURA A ÓLEO",5.0,23.790191,0.210171
Bijouterias,G.F4.V059,BARRACA ÍRIS COSTA GUIMARÃES,ÍRIS COSTA GUIMARÃES,ÉRICA DE FREITAS LUCENA,"TERÇO, PULSEIRA, BRINCO, MEDALHÃO, BROCHE, ARC...",13.0,11.838911,1.098074
Calçados,J.F4.V046,BARRACA ZOLMA RODRIGUES LEITE,ZOLMA RODRIGUES LEITE,WEBERT CARLOS ALVES,"TÊNIS, SAPATILHA, TÊNIS, RASTEIRINHA, SAPATILHA",11.0,11.838911,0.929140
...,...,...,...,...,...,...,...,...
Decoração e Utilidades,B.F4.V021,BARRACA ZÉLIA MAGALHÃES DE ANDRADE,ZÉLIA MAGALHÃES DE ANDRADE,ZENAIDE SILVA DAS DORES,"ÁRVORE DE PEDRA, INCENSÁRIO, CHAVEIRO, IMAGENS...",20.0,21.292159,1.183673
Esculturas,S.F1.V003,BARRACA JOSÉ RODRIGUES EVANGELISTA,JOSÉ RODRIGUES EVANGELISTA,WARLEY PINHEIRO EVANGELISTA,"QUADRO, QUADRO, PLACAS EM MADEIRA, ESCULTURA",4.0,23.790191,0.168137
"Mobilário, Flores, Arranjos, Cestaria",A.F4.V019,BARRACA WALLACE GROSSI GONÇALVES,WALLACE GROSSI GONÇALVES,SONIA MARCIA SOUZA ALEXANDRE,"TAMBORETE, BANCO, PORTA RETRATO, CINZEIRO, CAB...",16.0,21.270342,0.754514
Vestuário,D.F4.V062,BARRACA ZILDA MOREIRA DE OLIVEIRA,ZILDA MOREIRA DE OLIVEIRA,ÍSIS DE FREITAS ESPECHIT BRAGA,"VESTIDO, TOUCA, CACHECOL DE TRICÔ, CACHECOL DE...",12.0,11.838911,1.014577


Note que os operadores `.min` e `.max` nesse caso podem ser utilizados para strings, retornando, respectivamente, o _primeiro_ e _último_ elementos de cada coluna em ordem alfabética. 

#### Usando `.sum()` em um array/série booleana

- Um fato muito útil em algumas ocasiões é que a _soma_ de um array/série booleana fornece uma contagem do número de elementos iguais a `True`.
- Isso ocorre porque o Python trata `True` como `1` e `False` como `0`.

In [37]:
True == 1

True

In [38]:
False == 0

True

Suponha que estejamos interessados em encontrar o número total, por setor, dos vendedores com mais de 12 produtos cadastrados.

Primeiramente, criamos um DataFrame com uma coluna a mais ('`MAIS_DE_12`'), refletindo essa condição:

In [39]:
bool_df = afonso_pena.assign(MAIS_DE_12 = afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS') >= 12)
bool_df

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE,MAIS_DE_12
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336,False
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336,False
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402,False
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644,False
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592,0.591836,False
...,...,...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911,0.591271,False
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592,0.253644,False
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592,0.422740,False
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911,0.591271,False


Após criar a coluna das booleanas com a nossa condição, é só realizar o GroupBy, agregando com `.sum` por 'NOME_SETOR':

In [40]:
bool_df.groupby('NOME_SETOR').sum()

Unnamed: 0_level_0,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE,MAIS_DE_12
NOME_SETOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alimentação,733.0,3359.343283,21.820242,14
Arranjos e Complementos,379.0,615.329088,32.028438,1
Artes e Pintura,62.0,713.705731,2.606116,0
Bijouterias,1047.0,2165.445443,88.479383,1
Calçados,774.0,1881.447403,65.409968,0
...,...,...,...,...
Decoração e Utilidades,423.0,1033.677527,29.927868,4
Esculturas,6.0,47.580382,0.252205,0
"Mobilário, Flores, Arranjos, Cestaria",247.0,771.488214,14.012735,2
Vestuário,1454.0,2591.442504,122.878561,4


Note que os valores contidos na coluna 'MAIS_DE_12' acima são bem diferentes do que temos quando agregamos por 'NOME_SETOR' e simplesmente utilizamos `.size`, como fizemos anteriormente:

In [41]:
bool_df.groupby('NOME_SETOR').size()

NOME_SETOR
Alimentação                              100
Arranjos e Complementos                   52
Artes e Pintura                           30
Bijouterias                              183
Calçados                                 159
                                        ... 
Decoração e Utilidades                    69
Esculturas                                 2
Mobilário, Flores, Arranjos, Cestaria     42
Vestuário                                219
Vestuário Infantil                       121
Length: 13, dtype: int64

## Resumo

- Podemos escrever consultas que envolvam múltiplas condições, desde que:
    - Coloquemos parênteses em todas as condições.
    - Separemos as condições utilizando `&` (se você precisar que todas sejam verdadeiras), ou utilizando `|` (se você precisar que pelo menos uma seja verdadeira).
- O método `df.groupby(column_name).agg_method()` nos permite **agregar** todas as linhas de um DataFrame `df` em uma única linha em um novo DataFrame, desde que essas linhas tenham o mesmo valor na coluna `column_name`.
    - As múltiplas linhas são agregadas pelo `.groupby` utilizando um método de agregação `agg_method()` para combinar os diferentes valores.
    - Métodos de agregação comuns incluem `.size`, `.count()`, `.sum()`, `.mean()`, `.median()`, `.max()` e `.min()`.