# Tópico 3 – BabyPandas, DataFrames e Séries [<img src="images/colag_logo.svg" style="float: right; vertical-align: middle; width: 42px; height: 42px;">](https://colab.research.google.com/github/urielmoreirasilva/urielmoreirasilva.github.io/blob/main/aulas/T%C3%B3pico%2003/03%20%E2%80%93%20BabyPandas.ipynb) [<img src="images/github_logo.svg" style="float: right; margin-right: 12px; vertical-align: middle; width: 36px; height: 36px;">](https://github.com/urielmoreirasilva/urielmoreirasilva.github.io/blob/main/aulas/T%C3%B3pico%2003/03%20%E2%80%93%20BabyPandas.ipynb)

`DataFrames` são objetos utilizados para representar tabelas. Vamos finalmente explorar alguns dados!
    
### Resultados Esperados
1. Entender o que são os `DataFrame`s de `pandas`.
1. Aprender a acessar linhas e colunas de um DataFrame.
1. Aprender a realizar consultas básicas em um DataFrame.

### Referências
- [BPD, Capítulo 9](https://notes.dsc10.com/)
- [CIT, Capítulo 6](https://inferentialthinking.com/)

Material adaptado do [DSC10 (UCSD)](https://dsc10.com/) por [Flavio Figueiredo (DCC-UFMG)](https://flaviovdf.io/fcd/) e [Uriel Silva (DEST-UFMG)](https://urielmoreirasilva.github.io)

## Data Frames

### `pandas`

- Os `DataFrames` (objetos que podem ser utilizados para representarem "tabelas") são usualmente fornecidos de um pacote chamado `pandas`.
- `pandas` é **a** ferramenta para fazer ciência de dados em Python.

<center>
    <img src="images/pandas.png" width = 50%>
</center>

### Mas a biblioteca `pandas` padrão não é tão fofa...

<center>
    <img src="images/angrypanda.jpg">
</center>

### Começaremos então pelo `babypandas`!

- Criada pela Universidade da Califórnia em San Diego (UCSD), o `babypandas` é uma versão menor e mais agradável do `pandas`.
- Em essência, o `babypandas` mantém os elementos mais importantes e a estrutura principal do `pandas`, mas com defaults mais genéricos e uma sintaxe mais simples.
- O `babypandas` é mais fácil de aprender, de debugar, e o melhor: todo código escrito em `babypandas` é válido no `pandas`!

<center>
    <img src="images/babypanda.jpg" width = 40%>
</center>

### DataFrames em `babypandas` 🐼

- As "tabelas" em `babypandas` (e `pandas`) são chamadas de "DataFrames".
- Para usar DataFrames, precisaremos importar `babypandas` (e do `numpy` também.)

In [1]:
import babypandas as bpd
import numpy as np

### Sobre os dados: Feira da Afonso Pena 👷

- Normalmente trabalharemos com dados armazenados no formato _CSV_.
- CSV significa "valores separados por vírgula" (_comma separated values_).
- O arquivo [afonso_pena.csv](data/afonso_pena.csv) contém informações sobre as barracas da Feira de Artesanato da Afonso Pena, em Belo Horizonte – MG.
- Tais dados foram coletados do [portal de dados abertos](https://dados.pbh.gov.br/dataset/dicionario-de-dados-feira-afonso-pena-barraca) da Prefeitura de Belo Horizonte (PBH). 

<center>
    <img src="images/afonsopena.webp" width = 35%>
</center>

### Lendo dados de um arquivo 📖

Podemos ler um CSV utilizando `bpd.read_csv(...)`.

Assumindo que o arquivo esteja na mesma pasta do seu notebook, basta especificar um caminho relativo como argumento para a função `bpd.read_csv`.

In [2]:
bpd.read_csv('data/afonso_pena.csv')

Unnamed: 0,ID_FEIRA_AFONSO_PENA_BARRACA,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
0,83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
1,84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
2,85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
3,86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
4,87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...,...
1245,1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1246,1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1247,1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1248,1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


Para invocar e operar sobre o DataFrame posteriormente, atribuíremos a saída da função anterior a um objeto correspondente do tipo `DataFrame`.

In [3]:
afonso_pena = bpd.read_csv('data/afonso_pena.csv')

In [4]:
type(afonso_pena)

babypandas.bpd.DataFrame

### Estrutura de um DataFrame

- DataFrames possuem *colunas* e *linhas*.
- Pense em cada coluna como um array. As colunas contêm dados do mesmo `tipo`.
- Cada coluna possui um _rótulo_, por ex. `'NOME_SETOR'` e `'NOME_FEIRANTE'`.
- O rótulo de uma coluna é o seu "nome".
- Os rótulos das colunas são armazenados como strings.
- Cada linha também possui um rótulo.
- Os rótulos das linhas também são comumente chamados de _índices_. Note que o índice **não** é uma coluna!


In [5]:
afonso_pena

Unnamed: 0,ID_FEIRA_AFONSO_PENA_BARRACA,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
0,83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
1,84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
2,85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
3,86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
4,87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...,...
1245,1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1246,1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1247,1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1248,1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


### Configurando um novo índice

- Podemos definir um índice melhor utilizando `.set_index(column_name)`.
- Para isso, como os rótulos das linhas são nomes de linhas,  idealmente cada linha terá um nome descritivo diferente.
- ⚠️ Como a maioria dos métodos DataFrame, `.set_index` retorna um novo DataFrame, e logo _não modifica_ o DataFrame original.

Abaixo, definiremos o índice das linhas do DataFrame `afonso_pena` como uma de suas colunas, mais especificamente `ID_FEIRA_AFONSO_PENA_BARRACA`.

In [6]:
afonso_pena.set_index('ID_FEIRA_AFONSO_PENA_BARRACA')

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [7]:
afonso_pena

Unnamed: 0,ID_FEIRA_AFONSO_PENA_BARRACA,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
0,83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
1,84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
2,85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
3,86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
4,87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...,...
1245,1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1246,1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1247,1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1248,1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [8]:
afonso_pena = afonso_pena.set_index('ID_FEIRA_AFONSO_PENA_BARRACA')
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


### Descrevendo um DataFrame

- O método `.shape` retorna o número de linhas e colunas em um determinado DataFrame.
- Mais especificamente, `.shape` cria uma `tuple`, um tipo de dado nativo do Python, similar a `list`.

- Sem adentrar em mais tecnicalidades, para nossos propósitos basta saber que uma `tuple` é uma coleção ordenada de valores.
- Como uma `tuple` é ordenada, podemos acessar seus elementos através dos índices correspondentes com `[]`.
- No caso específico de `.shape`, temos:
    - `.shape[0]` contém o número de linhas do DataFrame em questão;
    - `.shape[1]` contém o número de colunas correspondente.

In [9]:
# Note que inicialmente tínhamos 9 colunas, mas transformarmos uma delas no índice das linhas
afonso_pena.shape

(1250, 8)

In [10]:
type(afonso_pena.shape)

tuple

In [11]:
# Número de linhas
afonso_pena.shape[0]

1250

In [12]:
# Número de colunas
afonso_pena.shape[1]

8

## Total, Media e Mediana de Produtos

### Encontrando totais

- **Pergunta:** Como podemos encontrar o _valor total_ de uma coluna de um DataFrame? 🤔
  
- **Resposta:** Podemos proceder assim:
    1. Selecione a coluna desejada;
    2. Some todos os seus valores.

#### Passo 1 – Obtendo a coluna desejada

- Podemos obter uma coluna de um DataFrame usando `.get(column_name)`.
- ⚠️ Cuidado: os nomes das colunas diferenciam maiúsculas de minúsculas!
- Os nomes das colunas são strings, então precisamos usar aspas.
- O resultado se parece com um DataFrame de 1 coluna, mas na verdade é uma _série_ (veja abaixo).

In [13]:
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [14]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')

ID_FEIRA_AFONSO_PENA_BARRACA
83      5.0
84      5.0
85      3.0
86      3.0
87      7.0
       ... 
1350    7.0
1351    3.0
1352    5.0
1353    7.0
1354    4.0
Name: NUMERO_PRODUTOS_CADASTRADOS, Length: 1250, dtype: float64

### Interlúdio: Série

- Uma *série* (`Series`) é como um array, mas com um índice associado.
- Em particular, as séries suportam vários tipos de funções aritméticas básicas, e são muito úteis na prática!

In [15]:
type(afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS'))

babypandas.bpd.Series

#### Passo 2 – Calculando o total

Para calcular o total da coluna `NUMERO_PRODUTOS_CADASTRADOS`, basta utilizar o método `.sum()`:

In [16]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').sum()

7457.0

Como explicado acima, objetos do tipo `Series` permitem também várias outras operações aritméticas básicas:

In [17]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').max()

21.0

In [18]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').mean()

5.9656

## Quais feirantes vendem mais produtos?

### Ordenando valores

- **Pergunta:** Como podemos _ordenar_ as linhas de um DataFrame de acordo com uma de suas colunas? 🤔
  
- **Resposta:** Basta utilizar o método `.sort_values`!

#### Ordenando o DataFrame de maneira _crescente_

- Use o método `.sort_values(by = column_name)` para ordenar um DataFrame de acordo com a coluna `column_name`.
- Como a maioria dos métodos DataFrame, `.sort_values` retorna um novo DataFrame.
- Note que o `by = ` dentro do parânteses pode ser omitido, mas ajuda na legibilidade do código.

In [19]:
afonso_pena.sort_values(by = 'NUMERO_PRODUTOS_CADASTRADOS')

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
545,Y.F1.V027,BARRACA NATALICE BARBOSA DA CONCEIÇÃO,NATALICE BARBOSA DA CONCEIÇÃO,WALDIR BARBOSA DA SILVA,Alimentação,ACARAJÉ,1.0,33.611058
1019,P.F1.V007,BARRACA EVANDRO TADEU DE OLIVEIRA,EVANDRO TADEU DE OLIVEIRA,JONH WAINE DE ALMEIDA SANTOS,Artes e Pintura,PINTURA ACRÍLICA,1.0,23.790191
122,E.F4.V001,BARRACA DORA LÚCIA BATISTA CUNHA,DORA LÚCIA BATISTA CUNHA,CRISTINA CUNHA ESPERANCA,Vestuário Infantil,VESTIDO,1.0,11.838911
1331,E.F2.V024,BARRACA VALERIA JANINE VILELA RIBEIRO,VALERIA JANINE VILELA RIBEIRO,AGDA GIOVANNA VILELA,Vestuário Infantil,VESTIDO,1.0,11.827592
387,I.F3.V031,BARRACA MARIA ANGELICA DOS SANTOS PINTO,MARIA ANGELICA DOS SANTOS PINTO,PABLO TORQUATO SILVA,"Cintos, Bolsas e Acessórios",BOLSA,1.0,11.838911
...,...,...,...,...,...,...,...,...
653,F.F1.V015,BARRACA SILVIA REGINA NOGUEIRA RIBEIRO,SILVIA REGINA NOGUEIRA RIBEIRO,LIGIA MARIA NOGUEIRA RIBEIRO,Criança,"VESTIDO, BLUSA, CONJUNTO VIROL, CALÇA, COLETE,...",20.0,11.827592
1406,Z.F1.V007,BARRACA FRANCINERE AMARAL CARDOSO RIBEIRO DE S...,FRANCINERE AMARAL CARDOSO RIBEIRO DE SOUZA,RAYKARD AGUIAR DE JESUS,Alimentação,"CERVEJA, REFRIGERANTE, SUCO INDUSTRIALIZADO, E...",20.0,33.611058
336,B.F1.V001,BARRACA LUCY DOS SANTOS SEBASTIAO,LUCY DOS SANTOS SEBASTIAO,LAURO MARTINS DOS SANTOS,Decoração e Utilidades,"CERÂMICA VITRIFICADA, MOLDURA, VELA, CASTIÇAL,...",20.0,21.193242
491,F.F2.V011,BARRACA MARILEA IMACULADA MUNIZ COSTA,MARILEA IMACULADA MUNIZ COSTA,KELLINGTON NONATO MUNIZ COSTA,Criança,"KIT BERÇO, CORTINADO, BONECA DE PELÚCIA, SAIA ...",21.0,11.827592


Ordenamos o DataFrame com sucesso, porém em ordem crescente (isto é, do menor para o maior).

Agora, para responder nossa pergunta original, precisamos fazer a ordenação na ordem contrária!

#### Ordenando o DataFrame em ordem _decrescente_

- Use o método `.sort_values(by = column_name, ascending = False)` para ordenar um DataFrame de acordo com a coluna `column_name`, porém em ordem *decrescente*.
- Aqui, `ascending` é um argumento opcional para `.sort_values`. Se omitido, seu padrão é igual a `True`.
- Este é um exemplo de _argumento nomeado_, ou _keyword argument_.
- Se quisermos especificar a ordem de classificação, devemos usar o argumento `ascending =`.

In [20]:
ordenado = afonso_pena.sort_values(by = 'NUMERO_PRODUTOS_CADASTRADOS', ascending = False)
ordenado

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
109,Y.F1.V012,BARRACA DAYSE PINTO NORBERTO,DAYSE PINTO NORBERTO,DJALMA ANTÔNIO DE FREITAS,Alimentação,"CERVEJA, TORRESMO, CHIPS, AZEITONA, REFRIGERAN...",21.0,33.611057
491,F.F2.V011,BARRACA MARILEA IMACULADA MUNIZ COSTA,MARILEA IMACULADA MUNIZ COSTA,KELLINGTON NONATO MUNIZ COSTA,Criança,"KIT BERÇO, CORTINADO, BONECA DE PELÚCIA, SAIA ...",21.0,11.827592
653,F.F1.V015,BARRACA SILVIA REGINA NOGUEIRA RIBEIRO,SILVIA REGINA NOGUEIRA RIBEIRO,LIGIA MARIA NOGUEIRA RIBEIRO,Criança,"VESTIDO, BLUSA, CONJUNTO VIROL, CALÇA, COLETE,...",20.0,11.827592
1406,Z.F1.V007,BARRACA FRANCINERE AMARAL CARDOSO RIBEIRO DE S...,FRANCINERE AMARAL CARDOSO RIBEIRO DE SOUZA,RAYKARD AGUIAR DE JESUS,Alimentação,"CERVEJA, REFRIGERANTE, SUCO INDUSTRIALIZADO, E...",20.0,33.611058
336,B.F1.V001,BARRACA LUCY DOS SANTOS SEBASTIAO,LUCY DOS SANTOS SEBASTIAO,LAURO MARTINS DOS SANTOS,Decoração e Utilidades,"CERÂMICA VITRIFICADA, MOLDURA, VELA, CASTIÇAL,...",20.0,21.193242
...,...,...,...,...,...,...,...,...
647,P.F1.V023,BARRACA SÉRGIO BARBOSA DE JESUS,SÉRGIO BARBOSA DE JESUS,MARIA ADEMILDE DURAES DOS SANTOS,Artes e Pintura,PINTURA A ÓLEO,1.0,23.790191
401,I.F1.V017,BARRACA ROSÂNGELA APARECIDA CALDEIRA DE ALVAR...,ROSÂNGELA APARECIDA CALDEIRA DE ALVARENGA,ELZIM JOSÉ LUIZ,"Cintos, Bolsas e Acessórios",BOLSA,1.0,11.838911
811,D.F3.V005,BARRACA JANE LACERDA FARIA,JANE LACERDA FARIA,WASHIMGTON GERALDO SILVA,Vestuário,BLUSA,1.0,11.838911
1022,P.F1.V008,BARRACA IVETE EMILIA MAGALHÃES SANTOS,IVETE EMILIA MAGALHÃES SANTOS,LAZARA TEREZA RIZZO,Artes e Pintura,PINTURA A ÓLEO,1.0,23.790191


## Qual das barracas é mais "densa"? 

### Operações aritméticas em colunas

- **Pergunta:** Como podemos criar uma _nova coluna_ em um DataFrame que seja uma função de uma ou mais outras colunas? 🤔
  
- **Resposta:** Podemos proceder assim:
    1. Declaramos uma variável para cada coluna de interesse;
    2. Realizamos as operações entre as variáveis;
    3. Salvamos o resultado em uma nova coluna.

Como exemplo, suponha que estejamos interessados na _densidade_ entre o número de produtos de um vendedor e a área de sua barraca.

### Passo 1 – Declarando as variáveis correspondentes

In [21]:
produtos = afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')
area = afonso_pena.get('AREA')

### Passo 2 – Realizando as operações de interesse 

Assim como nos `arrays` de `numpy`, podemos realizar operações aritméticas nas colunas (`series`) do `pandas`.

Mais especificamente, aqui estamos interessados na razão entre o número de produtos de um vendedor e a área de sua barraca: 

In [22]:
produtos / area

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
84      0.422336
85      0.253402
86      0.253644
87      0.591836
          ...   
1350    0.591271
1351    0.253644
1352    0.422740
1353    0.591271
1354    0.338192
Length: 1250, dtype: float64

### Passo 3 – Salvar o resultado em uma nova coluna

- Utilizamos o método `.assign(name_of_column = data_in_series)` para atribuir uma série (ou array, ou lista) a uma coluna de um DataFrame, com o rótulo `name_of_column`.
- ⚠️ Não coloque aspas em `name_of_column`!
- Assim como vários outros métodos, `.assign` cria um novo DataFrame.

Vamos agora criar um DataFrame com uma coluna `densidade`:

In [23]:
afonso_pena.assign(DENSIDADE = produtos / area)

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN LÚCIA CARVALHO DE ALMEIDA,CARMEN LÚCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestuário Infantil,"VESTIDO, CONJUNTO, MACACÃO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CECÍLIA PAGANO NEVES SALAZAR,CECÍLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestuário Infantil,"MACACÃO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
87,D.F2.V016,BARRACA CÉLIA APARECIDA DE SOUZA,CÉLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestuário,"BLUSA, BERMUDA, ROUPA DE GINÁSTICA, SAIA, VEST...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIANÇA...",7.0,11.838911,0.591271
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Calçados,"RASTEIRINHA, SAPATO, SANDÁLIA",3.0,11.827592,0.253644
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestuário,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592,0.422740
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911,0.591271


Conforme explicado anteriormente, note que a operação `.assign` acima _não alterou_ nosso DataFrame original!

In [24]:
afonso_pena.columns

Index(['CODIGO_VAGA', 'NOME_FANTASIA', 'NOME_FEIRANTE', 'NOME_PREPOSTO',
       'NOME_SETOR', 'PRODUTOS', 'NUMERO_PRODUTOS_CADASTRADOS', 'AREA'],
      dtype='object')

Para alterarmos nosso DataFrame e efetivamente criar uma nova coluna no mesmo, devemos utilizar uma nova operação de atribuição:

In [25]:
afonso_pena = afonso_pena.assign(DENSIDADE = produtos / area)
afonso_pena.get('DENSIDADE')

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
84      0.422336
85      0.253402
86      0.253644
87      0.591836
          ...   
1350    0.591271
1351    0.253644
1352    0.422740
1353    0.591271
1354    0.338192
Name: DENSIDADE, Length: 1250, dtype: float64

Agora sim! 😁

### Exercício ✅

Escreva um código em cada célula abaixo para calcular:
1. A densidade máxima.
2. A densidade mínima.
3. A densidade média.

In [26]:
...

Ellipsis

In [27]:
...

Ellipsis

In [28]:
...

Ellipsis

## E qual seria a densidade média das barracas de produtos de crianças 👶🧸?

### Fazendo consultas em um DataFrame

- **Pergunta:** Como podemos _filtrar_ nosso DataFrame de acordo com os valores de uma de suas colunas? 🤔
  
- **Resposta:** Utilizando _consultas_, ou _queries_!

Suponha então que estejamos interessados em calcular a densidade média das barracas que vendem _apenas_ produtos para crianças.

In [29]:
# A coluna "NOME_SETOR" contém o setor de venda de cada barraca
afonso_pena.get('NOME_SETOR')

ID_FEIRA_AFONSO_PENA_BARRACA
83                 Criança
84             Bijouterias
85      Vestuário Infantil
86      Vestuário Infantil
87               Vestuário
               ...        
1350           Bijouterias
1351              Calçados
1352             Vestuário
1353           Bijouterias
1354           Bijouterias
Name: NOME_SETOR, Length: 1250, dtype: object

Se quisermos saber então se uma barraca específica vende produtos para crianças, podemos utilizar o _operador de comparação_ `==`.

- Em essência, uma comparação utilizando `==` acima nos diz se uma condição é **verdadeira** (`True`) ou **falsa** (`False`).
- Note porém que `==` não é igual a `=` – o primeiro é um operador de _comparação_, e o segundo de _atribuição_! 

In [30]:
'Criança' == 'Criança'

True

In [31]:
'Criança' == 'Adulto'

False

In [32]:
# Descomente e execute
# 'Crianca' = 'Adulto'

Para atingir nosso objetivo original, podemos _transmitir_ a verificação de igualdade para cada elemento de uma `serie`, no caso nossa coluna `NOME_SETOR`.

Assim como vimos anteriormente, essa comparação acontece elemento a elemento: 

In [33]:
afonso_pena.get('NOME_SETOR') == 'Criança'

ID_FEIRA_AFONSO_PENA_BARRACA
83       True
84      False
85      False
86      False
87      False
        ...  
1350    False
1351    False
1352    False
1353    False
1354    False
Name: NOME_SETOR, Length: 1250, dtype: bool

### Interlúdio: Booleanos

- Quando comparamos dois valores, o resultado é sempre `True` ou `False`.
- Observe que essas palavras não estão entre aspas!
- `bool` é um tipo de dado em Python, assim como `int`, `float` e `str`.
- O nome `bool` é um diminutivo de "boolean" (ou "variável booleana"), em homenagem a George Boole, um dos primeiros matemáticos e lógicos.

- Existem apenas dois valores booleanos possíveis: `True` ou `False`.
- Esses valores possuem analogia direta com vários estados da natureza:
    - Sim ou não;
    - Ligado ou desligado;
    - 1 ou 0.

### Operadores de comparação

Existem vários tipos de operadores de comparação:

|símbolo|significado|
|--------|--------|
|`==` |igual a |
|`!=` |diferente de |
|`<`|menos que|
|`<=`|menor ou igual a|
|`>`|maior que|
|`>=`|maior ou igual a|


Retornando ao exemplo anterior, podemos utilizar o operador apropriado para saber quais são os vendededores que _não_ vendem produtos para crianças.

Observe que a resposta é o oposto de antes!

In [34]:
afonso_pena.get('NOME_SETOR') != 'Criança'

ID_FEIRA_AFONSO_PENA_BARRACA
83      False
84       True
85       True
86       True
87       True
        ...  
1350     True
1351     True
1352     True
1353     True
1354     True
Name: NOME_SETOR, Length: 1250, dtype: bool

### E o que é uma "consulta", afinal? 

- Uma _consulta_/_query_ é um código que extrai linhas de um DataFrame para as quais determinadas condições são verdadeiras.
- Freqüentemente utilizamos consultas para _filtrar_ DataFrames para que contenham apenas as linhas que satisfaçam as condições declaradas em nossas perguntas.

### Consultando um DataFrame

Para selecionar apenas determinadas linhas de um DataFrame, podemos proceder da seguinte forma:

1. Criamos uma sequência `booleans` (que pode ser do tipo `List`, `Array` ou `Series`) de `True`s (que vamos manter) e `False`s (que vamos eliminar), geralmente através de um operador de comparação.
2. Passamos essa lista para o DataFrame `df` invocando `df[booleans]`.

Retornando ao nosso exemplo, podemos então filtrar as barracas que vendem produtos para crianças da seguinte forma: 

In [35]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Criança']

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Criança,"BOLSA DE BEBÊ, MALA DE MATERNIDADE, NECESSÁIRE...",5.0,11.838911,0.422336
97,F.F3.V022,BARRACA CLÁUDIA REGINA RACHID NETTO,CLÁUDIA REGINA RACHID NETTO,HERMOGENES GONÇALVES NETTO,Criança,"SACOLA, MOISÉS, FRASQUEIRA, MALA, NECESSÁIRE",5.0,11.838911,0.422336
99,F.F2.V002,BARRACA CLESIA LUCI TORRES DE OLIVEIRA,CLESIA LUCI TORRES DE OLIVEIRA,ANA CAROLINE SILVA MATOZINHOS,Criança,"BONECO, MÓBILE, BICHO DE PANO",3.0,11.838911,0.253402
108,F.F1.V031,BARRACA DAISY ANDRADE,DAISY ANDRADE,MARCIO MARTINS,Criança,"PAGÃO, CABIDE",2.0,11.827592,0.169096
114,F.F2.V013,BARRACA DIRLENE VILELA ROMÃO,DIRLENE VILELA ROMÃO,MICHELLE VILELA COSTA,Criança,"EDREDON, MANTA, CAPA DE CARRINHO, CORTINADO DE...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1411,F.F3.V013,BARRACA ROSANA DANIEL DE FIGUEIREDO,ROSANA DANIEL DE FIGUEIREDO,MARIA DO ROSARIO SILVA SALGADO,Criança,"KIT BERÇO, MANTA, PROTETOR DE BERÇO, CAPA DE C...",10.0,11.827592,0.845481
1467,F.F1.V005,BARRACA LYDNEIA MELISSA TEIXEIRA,LYDNEIA MELISSA TEIXEIRA,LYDSSEI MELISSA TEIXEIRA FERREIRA,Criança,"KIT BERÇO, SAIA PARA BERÇO, NINHO, LENÇOL, ALM...",8.0,11.827592,0.676384
1468,F.F4.V014,BARRACA PAULA GUERRA IGLESIAS RODRIGUES,PAULA GUERRA IGLESIAS RODRIGUES,GREG PETERSON LOPES PERUZZO,Criança,"BONECA DE PANO, BONECA DE FELTRO, BONECO, DEDO...",5.0,11.838911,0.422336
1426,F.F3.V010,BARRACA ALESSANDRA DE ABREU REIS,ALESSANDRA DE ABREU REIS,GLAUCIA HELENA DE ABREU TAVARES,Criança,"ACESSÓRIOS PARA CACHORRO, ALMOFADA, CAMA DE TE...",14.0,11.838911,1.182541


### Densidade média das barracas de produtos de crianças 👶🧸

Retornando mais uma vez à nossa pergunta original, podemos calcular enfim a densidade média das barracas dos vendedores que vendem apenas produtos para crianças bastando para isso apenas filtrar nosso DataFrame `afonso_pena` adequadamente, atribuí-lo a um objeto adequado e calcular a média da coluna `DENSIDADE` do objeto correspondente:

In [36]:
criancas = afonso_pena[afonso_pena.get('NOME_SETOR') == 'Criança']
criancas.get('DENSIDADE')

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
97      0.422336
99      0.253402
108     0.169096
114     0.591836
          ...   
1411    0.845481
1467    0.676384
1468    0.422336
1426    1.182541
1337    0.506803
Name: DENSIDADE, Length: 103, dtype: float64

In [37]:
criancas.get('DENSIDADE').mean()

0.6106923564685903

### E se estivermos interessados nos vendedores de comidas? 

🍓 🍒 🍎 🍉 🍑 🍊 🥭 🍍 🍌 🍋 🍈 🍏 🍐 🥝 🍇 🥥 🍅 🌶 🍄 🥕 🍠 🧅 🌽 🥦 🥒🥬 🥑 🍆 🧄 🥔 🌰🥜

In [38]:
comidas = afonso_pena[afonso_pena.get('NOME_SETOR') == 'Alimentação']
comidas.get('DENSIDADE').mean()

0.218202423788409

Como explicar o resultado acima? 🤔

In [39]:
comidas.get('AREA').mean()

33.593432833729956

In [40]:
criancas.get('AREA').mean()

12.378615690707454

Parece que as barracas de comida têm bem mais espaço do que as que vendem produtos para crianças. 

Em retrospecto, isso é bem razoável, uma vez que os vendedores dessas barracas em geral precisam de espaço para cozinhar!

## Resumo

- Nesse tópico, introduzimos os conceitos e propriedades básicas dos `DataFrame`s de `pandas`.
- Um DataFrame representa uma tabela, e é análogo à um `array`, com linhas e colunas. 
- Os rótulos das linhas de um DataFrame são comumente chamados de índices.
- Uma coluna de um DataFrame é uma série (`Series`). Séries são como arrays, mas com índices associados a elas.
- Podemos realizar os mais diversos tipos de funções aritméticas básicas nas séries, de maneira nativa.- Os DataFrames nos permitem realizar consultas, operação em que filtramos as linhas do DataFrame pelos resultados de uma ou mais de suas colunas.
- Para realizar consultas de maneira simples e eficiente, podemos utilizar os operadores de comparação e a propriedade de transmissão/vetorização dos DataFrames.
