---
layout: page
title: BabyPandas
nav_order: 5
---
[<img src="https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/flaviovdf/fcd/blob/master/_lessons/05-BabyPandas.ipynb)

# T√≥pico 5 ‚Äì DataFrames: Acessando DataFrames e S√©ries
{: .no_toc .mb-2 }

DataFrames representam tabelas. Vamos finalmente explorar alguns dados!
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Entender o `DataFrame` de pandas/babypandas
1. Saber acessar linhas e colunas
1. Entender consultas b√°sicas

{: .no_toc .text-delta }
Material Adaptado do [DSC10 (UCSD)](https://dsc10.com/)

Os dados de hoje est√£o [aqui](https://raw.githubusercontent.com/flaviovdf/fcd/main/assets/06-GroupBy/data/afonso_pena.csv)

### Agenda

Hoje, usaremos um conjunto de dados real e muitas perguntas motivadoras para ilustrar as principais t√©cnicas de manipula√ß√£o de DataFrame.

#### Observa√ß√£o:

Alguns links importantes daqui para frente:

-[Comandos e Conceitos √öteis](https://flaviovdf.io/fcd/guiarapido/).

-[`babypandas` notes](https://notes.dsc10.com).

-[`babypandas` documentation](https://babypandas.readthedocs.io/en/latest/index.html).

## Tabelas de Dados

### `pandas`

- DataFrames (tabelas) s√£o fornecidos por um pacote chamado `pandas`.
- `pandas` √© **a** ferramenta para fazer ci√™ncia de dados em Python.

![](https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/05-BabyPandas/images/pandas.png)

### Mas a biblioteca `pandas` padr√£o n√£o √© t√£o fofa...

![](https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/05-BabyPandas/images/angrypanda.jpg)

### Digite `babypandas`!

- Criada pela Universidade de California San Diego (UCSD) criamos uma vers√£o menor e mais agrad√°vel de `pandas` chamada `babypandas`.
- Mant√©m as coisas importantes e tem mensagens de erro muito melhores.
- √â mais f√°cil de aprender, mas ainda √© um c√≥digo `pandas` v√°lido.

![](https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/05-BabyPandas/images/babypanda.jpg)

### DataFrames em `babypandas` üêº

- As tabelas em `babypandas` (e `pandas`) s√£o chamadas de "DataFrames".
- Para usar DataFrames, precisaremos importar `babypandas`. (Precisaremos de `numpy` tamb√©m.)

In [1]:
import babypandas as bpd
import numpy as np

### Sobre os dados: Feira da Afonso Pena üë∑

- Normalmente trabalharemos com dados armazenados no formato CSV. CSV significa ‚Äúvalores separados por v√≠rgula‚Äù.
- O arquivo [afonso_pena.csv](https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/05-BabyPandas/images/) cont√©m informa√ß√µes sobre as barracas da feira. Tais dados foram coletados da Prefeitura de Belo Horizonte [Dados Abertos PBH](https://dados.pbh.gov.br/dataset/dicionario-de-dados-feira-afonso-pena-barraca).

![](https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/05-BabyPandas/images/afonsopena.webp)

### Lendo dados de um arquivo üìñ

Podemos ler em um CSV usando `bpd.read_csv(...)`. Forne√ßa o caminho para um arquivo relativo ao seu notebook (se o arquivo estiver na mesma pasta do seu notebook, esse √© apenas o nome do arquivo).

In [2]:
# para rodar no colab use 'https://raw.githubusercontent.com/flaviovdf/fcd/main/assets/06-GroupBy/data/afonso_pena.csv'
# i.e., afonso_pena = bpd.read_csv('https://raw.githubusercontent.com/flaviovdf/fcd/main/assets/06-GroupBy/data/afonso_pena.csv')
afonso_pena = bpd.read_csv('afonso_pena.csv')

### Estrutura de um DataFrame

- DataFrames possuem *colunas* e *linhas*.
- Pense em cada coluna como um array. As colunas cont√™m dados do mesmo `tipo`.
- Cada coluna possui um r√≥tulo, por ex. `'NOME_SETOR'` e `'NOME_FEIRANTE'`.
- O r√≥tulo de uma coluna √© o seu nome.
- Os r√≥tulos das colunas s√£o armazenados como strings.
- Cada linha tamb√©m possui um r√≥tulo.
- Juntos, os r√≥tulos das linhas s√£o chamados de _√≠ndice_. O √≠ndice **n√£o** √© uma coluna!


In [3]:
afonso_pena

Unnamed: 0,ID_FEIRA_AFONSO_PENA_BARRACA,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
0,83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911
1,84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
2,85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911
3,86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592
4,87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...,...
1245,1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911
1246,1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592
1247,1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1248,1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


### Configurando um novo √≠ndice

- Podemos definir um √≠ndice melhor usando `.set_index(column_name)`.
- Os r√≥tulos das linhas devem ser identificadores exclusivos.
- Os r√≥tulos das linhas s√£o nomes de linhas; idealmente, cada linha tem um nome descritivo diferente.
- ‚ö†Ô∏è Como a maioria dos m√©todos DataFrame, `.set_index` retorna um novo DataFrame; n√£o modifica o DataFrame original.

In [4]:
afonso_pena.set_index('ID_FEIRA_AFONSO_PENA_BARRACA')

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911
86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [5]:
afonso_pena

Unnamed: 0,ID_FEIRA_AFONSO_PENA_BARRACA,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
0,83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911
1,84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
2,85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911
3,86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592
4,87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...,...
1245,1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911
1246,1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592
1247,1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1248,1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [6]:
afonso_pena = afonso_pena.set_index('ID_FEIRA_AFONSO_PENA_BARRACA')
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911
86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


### Forma de um DataFrame

- `.shape` retorna o n√∫mero de linhas e colunas em um determinado DataFrame.
- Acesse cada um com `[]`:
- `.shape[0]` para linhas.
- `.shape[1]` para colunas.

In [7]:
# There were 9 columns before, but one of them became the index, and the index is not a column!
afonso_pena.shape

(1250, 8)

In [8]:
# Number of rows
afonso_pena.shape[0]

1250

In [9]:
# Number of columns
afonso_pena.shape[1]

8

## Exemplo 1: Total, Media e Mediana de Produtos

**Conceitos principais:** Acessar colunas, entender opera√ß√µes em colunas num√©ricas.

### Encontrando o total de solicita√ß√µes

- **Pergunta:** Como sumarizar uma coluna?
- Obtenha a coluna
- Agregue o valor

#### Etapa 1 ‚Äì Obtendo uma coluna

- Podemos obter uma coluna de um DataFrame usando `.get(column_name)`.
- ‚ö†Ô∏è Os nomes das colunas diferenciam mai√∫sculas de min√∫sculas!
- Os nomes das colunas s√£o strings, ent√£o precisamos usar aspas.
- O resultado parece um DataFrame de 1 coluna, mas na verdade √© uma *S√©rie*.

In [10]:
afonso_pena

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911
85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911
86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592
87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592
...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911


In [11]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')

ID_FEIRA_AFONSO_PENA_BARRACA
83      5.0
84      5.0
85      3.0
86      3.0
87      7.0
       ... 
1350    7.0
1351    3.0
1352    5.0
1353    7.0
1354    4.0
Name: NUMERO_PRODUTOS_CADASTRADOS, Length: 1250, dtype: float64

### Digress√£o: S√©rie

- Uma *S√©rie* √© como um array, mas com um √≠ndice.
- Em particular, as s√©ries suportam aritm√©tica.

In [12]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')

ID_FEIRA_AFONSO_PENA_BARRACA
83      5.0
84      5.0
85      3.0
86      3.0
87      7.0
       ... 
1350    7.0
1351    3.0
1352    5.0
1353    7.0
1354    4.0
Name: NUMERO_PRODUTOS_CADASTRADOS, Length: 1250, dtype: float64

#### Etapa 2 ‚Äì Calculando o total

- Assim como acontece com os arrays, podemos realizar opera√ß√µes aritm√©ticas nas s√©ries

In [13]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').sum()

7457.0

In [14]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').max()

21.0

In [15]:
afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS').mean()

5.9656

## Exemplo 2: Quais feirantes vendem mais produtos?

**Conceitos principais**: Classifica√ß√£o. Acessando usando posi√ß√µes inteiras.

#### Etapa 1 ‚Äì Classificando o DataFrame

- Use o m√©todo `.sort_values(by=column_name)` para classificar.
- O `by=` pode ser omitido, mas ajuda na legibilidade.
- Como a maioria dos m√©todos DataFrame, retorna um novo DataFrame.

In [16]:
afonso_pena.sort_values(by='NUMERO_PRODUTOS_CADASTRADOS')

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
545,Y.F1.V027,BARRACA NATALICE BARBOSA DA CONCEI√á√ÉO,NATALICE BARBOSA DA CONCEI√á√ÉO,WALDIR BARBOSA DA SILVA,Alimenta√ß√£o,ACARAJ√â,1.0,33.611058
1019,P.F1.V007,BARRACA EVANDRO TADEU DE OLIVEIRA,EVANDRO TADEU DE OLIVEIRA,JONH WAINE DE ALMEIDA SANTOS,Artes e Pintura,PINTURA ACR√çLICA,1.0,23.790191
122,E.F4.V001,BARRACA DORA L√öCIA BATISTA CUNHA,DORA L√öCIA BATISTA CUNHA,CRISTINA CUNHA ESPERANCA,Vestu√°rio Infantil,VESTIDO,1.0,11.838911
1331,E.F2.V024,BARRACA VALERIA JANINE VILELA RIBEIRO,VALERIA JANINE VILELA RIBEIRO,AGDA GIOVANNA VILELA,Vestu√°rio Infantil,VESTIDO,1.0,11.827592
387,I.F3.V031,BARRACA MARIA ANGELICA DOS SANTOS PINTO,MARIA ANGELICA DOS SANTOS PINTO,PABLO TORQUATO SILVA,"Cintos, Bolsas e Acess√≥rios",BOLSA,1.0,11.838911
...,...,...,...,...,...,...,...,...
653,F.F1.V015,BARRACA SILVIA REGINA NOGUEIRA RIBEIRO,SILVIA REGINA NOGUEIRA RIBEIRO,LIGIA MARIA NOGUEIRA RIBEIRO,Crian√ßa,"VESTIDO, BLUSA, CONJUNTO VIROL, CAL√áA, COLETE,...",20.0,11.827592
1406,Z.F1.V007,BARRACA FRANCINERE AMARAL CARDOSO RIBEIRO DE S...,FRANCINERE AMARAL CARDOSO RIBEIRO DE SOUZA,RAYKARD AGUIAR DE JESUS,Alimenta√ß√£o,"CERVEJA, REFRIGERANTE, SUCO INDUSTRIALIZADO, E...",20.0,33.611058
336,B.F1.V001,BARRACA LUCY DOS SANTOS SEBASTIAO,LUCY DOS SANTOS SEBASTIAO,LAURO MARTINS DOS SANTOS,Decora√ß√£o e Utilidades,"CER√ÇMICA VITRIFICADA, MOLDURA, VELA, CASTI√áAL,...",20.0,21.193242
491,F.F2.V011,BARRACA MARILEA IMACULADA MUNIZ COSTA,MARILEA IMACULADA MUNIZ COSTA,KELLINGTON NONATO MUNIZ COSTA,Crian√ßa,"KIT BER√áO, CORTINADO, BONECA DE PEL√öCIA, SAIA ...",21.0,11.827592


Isso classifica, mas em ordem crescente (de pequeno para grande). Queremos o contr√°rio!

#### Etapa 2 ‚Äì Classificando o DataFrame em ordem *decrescente*

- Use `.sort_values(by=column_name, ascending=False)` para classificar em ordem *decrescente*.
- `ascendente` √© um argumento opcional. Se omitido, ser√° definido como `True` por padr√£o.
- Este √© um exemplo de *argumento de palavra-chave* ou *argumento nomeado*.
- Se quisermos especificar a ordem de classifica√ß√£o, devemos usar a palavra-chave `ascendente=`.

In [17]:
ordenado = afonso_pena.sort_values(by='NUMERO_PRODUTOS_CADASTRADOS', ascending=False)
ordenado

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
109,Y.F1.V012,BARRACA DAYSE PINTO NORBERTO,DAYSE PINTO NORBERTO,DJALMA ANT√îNIO DE FREITAS,Alimenta√ß√£o,"CERVEJA, TORRESMO, CHIPS, AZEITONA, REFRIGERAN...",21.0,33.611057
491,F.F2.V011,BARRACA MARILEA IMACULADA MUNIZ COSTA,MARILEA IMACULADA MUNIZ COSTA,KELLINGTON NONATO MUNIZ COSTA,Crian√ßa,"KIT BER√áO, CORTINADO, BONECA DE PEL√öCIA, SAIA ...",21.0,11.827592
653,F.F1.V015,BARRACA SILVIA REGINA NOGUEIRA RIBEIRO,SILVIA REGINA NOGUEIRA RIBEIRO,LIGIA MARIA NOGUEIRA RIBEIRO,Crian√ßa,"VESTIDO, BLUSA, CONJUNTO VIROL, CAL√áA, COLETE,...",20.0,11.827592
1406,Z.F1.V007,BARRACA FRANCINERE AMARAL CARDOSO RIBEIRO DE S...,FRANCINERE AMARAL CARDOSO RIBEIRO DE SOUZA,RAYKARD AGUIAR DE JESUS,Alimenta√ß√£o,"CERVEJA, REFRIGERANTE, SUCO INDUSTRIALIZADO, E...",20.0,33.611058
336,B.F1.V001,BARRACA LUCY DOS SANTOS SEBASTIAO,LUCY DOS SANTOS SEBASTIAO,LAURO MARTINS DOS SANTOS,Decora√ß√£o e Utilidades,"CER√ÇMICA VITRIFICADA, MOLDURA, VELA, CASTI√áAL,...",20.0,21.193242
...,...,...,...,...,...,...,...,...
647,P.F1.V023,BARRACA S√âRGIO BARBOSA DE JESUS,S√âRGIO BARBOSA DE JESUS,MARIA ADEMILDE DURAES DOS SANTOS,Artes e Pintura,PINTURA A √ìLEO,1.0,23.790191
401,I.F1.V017,BARRACA ROS√ÇNGELA APARECIDA CALDEIRA DE ALVAR...,ROS√ÇNGELA APARECIDA CALDEIRA DE ALVARENGA,ELZIM JOS√â LUIZ,"Cintos, Bolsas e Acess√≥rios",BOLSA,1.0,11.838911
811,D.F3.V005,BARRACA JANE LACERDA FARIA,JANE LACERDA FARIA,WASHIMGTON GERALDO SILVA,Vestu√°rio,BLUSA,1.0,11.838911
1022,P.F1.V008,BARRACA IVETE EMILIA MAGALH√ÉES SANTOS,IVETE EMILIA MAGALH√ÉES SANTOS,LAZARA TEREZA RIZZO,Artes e Pintura,PINTURA A √ìLEO,1.0,23.790191


## Exemplo 3: Criando novas Colunas

**Conceitos Principais** Entender opera√ß√µes em colunas assim como em vetores

### Etapa 1 - Opera√ß√µes aritm√©ticas em colunas

* Crie uma vari√°vel para o n√∫mero de produtos cadastrados
* Crie uma outra vari√°vel para a √°rea

In [18]:
produtos = afonso_pena.get('NUMERO_PRODUTOS_CADASTRADOS')
area = afonso_pena.get('AREA')

* Assim como em `numpy` (aula passada), podemos realizar opera√ß√µes aritm√©ticas em colunas pandas.

In [19]:
produtos / area

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
84      0.422336
85      0.253402
86      0.253644
87      0.591836
          ...   
1350    0.591271
1351    0.253644
1352    0.422740
1353    0.591271
1354    0.338192
Length: 1250, dtype: float64

* Observe como a resposta tem a divis√£o dos produtos pela √°rea, ou seja, a densidade de cada barraca
* Al√©m do mais, observe como temos tamb√©m o √≠ndice de cada barraca

### Etapa 2: Criando uma nova coluna

* Agora, vamos criar a coluna densidade na nossa base de dados
* Use `.assign(name_of_column=data_in_series)` para atribuir uma s√©rie (ou array, ou lista) a um DataFrame.
* ‚ö†Ô∏è N√£o coloque aspas em `name_of_column`.
* Cria um novo DataFrame!

In [20]:
afonso_pena.assign(DENSIDADE = produtos / area)

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911,0.422336
84,G.F3.V052,BARRACA CARMEN FERNANDA ROCHA DE ALCANTARA,CARMEN FERNANDA ROCHA DE ALCANTARA,KARINA RODRIGUES BRANDORFI,Bijouterias,"BRINCO, ANEL, PULSEIRA, COLAR, ARCO",5.0,11.838911,0.422336
85,E.F4.V003,BARRACA CARMEN L√öCIA CARVALHO DE ALMEIDA,CARMEN L√öCIA CARVALHO DE ALMEIDA,BARBARA ISABELLE CARVALHO DE PAULA,Vestu√°rio Infantil,"VESTIDO, CONJUNTO, MACAC√ÉO",3.0,11.838911,0.253402
86,E.F2.V004,BARRACA CEC√çLIA PAGANO NEVES SALAZAR,CEC√çLIA PAGANO NEVES SALAZAR,GISELE PAGANO NEVES SALAZAR,Vestu√°rio Infantil,"MACAC√ÉO, BLUSA, SAPATINHO",3.0,11.827592,0.253644
87,D.F2.V016,BARRACA C√âLIA APARECIDA DE SOUZA,C√âLIA APARECIDA DE SOUZA,EDSON PIRES DE SOUZA,Vestu√°rio,"BLUSA, BERMUDA, ROUPA DE GIN√ÅSTICA, SAIA, VEST...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1350,G.F4.V014,BARRACA HELCIO LICIO SILVA,HELCIO LICIO SILVA,GRAZIELA CRISTINA RAMALHO SILVA,Bijouterias,"ANEL, COLAR, BROCHE, BRINCO, PULSEIRA, ALIAN√áA...",7.0,11.838911,0.591271
1351,J.F1.V004,BARRACA DIEGO DOS SANTOS DIAS,DIEGO DOS SANTOS DIAS,CELSO DE SOUZA LINHARES,Cal√ßados,"RASTEIRINHA, SAPATO, SAND√ÅLIA",3.0,11.827592,0.253644
1352,D.F4.V050,BARRACA JAIR CORREA,JAIR CORREA,Keli Aparecida Batista Correa,Vestu√°rio,"VESTIDO DE MALHA, BATA DE TECIDO, CONJUNTO, SA...",5.0,11.827592,0.422740
1353,G.F2.V010,BARRACA SIDNEY FERNANDO KNEIPP SOARES,SIDNEY FERNANDO KNEIPP SOARES,ANA PAULA FAUSTINA DE SOUZA,Bijouterias,"COLAR, GARGANTILHA, ARCO, ANEL, PASSADOR DE CA...",7.0,11.838911,0.591271


* O c√≥digo acima cria n√£o altera os dados originais
* Ainda temos as mesmas colunas de antes

In [21]:
afonso_pena.columns

Index(['CODIGO_VAGA', 'NOME_FANTASIA', 'NOME_FEIRANTE', 'NOME_PREPOSTO',
       'NOME_SETOR', 'PRODUTOS', 'NUMERO_PRODUTOS_CADASTRADOS', 'AREA'],
      dtype='object')

* Por√©m, podemos criar uma vari√°vel

In [22]:
afonso_pena = afonso_pena.assign(DENSIDADE = produtos / area)
afonso_pena.get('DENSIDADE')

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
84      0.422336
85      0.253402
86      0.253644
87      0.591836
          ...   
1350    0.591271
1351    0.253644
1352    0.422740
1353    0.591271
1354    0.338192
Name: DENSIDADE, Length: 1250, dtype: float64

## Exemplo 3: Agora voc√™ responda.
- Qual a densidade m√°xima?
- Qual a densidade m√≠nima?
- Qual a densidade m√©dia?

In [23]:
# Suas respostas aqui!

## Exemplo 4: A densidade m√©dia das barracas de produtos de crian√ßas üë∂üß∏?

- Podemos responde a pergunda acima se tiv√©ssemos um DataFrame composto apenas por tais barracas.
- Como conseguimos esse DataFrame?

In [24]:
# Aqui temos os setores
afonso_pena.get('NOME_SETOR')

ID_FEIRA_AFONSO_PENA_BARRACA
83                 Crian√ßa
84             Bijouterias
85      Vestu√°rio Infantil
86      Vestu√°rio Infantil
87               Vestu√°rio
               ...        
1350           Bijouterias
1351              Cal√ßados
1352             Vestu√°rio
1353           Bijouterias
1354           Bijouterias
Name: NOME_SETOR, Length: 1250, dtype: object

In [25]:
# Quais deles s√£o de crian√ßas
afonso_pena.get('NOME_SETOR') == 'Crian√ßa'

ID_FEIRA_AFONSO_PENA_BARRACA
83       True
84      False
85      False
86      False
87      False
        ...  
1350    False
1351    False
1352    False
1353    False
1354    False
Name: NOME_SETOR, Length: 1250, dtype: bool

Use `==` para verificar a igualdade. N√£o `=`, pois √© para atribui√ß√£o de um valor a uma vari√°vel.

In [26]:
'Crian√ßa' == 'Crian√ßa'

True

In [27]:
'Crian√ßa' == 'Adulto'

False

Podemos *transmitir* a verifica√ß√£o de igualdade para cada elemento de uma S√©rie. A compara√ß√£o acontece elemento a elemento.

In [28]:
afonso_pena.get('NOME_SETOR') == 'Crian√ßa'

ID_FEIRA_AFONSO_PENA_BARRACA
83       True
84      False
85      False
86      False
87      False
        ...  
1350    False
1351    False
1352    False
1353    False
1354    False
Name: NOME_SETOR, Length: 1250, dtype: bool

### √Ä parte: Booleanos

- Quando comparamos dois valores, o resultado √© `True` ou `False`.
- Observe que essas palavras n√£o est√£o entre aspas.
- `bool` √© um tipo de dados em Python, assim como `int`, `float` e `str`.
- Significa "Boolean", em homenagem a George Boole, um dos primeiros matem√°ticos.
- Existem apenas dois valores booleanos poss√≠veis: `True` ou `False`.
- Sim ou n√£o.
- Ligado ou desligado.
- 1 ou 0.

### Operadores de compara√ß√£o

Existem v√°rios tipos de compara√ß√µes que podemos fazer.

|s√≠mbolo|significado|
|--------|--------|
|`==` |igual a |
|`!=` |diferente de |
|`<`|menos que|
|`<=`|menor ou igual a|
|`>`|maior que|
|`>=`|maior ou igual a|

Podemos ent√£o usar o operador apropriado para ver tudo que √© diferente de 'Crian√ßa'
Observe que a resposta √© o oposto de antes!

In [29]:
afonso_pena.get('NOME_SETOR') != 'Crian√ßa'

ID_FEIRA_AFONSO_PENA_BARRACA
83      False
84       True
85       True
86       True
87       True
        ...  
1350     True
1351     True
1352     True
1353     True
1354     True
Name: NOME_SETOR, Length: 1250, dtype: bool

### O que √© uma consulta? ü§î

- Uma "consulta" √© um c√≥digo que extrai linhas de um DataFrame para as quais determinadas condi√ß√µes s√£o verdadeiras.
- Freq√ºentemente usamos consultas para _filtrar_ DataFrames para que contenham apenas as linhas que satisfa√ßam as condi√ß√µes declaradas em nossas perguntas.

### Como consultamos um DataFrame?

Para selecionar apenas determinadas linhas de `solicita√ß√µes`:

1. Fa√ßa uma sequ√™ncia (lista/matriz/s√©rie) de `True`s (manter) e `False`s (lan√ßar), geralmente fazendo uma compara√ß√£o.
2. Em seguida, passe-o para `dados[booleanos]`.

In [30]:
afonso_pena[afonso_pena.get('NOME_SETOR') == 'Crian√ßa']

Unnamed: 0_level_0,CODIGO_VAGA,NOME_FANTASIA,NOME_FEIRANTE,NOME_PREPOSTO,NOME_SETOR,PRODUTOS,NUMERO_PRODUTOS_CADASTRADOS,AREA,DENSIDADE
ID_FEIRA_AFONSO_PENA_BARRACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
83,F.F2.V016,BARRACA CARMEN EMMANUEL DOS SANTOS SILVA,CARMEN EMMANUEL DOS SANTOS SILVA,JANA FONSECA VIEIRA,Crian√ßa,"BOLSA DE BEB√ä, MALA DE MATERNIDADE, NECESS√ÅIRE...",5.0,11.838911,0.422336
97,F.F3.V022,BARRACA CL√ÅUDIA REGINA RACHID NETTO,CL√ÅUDIA REGINA RACHID NETTO,HERMOGENES GON√áALVES NETTO,Crian√ßa,"SACOLA, MOIS√âS, FRASQUEIRA, MALA, NECESS√ÅIRE",5.0,11.838911,0.422336
99,F.F2.V002,BARRACA CLESIA LUCI TORRES DE OLIVEIRA,CLESIA LUCI TORRES DE OLIVEIRA,ANA CAROLINE SILVA MATOZINHOS,Crian√ßa,"BONECO, M√ìBILE, BICHO DE PANO",3.0,11.838911,0.253402
108,F.F1.V031,BARRACA DAISY ANDRADE,DAISY ANDRADE,MARCIO MARTINS,Crian√ßa,"PAG√ÉO, CABIDE",2.0,11.827592,0.169096
114,F.F2.V013,BARRACA DIRLENE VILELA ROM√ÉO,DIRLENE VILELA ROM√ÉO,MICHELLE VILELA COSTA,Crian√ßa,"EDREDON, MANTA, CAPA DE CARRINHO, CORTINADO DE...",7.0,11.827592,0.591836
...,...,...,...,...,...,...,...,...,...
1411,F.F3.V013,BARRACA ROSANA DANIEL DE FIGUEIREDO,ROSANA DANIEL DE FIGUEIREDO,MARIA DO ROSARIO SILVA SALGADO,Crian√ßa,"KIT BER√áO, MANTA, PROTETOR DE BER√áO, CAPA DE C...",10.0,11.827592,0.845481
1467,F.F1.V005,BARRACA LYDNEIA MELISSA TEIXEIRA,LYDNEIA MELISSA TEIXEIRA,LYDSSEI MELISSA TEIXEIRA FERREIRA,Crian√ßa,"KIT BER√áO, SAIA PARA BER√áO, NINHO, LEN√áOL, ALM...",8.0,11.827592,0.676384
1468,F.F4.V014,BARRACA PAULA GUERRA IGLESIAS RODRIGUES,PAULA GUERRA IGLESIAS RODRIGUES,GREG PETERSON LOPES PERUZZO,Crian√ßa,"BONECA DE PANO, BONECA DE FELTRO, BONECO, DEDO...",5.0,11.838911,0.422336
1426,F.F3.V010,BARRACA ALESSANDRA DE ABREU REIS,ALESSANDRA DE ABREU REIS,GLAUCIA HELENA DE ABREU TAVARES,Crian√ßa,"ACESS√ìRIOS PARA CACHORRO, ALMOFADA, CAMA DE TE...",14.0,11.838911,1.182541


### Voltando para a pergunta: A densidade m√©dia das barracas de produtos de crian√ßas üë∂üß∏?
- Filtre um novo DataFrame apenas de crian√ßas
- Pegue a coluna desejada
- Tire a m√©dia

In [31]:
criancas = afonso_pena[afonso_pena.get('NOME_SETOR') == 'Crian√ßa']
criancas.get('DENSIDADE')

ID_FEIRA_AFONSO_PENA_BARRACA
83      0.422336
97      0.422336
99      0.253402
108     0.169096
114     0.591836
          ...   
1411    0.845481
1467    0.676384
1468    0.422336
1426    1.182541
1337    0.506803
Name: DENSIDADE, Length: 103, dtype: float64

In [32]:
criancas.get('DENSIDADE').mean()

0.6106923564685903

### E se forem comidas? üçì üçí üçé üçâ üçë üçä ü•≠ üçç üçå üçã üçà üçè üçê ü•ù üçá ü•• üçÖ üå∂ üçÑ ü•ï üç† üßÖ üåΩ ü•¶ ü•íü•¨ ü•ë üçÜ üßÑ ü•î üå∞ü•ú

In [33]:
comidas = afonso_pena[afonso_pena.get('NOME_SETOR') == 'Alimenta√ß√£o']
comidas.get('DENSIDADE').mean()

0.218202423788409

### Como explicar o resultado acima?
- Ser√° que a coluna √°rea ajuda?

In [34]:
comidas.get('AREA').mean()

33.593432833729956

In [35]:
criancas.get('AREA').mean()

12.378615690707454

Parece que as barracas de comida tem muita espa√ßo. Isso √© esperado, elas precisam cozinhar.

## Resumo

### Resumo

- Aprendemos alguns m√©todos e t√©cnicas do DataFrame.
- N√£o sinta necessidade de memoriz√°-los todos imediatamente.
- Com o tempo, essas t√©cnicas se tornar√£o cada vez mais familiares.
- **Pratique!** Elabore suas pr√≥prias perguntas usando este conjunto de dados e tente respond√™-las.

### Pr√≥xima vez

- Responderemos a perguntas mais complicadas, que nos levar√£o a um novo m√©todo principal do DataFrame, `.groupby`, para organizar linhas de um DataFrame com o mesmo valor em uma coluna espec√≠fica.
- Por exemplo, podemos querer organizar os dados por bairro, recolhendo todos os diferentes pedidos de servi√ßo para cada bairro.