# Dataframes como bancos de dados

Os dataframes do Pandas oferecem diferentes formas de consultar dados.

Em alguns casos, essas consultas podem se tornar t√£o elaboradas como em bancos de dados tradicionais.

Neste notebook, vamos ver como fazer consultas simples a um dataset carregado da internet.

## Carregando dados da internet
H√° v√°rias formas de se trabalhar com dados carregados da internet. 

Aqui, vamos baixar o dataset usando uma ferramenta Linux e carreg√°-lo no Pandas.

### Baixando um dataset com `wget`

A execu√ß√£o de um notebook no Colab √© feita em um computador na infraestrutura da Google.

Os computadores da Google usam o sistema operacional Linux e n√≥s podemos aproveitar isso quando algum programa do Linux pode nos ajudar.

Um exemplo √© o programa ``wget``, que baixa a URL que informamos.

Para rodar um programa Linux no Colab, temos que fazer isso pelas c√©lulas de c√≥digo, usando comandos do terminal Linux iniciados pelo s√≠mbolo ``!``

Nesse caso, usei o ``wget`` para fazer o download de um dataset do portal de dados abertos da UFRN que cont√©m os discentes ingressantes em 2019:

In [57]:
!wget http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv

--2019-10-28 14:33:45--  http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv
Resolving dados.ufrn.br (dados.ufrn.br)... 177.20.146.38
Connecting to dados.ufrn.br (dados.ufrn.br)|177.20.146.38|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4008379 (3.8M) [text/csv]
Saving to: ‚Äòdiscentes-2019.csv.1‚Äô


2019-10-28 14:33:48 (1.88 MB/s) - ‚Äòdiscentes-2019.csv.1‚Äô saved [4008379/4008379]



O arquivo ``discentes-2019.csv`` deve aparecer na lista de arquivos do lado esquerdo da tela.

### Carregando o dataset

Vamos carregar o arquivo como um dataframe do Pandas:

In [58]:
import pandas as pd
data = pd.read_csv('discentes-2019.csv', sep=';')
data.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,T,T√âCNICO,96054058.0,CURSO T√âCNICO DA METR√ìPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUA√á√ÉO,111635060.0,HIST√ìRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUA√á√ÉO,111635060.0,HIST√ìRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMA√á√ÉO COMPLEMENTAR,112718836.0,CURSO DE L√çNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO √ÅGORA - L√çNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUA√á√ÉO,119512361.0,COMUNICA√á√ÉO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"


Caso voc√™ tenha tido alguma d√∫vida, vamos rever o c√≥digo acima:
 - ```python
 import pandas as pd
 ```
 Importamos o Pandas e pedimos para cham√°-lo de ``pd``
 ```python
data = pd.read_csv('discentes-2019.csv', sep=';')
 ```
 - Como usamos um nome para o Pandas, todos os seus comandos ser√£o localizados a partir desse nome (ex.: ``pd.read_csv()``)
 - Informamos o caracter que √© usado no dataset como delimitador de caracter√≠sticas usando a op√ß√£o ``sep=';'`` (normalmente o Pandas consegue detectar isso automaticamente, mas em datasets brasileiros √© comum dar errado)
 ```python
 data.head()
 ```
 Visualizamos as primeiras observa√ß√µes do dataset com o m√©todo ``head()``


## Consultando um dataframe

Bom, j√° temos nosso dataframe pronto para consultas.

As formas mais simples de consulta s√£o a **indexa√ß√£o** e o **fatiamento**.

### Indexando um dataset

Consultas em um dataframe Pandas s√£o feitas a partir de **√≠ndices**.

O √≠ndice principal em um dataframe √© o das colunas, que representam as caracter√≠sticas:



In [59]:
data.columns

Index(['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
       'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
       'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
       'modalidade_educacao', 'id_unidade', 'nome_unidade',
       'id_unidade_gestora', 'nome_unidade_gestora'],
      dtype='object')

A resposta do Pandas √© um pouco verbosa (polu√≠da), mas a parte que nos importa √© a lista de nomes de colunas.

Em Python, uma lista √© representada pela nota√ß√£o `[elemento_1, elemento_2, ..., elemento_n]`:

````python
['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
'modalidade_educacao', 'id_unidade', 'nome_unidade',
'id_unidade_gestora', 'nome_unidade_gestora']
````


Isto significa que podemos acessar qualquer uma dessas colunas do dataframe usando as nota√ß√µes `data['nome_da_coluna']` e `data.nome_da_coluna`

Como cada coluna √© considerada uma s√©rie (objeto do tipo `Series`), podemos usar os m√©todos desse tipo:

In [60]:
data["nome_discente"].head()

0         ABDENOR BEZERRA DOS SANTOS
1    ABDIAS MONTEIRO DE ANDRADE MELO
2      ABDIAS SABINO RODRIGUES FILHO
3       ABEL GOMES DE OLIVEIRA FILHO
4        ABI AMANA DE AQUINO BEZERRA
Name: nome_discente, dtype: object

In [61]:
data.nome_unidade.tail()

15816                                                  NaN
15817    FACULDADE DE CI√äNCIAS DA SA√öDE DO TRAIRI - FACISA
15818                                   CENTRO DE EDUCA√á√ÉO
15819                          CENTRO DE CI√äNCIAS DA SA√öDE
15820    INSTITUTO √ÅGORA - L√çNGUAS, LITERATURAS E CULTU...
Name: nome_unidade, dtype: object

Os dados em uma s√©rie tamb√©m est√£o indexados. 

Podemos acess√°-los individualmente usando a nota√ß√£o `s√©rie[n√∫mero_da_linha]`:

In [62]:
nomes_discentes = data["nome_discente"]
nomes_discentes[0]

'ABDENOR BEZERRA DOS SANTOS'

In [63]:
data["nome_discente"][0]

'ABDENOR BEZERRA DOS SANTOS'

In [64]:
data.nome_unidade[0]

'INSTITUTO METROPOLE DIGITAL'

Tamb√©m √© poss√≠vel acessar diretamente os dados usando os m√©todos `loc` e `iloc`:
- Se referindo √†s colunas pelos seus nomes, usando a nota√ß√£o `data.loc[linha, nome_coluna]`
:

In [65]:
data.loc[0, "nome_discente"]

'ABDENOR BEZERRA DOS SANTOS'

- Se referindo √†s colunas pela sua posi√ß√£o no √≠ndice de colunas, usando a nota√ß√£o `data.iloc[linha, √≠ndice_coluna]`

In [66]:
data.iloc[0, 1]

'ABDENOR BEZERRA DOS SANTOS'

Note que os √≠ndices s√£o contados a partir do n√∫mero 0. Como `"nome_discente"` √© a segunda coluna, usamos o √≠ndice 1 para acess√°-la.

Os m√©todos `loc` e `iloc` tamb√©m aceitam que voc√™ informe uma lista de √≠ndices.

In [67]:
data.loc[0, ["nome_discente","nome_curso"]]

nome_discente            ABDENOR BEZERRA DOS SANTOS
nome_curso       CURSO T√âCNICO DA METR√ìPOLE DIGITAL
Name: 0, dtype: object

In [68]:
data.iloc[[1,3,7], 1]

1        ABDIAS MONTEIRO DE ANDRADE MELO
3           ABEL GOMES DE OLIVEIRA FILHO
7    ABIGAIL SARA PALOMA SILVA DAMASCENO
Name: nome_discente, dtype: object

**Observa√ß√£o:** Para quem conhece um pouco mais sobre Python, os m√©todos `loc` e `iloc` aceitam qualquer tipo iter√°vel.

### Fatiando um dataset

Na maioria das vezes, nosso interesse √© em um bloco cont√≠guo de linhas e/ou colunas.

Isso pode ser feito atrav√©s de opera√ß√µes de fatiamento:
- Por linhas, usando a nota√ß√£o `data.loc[linha_in√≠cio:linha_fim, nome_coluna]`:

In [69]:
data.loc[0:500,'nome_discente']

0            ABDENOR BEZERRA DOS SANTOS
1       ABDIAS MONTEIRO DE ANDRADE MELO
2         ABDIAS SABINO RODRIGUES FILHO
3          ABEL GOMES DE OLIVEIRA FILHO
4           ABI AMANA DE AQUINO BEZERRA
                     ...               
496              ALINE RIBEIRO DA SILVA
497    ALINE RITA MEDEIROS VILAR ARAUJO
498          ALINE ROCHA DE PAIVA COSTA
499         ALINE SAMARA SILVA DA CUNHA
500      ALINE SARMENTO ALBINO DA SILVA
Name: nome_discente, Length: 501, dtype: object

* Por linhas e colunas, usando a nota√ß√£o `data.loc[linha_in√≠cio:linha_fim, coluna_in√≠cio:coluna_fim]`:

In [70]:
data.iloc[0:5, 5:8]

Unnamed: 0,forma_ingresso,tipo_discente,status
0,PROCESSO SELETIVO,REGULAR,ATIVO
1,SiSU,REGULAR,ATIVO
2,SiSU,REGULAR,CANCELADO
3,PROCESSO SELETIVO,REGULAR,ATIVO
4,SiSU,REGULAR,ATIVO


√â importante observar que opera√ß√µes de fatiamento em Python costumam incluir o elemento referido pelo primeiro √≠ndice, mas n√£o o elemento referido pelo segundo √≠ndice.

Assim, no exemplo `data.iloc[0:5, 5:8]` temos 5 linhas e 3 colunas sendo retornadas.

O m√©todo `loc` foge a esse padr√£o, incluindo tamb√©m a linha referida pelo segundo √≠ndice.

Por isso, o exemplo `data.loc[0:500,'nome_discente']` retorna 501 linhas.

Isso acontece porque no m√©todo `loc`, √© poss√≠vel fatiar o dataframe tamb√©m por colunas. Neste caso, faz sentido que a segunda refer√™ncia seja inclusa:

In [71]:
data.loc[0:500, 'nome_discente':'ano_ingresso']

Unnamed: 0,nome_discente,sexo,ano_ingresso
0,ABDENOR BEZERRA DOS SANTOS,M,2019
1,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019
2,ABDIAS SABINO RODRIGUES FILHO,M,2019
3,ABEL GOMES DE OLIVEIRA FILHO,M,2019
4,ABI AMANA DE AQUINO BEZERRA,F,2019
...,...,...,...
496,ALINE RIBEIRO DA SILVA,F,2019
497,ALINE RITA MEDEIROS VILAR ARAUJO,F,2019
498,ALINE ROCHA DE PAIVA COSTA,F,2019
499,ALINE SAMARA SILVA DA CUNHA,F,2019


## Consultas como em bancos de dados

As opera√ß√µes de indexa√ß√£o e fatiamento s√£o inerentes √† linguagem Python e por isso s√£o implementadas pelo Pandas.

Em parte, elas ajudam a operacionalizar a **sele√ß√£o** e a **proje√ß√£o** comuns em bancos de dados:
- **Sele√ß√£o**: escolher um subconjunto de observa√ß√µes
- **Proje√ß√£o**: escolher um subconjunto de caracter√≠sticas

Os dataframes do Pandas fornecem mais m√©todos para estes tipos de consulta.

#### Pesquisando pelo nome das caracter√≠sticas

O m√©todo **filter()** escolhe um subconjunto de caracter√≠sticas baseado em seu nome:

In [72]:
data.filter(like='ingresso')

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU
...,...,...,...
15816,2019,2.0,ALUNO ESPECIAL POS-GRADUACAO
15817,2019,1.0,PROCESSO SELETIVO
15818,2019,1.0,SiSU
15819,2019,2.0,SiSU


O resultado do m√©todo **filter** √© um novo `DataFrame` que pode ser associado a um novo nome:

In [73]:
data_ingresso = data.filter(like='ingresso')
data_ingresso.head()

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU


### Pesquisando por condi√ß√µes

Uma outra maneira de filtrar pelos valores das colunas √© atrav√©s de **condi√ß√µes**.

Para isso, usamos a nota√ß√£o `data[condi√ß√£o]`, onde `condi√ß√£o` √© uma express√£o l√≥gica do Python.

Por exemplo, vamos escolher apenas as observa√ß√µes cuja **forma_ingresso** tenha valor **REINGRESSO SEGUNDO CICLO**:

In [74]:
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
141,20190000948,AFFONSO DE FARIA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,85341136.0,ENGENHARIA BIOM√âDICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000013.0,CI√äNCIA DA COMPUTA√á√ÉO,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
170,20190001927,AISSA PALHARES CAVALCANTI,F,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000031.0,ENGENHARIA MEC√ÇNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
175,20190002610,ALAILSON FEITOSA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,85437055.0,ENGENHARIA MECATR√îNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15739,20190153230,YGOR MATHEUS PEREIRA DE PAULA,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000027.0,ENGENHARIA DE MATERIAIS,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15763,20190155914,YSLANE STEPHANIE MAC√äDO DOS SANTOS,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,85322571.0,ENGENHARIA AMBIENTAL,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15770,20190000643,YURI ALESSANDRO DANTAS TONHECA MARTINS,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
15793,20190000652,YURI REINALDO DA SILVA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA


Vamos discutir o exemplo acima:
* ```python
data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
* `data["forma_ingresso"]` √© uma s√©rie 
* Comparamos cada valor nesta s√©rie com o valor `"REINGRESSO SEGUNDO CICLO"` usando o operador de igualdade `==`
```python
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]
```
Escolhemos apenas as observa√ß√µes que satisfazem essa condi√ß√£o

Note que seria poss√≠vel usar nomes tanto para refer√™ncia √† condi√ß√£o quanto para o `DataFrame` retornado por fim:

In [75]:
condi√ß√£o = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
data_segundo_ciclo = data[condi√ß√£o]
data_segundo_ciclo.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
141,20190000948,AFFONSO DE FARIA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,85341136.0,ENGENHARIA BIOM√âDICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000013.0,CI√äNCIA DA COMPUTA√á√ÉO,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
170,20190001927,AISSA PALHARES CAVALCANTI,F,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000031.0,ENGENHARIA MEC√ÇNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
175,20190002610,ALAILSON FEITOSA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,85437055.0,ENGENHARIA MECATR√îNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA


#### Condi√ß√µes e operadores de compara√ß√£o

No exemplo acima, usamos o operador de igualdade. 

Note que √© diferente usar `==` (compara√ß√£o de igualdade) e `=` (associa√ß√£o de nome a objeto).

O Python oferece mais operadores de compara√ß√£o:

| S√≠mbolo | Significado |
|:----:|---|
| == | Igualdade |
| !=  | Diferen√ßa |
| < | Menor |
| > | Maior |
| <=  | Menor ou igual |
| >=  | Maior ou igual |

Tamb√©m √© importante observar que os operadores menor/maior (ou igual) costumam ser aplicados a dados num√©ricos.

Para dados nominais, podemos usar o m√©todo `isin()`.

Vamos dar uma olhada nos valores existentes para a caracter√≠stica `"status"` usando o m√©todo `unique()`:

In [81]:
data['status'].unique()

array(['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLU√çDO', 'DEFENDIDO'], dtype=object)

Novamente temos um resultado verboso, mas nos interessa a lista de valores:

```python3
['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLU√çDO', 'DEFENDIDO']
````

Vamos escolher apenas as observa√ß√µes cujo status seja "CANCELADO" ou "TRANCADO":

In [82]:
condi√ß√£o = data["status"].isin(["CANCELADO", "TRANCADO"])
data_cancelado_trancado = data[condi√ß√£o]
data_cancelado_trancado.tail()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
15780,20190068873,YURI ERICK DANTAS DA LUZ,M,2019,1.0,SiSU,REGULAR,TRANCADO,G,GRADUA√á√ÉO,2000018.0,DIREITO,PRESENCIAL,443.0,CENTRO DE CI√äNCIAS SOCIAIS APLICADAS,443.0,CENTRO DE CI√äNCIAS SOCIAIS APLICADAS
15782,20190100460,YURI GUEDES DOS SANTOS,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUA√á√ÉO,118834827.0,COMUNICA√á√ÉO SOCIAL- PUBLICIDADE E PROPAGANDA,PRESENCIAL,442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"
15788,20195004162,YURI PEDRO DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,CANCELADO,F,FORMA√á√ÉO COMPLEMENTAR,86980317.0,CURSO DE L√çNGUA ESPANHOLA - B√ÅSICO,PRESENCIAL,6042.0,"INSTITUTO √ÅGORA - L√çNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"
15801,20190099207,YVIS AQUINO DO NASCIMENTO,M,2019,1.0,SiSU,REGULAR,TRANCADO,G,GRADUA√á√ÉO,2000067.0,QU√çMICA,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
15810,20191011310,ZENILEIDE REJANE DE AZEVEDO,M,2019,1.0,ALUNO ESPECIAL POS-GRADUACAO,ESPECIAL,CANCELADO,E,MESTRADO,,,,,,,


#### Condi√ß√µes e operadores l√≥gicos
Podemos tamb√©m usar condi√ß√µes mais complexas, usando **operadores l√≥gicos**.

Vamos restringir um pouco mais a consulta acima para que, al√©m de **forma_ingresso** ter valor **REINGRESSO SEGUNDO CICLO**, **nome_curso** tenha valor **ENGENHARIA DE SOFTWARE**:

In [78]:
condi√ß√£o_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condi√ß√£o_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
data_2ciclo_engsoft = data[condi√ß√£o_segundo_ciclo & condi√ß√£o_engenharia_software]
data_2ciclo_engsoft.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
560,20190152672,ALLAN VALDEVINO GON√áALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
703,20190152681,AMANDA PRISCILLA ARA√öJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
971,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
1259,20190000527,ANDR√â LUIZ DE LUCENA MOREIRA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,CANCELADO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA


Revendo o c√≥digo acima:
* ```python
condi√ß√£o_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condi√ß√£o para escolher apenas os ingressantes atrav√©s de reingresso de segundo ciclo
```python
condi√ß√£o_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condi√ß√£o para escolher apenas os ingressantes do curso de engenharia de software
```python
data_2ciclo_engsoft = data[condi√ß√£o_segundo_ciclo & condi√ß√£o_engenharia_software]
```
Combinando as duas condi√ß√µes atrav√©s do operador `&` (lemos como E)

#### Outros operadores l√≥gicos

Al√©m do operador `&`, o Pandas tamb√©m disponibiliza o operador `|` (lemos como OU).

Enquanto o operador `&` escolhe a linha apenas se as duas condi√ß√µes forem verdadeiras, para o operador `|` basta que uma das condi√ß√µes seja satisfeita.

Seguindo essa defini√ß√£o, o que o exemplo abaixo faz?

In [79]:
condi√ß√£o_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condi√ß√£o_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
condi√ß√£o_ci√™ncia_computa√ß√£o = data["nome_curso"] == "CI√äNCIA DA COMPUTA√á√ÉO"
condi√ß√£o_dimap = condi√ß√£o_ci√™ncia_computa√ß√£o | condi√ß√£o_engenharia_software
data_2ciclo_dimap = data[condi√ß√£o_segundo_ciclo & condi√ß√£o_dimap]
data_2ciclo_dimap.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,2000013.0,CI√äNCIA DA COMPUTA√á√ÉO,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
560,20190152672,ALLAN VALDEVINO GON√áALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
703,20190152681,AMANDA PRISCILLA ARA√öJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA
971,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUA√á√ÉO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CI√äNCIAS EXATAS E DA TERRA


Revendo o c√≥digo acima:
* ```python
condi√ß√£o_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condi√ß√£o para escolher apenas os ingressantes atrav√©s de reingresso de segundo ciclo
```python
condi√ß√£o_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condi√ß√£o para escolher apenas os ingressantes do curso de engenharia de software
```python
condi√ß√£o_ci√™ncia_computa√ß√£o = data["nome_curso"] == "CI√äNCIA DA COMPUTA√á√ÉO"
```
Condi√ß√£o para escolher apenas os ingressantes do curso de ci√™ncia da computa√ß√£o
```python
condi√ß√£o_dimap = condi√ß√£o_ci√™ncia_computa√ß√£o | condi√ß√£o_engenharia_software
```
Combinando as duas condi√ß√µes atrav√©s do operador OU
```python
data_2ciclo_dimap = data[condi√ß√£o_segundo_ciclo & condi√ß√£o_dimap]
```
Combinando as duas condi√ß√µes atrav√©s do operador E

Note que usamos o operador OU quando poder√≠amos ter usado o m√©todo `isin()`, que √© mais leg√≠vel.

Em geral, adotamos o operador OU quando as condi√ß√µes envolvem caracter√≠sticas distintas, em vez de valores distintos para uma mesma caracter√≠stica.

Por √∫ltimo, o operador `~` (lemos operador N√ÉO) serve para reverter uma condi√ß√£o:

In [80]:
data_ingresso_direto = data[~condi√ß√£o_segundo_ciclo]
data_ingresso_direto.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,T,T√âCNICO,96054058.0,CURSO T√âCNICO DA METR√ìPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUA√á√ÉO,111635060.0,HIST√ìRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUA√á√ÉO,111635060.0,HIST√ìRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì,1482.0,CENTRO DE ENSINO SUPERIOR DO SERID√ì
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMA√á√ÉO COMPLEMENTAR,112718836.0,CURSO DE L√çNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO √ÅGORA - L√çNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUA√á√ÉO,119512361.0,COMUNICA√á√ÉO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CI√äNCIAS HUMANAS, LETRAS E ARTES"


* **Observa√ß√£o**: express√µes l√≥gicas complexas merecem uma pesquisa espec√≠fica sobre o assunto. Cobrir esse t√≥pico em profundidade foge do escopo deste notebook üôÉ

### Mais m√©todos de consulta

* **unique()**: traz todos os valores distintos de uma s√©rie



In [0]:
data['forma_ingresso'].unique()

* **nunique()**: traz a quantidade de valores distintos por coluna do dataframe (ou de uma s√©rie espec√≠fica)


In [0]:
data.nunique()

In [0]:
data["sexo"].nunique()

* **value_counts()**: retorna quantas vezes cada valor de uma s√©rie se repete

In [0]:
data["nome_unidade"].value_counts()

* **'sort_values()'** √© usado para ordena√ß√£o no dataframe. Podendo especificar quais as colunas para se ordernar e se vai ser crescente ou decrescente.


```
sort_values(by=[<colunas>],ascending=<True or False>)
```




In [0]:
data.sort_values(by=['periodo_ingresso','forma_ingresso'],ascending=False).head(5)

O m√©todo **'value_counts()'** retorna dados estat√≠sticos das colunas numericas do dataframe

In [0]:
data['nome_curso'].value_counts()