# Dataframes como bancos de dados

Os dataframes do Pandas oferecem diferentes formas de consultar dados.

Em alguns casos, essas consultas podem se tornar tão elaboradas como em bancos de dados tradicionais.

Neste notebook, vamos ver como fazer consultas simples a um dataset carregado da internet.

## Carregando dados da internet
Há várias formas de se trabalhar com dados carregados da internet. 

Aqui, vamos baixar o dataset usando uma ferramenta Linux e carregá-lo no Pandas.

### Baixando um dataset com `wget`

A execução de um notebook no Colab é feita em um computador na infraestrutura da Google.

Os computadores da Google usam o sistema operacional Linux e nós podemos aproveitar isso quando algum programa do Linux pode nos ajudar.

Um exemplo é o programa ``wget``, que baixa a URL que informamos.

Para rodar um programa Linux no Colab, temos que fazer isso pelas células de código, usando comandos do terminal Linux iniciados pelo símbolo ``!``

Nesse caso, usei o ``wget`` para fazer o download de um dataset do portal de dados abertos da UFRN que contém os discentes ingressantes em 2019:

In [57]:
!wget http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv

--2019-10-28 14:33:45--  http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv
Resolving dados.ufrn.br (dados.ufrn.br)... 177.20.146.38
Connecting to dados.ufrn.br (dados.ufrn.br)|177.20.146.38|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4008379 (3.8M) [text/csv]
Saving to: ‘discentes-2019.csv.1’


2019-10-28 14:33:48 (1.88 MB/s) - ‘discentes-2019.csv.1’ saved [4008379/4008379]



O arquivo ``discentes-2019.csv`` deve aparecer na lista de arquivos do lado esquerdo da tela.

### Carregando o dataset

Vamos carregar o arquivo como um dataframe do Pandas:

In [58]:
import pandas as pd
data = pd.read_csv('discentes-2019.csv', sep=';')
data.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,T,TÉCNICO,96054058.0,CURSO TÉCNICO DA METRÓPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMAÇÃO COMPLEMENTAR,112718836.0,CURSO DE LÍNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,119512361.0,COMUNICAÇÃO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"


Caso você tenha tido alguma dúvida, vamos rever o código acima:
 - ```python
 import pandas as pd
 ```
 Importamos o Pandas e pedimos para chamá-lo de ``pd``
 ```python
data = pd.read_csv('discentes-2019.csv', sep=';')
 ```
 - Como usamos um nome para o Pandas, todos os seus comandos serão localizados a partir desse nome (ex.: ``pd.read_csv()``)
 - Informamos o caracter que é usado no dataset como delimitador de características usando a opção ``sep=';'`` (normalmente o Pandas consegue detectar isso automaticamente, mas em datasets brasileiros é comum dar errado)
 ```python
 data.head()
 ```
 Visualizamos as primeiras observações do dataset com o método ``head()``


## Consultando um dataframe

Bom, já temos nosso dataframe pronto para consultas.

As formas mais simples de consulta são a **indexação** e o **fatiamento**.

### Indexando um dataset

Consultas em um dataframe Pandas são feitas a partir de **índices**.

O índice principal em um dataframe é o das colunas, que representam as características:



In [59]:
data.columns

Index(['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
       'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
       'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
       'modalidade_educacao', 'id_unidade', 'nome_unidade',
       'id_unidade_gestora', 'nome_unidade_gestora'],
      dtype='object')

A resposta do Pandas é um pouco verbosa (poluída), mas a parte que nos importa é a lista de nomes de colunas.

Em Python, uma lista é representada pela notação `[elemento_1, elemento_2, ..., elemento_n]`:

````python
['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
'modalidade_educacao', 'id_unidade', 'nome_unidade',
'id_unidade_gestora', 'nome_unidade_gestora']
````


Isto significa que podemos acessar qualquer uma dessas colunas do dataframe usando as notações `data['nome_da_coluna']` e `data.nome_da_coluna`

Como cada coluna é considerada uma série (objeto do tipo `Series`), podemos usar os métodos desse tipo:

In [60]:
data["nome_discente"].head()

0         ABDENOR BEZERRA DOS SANTOS
1    ABDIAS MONTEIRO DE ANDRADE MELO
2      ABDIAS SABINO RODRIGUES FILHO
3       ABEL GOMES DE OLIVEIRA FILHO
4        ABI AMANA DE AQUINO BEZERRA
Name: nome_discente, dtype: object

In [61]:
data.nome_unidade.tail()

15816                                                  NaN
15817    FACULDADE DE CIÊNCIAS DA SAÚDE DO TRAIRI - FACISA
15818                                   CENTRO DE EDUCAÇÃO
15819                          CENTRO DE CIÊNCIAS DA SAÚDE
15820    INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...
Name: nome_unidade, dtype: object

Os dados em uma série também estão indexados. 

Podemos acessá-los individualmente usando a notação `série[número_da_linha]`:

In [62]:
nomes_discentes = data["nome_discente"]
nomes_discentes[0]

'ABDENOR BEZERRA DOS SANTOS'

In [63]:
data["nome_discente"][0]

'ABDENOR BEZERRA DOS SANTOS'

In [64]:
data.nome_unidade[0]

'INSTITUTO METROPOLE DIGITAL'

Também é possível acessar diretamente os dados usando os métodos `loc` e `iloc`:
- Se referindo às colunas pelos seus nomes, usando a notação `data.loc[linha, nome_coluna]`
:

In [65]:
data.loc[0, "nome_discente"]

'ABDENOR BEZERRA DOS SANTOS'

- Se referindo às colunas pela sua posição no índice de colunas, usando a notação `data.iloc[linha, índice_coluna]`

In [66]:
data.iloc[0, 1]

'ABDENOR BEZERRA DOS SANTOS'

Note que os índices são contados a partir do número 0. Como `"nome_discente"` é a segunda coluna, usamos o índice 1 para acessá-la.

Os métodos `loc` e `iloc` também aceitam que você informe uma lista de índices.

In [67]:
data.loc[0, ["nome_discente","nome_curso"]]

nome_discente            ABDENOR BEZERRA DOS SANTOS
nome_curso       CURSO TÉCNICO DA METRÓPOLE DIGITAL
Name: 0, dtype: object

In [68]:
data.iloc[[1,3,7], 1]

1        ABDIAS MONTEIRO DE ANDRADE MELO
3           ABEL GOMES DE OLIVEIRA FILHO
7    ABIGAIL SARA PALOMA SILVA DAMASCENO
Name: nome_discente, dtype: object

**Observação:** Para quem conhece um pouco mais sobre Python, os métodos `loc` e `iloc` aceitam qualquer tipo iterável.

### Fatiando um dataset

Na maioria das vezes, nosso interesse é em um bloco contíguo de linhas e/ou colunas.

Isso pode ser feito através de operações de fatiamento:
- Por linhas, usando a notação `data.loc[linha_início:linha_fim, nome_coluna]`:

In [69]:
data.loc[0:500,'nome_discente']

0            ABDENOR BEZERRA DOS SANTOS
1       ABDIAS MONTEIRO DE ANDRADE MELO
2         ABDIAS SABINO RODRIGUES FILHO
3          ABEL GOMES DE OLIVEIRA FILHO
4           ABI AMANA DE AQUINO BEZERRA
                     ...               
496              ALINE RIBEIRO DA SILVA
497    ALINE RITA MEDEIROS VILAR ARAUJO
498          ALINE ROCHA DE PAIVA COSTA
499         ALINE SAMARA SILVA DA CUNHA
500      ALINE SARMENTO ALBINO DA SILVA
Name: nome_discente, Length: 501, dtype: object

* Por linhas e colunas, usando a notação `data.loc[linha_início:linha_fim, coluna_início:coluna_fim]`:

In [70]:
data.iloc[0:5, 5:8]

Unnamed: 0,forma_ingresso,tipo_discente,status
0,PROCESSO SELETIVO,REGULAR,ATIVO
1,SiSU,REGULAR,ATIVO
2,SiSU,REGULAR,CANCELADO
3,PROCESSO SELETIVO,REGULAR,ATIVO
4,SiSU,REGULAR,ATIVO


É importante observar que operações de fatiamento em Python costumam incluir o elemento referido pelo primeiro índice, mas não o elemento referido pelo segundo índice.

Assim, no exemplo `data.iloc[0:5, 5:8]` temos 5 linhas e 3 colunas sendo retornadas.

O método `loc` foge a esse padrão, incluindo também a linha referida pelo segundo índice.

Por isso, o exemplo `data.loc[0:500,'nome_discente']` retorna 501 linhas.

Isso acontece porque no método `loc`, é possível fatiar o dataframe também por colunas. Neste caso, faz sentido que a segunda referência seja inclusa:

In [71]:
data.loc[0:500, 'nome_discente':'ano_ingresso']

Unnamed: 0,nome_discente,sexo,ano_ingresso
0,ABDENOR BEZERRA DOS SANTOS,M,2019
1,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019
2,ABDIAS SABINO RODRIGUES FILHO,M,2019
3,ABEL GOMES DE OLIVEIRA FILHO,M,2019
4,ABI AMANA DE AQUINO BEZERRA,F,2019
...,...,...,...
496,ALINE RIBEIRO DA SILVA,F,2019
497,ALINE RITA MEDEIROS VILAR ARAUJO,F,2019
498,ALINE ROCHA DE PAIVA COSTA,F,2019
499,ALINE SAMARA SILVA DA CUNHA,F,2019


## Consultas como em bancos de dados

As operações de indexação e fatiamento são inerentes à linguagem Python e por isso são implementadas pelo Pandas.

Em parte, elas ajudam a operacionalizar a **seleção** e a **projeção** comuns em bancos de dados:
- **Seleção**: escolher um subconjunto de observações
- **Projeção**: escolher um subconjunto de características

Os dataframes do Pandas fornecem mais métodos para estes tipos de consulta.

#### Pesquisando pelo nome das características

O método **filter()** escolhe um subconjunto de características baseado em seu nome:

In [72]:
data.filter(like='ingresso')

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU
...,...,...,...
15816,2019,2.0,ALUNO ESPECIAL POS-GRADUACAO
15817,2019,1.0,PROCESSO SELETIVO
15818,2019,1.0,SiSU
15819,2019,2.0,SiSU


O resultado do método **filter** é um novo `DataFrame` que pode ser associado a um novo nome:

In [73]:
data_ingresso = data.filter(like='ingresso')
data_ingresso.head()

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU


### Pesquisando por condições

Uma outra maneira de filtrar pelos valores das colunas é através de **condições**.

Para isso, usamos a notação `data[condição]`, onde `condição` é uma expressão lógica do Python.

Por exemplo, vamos escolher apenas as observações cuja **forma_ingresso** tenha valor **REINGRESSO SEGUNDO CICLO**:

In [74]:
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
141,20190000948,AFFONSO DE FARIA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85341136.0,ENGENHARIA BIOMÉDICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000013.0,CIÊNCIA DA COMPUTAÇÃO,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
170,20190001927,AISSA PALHARES CAVALCANTI,F,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000031.0,ENGENHARIA MECÂNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
175,20190002610,ALAILSON FEITOSA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85437055.0,ENGENHARIA MECATRÔNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15739,20190153230,YGOR MATHEUS PEREIRA DE PAULA,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000027.0,ENGENHARIA DE MATERIAIS,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15763,20190155914,YSLANE STEPHANIE MACÊDO DOS SANTOS,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85322571.0,ENGENHARIA AMBIENTAL,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15770,20190000643,YURI ALESSANDRO DANTAS TONHECA MARTINS,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
15793,20190000652,YURI REINALDO DA SILVA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA


Vamos discutir o exemplo acima:
* ```python
data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
* `data["forma_ingresso"]` é uma série 
* Comparamos cada valor nesta série com o valor `"REINGRESSO SEGUNDO CICLO"` usando o operador de igualdade `==`
```python
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]
```
Escolhemos apenas as observações que satisfazem essa condição

Note que seria possível usar nomes tanto para referência à condição quanto para o `DataFrame` retornado por fim:

In [75]:
condição = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
data_segundo_ciclo = data[condição]
data_segundo_ciclo.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
141,20190000948,AFFONSO DE FARIA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85341136.0,ENGENHARIA BIOMÉDICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000013.0,CIÊNCIA DA COMPUTAÇÃO,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
170,20190001927,AISSA PALHARES CAVALCANTI,F,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000031.0,ENGENHARIA MECÂNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
175,20190002610,ALAILSON FEITOSA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85437055.0,ENGENHARIA MECATRÔNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA


#### Condições e operadores de comparação

No exemplo acima, usamos o operador de igualdade. 

Note que é diferente usar `==` (comparação de igualdade) e `=` (associação de nome a objeto).

O Python oferece mais operadores de comparação:

| Símbolo | Significado |
|:----:|---|
| == | Igualdade |
| !=  | Diferença |
| < | Menor |
| > | Maior |
| <=  | Menor ou igual |
| >=  | Maior ou igual |

Também é importante observar que os operadores menor/maior (ou igual) costumam ser aplicados a dados numéricos.

Para dados nominais, podemos usar o método `isin()`.

Vamos dar uma olhada nos valores existentes para a característica `"status"` usando o método `unique()`:

In [81]:
data['status'].unique()

array(['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLUÍDO', 'DEFENDIDO'], dtype=object)

Novamente temos um resultado verboso, mas nos interessa a lista de valores:

```python3
['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLUÍDO', 'DEFENDIDO']
````

Vamos escolher apenas as observações cujo status seja "CANCELADO" ou "TRANCADO":

In [82]:
condição = data["status"].isin(["CANCELADO", "TRANCADO"])
data_cancelado_trancado = data[condição]
data_cancelado_trancado.tail()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
15780,20190068873,YURI ERICK DANTAS DA LUZ,M,2019,1.0,SiSU,REGULAR,TRANCADO,G,GRADUAÇÃO,2000018.0,DIREITO,PRESENCIAL,443.0,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS,443.0,CENTRO DE CIÊNCIAS SOCIAIS APLICADAS
15782,20190100460,YURI GUEDES DOS SANTOS,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,118834827.0,COMUNICAÇÃO SOCIAL- PUBLICIDADE E PROPAGANDA,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
15788,20195004162,YURI PEDRO DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,CANCELADO,F,FORMAÇÃO COMPLEMENTAR,86980317.0,CURSO DE LÍNGUA ESPANHOLA - BÁSICO,PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
15801,20190099207,YVIS AQUINO DO NASCIMENTO,M,2019,1.0,SiSU,REGULAR,TRANCADO,G,GRADUAÇÃO,2000067.0,QUÍMICA,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
15810,20191011310,ZENILEIDE REJANE DE AZEVEDO,M,2019,1.0,ALUNO ESPECIAL POS-GRADUACAO,ESPECIAL,CANCELADO,E,MESTRADO,,,,,,,


#### Condições e operadores lógicos
Podemos também usar condições mais complexas, usando **operadores lógicos**.

Vamos restringir um pouco mais a consulta acima para que, além de **forma_ingresso** ter valor **REINGRESSO SEGUNDO CICLO**, **nome_curso** tenha valor **ENGENHARIA DE SOFTWARE**:

In [78]:
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
data_2ciclo_engsoft = data[condição_segundo_ciclo & condição_engenharia_software]
data_2ciclo_engsoft.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
560,20190152672,ALLAN VALDEVINO GONÇALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
703,20190152681,AMANDA PRISCILLA ARAÚJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
971,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
1259,20190000527,ANDRÉ LUIZ DE LUCENA MOREIRA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,CANCELADO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA


Revendo o código acima:
* ```python
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condição para escolher apenas os ingressantes através de reingresso de segundo ciclo
```python
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condição para escolher apenas os ingressantes do curso de engenharia de software
```python
data_2ciclo_engsoft = data[condição_segundo_ciclo & condição_engenharia_software]
```
Combinando as duas condições através do operador `&` (lemos como E)

#### Outros operadores lógicos

Além do operador `&`, o Pandas também disponibiliza o operador `|` (lemos como OU).

Enquanto o operador `&` escolhe a linha apenas se as duas condições forem verdadeiras, para o operador `|` basta que uma das condições seja satisfeita.

Seguindo essa definição, o que o exemplo abaixo faz?

In [79]:
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
condição_ciência_computação = data["nome_curso"] == "CIÊNCIA DA COMPUTAÇÃO"
condição_dimap = condição_ciência_computação | condição_engenharia_software
data_2ciclo_dimap = data[condição_segundo_ciclo & condição_dimap]
data_2ciclo_dimap.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
159,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000013.0,CIÊNCIA DA COMPUTAÇÃO,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
560,20190152672,ALLAN VALDEVINO GONÇALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
703,20190152681,AMANDA PRISCILLA ARAÚJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
971,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA


Revendo o código acima:
* ```python
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condição para escolher apenas os ingressantes através de reingresso de segundo ciclo
```python
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condição para escolher apenas os ingressantes do curso de engenharia de software
```python
condição_ciência_computação = data["nome_curso"] == "CIÊNCIA DA COMPUTAÇÃO"
```
Condição para escolher apenas os ingressantes do curso de ciência da computação
```python
condição_dimap = condição_ciência_computação | condição_engenharia_software
```
Combinando as duas condições através do operador OU
```python
data_2ciclo_dimap = data[condição_segundo_ciclo & condição_dimap]
```
Combinando as duas condições através do operador E

Note que usamos o operador OU quando poderíamos ter usado o método `isin()`, que é mais legível.

Em geral, adotamos o operador OU quando as condições envolvem características distintas, em vez de valores distintos para uma mesma característica.

Por último, o operador `~` (lemos operador NÃO) serve para reverter uma condição:

In [80]:
data_ingresso_direto = data[~condição_segundo_ciclo]
data_ingresso_direto.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,T,TÉCNICO,96054058.0,CURSO TÉCNICO DA METRÓPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMAÇÃO COMPLEMENTAR,112718836.0,CURSO DE LÍNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,119512361.0,COMUNICAÇÃO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"


* **Observação**: expressões lógicas complexas merecem uma pesquisa específica sobre o assunto. Cobrir esse tópico em profundidade foge do escopo deste notebook 🙃

### Mais métodos de consulta

* **unique()**: traz todos os valores distintos de uma série



In [0]:
data['forma_ingresso'].unique()

* **nunique()**: traz a quantidade de valores distintos por coluna do dataframe (ou de uma série específica)


In [0]:
data.nunique()

In [0]:
data["sexo"].nunique()

* **value_counts()**: retorna quantas vezes cada valor de uma série se repete

In [0]:
data["nome_unidade"].value_counts()

* **'sort_values()'** é usado para ordenação no dataframe. Podendo especificar quais as colunas para se ordernar e se vai ser crescente ou decrescente.


```
sort_values(by=[<colunas>],ascending=<True or False>)
```




In [0]:
data.sort_values(by=['periodo_ingresso','forma_ingresso'],ascending=False).head(5)

O método **'value_counts()'** retorna dados estatísticos das colunas numericas do dataframe

In [0]:
data['nome_curso'].value_counts()