<a href="https://colab.research.google.com/github/babschlott/babschlott.github.io/blob/master/Dataframes_as_databases.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataframes as Data Base

Pandas dataframes offer different ways to query data.

In some cases, these queries can become as elaborate as in traditional databases.

In this notebook, we will see how to make simple queries to a dataset loaded from the internet.

## Loading data from the internet
There are several ways to work with data loaded from the internet.

Here, we will download the dataset using a Linux tool and load it into Pandas.

### Downloading a dataset with `wget`

Running a notebook on Colab is done on a computer on Google's infrastructure.

Google computers use the Linux operating system and we can take advantage of that when a Linux program can help us.

An example is the program ``wget``, which downloads the URL we provide.

To run a Linux program on Colab, we have to do this by code cells, using Linux terminal commands beginning with the symbol ``!``

In this case, I used the ``wget`` to download a dataset from the UFRN open data portal that contains the incoming students in 2019:

In [0]:
!wget http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv

--2020-03-10 21:58:52--  http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv
Resolving dados.ufrn.br (dados.ufrn.br)... 177.20.146.38
Connecting to dados.ufrn.br (dados.ufrn.br)|177.20.146.38|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4070717 (3.9M) [text/csv]
Saving to: ‘discentes-2019.csv’


2020-03-10 21:58:54 (2.88 MB/s) - ‘discentes-2019.csv’ saved [4070717/4070717]



The file ``discentes-2019.csv`` should appear in the file list on the left side of the screen.

### Loading the dataset

Let's upload the file as a Pandas dataframe:

In [0]:
import pandas as pd
data = pd.read_csv('discentes-2019.csv', sep=';')
data.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,CANCELADO,T,TÉCNICO,96054058.0,CURSO TÉCNICO DA METRÓPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMAÇÃO COMPLEMENTAR,112718836.0,CURSO DE LÍNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,119512361.0,COMUNICAÇÃO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"


If you have any questions, let's review the code above:
 - ```python
 import pandas as pd
 ```
 We imported Pandas and asked to call it ``pd``
 ```python
data = pd.read_csv('discentes-2019.csv', sep=';')
 ```
 - As we use a name for Pandas, all of its commands will be located from that name (ex.: ``pd.read_csv()``)
 - We inform the character that is used in the dataset as a feature delimiter using the option ``sep=';'`` (normally Pandas can detect this automatically, but in Brazilian datasets it is common to go wrong)
 ```python
 data.head()
 ```
 We visualize the first observations of the dataset with the method ``head()``


## Querying a dataframe

Well, we already have our dataframe ready for consultation.

The simplest forms of consultation are **indexing** and **slicing**.

### Indexing a dataset

Queries on a Pandas dataframe are made from **indexes**.

The main index on a dataframe is that of the columns, which represent the characteristics:



In [0]:
data.columns

Index(['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
       'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
       'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
       'modalidade_educacao', 'id_unidade', 'nome_unidade',
       'id_unidade_gestora', 'nome_unidade_gestora'],
      dtype='object')

Pandas response is a bit verbose (polluted), but the part that matters to us is the list of column names.

In Python, a list is represented by the notation `[element_1, element_2, ..., element_n]`:

````python
['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
'modalidade_educacao', 'id_unidade', 'nome_unidade',
'id_unidade_gestora', 'nome_unidade_gestora']
````


This means that we can access any of these dataframe columns using the notations `data['column_name']` and `data.column_name`

As each column is considered a series (object of type `Series`), we can use the methods of that type:

In [0]:
data["nome_discente"].head()

0         ABDENOR BEZERRA DOS SANTOS
1    ABDIAS MONTEIRO DE ANDRADE MELO
2      ABDIAS SABINO RODRIGUES FILHO
3       ABEL GOMES DE OLIVEIRA FILHO
4        ABI AMANA DE AQUINO BEZERRA
Name: nome_discente, dtype: object

In [0]:
data.nome_unidade.tail()

16013                                                  NaN
16014    FACULDADE DE CIÊNCIAS DA SAÚDE DO TRAIRI - FACISA
16015                                   CENTRO DE EDUCAÇÃO
16016                          CENTRO DE CIÊNCIAS DA SAÚDE
16017    INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...
Name: nome_unidade, dtype: object

The data in a series is also indexed.

We can access them individually using the notation `series[row_number]`:

In [0]:
nomes_discentes = data["nome_discente"]
nomes_discentes[0]

'ABDENOR BEZERRA DOS SANTOS'

In [0]:
data["nome_discente"][0]

'ABDENOR BEZERRA DOS SANTOS'

In [0]:
data.nome_unidade[0]

'INSTITUTO METROPOLE DIGITAL'

It is also possible to directly access the data using the methods `loc` and `iloc`:
- Referring to columns by their names, using the notation `data.loc[row, column_name]`
:

In [0]:
data.loc[0, "nome_discente"]

- Referring to columns by their position in the column index, using the notation `data.iloc[row, column_index]`

In [0]:
data.iloc[0, 1]

'ABDENOR BEZERRA DOS SANTOS'

Note that the indexes are counted from the number 0. Since `"nome_discente"` is the second column, we use index 1 to access it.

The methods `loc` and `iloc` they also accept that you provide a list of indexes.

In [0]:
data.loc[0, ["nome_discente","nome_curso"]]

nome_discente            ABDENOR BEZERRA DOS SANTOS
nome_curso       CURSO TÉCNICO DA METRÓPOLE DIGITAL
Name: 0, dtype: object

In [0]:
data.iloc[[1,3,7], 1]

1        ABDIAS MONTEIRO DE ANDRADE MELO
3           ABEL GOMES DE OLIVEIRA FILHO
7    ABIGAIL SARA PALOMA SILVA DAMASCENO
Name: nome_discente, dtype: object

**P.S:** For those who are more familiar with Python, the methods

`loc` and `iloc` accept any iterable type.

### Slicing the dataset

In most of the cases we're only interested in a particular subset of the data containing some continuous columns/rows.

Selecting that subset can be done by using these slicing operations:
- Slicing by rows, using `data.loc[row_start:row_end, column_name]`:

---



In [0]:
data.loc[0:500,'nome_discente']

0                   ABDENOR BEZERRA DOS SANTOS
1              ABDIAS MONTEIRO DE ANDRADE MELO
2                ABDIAS SABINO RODRIGUES FILHO
3                 ABEL GOMES DE OLIVEIRA FILHO
4                  ABI AMANA DE AQUINO BEZERRA
                        ...                   
496               ALINE NASCIMENTO VASCONCELOS
497               ALINE NASCIMENTO VASCONCELOS
498                    ALINE PEROBA PITOMBEIRA
499    ALINE RAGNINI BENEVIDES CORREIA CORREIA
500                        ALINE RAMOS MOREIRA
Name: nome_discente, Length: 501, dtype: object

* By rows and columns simultaneously  based on their positions in the dataframe, using `data.iloc[row_start:row_end, column_start:column_end]`:

In [0]:
data.iloc[0:5, 5:8]

Unnamed: 0,forma_ingresso,tipo_discente,status
0,PROCESSO SELETIVO,REGULAR,CANCELADO
1,SiSU,REGULAR,ATIVO
2,SiSU,REGULAR,CANCELADO
3,PROCESSO SELETIVO,REGULAR,ATIVO
4,SiSU,REGULAR,ATIVO


It's important  to notice that slicing operations in Python usually includes the element located by the first index, but it doesn't include the element located by the second index.  This means  that when selecting multiple columns or multiple rows in this manner, you need to remember that in your selection the rows/columns selected will run from the first number to one minus the second number. 

This is why the example `data.iloc[0:5, 5:8]` returns 5 rows and 3 columns.

The `loc` method is an exception: it also includes the row referenced by the second index.

This is why the example `data.loc[0:500,'nome_discente']` returns 501 rows.


You can also slice by columns in `loc` method, but this has to be done by the  columns labels. This is probably the reason why the second element in the index is also included.

In [0]:
data.loc[0:500, 'nome_discente':'ano_ingresso']

Unnamed: 0,nome_discente,sexo,ano_ingresso
0,ABDENOR BEZERRA DOS SANTOS,M,2019
1,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019
2,ABDIAS SABINO RODRIGUES FILHO,M,2019
3,ABEL GOMES DE OLIVEIRA FILHO,M,2019
4,ABI AMANA DE AQUINO BEZERRA,F,2019
...,...,...,...
496,ALINE NASCIMENTO VASCONCELOS,F,2019
497,ALINE NASCIMENTO VASCONCELOS,F,2019
498,ALINE PEROBA PITOMBEIRA,F,2019
499,ALINE RAGNINI BENEVIDES CORREIA CORREIA,F,2019


## Queries just like those made in database development



The indexing and slicing operations are inherent to Python language and  that's why they are implemented in Pandas.

Partially they help transforming **selection** and **projection** into operations, both common in databases:
- **Selection**: choosing a subset of samples
- **Projection**: choosing a subset of attributes/features

Pandas Dataframes provide more methods to these type of queries.

#### Searching for the features’ name

The method **filter()** chooses a subset of features based on its name:

In [0]:
data.filter(like='ingresso')

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU
...,...,...,...
16013,2019,2.0,ALUNO ESPECIAL POS-GRADUACAO
16014,2019,1.0,PROCESSO SELETIVO
16015,2019,1.0,SiSU
16016,2019,2.0,SiSU


The result of the method **filter** is a new `DataFrame` that can be associated to a new name:

In [0]:
data_ingresso = data.filter(like='ingresso')
data_ingresso.head()

Unnamed: 0,ano_ingresso,periodo_ingresso,forma_ingresso
0,2019,1.0,PROCESSO SELETIVO
1,2019,1.0,SiSU
2,2019,1.0,SiSU
3,2019,1.0,PROCESSO SELETIVO
4,2019,2.0,SiSU


### Searching for conditions

Another way to filter by the columns’ values is through **conditions**.

To that end, we use the method `query('condition')`, where `condition` is a logical expression from Python.

For example, we will choose only the observations whose **forma_ingresso** has the value **REINGRESSO SEGUNDO CICLO**:

In [0]:
data.query("forma_ingresso == 'REINGRESSO SEGUNDO CICLO'")

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
144,20190000948,AFFONSO DE FARIA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85341136.0,ENGENHARIA BIOMÉDICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
162,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000013.0,CIÊNCIA DA COMPUTAÇÃO,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
173,20190001927,AISSA PALHARES CAVALCANTI,F,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000031.0,ENGENHARIA MECÂNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
179,20190002610,ALAILSON FEITOSA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85437055.0,ENGENHARIA MECATRÔNICA,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15935,20190153230,YGOR MATHEUS PEREIRA DE PAULA,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000027.0,ENGENHARIA DE MATERIAIS,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15959,20190155914,YSLANE STEPHANIE MACÊDO DOS SANTOS,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,85322571.0,ENGENHARIA AMBIENTAL,PRESENCIAL,445.0,CENTRO DE TECNOLOGIA,445.0,CENTRO DE TECNOLOGIA
15966,20190000643,YURI ALESSANDRO DANTAS TONHECA MARTINS,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
15989,20190000652,YURI REINALDO DA SILVA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA


Let’s discuss the example above:
* `forma_ingresso` is a `Series` (column) from the `DataFrame` that we call `data` 
* We compare each value in this series with the value `'REINGRESSO SEGUNDO CICLO'` using the equality operator `==`
```python
data.query("forma_ingresso == 'REINGRESSO SEGUNDO CICLO'")
```
We choose only the observations that satisfy that condition 

Note that we can also use names to reference the returned `DataFrame`:

In [0]:
data_segundo_ciclo = data.query("forma_ingresso == 'REINGRESSO SEGUNDO CICLO'")
data_segundo_ciclo.head()

#### Conditions and comparison operators

In the example above, we use the equality operator.

Note that it’s different to use `==` (comparison of equality) and `=` (association of a name to an object).

Python offers more comparison operators:

| Symbol | Meaning |
|:----:|---|
| == | Equal to |
| !=  | Not equal |
| < | Less than |
| > | Greater than |
| <=  | Less than or equal to |
| >=  | Greater than or equal to |

It is also important to observe that the operators less than/greater than (or equal to) usually are applied to numeric data.

For non-numeric data, we can use the operator `in`.

Let’s take a look at the existing values for the feature `"status"` using the method `unique()`:

In [0]:
data['status'].unique()

array(['CANCELADO', 'ATIVO', 'TRANCADO', 'CONCLUÍDO', 'CADASTRADO',
       'ATIVO - FORMANDO', 'DEFENDIDO', 'FORMADO'], dtype=object)

Once again, we have a verbose result, but what interests us is a list of values:

```python3
['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLUÍDO', 'DEFENDIDO']
````

Let’s choose only the observations whose status is "CANCELADO" or "TRANCADO":

In [0]:
status_desejados = ["CANCELADO", "TRANCADO"]
data_cancelado_trancado = data.query(f"status in {status_desejados}")
data_cancelado_trancado.tail()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
15975,20190066171,YURI ENILSON RABELO DE ARAUJO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,111635047.0,FILOSOFIA,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
15978,20190100460,YURI GUEDES DOS SANTOS,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,118834827.0,COMUNICAÇÃO SOCIAL- PUBLICIDADE E PROPAGANDA,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
15984,20195004162,YURI PEDRO DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,CANCELADO,F,FORMAÇÃO COMPLEMENTAR,86980317.0,CURSO DE LÍNGUA ESPANHOLA - BÁSICO,PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
16000,20191010009,ZALMAN DANTAS DA CRUZ,M,2019,1.0,ALUNO ESPECIAL POS-GRADUACAO,ESPECIAL,CANCELADO,E,MESTRADO,,,,,,,
16007,20191011310,ZENILEIDE REJANE DE AZEVEDO,M,2019,1.0,ALUNO ESPECIAL POS-GRADUACAO,ESPECIAL,CANCELADO,E,MESTRADO,,,,,,,


Let’s discuss the example above:
* `status_desejados` is a list with the status that we wish to filter 
* We filter the dataframe `data` indicating that we want only the observations whose status is specified on the list `status_desejados`
```python
data.query(f"status in {status_desejados}")
```
Note that we use a Python resource called `f-strings`, that allows to convert in text objects specified between curly braces (an `f-string` always starts with an `f` before quotation marks).

#### Conditions and Logical Operators
We can also use more complex conditions, using **logical operators**.

We are going to restrict the query above a little more so that, in addition to **forma_ingresso** having value **REINGRESSO SEGUNDO CICLO**, **course_name** has value **ENGENHARIA DE SOFTWARE**:

In [0]:
condição_segundo_ciclo = "forma_ingresso == 'REINGRESSO SEGUNDO CICLO'"
condição_engenharia_software = "nome_curso == 'ENGENHARIA DE SOFTWARE'"
data_2ciclo_engsoft = data.query(f"{condição_segundo_ciclo} and {condição_engenharia_software}")
data_2ciclo_engsoft.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
569,20190152672,ALLAN VALDEVINO GONÇALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
714,20190152681,AMANDA PRISCILLA ARAÚJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
986,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
1280,20190000527,ANDRÉ LUIZ DE LUCENA MOREIRA,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,CANCELADO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA




```
# This is formatted as code
```

Reviewing the code above:
```python
condição_segundo_ciclo = "forma_ingresso == 'REINGRESSO SEGUNDO CICLO'"
````
Condition to choose only new entrants through second cycle re-entry
```python
condição_engenharia_software = "nome_curso == 'ENGENHARIA DE SOFTWARE'"
```
Condition to choose only those entering the software engineering course
```python
data_2ciclo_engsoft = data.query(f"{condição_segundo_ciclo} and {condição_engenharia_software}")
```
Combining the two conditions through the `and` operator.

#### Other logical operators

In addition to the `and` operator, Pandas also provides the` or` operator.

While the `and` operator chooses the line only if both conditions are true, for the `or` operator it is sufficient that one of the conditions is satisfied.

Following this definition, what does the example below do?

In [0]:
condição_segundo_ciclo = "forma_ingresso == 'REINGRESSO SEGUNDO CICLO'"
condição_engenharia_software = "nome_curso == 'ENGENHARIA DE SOFTWARE'"
condição_ciência_computação = "nome_curso == 'CIÊNCIA DA COMPUTAÇÃO'"
condição_dimap = f"{condição_ciência_computação} or {condição_engenharia_software}"
data_2ciclo_dimap = data.query(f"{condição_segundo_ciclo} and {condição_dimap}")
data_2ciclo_dimap.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
38,20190000518,ADELINO AFONSO FERNANDES AVELINO,M,2019,1.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
162,20190152609,AILSON FORTE DOS SANTOS,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,2000013.0,CIÊNCIA DA COMPUTAÇÃO,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
569,20190152672,ALLAN VALDEVINO GONÇALVES,M,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
714,20190152681,AMANDA PRISCILLA ARAÚJO DA SILVA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA
986,20190152690,ANALLA NAYANE DE FARIAS CUNHA,F,2019,2.0,REINGRESSO SEGUNDO CICLO,REGULAR,ATIVO,G,GRADUAÇÃO,17848940.0,ENGENHARIA DE SOFTWARE,PRESENCIAL,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA,439.0,CENTRO DE CIÊNCIAS EXATAS E DA TERRA


Reviewing the code above:
 ```python
condição_segundo_ciclo = "forma_ingresso == 'REINGRESSO SEGUNDO CICLO'"
````
Condition to choose only new entrants through second cycle re-entry
```python
condição_engenharia_software = "nome_curso == 'ENGENHARIA DE SOFTWARE'"
```
Condition to choose only those entering the software engineering course
```python
condição_ciência_computação = "nome_curso == 'CIÊNCIA DA COMPUTAÇÃO'"
```
Condition to choose only those entering the computer science course
```python
condição_dimap = f"{condição_ciência_computação} or {condição_engenharia_software}"
```
Combining the two conditions using the `or` operator
```python
data_2ciclo_dimap = data.query(f"{condição_segundo_ciclo} and {condição_dimap}")
```
Combining the two conditions using the `and` operator

Note that we used the `or` operator when we could have used the` in` operator, which is more readable.

In general, we adopt the `or` operator when conditions involve different characteristics, instead of different values for the same characteristic.

Finally, the operator `not` is used to invert a condition:

In [0]:
data_ingresso_direto = data.query(f"not {condição_segundo_ciclo}")
data_ingresso_direto.head()

Unnamed: 0,matricula,nome_discente,sexo,ano_ingresso,periodo_ingresso,forma_ingresso,tipo_discente,status,sigla_nivel_ensino,nivel_ensino,id_curso,nome_curso,modalidade_educacao,id_unidade,nome_unidade,id_unidade_gestora,nome_unidade_gestora
0,20193012209,ABDENOR BEZERRA DOS SANTOS,M,2019,1.0,PROCESSO SELETIVO,REGULAR,CANCELADO,T,TÉCNICO,96054058.0,CURSO TÉCNICO DA METRÓPOLE DIGITAL,SEMI-PRESENCIAL,6069.0,INSTITUTO METROPOLE DIGITAL,605.0,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
1,20190088900,ABDIAS MONTEIRO DE ANDRADE MELO,M,2019,1.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
2,20190127606,ABDIAS SABINO RODRIGUES FILHO,M,2019,1.0,SiSU,REGULAR,CANCELADO,G,GRADUAÇÃO,111635060.0,HISTÓRIA,PRESENCIAL,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ,1482.0,CENTRO DE ENSINO SUPERIOR DO SERIDÓ
3,20195001008,ABEL GOMES DE OLIVEIRA FILHO,M,2019,1.0,PROCESSO SELETIVO,REGULAR,ATIVO,F,FORMAÇÃO COMPLEMENTAR,112718836.0,CURSO DE LÍNGUA BRASILEIRA DE SINAIS (LIBRAS),PRESENCIAL,6042.0,"INSTITUTO ÁGORA - LÍNGUAS, LITERATURAS E CULTU...",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"
4,20190032217,ABI AMANA DE AQUINO BEZERRA,F,2019,2.0,SiSU,REGULAR,ATIVO,G,GRADUAÇÃO,119512361.0,COMUNICAÇÃO SOCIAL - AUDIOVISUAL,PRESENCIAL,442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES",442.0,"CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES"


* **Note**: complex logical expressions deserve specific research on the subject. Covering this topic in depth is beyond the scope of this notebook 🙃