# Dataframes como bancos de dados

Os dataframes do Pandas oferecem diferentes formas de consultar dados.

Em alguns casos, essas consultas podem se tornar tão elaboradas como em bancos de dados tradicionais.

Neste notebook, vamos ver como fazer consultas simples a um dataset carregado da internet.

## Carregando dados da internet
Há várias formas de se trabalhar com dados carregados da internet. 

Aqui, vamos baixar o dataset usando uma ferramenta Linux e carregá-lo no Pandas.

### Baixando um dataset com `wget`

A execução de um notebook no Colab é feita em um computador na infraestrutura da Google.

Os computadores da Google usam o sistema operacional Linux e nós podemos aproveitar isso quando algum programa do Linux pode nos ajudar.

Um exemplo é o programa ``wget``, que baixa a URL que informamos.

Para rodar um programa Linux no Colab, temos que fazer isso pelas células de código, usando comandos do terminal Linux iniciados pelo símbolo ``!``

Nesse caso, usei o ``wget`` para fazer o download de um dataset do portal de dados abertos da UFRN que contém os discentes ingressantes em 2019:

In [0]:
!wget http://dados.ufrn.br/dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/a55aef81-e094-4267-8643-f283524e3dd7/download/discentes-2019.csv

O arquivo ``discentes-2019.csv`` deve aparecer na lista de arquivos do lado esquerdo da tela.

### Carregando o dataset

Vamos carregar o arquivo como um dataframe do Pandas:

In [0]:
import pandas as pd
data = pd.read_csv('discentes-2019.csv', sep=';')
data.head()

Caso você tenha tido alguma dúvida, vamos rever o código acima:
 - ```python
 import pandas as pd
 ```
 Importamos o Pandas e pedimos para chamá-lo de ``pd``
 ```python
data = pd.read_csv('discentes-2019.csv', sep=';')
 ```
 - Como usamos um nome para o Pandas, todos os seus comandos serão localizados a partir desse nome (ex.: ``pd.read_csv()``)
 - Informamos o caracter que é usado no dataset como delimitador de características usando a opção ``sep=';'`` (normalmente o Pandas consegue detectar isso automaticamente, mas em datasets brasileiros é comum dar errado)
 ```python
 data.head()
 ```
 Visualizamos as primeiras observações do dataset com o método ``head()``


## Consultando um dataframe

Bom, já temos nosso dataframe pronto para consultas.

As formas mais simples de consulta são a **indexação** e o **fatiamento**.

### Indexando um dataset

Consultas em um dataframe Pandas são feitas a partir de **índices**.

O índice principal em um dataframe é o das colunas, que representam as características:



In [0]:
data.columns

A resposta do Pandas é um pouco verbosa (poluída), mas a parte que nos importa é a lista de nomes de colunas.

Em Python, uma lista é representada pela notação `[elemento_1, elemento_2, ..., elemento_n]`:

````python
['matricula', 'nome_discente', 'sexo', 'ano_ingresso',
'periodo_ingresso', 'forma_ingresso', 'tipo_discente', 'status',
'sigla_nivel_ensino', 'nivel_ensino', 'id_curso', 'nome_curso',
'modalidade_educacao', 'id_unidade', 'nome_unidade',
'id_unidade_gestora', 'nome_unidade_gestora']
````


Isto significa que podemos acessar qualquer uma dessas colunas do dataframe usando as notações `data['nome_da_coluna']` e `data.nome_da_coluna`

Como cada coluna é considerada uma série (objeto do tipo `Series`), podemos usar os métodos desse tipo:

In [0]:
data["nome_discente"].head()

In [0]:
data.nome_unidade.tail()

Os dados em uma série também estão indexados. 

Podemos acessá-los individualmente usando a notação `série[número_da_linha]`:

In [0]:
nomes_discentes = data["nome_discente"]
nomes_discentes[0]

In [0]:
data["nome_discente"][0]

In [0]:
data.nome_unidade[0]

Também é possível acessar diretamente os dados usando os métodos `loc` e `iloc`:
- Se referindo às colunas pelos seus nomes, usando a notação `data.loc[linha, nome_coluna]`
:

In [0]:
data.loc[0, "nome_discente"]

- Se referindo às colunas pela sua posição no índice de colunas, usando a notação `data.iloc[linha, índice_coluna]`

In [0]:
data.iloc[0, 1]

Note que os índices são contados a partir do número 0. Como `"nome_discente"` é a segunda coluna, usamos o índice 1 para acessá-la.

Os métodos `loc` e `iloc` também aceitam que você informe uma lista de índices.

In [0]:
data.loc[0, ["nome_discente","nome_curso"]]

In [0]:
data.iloc[[1,3,7], 1]

**Observação:** Para quem conhece um pouco mais sobre Python, os métodos `loc` e `iloc` aceitam qualquer tipo iterável.

### Fatiando um dataset

Na maioria das vezes, nosso interesse é em um bloco contíguo de linhas e/ou colunas.

Isso pode ser feito através de operações de fatiamento:
- Por linhas, usando a notação `data.loc[linha_início:linha_fim, nome_coluna]`:

In [0]:
data.loc[0:500,'nome_discente']

* Por linhas e colunas, usando a notação `data.loc[linha_início:linha_fim, coluna_início:coluna_fim]`:

In [0]:
data.iloc[0:5, 5:8]

É importante observar que operações de fatiamento em Python costumam incluir o elemento referido pelo primeiro índice, mas não o elemento referido pelo segundo índice.

Assim, no exemplo `data.iloc[0:5, 5:8]` temos 5 linhas e 3 colunas sendo retornadas.

O método `loc` foge a esse padrão, incluindo também a linha referida pelo segundo índice.

Por isso, o exemplo `data.loc[0:500,'nome_discente']` retorna 501 linhas.

Isso acontece porque no método `loc`, é possível fatiar o dataframe também por colunas. Neste caso, faz sentido que a segunda referência seja inclusa:

In [0]:
data.loc[0:500, 'nome_discente':'ano_ingresso']

## Consultas como em bancos de dados

As operações de indexação e fatiamento são inerentes à linguagem Python e por isso são implementadas pelo Pandas.

Em parte, elas ajudam a operacionalizar a **seleção** e a **projeção** comuns em bancos de dados:
- **Seleção**: escolher um subconjunto de observações
- **Projeção**: escolher um subconjunto de características

Os dataframes do Pandas fornecem mais métodos para estes tipos de consulta.

#### Pesquisando pelo nome das características

O método **filter()** escolhe um subconjunto de características baseado em seu nome:

In [0]:
data.filter(like='ingresso')

O resultado do método **filter** é um novo `DataFrame` que pode ser associado a um novo nome:

In [0]:
data_ingresso = data.filter(like='ingresso')
data_ingresso.head()

### Pesquisando por condições

Uma outra maneira de filtrar pelos valores das colunas é através de **condições**.

Para isso, usamos a notação `data[condição]`, onde `condição` é uma expressão lógica do Python.

Por exemplo, vamos escolher apenas as observações cuja **forma_ingresso** tenha valor **REINGRESSO SEGUNDO CICLO**:

In [0]:
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]

Vamos discutir o exemplo acima:
* ```python
data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
* `data["forma_ingresso"]` é uma série 
* Comparamos cada valor nesta série com o valor `"REINGRESSO SEGUNDO CICLO"` usando o operador de igualdade `==`
```python
data[data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"]
```
Escolhemos apenas as observações que satisfazem essa condição

Note que seria possível usar nomes tanto para referência à condição quanto para o `DataFrame` retornado por fim:

In [0]:
condição = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
data_segundo_ciclo = data[condição]
data_segundo_ciclo.head()

#### Condições e operadores de comparação

No exemplo acima, usamos o operador de igualdade. 

Note que é diferente usar `==` (comparação de igualdade) e `=` (associação de nome a objeto).

O Python oferece mais operadores de comparação:

| Símbolo | Significado |
|:----:|---|
| == | Igualdade |
| !=  | Diferença |
| < | Menor |
| > | Maior |
| <=  | Menor ou igual |
| >=  | Maior ou igual |

Também é importante observar que os operadores menor/maior (ou igual) costumam ser aplicados a dados numéricos.

Para dados nominais, podemos usar o método `isin()`.

Vamos dar uma olhada nos valores existentes para a característica `"status"` usando o método `unique()`:

In [0]:
data['status'].unique()

Novamente temos um resultado verboso, mas nos interessa a lista de valores:

```python3
['ATIVO', 'CANCELADO', 'CADASTRADO', 'TRANCADO', 'ATIVO - FORMANDO',
       'CONCLUÍDO', 'DEFENDIDO']
````

Vamos escolher apenas as observações cujo status seja "CANCELADO" ou "TRANCADO":

In [0]:
condição = data["status"].isin(["CANCELADO", "TRANCADO"])
data_cancelado_trancado = data[condição]
data_cancelado_trancado.tail()

#### Condições e operadores lógicos
Podemos também usar condições mais complexas, usando **operadores lógicos**.

Vamos restringir um pouco mais a consulta acima para que, além de **forma_ingresso** ter valor **REINGRESSO SEGUNDO CICLO**, **nome_curso** tenha valor **ENGENHARIA DE SOFTWARE**:

In [0]:
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
data_2ciclo_engsoft = data[condição_segundo_ciclo & condição_engenharia_software]
data_2ciclo_engsoft.head()

Revendo o código acima:
* ```python
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condição para escolher apenas os ingressantes através de reingresso de segundo ciclo
```python
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condição para escolher apenas os ingressantes do curso de engenharia de software
```python
data_2ciclo_engsoft = data[condição_segundo_ciclo & condição_engenharia_software]
```
Combinando as duas condições através do operador `&` (lemos como E)

#### Outros operadores lógicos

Além do operador `&`, o Pandas também disponibiliza o operador `|` (lemos como OU).

Enquanto o operador `&` escolhe a linha apenas se as duas condições forem verdadeiras, para o operador `|` basta que uma das condições seja satisfeita.

Seguindo essa definição, o que o exemplo abaixo faz?

In [0]:
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
condição_ciência_computação = data["nome_curso"] == "CIÊNCIA DA COMPUTAÇÃO"
condição_dimap = condição_ciência_computação | condição_engenharia_software
data_2ciclo_dimap = data[condição_segundo_ciclo & condição_dimap]
data_2ciclo_dimap.head()

Revendo o código acima:
* ```python
condição_segundo_ciclo = data["forma_ingresso"] == "REINGRESSO SEGUNDO CICLO"
````
Condição para escolher apenas os ingressantes através de reingresso de segundo ciclo
```python
condição_engenharia_software = data["nome_curso"] == "ENGENHARIA DE SOFTWARE"
```
Condição para escolher apenas os ingressantes do curso de engenharia de software
```python
condição_ciência_computação = data["nome_curso"] == "CIÊNCIA DA COMPUTAÇÃO"
```
Condição para escolher apenas os ingressantes do curso de ciência da computação
```python
condição_dimap = condição_ciência_computação | condição_engenharia_software
```
Combinando as duas condições através do operador OU
```python
data_2ciclo_dimap = data[condição_segundo_ciclo & condição_dimap]
```
Combinando as duas condições através do operador E

Note que usamos o operador OU quando poderíamos ter usado o método `isin()`, que é mais legível.

Em geral, adotamos o operador OU quando as condições envolvem características distintas, em vez de valores distintos para uma mesma característica.

Por último, o operador `~` (lemos operador NÃO) serve para reverter uma condição:

In [0]:
data_ingresso_direto = data[~condição_segundo_ciclo]
data_ingresso_direto.head()

* **Observação**: expressões lógicas complexas merecem uma pesquisa específica sobre o assunto. Cobrir esse tópico em profundidade foge do escopo deste notebook 🙃

### Mais métodos de consulta

* **unique()**: traz todos os valores distintos de uma série



In [0]:
data['forma_ingresso'].unique()

* **nunique()**: traz a quantidade de valores distintos por coluna do dataframe (ou de uma série específica)


In [0]:
data.nunique()

In [0]:
data["sexo"].nunique()

* **value_counts()**: retorna quantas vezes cada valor de uma série se repete

In [0]:
data["nome_unidade"].value_counts()

* **'sort_values()'** é usado para ordenação no dataframe. Podendo especificar quais as colunas para se ordernar e se vai ser crescente ou decrescente.


```
sort_values(by=[<colunas>],ascending=<True or False>)
```




In [0]:
data.sort_values(by=['periodo_ingresso','forma_ingresso'],ascending=False).head(5)

O método **'value_counts()'** retorna dados estatísticos das colunas numericas do dataframe

In [0]:
data['nome_curso'].value_counts()