# Pandas - Operações

In [None]:
import numpy as np
import pandas as pd

### Abrindo bases de dados

Um método bastante utilizado para carregar bases de dados é o `.read_csv()`. Entre seus parâmetros, temos:
- `path`: Caminho para a base. Pode ser um arquivo ou URL
- `sep`: Separador utilizado no arquivo. Padrão: `,`
- `encoding`: Codificação da base. Padrão: `UTF-8`. É comum a utilização do `latin-1`, para abrir bases que possuam caracteres com acentuação.

**Exemplo**  

- Base de alunos do IFPR (Aprox. 22 MiB)

```python
url = 'https://reitoria.ifpr.edu.br/wp-content/uploads/2022/01/alunos-matriculas-e-cursos.csv'
df_alunos = pd.read_csv(url, sep=';')
df_alunos.head(2) #Mostra as 2 primeiras linhas
```

Fonte da base: [Dados.gov.br](https://dados.gov.br/dataset/alunos-ifpr).

Caso o ambiente utilizado seja o Google Colaboratory, é possível acessar bases de dados armazenadas no Google Drive. Para tal, basta montar o ponto de acesso ao Google Drive, e abrir o arquivo passando o caminho para o arquivo que contém a base.

Para montar:

```python
from google.colab import drive
drive.mount('/content/drive/')
```

Para observar o diretório montado:
```bash
!ls drive/Shareddrives/bases_dados/IFPR/alunos-matriculas-e-cursos.csv
```

Para abrir a base de dados:

```python
file_path = 'drive/Shareddrives/bases_dados/IFPR/alunos-matriculas-e-cursos.csv'
df_alunos = pd.read_csv(file_path, sep=';')
df_alunos.head(2) #Mostra as 2 primeiras linhas
```

### Alterando nomes de colunas
Para ver quais são as colunas, pode-se utilizar o atributo `columns`, do DataFrame.

**Exemplo**  
```python
df_alunos.columns
```

Vamos modificar o nome da coluna `SUBTITPO DE CURSO` para `SUBTIPO DE CURSO`

Em seguida, podemos atribuir essa lista novamente aos nomes das colunas do DataFrame.

**Exemplo**  
```python
df_alunos.columns = nomes
df_alunos.head(3) #Visualiza uma amostra
```

### Mostrando valores únicos

Para observar os valores de uma coluna, podemos utilizar o método `.unique()` das Series:

**Exemplo**  
- Quais são os campi que tem registro na base?

```python
df_alunos['CAMPUS'].unique()
```

### Filtrando por valores em um conjunto

É possível filtrar linhas por valores que estejam presentes em um conjunto.

**Exemplo**  
- Alunos dos cursos de graduação

```python
graduacao = ['LICENCIATURA', 'BACHARELADO']
idx = df_alunos['SUBTIPO DE CURSO'].isin(graduacao)
df_alunos[idx]
```

### Adicionando colunas
Para adicionar ou substituir valores em uma coluna, pode-se utilizar diretamente a atribuição com o valor ou então uma Series.

**Exemplo**   
```python
graduacao = ['LICENCIATURA', 'BACHARELADO']
is_graduacao = df_alunos['SUBTITPO DE CURSO'].isin(graduacao)
df_alunos['GRADUACAO'] = is_graduacao
df_alunos
```

### Manipulação de *strings*

Os métodos presentes nas *strings* podem ser acessados, visando transformações nesses tipos de valores. Para tal, pode-se utilizar o método `.str()`

**Exemplo**
- Deixar a primeira letras dos nomes em maiusculas
```python
df_alunos['NOME'] = df_alunos['ALUNO'].str.title()
```

**Exemplo**  
- Separar os campos de dia, mês e ano

```python
#Split pela '/' e inclui cada resultado em uma coluna
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']] = df_alunos['DATA INICIO'].str.split('/',expand=True)
#Observa as colunas
df_alunos[['NOME','DATA INICIO', 'INICIO_DIA','INICIO_MES','INICIO_ANO']]
```

### Amostras

Para visualizar amostras da base, podemos utilizar:
- `.head(n)`: Mostra as `n` primeiras linhas da base (*default*: 5)
- `.tail(n)`: Mostra as últimas `n` linhas (*default*: 5)
- `sample(n)`: Mostra linhas aleatórias (*default*: 1)



**Exemplo**  

```python
df_alunos.head(6)
```

**Exemplo**  

```python
df_alunos.tail(2)
```

**Exemplo**  

```python
df_alunos.sample(8)
```

### Formato dos dados nas colunas

É possível alterar o tipo de todos os dados em uma coluna.

**Exemplo**  
- Observe os tipos dos dados de todas as colunas

```python
df_alunos.info()
```

- Quais são os tipos das colunas `INICIO_DIA`, `INICIO_MES` e `INICIO_ANO`?

Para modificar, podemos alterar o tipo utilizando o método `.astype`:

**Exemplo**  
```python
df_alunos['INICIO_DIA'] = df_alunos['INICIO_DIA'].astype(int)
df_alunos.info()
```

Ou então, todas as colunas podem ser modificadas de uma única vez:
```python
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']] = \
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']].astype(np.int64)
df_alunos.info() #Observa o resultado
```

### Encontrando e preenchendo valores nulos

Utilizando `.info()`, podemos observar quais são as colunas que pussuem valores faltantes.


**Exemplo**  
- Quais colunas possuem dados faltantes?
```python
df_alunos.info()
```

Os métodos `.isna()` e `fillna()` permitem visualizar e preencher dados faltantes em uma base de dados.

**Exemplo**  
- Quais são as linhas que possuem valores faltantes na coluna `TIPO DE OFERTA`?

```python
idx = df_alunos['TIPO DE OFERTA'].isna()
df_alunos[idx]
```

**Exercício**
- Quais são subtipos de cusros em que o valor `TIPO DE OFERTA` é `nan`?



Como o índice utilizado é um *array* de valores booleanos, é possível aplicar a negação nesse *array*, utilizando o operador `~`

**Exercício**

- Quais são subtipos de cusros em que o valor `TIPO DE OFERTA` **não** é `nan`?

Podemos substituir os valores faltantes utilizando o método `.fillna()`

**Exemplo**  
- Substituir os valores faltantes de `TIPO DE OFERTA` para `"NAO SE APLICA"`

```python
df_alunos['TIPO DE OFERTA'] = df_alunos['TIPO DE OFERTA'].fillna('NAO SE APLICA')

```

Para visualizar o DataFrame após as alterações:

```python
idx = df_alunos['TIPO DE OFERTA'].isna()
df_alunos[idx]
```

### Joins

É possível juntar diversas bases de dados de acordo com um valor em comum nas linhas.

Como exemplo, tentaremos inserir na base uma coluna com o código do IBGE referente ao município.

Obteremos a base com os municípios do brasil a partir da biblioteca `geopandas` e base `geobr`. Podemos instalar e importar as bibliotecas executando:
```python
!pip3 -q install geopandas==0.10.1 geobr
import geopandas, geobr

#Download da base com os municípios
municipios = geobr.read_municipality()

#Prepara os dados
municipios = municipios[['code_muni','name_muni','abbrev_state']] #Seleciona apenas algumas colunas da base
municipios['code_muni'] = municipios['code_muni'].astype(int) #Converte o código do município para inteiro
municipios['name_muni'] = municipios['name_muni'].str.upper() #Converte os nomes dos municípios para maiúsculas
municipios.columns = ['CODIGO','CAMPUS','ESTADO'] #Renomeia os nomes das colunas

#Mostra a base com todos os municípios brasileiros
municipios.sample(5)
```

Para agrupar as bases de acordo com coluna em comum `CAMPUS`  

```python
df_alunos = pd.merge(df_alunos,municipios, on='CAMPUS')
```


### Ordenação

A ordenação pode ser realizada pelo índice (`.sort_index()`) ou de acordo com os valores de alguma coluna, com o `.sort_values()`. O parâmetro passado ao `sort_values` determina qual será a coluna utilizada, e também pode ser passada uma lista contendo diversas colunas.

**Exemplo**  
- Base ordenada pelo nome do campus
```python
df_alunos.sort_values('CAMPUS')
```

**Exemplo**  
- Base ordenada de acordo com o campus e em seguida pelo nome do aluno.
```python
df_alunos.sort_values(['CAMPUS','ALUNO'])
```

### Groupby

Com o `.groupby()` é possível a criação de grupos de acordo com a combinação de variáveis. 

**Exemplo**  
- Número de alunos que já estudaram em cada subtipo de curso de cada campus
```python
df_alunos.groupby(['CAMPUS','SUBTIPO DE CURSO']).size()
```

Com `groupby` também é possível realizar operações específicas

**Exemplo**
- Exemplo sem sentido semântico, porém sintaticamente correto
```python
df_alunos.groupby('CAMPUS').agg({'INICIO_DIA':np.mean, "INICIO_ANO":min})
```
Observe que é passado um dicionário, onde a chave corresponde à coluna e o valor a uma função a ser aplicada a todos os valores da coluna, já filtrados de acordo com o grupo associado (`CAMPUS`).

### Aplicando funções

Método `.apply()`.

### Linhas duplicadas

Para encontrar linhas duplicadas na base, podemos utilizar o método `.duplicated()`.

**Exemplo**
```python
idx = df_alunos.duplicated()
df_alunos[idx]
```

Observe que o nome de um mesmo aluno aparece mais de uma vez.

Para remover as linhas duplicadas, `.drop_duplicates()`.

```python
df_alunos = df_alunos.drop_duplicates()
```


In [None]:
df_alunos = df_alunos.drop_duplicates()

**Exercício**  
- Após aplicar o `.drop_duplicates`, confirme se realmente não há nenhuma linha repetida
- Qual seria a diferença entre utilizar o `.drop_duplicates` ou usar a o não booleano (`~`) às linhas duplicadas?

### Quantidades de valores

Para observar a quantidade de vezes que cada valor aparece em uma coluna, podemos utilizar o `.value_counts()`, presente nas Series.

**Exemplo**  
- Qual é a quantidade de alunos por curso?

**Exercício**
- Quais são as modalidades que possuem mais alunos?

### Cross-tabulation

É possível realizar a contagem de ocorrências em que aparecem combinações todos com todos, utilizand `crosstab`.

**Exemplo**
- Quantos alunos há em cada curso, diferenciando-os por modalidade?

### Pivôs

Utilizar pivôs em tabelas significa gerar um novo dataframe que relaciona linhas e colunas, e aplica uma função onde a combinação destes valores ocorre. Por padrão, é calculada média dos valores referentes à combinação, mas outra função de agregação pode ser utilizada. No exemplo, é utilizada a função de moda.

**Exemplo**
- Mostre o status da matricula de alunos, organizando os cursos em colunas

```python
pd.pivot_table(df_alunos.sample(5), \ #Base a ser utilizada
               index=['ALUNO'], \            #Coluna que servirá como linha
               columns=['NOME DO CURSO'], \  #Coluna que servirá como coluna na tabela pivô
               values='STATUS MATRICULA', \  #Valor que será colocado onde ocorrer aluno x curso
               fill_value='', \              #Valor a ser preenchido quando não houver correspondências
               aggfunc = lambda x: x.mode()) #Função de agregação a ser aplicada.
```