# Pandas - Operações

In [1]:
import numpy as np
import pandas as pd

### Abrindo bases de dados

Um método bastante utilizado para carregar bases de dados é o `.read_csv()`. Entre seus parâmetros, temos:
- `path`: Caminho para a base. Pode ser um arquivo ou URL
- `sep`: Separador utilizado no arquivo. Padrão: `,`
- `encoding`: Codificação da base. Padrão: `UTF-8`. É comum a utilização do `latin-1`, para abrir bases que possuam caracteres com acentuação.

**Exemplo**  

- Base de alunos do IFPR (Aprox. 22 MiB)

```python
url = 'https://reitoria.ifpr.edu.br/wp-content/uploads/2022/01/alunos-matriculas-e-cursos.csv'
df_alunos = pd.read_csv(url, sep=';')
df_alunos.head(2) #Mostra as 2 primeiras linhas
```

Fonte da base: [Dados.gov.br](https://dados.gov.br/dataset/alunos-ifpr).

In [113]:
url = 'https://reitoria.ifpr.edu.br/wp-content/uploads/2022/01/alunos-matriculas-e-cursos.csv'
df_alunos = pd.read_csv(url, sep=';')
df_alunos.head()

Unnamed: 0,CAMPUS,ALUNO,DATA INICIO,DATA FIM PREVISTO,NOME DO CURSO,SUBTITPO DE CURSO,MODALIDADE,TIPO DE OFERTA,STATUS MATRICULA
0,ASSIS CHATEAUBRIAND,ABNER NATTA JORGE,07/02/2019,31/12/2021,TÉCNICO EM AGROPECUÁRIA,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,EM_CURSO
1,ASSIS CHATEAUBRIAND,AMANDA APARECIDA PEREIRA,07/02/2019,31/12/2021,TÉCNICO EM AGROPECUÁRIA,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,TRANSF_EXT
2,ASSIS CHATEAUBRIAND,BEATRIZ FERRARI GOMES,07/02/2019,31/12/2021,TÉCNICO EM AGROPECUÁRIA,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,EM_CURSO
3,ASSIS CHATEAUBRIAND,BEATRIZ FREITAS MESTRINER,07/02/2019,31/12/2021,TÉCNICO EM AGROPECUÁRIA,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,EM_CURSO
4,ASSIS CHATEAUBRIAND,BEATRIZ MAYUMI BRITO TAKAHASHI,07/02/2019,31/12/2021,TÉCNICO EM AGROPECUÁRIA,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,EM_CURSO


Caso o ambiente utilizado seja o Google Colaboratory, é possível acessar bases de dados armazenadas no Google Drive. Para tal, basta montar o ponto de acesso ao Google Drive, e abrir o arquivo passando o caminho para o arquivo que contém a base.

Para montar:

```python
from google.colab import drive
drive.mount('/content/drive/')
```

Para observar o diretório montado:
```bash
!ls drive/Shareddrives/bases_dados/IFPR/alunos-matriculas-e-cursos.csv
```

Para abrir a base de dados:

```python
file_path = 'drive/Shareddrives/bases_dados/IFPR/alunos-matriculas-e-cursos.csv'
df_alunos = pd.read_csv(file_path, sep=';')
df_alunos.head(2) #Mostra as 2 primeiras linhas
```

### Alterando nomes de colunas
Para ver quais são as colunas, pode-se utilizar o atributo `columns`, do DataFrame.

**Exemplo**  
```python
df_alunos.columns
```

df_alunos.cols

In [89]:
df_alunos.columns

Index(['CAMPUS', 'ALUNO', 'DATA INICIO', 'DATA FIM PREVISTO', 'NOME DO CURSO',
       'SUBTITPO DE CURSO', 'MODALIDADE', 'TIPO DE OFERTA', 'STATUS MATRICULA',
       'GRADUACAO', 'NOME', 'INICIO_DIA', 'INICIO_MES', 'INICIO_ANO'],
      dtype='object')

Vamos modificar o nome da coluna `SUBTITPO DE CURSO` para `SUBTIPO DE CURSO`

In [97]:
nomes = df_alunos.columns.tolist()
nomes[nomes.index('SUBTITPO DE CURSO')] = 'SUBTIPO DE CURSO'
nomes

['CAMPUS',
 'ALUNO',
 'DATA INICIO',
 'DATA FIM PREVISTO',
 'NOME DO CURSO',
 'SUBTIPO DE CURSO',
 'MODALIDADE',
 'TIPO DE OFERTA',
 'STATUS MATRICULA',
 'GRADUACAO',
 'NOME',
 'INICIO_DIA',
 'INICIO_MES',
 'INICIO_ANO']

Em seguida, podemos atribuir essa lista novamente aos nomes das colunas do DataFrame.

**Exemplo**  
```python
df_alunos.columns = nomes
df_alunos.head(3) #Visualiza uma amostra
```

### Mostrando valores únicos

Para observar os valores de uma coluna, podemos utilizar o método `.unique()` das Series:

**Exemplo**  
- Quais são os campi que tem registro na base?

```python
df_alunos['CAMPUS'].unique()
```

In [None]:
df_alunos['CAMPUS'].unique()

In [19]:
df_alunos['SUBTIPO DE CURSO'].unique()

array(['TÉCNICO', 'FORMAÇÃO CONTINUADA', 'TECNOLOGIA',
       'ESPECIALIZAÇÃO (LATO SENSU)', 'LICENCIATURA', 'FORMAÇÃO INICIAL',
       'BACHARELADO', 'MULHERES MIL', 'ENSINO MÉDIO',
       'MESTRADO PROFISSIONAL', 'MESTRADO'], dtype=object)

### Filtrando por valores em um conjunto

É possível filtrar linhas por valores que estejam presentes em um conjunto.

**Exemplo**  
- Alunos dos cursos de graduação

```python
graduacao = ['LICENCIATURA', 'BACHARELADO']
idx = df_alunos['SUBTIPO DE CURSO'].isin(graduacao)
df_alunos[idx]
```

### Criando dataframes e colunas

### Adicionando colunas
Para adicionar ou substituir valores em uma coluna, pode-se utilizar diretamente a atribuição com o valor ou então uma Series.

**Exemplo**   
```python
graduacao = ['LICENCIATURA', 'BACHARELADO']
is_graduacao = df_alunos['SUBTITPO DE CURSO'].isin(graduacao)
df_alunos['GRADUACAO'] = is_graduacao
df_alunos
```

### Manipulação de *strings*

Os métodos presentes nas *strings* podem ser acessados, visando transformações nesses tipos de valores. Para tal, pode-se utilizar o método `.str()`

**Exemplo**
- Deixar a primeira letras dos nomes em maiusculas
```python
df_alunos['NOME'] = df_alunos['ALUNO'].str.title()
```

**Exemplo**  
- Separar os campos de dia, mês e ano

```python
#Split pela '/' e inclui cada resultado em uma coluna
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']] = df_alunos['DATA INICIO'].str.split('/',expand=True)
#Observa as colunas
df_alunos[['NOME','DATA INICIO', 'INICIO_DIA','INICIO_MES','INICIO_ANO']]
```

In [46]:
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']] = df_alunos['DATA INICIO'].str.split('/',expand=True)
df_alunos[['NOME','DATA INICIO', 'INICIO_DIA','INICIO_MES','INICIO_ANO']]

Unnamed: 0,NOME,DATA INICIO,INICIO_DIA,INICIO_MES,INICIO_ANO
0,Abner Natta Jorge,07/02/2019,07,02,2019
1,Amanda Aparecida Pereira,07/02/2019,07,02,2019
2,Beatriz Ferrari Gomes,07/02/2019,07,02,2019
3,Beatriz Freitas Mestriner,07/02/2019,07,02,2019
4,Beatriz Mayumi Brito Takahashi,07/02/2019,07,02,2019
...,...,...,...,...,...
166480,Joao Pedro Grenat,17/05/2021,17,05,2021
166481,Sibeli Janiszewski,17/05/2021,17,05,2021
166482,Kauana Paola Krebs,17/05/2021,17,05,2021
166483,Carlos Evandro Bartmann,17/05/2021,17,05,2021


### Amostras

Para visualizar amostras da base, podemos utilizar:
- `.head(n)`: Mostra as `n` primeiras linhas da base (*default*: 5)
- `.tail(n)`: Mostra as últimas `n` linhas (*default*: 5)
- `sample(n)`: Mostra linhas aleatórias (*default*: 1)



**Exemplo**  

```python
df_alunos.head(6)
```

**Exemplo**  

```python
df_alunos.tail(2)
```

**Exemplo**  

```python
df_alunos.sample(8)
```

In [49]:
df_alunos.sample(8)

Unnamed: 0,CAMPUS,ALUNO,DATA INICIO,DATA FIM PREVISTO,NOME DO CURSO,SUBTITPO DE CURSO,MODALIDADE,TIPO DE OFERTA,STATUS MATRICULA,GRADUACAO,NOME,INICIO_DIA,INICIO_MES,INICIO_ANO
7494,AVANÇADO CORONEL VIVIDA,RENAN FELIPE OLDONI,04/06/2019,07/11/2019,"CIÊNCIAS,TECNOLOGIAS E SOCIEDADE",FORMAÇÃO CONTINUADA,EDUCAÇÃO PRESENCIAL,CONCOMITANTE,EM_CURSO,False,Renan Felipe Oldoni,4,6,2019
98377,CURITIBA,ZAIRE LUIZ WALTER ...,25/08/2011,12/09/2013,TÉCNICO EM LOGÍSTICA,TÉCNICO,EDUCAÇÃO A DISTÂNCIA,SUBSEQUENTE,ABANDONO,False,Zaire Luiz Walter ...,25,8,2011
27959,CURITIBA,IVONE ALVES DOS SANTOS,01/12/2011,01/06/2012,MULHERES MIL,MULHERES MIL,EDUCAÇÃO PRESENCIAL,,CONCLUÍDA,False,Ivone Alves Dos Santos,1,12,2011
44111,CURITIBA,ANDREIA RIBEIRO DOS SANTOS PEREIRA,17/11/2010,30/11/2012,TÉCNICO EM SECRETARIADO,TÉCNICO,EDUCAÇÃO A DISTÂNCIA,SUBSEQUENTE,DESLIGADO,False,Andreia Ribeiro Dos Santos Pereira,17,11,2010
155469,TELÊMACO BORBA,PEDRO HENRIQUE DREVENIACKI,10/02/2014,22/12/2017,TÉCNICO EM AUTOMAÇÃO INDUSTRIAL,TÉCNICO,EDUCAÇÃO PRESENCIAL,INTEGRADO,CONCLUÍDA,False,Pedro Henrique Dreveniacki,10,2,2014
27711,CURITIBA,JULIANA ALBERTI GOMES,05/10/2011,17/04/2013,TÉCNICO EM EVENTOS,TÉCNICO,EDUCAÇÃO A DISTÂNCIA,SUBSEQUENTE,DESLIGADO,False,Juliana Alberti Gomes,5,10,2011
50338,CURITIBA,CLAUDINEI FRANCISCO DE OLIVEIRA,22/08/2011,22/11/2013,TÉCNICO EM MEIO AMBIENTE,TÉCNICO,EDUCAÇÃO A DISTÂNCIA,SUBSEQUENTE,CONCLUÍDA,False,Claudinei Francisco De Oliveira,22,8,2011
38477,CURITIBA,ACASSIO MORAES OLIVEIRA ...,24/08/2011,06/06/2014,TÉCNICO EM SEGURANÇA DO TRABALHO,TÉCNICO,EDUCAÇÃO A DISTÂNCIA,SUBSEQUENTE,ABANDONO,False,Acassio Moraes Oliveira ...,24,8,2011


### Formato dos dados nas colunas

É possível alterar o tipo de todos os dados em uma coluna.

**Exemplo**  
- Observe os tipos dos dados de todas as colunas

```python
df_alunos.info()
```

- Quais são os tipos das colunas `INICIO_DIA`, `INICIO_MES` e `INICIO_ANO`?

In [62]:
df_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 166485 entries, 0 to 166484
Data columns (total 14 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   CAMPUS             166485 non-null  object
 1   ALUNO              166485 non-null  object
 2   DATA INICIO        166485 non-null  object
 3   DATA FIM PREVISTO  166485 non-null  object
 4   NOME DO CURSO      166485 non-null  object
 5   SUBTITPO DE CURSO  166485 non-null  object
 6   MODALIDADE         166485 non-null  object
 7   TIPO DE OFERTA     122326 non-null  object
 8   STATUS MATRICULA   166485 non-null  object
 9   GRADUACAO          166485 non-null  bool  
 10  NOME               166485 non-null  object
 11  INICIO_DIA         166485 non-null  int64 
 12  INICIO_MES         166485 non-null  object
 13  INICIO_ANO         166485 non-null  object
dtypes: bool(1), int64(1), object(12)
memory usage: 16.7+ MB


Para modificar, podemos alterar o tipo utilizando o método `.astype`:

**Exemplo**  
```python
df_alunos['INICIO_DIA'] = df_alunos['INICIO_DIA'].astype(int)
df_alunos.info()
```

In [70]:
df_alunos['INICIO_DIA'] = df_alunos['INICIO_DIA'].astype(int)
df_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 166485 entries, 0 to 166484
Data columns (total 14 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   CAMPUS             166485 non-null  object
 1   ALUNO              166485 non-null  object
 2   DATA INICIO        166485 non-null  object
 3   DATA FIM PREVISTO  166485 non-null  object
 4   NOME DO CURSO      166485 non-null  object
 5   SUBTITPO DE CURSO  166485 non-null  object
 6   MODALIDADE         166485 non-null  object
 7   TIPO DE OFERTA     122326 non-null  object
 8   STATUS MATRICULA   166485 non-null  object
 9   GRADUACAO          166485 non-null  bool  
 10  NOME               166485 non-null  object
 11  INICIO_DIA         166485 non-null  int64 
 12  INICIO_MES         166485 non-null  int64 
 13  INICIO_ANO         166485 non-null  int64 
dtypes: bool(1), int64(3), object(10)
memory usage: 16.7+ MB


Ou então, todas as colunas podem ser modificadas de uma única vez:
```python
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']] = \
df_alunos[['INICIO_DIA','INICIO_MES','INICIO_ANO']].astype(np.int64)
df_alunos.info() #Observa o resultado
```

### Encontrando e preenchendo valores nulos

Utilizando `.info()`, podemos observar quais são as colunas que pussuem valores faltantes.


**Exemplo**  
- Quais colunas possuem dados faltantes?
```python
df_alunos.info()
```

Os métodos `.isna()` e `fillna()` permitem visualizar e preencher dados faltantes em uma base de dados.

**Exemplo**  
- Quais são as linhas que possuem valores faltantes na coluna `TIPO DE OFERTA`?

```python
idx = df_alunos['TIPO DE OFERTA'].isna()
df_alunos[idx]
```

**Exercício**
- Quais são subtipos de cusros em que o valor `TIPO DE OFERTA` é `nan`?



In [102]:
idx = df_alunos['TIPO DE OFERTA'].isna()
df_alunos[idx]['SUBTIPO DE CURSO'].unique()

array(['TECNOLOGIA', 'ESPECIALIZAÇÃO (LATO SENSU)', 'LICENCIATURA',
       'FORMAÇÃO INICIAL', 'FORMAÇÃO CONTINUADA', 'BACHARELADO',
       'MULHERES MIL', 'ENSINO MÉDIO', 'MESTRADO PROFISSIONAL',
       'MESTRADO'], dtype=object)

Como o índice utilizado é um *array* de valores booleanos, é possível aplicar a negação nesse *array*, utilizando o operador `~`

**Exercício**

- Quais são subtipos de cusros em que o valor `TIPO DE OFERTA` **não** é `nan`?

Podemos substituir os valores faltantes utilizando o método `.fillna()`

**Exemplo**  
- Substituir os valores faltantes de `TIPO DE OFERTA` para `"NAO SE APLICA"`

```python
df_alunos['TIPO DE OFERTA'] = df_alunos['TIPO DE OFERTA'].fillna('NAO SE APLICA')

```

In [112]:
df_alunos['TIPO DE OFERTA'] = df_alunos['TIPO DE OFERTA'].fillna('NAO SE APLICA')

Para visualizar o DataFrame após as alterações:

```python
idx = df_alunos['TIPO DE OFERTA'].isna()
df_alunos[idx]
```

### Joins

### Ordenação

### Groupby

### Renomeando colunas

### Removendo colunas

### Aplicando funções

### Linhas duplicadas

### Quantidades de valoes

### Redefinindo índices

### Comparações todos com 

### Pivôs