# Pandas (continuação)

In [3]:
import pandas as pd
import numpy as np

Operações típicas de manipulação

* Ordenar os registros da tabela.
* Selecionar e fatiar nos índices/eixos.
* Filtrar registros por predicado.
* Renomear os índices/eixos.
* Modificar a disposição do conteúdo.
* Modificar/transformar o conteúdo.
* Aplicar funções/calcular medidas resumo.
* Agregar por categorias e aplicar.
* Concatenar tabelas.
* Juntar ou conciliar tabelas.

Vamos considerar no nosso primeiro exemplo de hoje, o seguinte dataframe

In [4]:
df = pd.DataFrame({
"matricula": [256, 487, 965, 125, 458, 874, 963],
"nome": ["João", "Vanessa", "Tiago", "Luana", "Gisele",
"Pedro", "André"],
"curso": ["Mat", "Mat", "Est", "Est", "Est", "Mat", "Est"],
"prova1": [80, 75, 95, 70, 45, 55, 30],
"prova2": [90, 75, 80, 85, 50, 75, None],
"prova3": [80, 75, 75, 50, None, 90, 30],
"faltas": [4, 4, 0, 8, 16, 0, 20]},
index = list(range(1, 8)))

In [5]:
df

Unnamed: 0,matricula,nome,curso,prova1,prova2,prova3,faltas
1,256,João,Mat,80,90.0,80.0,4
2,487,Vanessa,Mat,75,75.0,75.0,4
3,965,Tiago,Est,95,80.0,75.0,0
4,125,Luana,Est,70,85.0,50.0,8
5,458,Gisele,Est,45,50.0,,16
6,874,Pedro,Mat,55,75.0,90.0,0
7,963,André,Est,30,,30.0,20


### Ordenação

![](ordenacao.png)

In [None]:
df.sort_values(by = "matricula", ascending = True)

In [None]:
df.sort_values(by = ["curso", "prova1"], ascending = [True, True])

## Seleção

#### Seleção por nomes das colunas

In [None]:
df["nome"]

In [None]:
df[["nome", "prova1", "prova2", "prova3"]]

#### Seleção por posição das colunas: .iloc

In [None]:
df.iloc[:, :3]

In [None]:
df.iloc[:, -3:]

In [None]:
df.iloc[:, [1, 4]]

#### Seleção por índices das linhas

Para a seleção vou fazer uma modificação para nosso exercício, vamos mudar os índices do nosso dataframe.


In [2]:
df1 = df.set_index('matricula')
df1

NameError: name 'df' is not defined

In [None]:
df1.loc[256]

In [None]:
df1.loc[[256,125,458]]

In [None]:
df1[2]

In [1]:
df1[:2]

NameError: name 'df1' is not defined

In [None]:
df1.iloc[2]

## Filtragem

![](filtro.png)

In [None]:
df1[df1.curso == "Est"]

In [None]:
df1[df1.faltas == 0]

In [None]:
df1[df1.faltas != 0]

In [None]:
df1[(df1.prova1 >= 70) & (df1.prova2 >= 70)]

In [None]:
df1[(df1.prova1 + df1.prova2 + df1.prova3)/3 >= 70]

## Renomeação

#### Renomeia índices de coluna

In [None]:
df.rename(columns = {"matricula": "mat.", "faltas": "fl"})

In [None]:
df.rename(index = {0: "10", 1: "20"})

In [None]:
df

IMPORTANTE: PANDAS TRABALHA COM CÓPIA!

## Transformação

As operações podem modificar a tabela com a:

1. Criação de novas variáveis
2. Remoção de variáveis
3. Transformação de variáveis

As operações de criação/transformação podem ser:

1. Matemáticas: aritméticas, potência, logarítmicas, trigonométricas, etc.
2. Compartimentação (binning): agrupar em classes.
3. Conversão de tipo de valor: i.e. de int → str.
4. Substituição: i.e. preencher um valor ausente.

#### Criação/Remoção

![](transformacao1.png)

In [None]:
df1["media"] = (df1.prova1 + df1.prova2 + df1.prova3)/3

In [None]:
df1

Para deletar, maneira mais simples é

In [None]:
del df1["media"]

In [None]:
df1

Podemos também colocar uma nova variável que se adapte a esses valores para criar um novo valor. Podemos, por exemplo, fazer a classificação automática de aprovados/reprovados, __compartimentalizando__ os intervalos de notas.



In [None]:
df1["media"] = (df1.prova1 + df1.prova2 + df1.prova3)/3
df1

Para isso, vamos criar intervalos contendo as notas: [0,40] temos reprovado, [40,70] temos o aluno que vai a final, [70,100], temos aprovado. 

In [None]:
inter = [0, 40, 70, 100]
condi = ["reprovado", "final", "aprovado"]

Basta agora criar uma nova variável, que chamaremos de condição, com essa classificação.

In [None]:
df1["condicao"] = pd.cut(x = df1["media"],
                        bins = inter,
                        labels = condi,
                        right = False,
                        include_lowest = True)

In [None]:
df1

Como corrigir esse nan? Podemos, __para esse caso específico__, trocar o NaN por 0, indicando que a prova não realizada recebe essa nota zero...

In [None]:
df1.fillna({"prova1": 0, "prova2": 0, "prova3": 0}, inplace = True)

In [None]:
df1

In [None]:
df1["media"] = (df1.prova1 + df1.prova2 + df1.prova3)/3
df1["condicao"] = pd.cut(x = df1["media"],
                        bins = inter,
                        labels = condi,
                        right = False,
                        include_lowest = True)

In [None]:
df1