# AULA - 12


## Aprofundamento no Pandas

Neste notebook, iremos nos aprofundar nos seguintes tópicos do Pandas:


> Seleção condicional e set_index

> Indices Multiníveis

In [1]:
import numpy as np
import pandas as pd

Com as bibliotecas ja importadas, vamos começar.

### Seleção condicional

In [2]:
np.random.seed(101)
conteudo = np.random.randn(5,4)
indice = ['A','B','C','D','E']
colunas = ['X','Y','K','Z']
df = pd.DataFrame(conteudo,indice,colunas)
df

Unnamed: 0,X,Y,K,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Vamos utilizar o mesmo DataFrame da última aula, como exemplo para as operações condicionais que iremos fazer para este tópico.

Assim como os arrays do NumPy, pode-se comparar todo um DataFrame com algum valor.

In [3]:
df > 1

Unnamed: 0,X,Y,K,Z
A,True,False,False,False
B,False,False,False,False
C,False,False,False,False
D,False,False,False,False
E,False,True,True,False


In [4]:
df[df['K']>0]

Unnamed: 0,X,Y,K,Z
A,2.70685,0.628133,0.907969,0.503826
C,-2.018168,0.740122,0.528813,-0.589001
E,0.190794,1.978757,2.605967,0.683509


Utilizando o método acima, é retornado apenas os valores que atendem a condição da coluna "K" os demais são excluídos.

In [5]:
df[df['K']>0]['Y']

A    0.628133
C    0.740122
E    1.978757
Name: Y, dtype: float64

Já neste método, apenas serão retornados os valores da coluna "Y" referentes aos da coluna "K" que atendem a condição.

### Set_index

O índice de uma tabela pode ser alterado com o decorrer do programa de acordo com a necessidade de cada momento. Podemos resetar ele utilizando o método ".reset_index", que irá reiniciar os índices da tabela.

In [6]:
df.reset_index()

Unnamed: 0,index,X,Y,K,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


Os índices foram alterados, das letras passadas anteriormente, para números, porém, os índices de letras se transformaram em uma coluna, logo é importante ressaltar a importância do uso do (inplace = true) dentro dos parâmetros da função sempre que for utilizar uma função que alterará a estrutura da tabela.

Para se criar uma nova coluna devemos utilizar a seguinte forma:

In [7]:
paises = ["brasil","russia","espanha","italia","belarus"]
df['paises'] = paises

In [8]:
df

Unnamed: 0,X,Y,K,Z,paises
A,2.70685,0.628133,0.907969,0.503826,brasil
B,0.651118,-0.319318,-0.848077,0.605965,russia
C,-2.018168,0.740122,0.528813,-0.589001,espanha
D,0.188695,-0.758872,-0.933237,0.955057,italia
E,0.190794,1.978757,2.605967,0.683509,belarus


Lembrando que para se adicionar uma nova coluna a tabela é importante que ela tenha o mesmo tamanha da tabela para que possa se adequar a ela.

Agora, caso queira que esta nova coluna seja o novo índice da tabela, podemos usar o método .set_index, que irá transformar a coluna desejada no novo índice de sua tabela.

In [9]:
df.set_index('paises')

Unnamed: 0_level_0,X,Y,K,Z
paises,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
brasil,2.70685,0.628133,0.907969,0.503826
russia,0.651118,-0.319318,-0.848077,0.605965
espanha,-2.018168,0.740122,0.528813,-0.589001
italia,0.188695,-0.758872,-0.933237,0.955057
belarus,0.190794,1.978757,2.605967,0.683509


### Índices Multiniveis 

In [10]:
outside = ['g1','g1','g1','g2','g2','g2']
inside = [1,2,3,1,2,3]

In [11]:
hierIndex = list(zip(outside,inside))

In [12]:
hierIndex

[('g1', 1), ('g1', 2), ('g1', 3), ('g2', 1), ('g2', 2), ('g2', 3)]

Nas linhas acima, foram criadas duas listas e logo após a criação, elas foram utilizadas no método "zip", que faz com que as listas passadas pelos parâmetros se tornem uma lista só, organizada através de tuplas, associando os valores dentro delas.

In [13]:
hierIndex = pd.MultiIndex.from_tuples(hierIndex)

In [15]:
multiNivel = pd.DataFrame(np.random.randn(6,2), index = hierIndex, columns = ['A','B'])
multiNivel

Unnamed: 0,Unnamed: 1,A,B
g1,1,0.302665,1.693723
g1,2,-1.706086,-1.159119
g1,3,-0.134841,0.390528
g2,1,0.166905,0.184502
g2,2,0.807706,0.07296
g2,3,0.638787,0.329646


Já nessas linhas, as listas anteriormente separadas em tuplas, serviram para criar um novo tipo de referencia para o conteúdo da tabela, que por si só, podem ser operadas do mesmo jeito visto anterior mente.

Um detalhe que pode ajudar na organização das tabelas, é o fato de os índices possuirem nomes.

In [18]:
multiNivel.index.names = ['grupo','numero']

In [19]:
multiNivel

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
grupo,numero,Unnamed: 2_level_1,Unnamed: 3_level_1
g1,1,0.302665,1.693723
g1,2,-1.706086,-1.159119
g1,3,-0.134841,0.390528
g2,1,0.166905,0.184502
g2,2,0.807706,0.07296
g2,3,0.638787,0.329646


Para uma extração de dados mais simplificada e rápida da tabela, podemos usar o método "xs", de cross section, onde ele retirará uma sessão especifica da tabela sem que tenha que utilizar varios outros métodos "loc".

In [20]:
multiNivel.xs('g1')

Unnamed: 0_level_0,A,B
numero,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [23]:
multiNivel.xs(2, level = 'numero')

Unnamed: 0_level_0,A,B
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
g1,-1.706086,-1.159119
g2,0.807706,0.07296
