In [1]:
import pandas as pd
import numpy as np

# Indexacao Hierarquica

In [2]:
txs2 = pd.Series(np.random.randn(10),
                index=[['a','a','a','b','b','b','c','c', 'd','d'],
                 [1,2,3,1,4,5,1,4,2,6]])

In [3]:
txs2 #Series com dois niveis de indice (letras e numeros)

a  1    0.314124
   2    1.634230
   3   -0.832233
b  1    0.445342
   4   -1.353751
   5   -0.323032
c  1    0.169558
   4    0.036641
d  2   -2.692111
   6   -1.131276
dtype: float64

In [4]:
txs2.loc[['a','c']] #selecionar os valores por uma lista de índices

a  1    0.314124
   2    1.634230
   3   -0.832233
c  1    0.169558
   4    0.036641
dtype: float64

In [6]:
txs2.loc[:,3] #todos os niveis superiores de index e com o 3 como index inferior

a   -0.832233
dtype: float64

In [7]:
txs2.unstack() #cria uma tabela cruzada a partir dos index

Unnamed: 0,1,2,3,4,5,6
a,0.314124,1.63423,-0.832233,,,
b,0.445342,,,-1.353751,-0.323032,
c,0.169558,,,0.036641,,
d,,-2.692111,,,,-1.131276


# Joins

* Hipóteses de Join Many-To-One

In [8]:
df1 = pd.DataFrame({'x': ['br','br','arg','arg','def','def','br','arg'], 'y': range(8)})
df2 = pd.DataFrame({'x': ['def','br','arg','xas'], 'w': range(4)})

In [9]:
df1

Unnamed: 0,x,y
0,br,0
1,br,1
2,arg,2
3,arg,3
4,def,4
5,def,5
6,br,6
7,arg,7


In [10]:
df2

Unnamed: 0,x,w
0,def,0
1,br,1
2,arg,2
3,xas,3


In [11]:
pd.merge(df1,df2, on = 'x') #join many-to-one,df1 tem varios valores e df2 e df1 apenas um
#Observa-se que o valor 'xas' não consta no merge, pois o merge, por definicao, realiza um join no modelo inner

Unnamed: 0,x,y,w
0,br,0,1
1,br,1,1
2,br,6,1
3,arg,2,2
4,arg,3,2
5,arg,7,2
6,def,4,0
7,def,5,0


In [13]:
pd.merge(df1,df2, on = 'x', how = 'outer') # o how pode ser outer, left ou right

Unnamed: 0,x,y,w
0,br,0.0,1
1,br,1.0,1
2,br,6.0,1
3,arg,2.0,2
4,arg,3.0,2
5,arg,7.0,2
6,def,4.0,0
7,def,5.0,0
8,xas,,3


* Hipóteses de Join Many-To-Many

In [14]:
df1 = pd.DataFrame({'x': ['br','br','arg','arg','def','def','br','arg'], 'y': range(8)})
df2 = pd.DataFrame({'x': ['def','br','arg','arg','br','def'], 'w': range(6)})

In [15]:
df1

Unnamed: 0,x,y
0,br,0
1,br,1
2,arg,2
3,arg,3
4,def,4
5,def,5
6,br,6
7,arg,7


In [16]:
df2

Unnamed: 0,x,w
0,def,0
1,br,1
2,arg,2
3,arg,3
4,br,4
5,def,5


In [17]:
pd.merge(df1,df2,on='x') #como são multiplos valores em cada tabela, cada combinação possível é inclusa

Unnamed: 0,x,y,w
0,br,0,1
1,br,0,4
2,br,1,1
3,br,1,4
4,br,6,1
5,br,6,4
6,arg,2,2
7,arg,2,3
8,arg,3,2
9,arg,3,3


* Multiplas chaves para merge

In [18]:
df1 = pd.DataFrame({'caract_1': ['azul','azul','vermelho'], 'caract_2': ['amarelo','verde','cinza'], 
                    'var': [5,6,9]})

In [19]:
df2 = pd.DataFrame({'caract_1': ['azul','vermelho','azul','vermelho'], 'caract_2': ['amarelo','verde','cinza','verde'], 
                    'var': [11,6,3,5]})

In [20]:
pd.merge(df1,df2, on=['caract_1','caract_2'], how='outer') #somente a combinacao de chaves azul/amarelo possui valores em
# ambas tabelas

Unnamed: 0,caract_1,caract_2,var_x,var_y
0,azul,amarelo,5.0,11.0
1,azul,verde,6.0,
2,vermelho,cinza,9.0,
3,vermelho,verde,,6.0
4,vermelho,verde,,5.0
5,azul,cinza,,3.0


* Concatenação

In [21]:
df1 = pd.DataFrame({'x': ['br','br','arg','arg','def','def','br','arg'], 'y': range(8)})
df2 = pd.DataFrame({'x': ['def','br','arg','xas'], 'y': range(4)})

In [22]:
pd.concat([df1,df2]) #empilha as tabelas por linhas

Unnamed: 0,x,y
0,br,0
1,br,1
2,arg,2
3,arg,3
4,def,4
5,def,5
6,br,6
7,arg,7
0,def,0
1,br,1


In [23]:
pd.concat([df1,df2],axis=1) #com axis=1, empilha em forma de coluna

Unnamed: 0,x,y,x.1,y.1
0,br,0,def,0.0
1,br,1,br,1.0
2,arg,2,arg,2.0
3,arg,3,xas,3.0
4,def,4,,
5,def,5,,
6,br,6,,
7,arg,7,,


# Tabelas Pivotadas

In [24]:
df = pd.DataFrame({
    'X' : ['A','A','A','B','B','B'],
    'Y' : [4,7,12,56,26,78],
    'W' : [10,20,30,40,50,60],
    'Z' : ['C','C','D','D','E','E']
})

In [25]:
df.head(6)

Unnamed: 0,X,Y,W,Z
0,A,4,10,C
1,A,7,20,C
2,A,12,30,D
3,B,56,40,D
4,B,26,50,E
5,B,78,60,E


In [26]:
pd.pivot_table(df,index=["Z"]) #pivota pela coluna Z, calculando a média das variaveis quanti

Unnamed: 0_level_0,W,Y
Z,Unnamed: 1_level_1,Unnamed: 2_level_1
C,15,5.5
D,35,34.0
E,55,52.0


In [27]:
pd.pivot_table(df,index=["Z","X"]).reset_index() #idem ao acima, só que pivotando por duas colunas (Z e X)

Unnamed: 0,Z,X,W,Y
0,C,A,15,5.5
1,D,A,30,12.0
2,D,B,40,56.0
3,E,B,55,52.0


In [28]:
pd.pivot_table(df,index=["Z","X"], values=['Y']).reset_index() #escolhendo uma variavel quanti especifica

Unnamed: 0,Z,X,Y
0,C,A,5.5
1,D,A,12.0
2,D,B,56.0
3,E,B,52.0


In [29]:
pd.pivot_table(df,index=["Z","X"], values=['Y'], aggfunc = [np.sum,len]).reset_index()
#especificando funções para as variaveis quanti, neste caso, soma e contagem

Unnamed: 0_level_0,Z,X,sum,len
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Y,Y
0,C,A,11,2
1,D,A,12,1
2,D,B,56,1
3,E,B,104,2
