In [31]:
import pandas as pd
from numpy.random import randn
import numpy as np

In [3]:
df = pd.DataFrame(randn(4,4), index=['1','2','3','4'], columns= 'A B C D'.split())

In [4]:
df

Unnamed: 0,A,B,C,D
1,1.492326,-0.73446,0.083815,-1.255367
2,-0.133729,-2.928127,0.021939,0.539779
3,0.290833,-1.221823,-0.55612,0.737542
4,0.694528,-1.670478,1.218988,0.188462


In [8]:
df.iloc[2:, :2]

Unnamed: 0,A,B
3,0.290833,-1.221823
4,0.694528,-1.670478


In [19]:
#df[ df[ ('A')> 0.7] ]

df[ (df['A'] > 0.05) & (df['D'] > 0.05) ]

Unnamed: 0,A,B,C,D
3,0.290833,-1.221823,-0.55612,0.737542
4,0.694528,-1.670478,1.218988,0.188462


In [20]:
df[ (df ['A'] > 1 )] 

Unnamed: 0,A,B,C,D
1,1.492326,-0.73446,0.083815,-1.255367


# Exemplo de Hirarquia entre indices e indices múltiplos

In [23]:
#criando um novo data frame
outside = ['G1','G1', 'G1', 'G2', 'G2', 'G2']
inside = [1,2,3,1,2,3] 
index_hierarq = list(zip(outside, inside)) #utilizando o zip para juntar valores do outside e inside junto em uma mesma tupla da lista

In [24]:
index_hierarq

[('G1', 1), ('G1', 2), ('G1', 3), ('G2', 1), ('G2', 2), ('G2', 3)]

In [35]:
#criando um data frame do pandas com indice hierarquico
index_hierarq = pd.MultiIndex.from_tuples(index_hierarq)

dataF = pd.DataFrame(randn(6,2), index=index_hierarq, columns= ['A','B']) #criando o data frame com 5 linhas e 2 coluna, e com indice duplo
dataF

Unnamed: 0,Unnamed: 1,A,B
G1,1,1.745488,-1.284097
G1,2,-0.293011,-0.06913
G1,3,0.093534,-1.270323
G2,1,-0.662089,-0.713551
G2,2,2.186224,0.083101
G2,3,-0.963082,-0.586251


In [47]:
#trabalhando na seleção de elementos com indice duplo

dataF.loc['G1'] # retornando os valores contidos dentro do 1 indice o G1

Unnamed: 0,A,B
1,1.745488,-1.284097
2,-0.293011,-0.06913
3,0.093534,-1.270323


In [53]:
#nomeando os indices duplos gerados no data frame
dataF.index.names = ['Grupo','Número']
dataF

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,1.745488,-1.284097
G1,2,-0.293011,-0.06913
G1,3,0.093534,-1.270323
G2,1,-0.662089,-0.713551
G2,2,2.186224,0.083101
G2,3,-0.963082,-0.586251


In [55]:
#exemplo de uso da função xs para retornar somente linhas de dados que estejam dentro do mesmo indice
# no exemplo é usado o indice numero 2, o 1 siginifica nivel 1 do 2 indice, na coluna Número
dataF.xs(2, level='Número')

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,-0.293011,-0.06913
G2,2.186224,0.083101


# Como trabalhar com dados ausentes

In [1]:
import numpy as np
import pandas as pd

In [19]:
#criando um data frame com dados ausentes
df = pd.DataFrame( {'A': [1,2,np.nan], 'B': [5, np.nan, np.nan], 'C': [1,2,3] } )
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [20]:
#exemplo de função para "jogar fora"/descartar o indice(LINHA) INTEIRO que contenham valores NaN(ausentes)
# retorna somente os valores que sobrarem no data frame

df.dropna(axis=0) # 0 para fazer cortes nas "linhas"

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [21]:
#exemplo de função para "jogar fora"/descartar as colunas INTEIRAS que contenham valores NaN(ausentes)
# retorna somente os valores que sobrarem no data frame

df.dropna(axis=1) # 1 para fazer cortes nas "colunas"

Unnamed: 0,C
0,1
1,2
2,3


In [22]:
#Exemplo de exclusão de dados NaN baseado em um limite de dados ausentes usando o thresh
# só irá excluir a(o) indice(0) ou colunas(1) se a quantidade de dados ausentes forem maiores que o limite

# df.dropna(axis=0, thresh=2) # aqui exlcui as linhas 
df.dropna(axis=1, thresh=2)


Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [23]:
#Exemplo de como substituir os NaN por 0 no data Frame ou também pode se preencher com stringo ex: 'vazio'

# df.fillna('vazio', inplace=True)
df.fillna(0)
df 

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [27]:
# Exemplo para preencher os NaN com os mesmos valores passados anteriormente na linha acima
# usar esse tipo de coisa em series que sejam temporais
df.ffill()

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,2.0,5.0,3
