# DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [None]:
import pandas as pd
import numpy as np

In [None]:
from numpy.random import randn
np.random.seed(101)

In [None]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [4]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## Seleção e indexação

Vamos aprender os vários métodos para pegar dados de um DataFrame

In [None]:
x = df['W']

In [14]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [16]:
# Sintaxe SQL (Não recomendado!)
df.X

A    0.628133
B   -0.319318
C    0.740122
D   -0.758872
E    1.978757
Name: X, dtype: float64

As colunas dos DataFrames são Series

In [17]:
type(df['W'])

pandas.core.series.Series

** Criando uma coluna: **

In [18]:
df['RESULTADO'] = df['W'] + df['Y']

In [19]:
df

Unnamed: 0,W,X,Y,Z,RESULTADO
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


** Removendo colunas **

In [20]:
df.drop('RESULTADO',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [21]:
# Porém, tal exclusão só ocorrerá se especificada no parâmetro inplace
df

Unnamed: 0,W,X,Y,Z,RESULTADO
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [23]:
df.drop('RESULTADO',axis=1,inplace=True)

In [24]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Também podemos deletar colunas desta forma:

In [None]:
df.drop('E',axis=0)

** Selecionando linhas: **

In [25]:
df.loc['A']

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

Ou selecione com base na posição em vez do rótulo

In [26]:
df.iloc[2]

W   -2.018168
X    0.740122
Y    0.528813
Z   -0.589001
Name: C, dtype: float64

** Selecionando o subconjunto de linhas e colunas **

In [33]:
df.loc['A','Z']

np.float64(0.5038257538223936)

In [34]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [38]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [40]:
df[df['W']>1]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826


In [36]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [37]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [None]:
df[df['W']>0]

In [None]:
df[df['W']>0]['Y']

In [None]:
df[df['W']>0][['Y','X']]

Para duas condições, você pode usar | e & com parênteses:

In [None]:
df[(df['W']>0) & (df['Y'] > 1)]

In [None]:
condicao_1 = df['W'] > 0
condicao_2 = df['Y'] > 1

df[(condicao_1) & (condicao_2)]

In [None]:
df[(condicao_1) | (condicao_2)]

## Mais Detalhes do Índice

Vamos discutir mais alguns recursos de indexação, incluindo resetar o índice ou configurá-lo de outra forma. Também falaremos sobre hierarquia de índice!

In [None]:
df

In [None]:
# Redefinir para o padrão 0,1 ... n índice
df.reset_index()

In [None]:
novoind = 'CA NY WY OR CO'.split()

In [None]:
df['Estados'] = novoind

In [None]:
df

In [None]:
df.set_index('Estados')

In [None]:
df

In [None]:
df.set_index('Estados',inplace=True)

In [None]:
df

## Hierarquia de índices e índices múltiplos

Vamos examinar como trabalhar com o Multi-Index, primeiro criaremos um exemplo rápido de como seria um DataFrame Multi-Indexado:

In [None]:
# Níveis de Índice
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [None]:
hier_index

In [None]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Agora vamos mostrar como indexar isso! Para a hierarquia de índice, usamos df.loc []. Se este fosse no eixo das colunas, você usaria a notação de suporte normal df []. Chamar um nível do índice retorna um sub-dataframe:

In [None]:
df.loc['G1']

In [None]:
df.loc['G1'].loc[1]

In [None]:
df.index.names

In [None]:
df.index.names = ['Grupo','Número']

In [None]:
df

In [None]:
df.xs('G1')

In [None]:
df.xs(['G1',1])

In [None]:
df.xs(1,level='Número')