# DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
from numpy.random import randn
np.random.seed(101)

In [3]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

## Seleção e indexação

Vamos aprender os vários métodos para pegar dados de um DataFrame

In [None]:
df['W']

In [None]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

In [None]:
# Sintaxe ponto (Não recomendado, pode confundir com atributos)
df.W

As colunas dos DataFrames são Series

In [None]:
type(df['W'])

** Criando uma coluna: **

In [None]:
df['new'] = df['W'] + df['Y']

In [None]:
df

** Removendo colunas **

Se voce der um shift+tab voce vai ver que o default é axis=0. Isso significa linha, temos que mudar para coluna

In [None]:
df.drop('new',axis=1)

In [None]:
# Porém, tal exclusão só ocorrerá se especificada no parâmetro inplace
df

In [None]:
df.drop('new',axis=1,inplace=True)

In [None]:
df

Também podemos deletar linhas desta forma:

In [None]:
df.drop('E',axis=0)

** Selecionando linhas: **

In [None]:
df.loc['A'] #puxa a linha inteira

In [None]:
df.loc['A','W'] #puxa o valor da linha A para a coluna W

Ou também, ** selecionando o subconjunto de linhas e colunas **

In [None]:
df.loc[['A','B'], ['X','Y','X']]

Ou selecione com base na posição em vez do rótulo

In [None]:
df.iloc[2]

### Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [None]:
df

In [None]:
df>0 #a resposta para esse teste condicional será um dataframe boleano

In [None]:
df[df>0]

In [None]:
df[df['W']>0] #retorna um dataframe onde os valores da coluna W sao maiores que zero

In [None]:
df[df['W']>0]['Y'] # ou eu posso pedir pra ele retornar a coluna Y onde W é maior que zero

In [None]:
df[df['W']>0][['Y','X']] #aqui ele retorna Y e X onde W é maior que zero

Para duas condições, você pode usar | e & com parênteses:

In [None]:
df[(df['W']>0) & (df['Y'] > 1)] 

## Mais Detalhes do Índice

Vamos discutir mais alguns recursos de indexação, incluindo resetar o índice ou configurá-lo de outra forma. Também falaremos sobre hierarquia de índice!

In [None]:
df

In [None]:
# Redefinir para o padrão 0,1 ... n índice
df.reset_index()

In [None]:
novoind = 'CA NY WY OR CO'.split() #criando uma nova coluna

In [None]:
df['Estados'] = novoind #agregando ao dataframe - lembre-se que para isso dar certo a exigencia é que a coluna tenha a mesma quantidade de linhas - 5

In [None]:
df

In [None]:
df.set_index('Estados') #colocando a coluna nova como indice

In [None]:
df

In [None]:
df.set_index('Estados',inplace=True)

In [None]:
df

## Hierarquia de índices e índices múltiplos

Vamos examinar como trabalhar com o Multi-Index, primeiro criaremos um exemplo rápido de como seria um DataFrame Multi-Indexado:

In [None]:
# Níveis de Índice
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [None]:
hier_index

In [None]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Agora vamos mostrar como indexar isso! Para a hierarquia de índice, usamos df.loc []. Se este fosse no eixo das colunas, você usaria a notação de suporte normal df []. Chamar um nível do índice retorna um sub-dataframe:

In [None]:
df.loc['G1']

In [None]:
df.loc['G1'].loc[1] #selecionando pelos dois indices

In [None]:
df.index.names #nossos indices estao sem nome

In [None]:
df.index.names = ['Grupo','Número'] #definindo nomes para os indices

In [None]:
df

In [None]:
df.xs('G1') #comando cross sectional - mesmo resultado do loc

In [None]:
df.xs(['G1',1])

In [None]:
df.xs(1,level='Número') #a diferença do loc é que pelo xs podemos pegar diretamente o primeiro indice e ignorar o segundo