# PANDAS

In [41]:
import pandas as pd #por convenção
import numpy as np

## Introdução às estruturas de dados

In [7]:
## Series em Pandas
obj = pd.Series([4,7,-5,3])
obj.values #verifica valores
obj.index #verifica os indices 

obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c']) #cria uma série com index "forçado"
obj2['a'] #chamamos o valor com index "a".
obj2['d'] = 6 #a chave "d" recebe 6
obj2[['c','a','d']] #printa as chaves na "lista de indíces"
obj2[obj2 > 0] #valores maiores que 0
obj2 * 2 #multiplica todos os valores internos por 2
np.exp(obj2) #exponencial dos valores internos
'b' in obj2 #verifica se o indice/valor está na Series

# transformando dicionário em Series
sdata = {'Ohio': 35000,  'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata) # transformar estrutura de dados pré existente em Series (em dics as chaves são os indices)

states = ['California', 'Ohio', 'Oregon', 'Texas'] 
obj4 = pd.Series(sdata, index = states) # define uma lista como index e aloca os que estão de acordo com os pré-existentes

# verificação de nulos
pd.isnull(obj4)
pd.notnull(obj4)
obj4.isnull()

# alinhamento pelo rótulo
obj3 + obj4 # soma dos valores de index semelhante

obj4.name = 'population' # dá um nome ao objeto
obj4.index.name = 'state' #dá nome ao header dos index

# mudando o nome de índices
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [12]:
## DataFrame em Pandas
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data) #transforma uma dicionário em DataFrame
frame
frame.head() #imprime as cinco primeiras linhas

pd.DataFrame(data, columns = ['year','state','pop']) #criando e especificando o header de valores

frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'], # uma coluna sem valor será impressa com NA
                      index=['one', 'two', 'three','four','five','six']) # atribui nome aos index

frame2['state'] #retorna a coluna 'state'
frame2.year #retorna 
frame2.loc['three'] #retorna coluna e valores do index 'three'

frame2['debt'] = np.arange(6.) #atribui valores para a coluna
frame2

# Series em DataFrames

#O TAMANHO DO VALOR DEVE COINCIDIR OU ESTAREM ALINHADOS COM O TAMANHO DO DF
val = pd.Series([-1.2,-1.5,-1.7], index=['two','four','five'])
frame2['debt'] = val # os valores serão alocados de acordo com os index iguais 
                     #      (os valores não são copiados, mudar valor em series muda dataframe) 
frame2['eastern']= frame2.state == 'Ohio' # cria uma coluna usando boolean
del frame2['eastern'] #deleta a coluna

# dicionário de dicionários aninhados
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3
frame3.T #podemos transpor o DataFrame

pd.DataFrame(pop, index = [2001,2002,2003]) # quando explicitadas, as chaves não serão compostas às anteriores

pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]} #podemos fatiar um DataFrame
pd.DataFrame(pdata)

frame3.index.name = 'year'; frame.columns.name ='state' #damos nome ao header dos index e das colunas


Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
## objetos index

obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
index[1] #objetos index são imutáveis

labels = pd.Index(np.arange(3))
obj2 = pd.Series([1.5,-2.5,0], index = labels) #indexa com um objeto de outro objeto
obj2


## Funcionalidades essenciais

In [23]:
## reindexação
obj = pd.Series([4.5,7.2,-5.3,3.6], index = ['d','b','a','c'])
obj2 = obj.reindex(['a','b','c','d','e']) # ordenará a Series de acordo com a ordem de index passadas
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3.reindex(range(6), method = 'ffill') #preenche os indices faltantes na série

#em DFs podemos reindexar colunas, indeces, ou ambos.
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','d'], columns=['Ohio', 'Texas', 'California'])
frame2 = frame.reindex(['a','b','c','d','e'])

states = ['Texas','Utah', 'California']
frame.reindex(columns = states) #reindexamos colunas usando columns
frame.reindex(index = ['a','b','c','d','e'], columns = states) #reindexando colunas e indices

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0
e,,,


In [None]:
## descartando entradas de um eixo
obj = pd.Series(np.arrange(5.), index=['a','b','c','d','e'])
obj
new_obj = obj.drop('c') #retira o index c e seu valor
obj.drop(['c','d']) #retira os index c e d, e retira seus valores

data = pd.DataFrame(np.arange(16).reshape(4,4)
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])
data.drop(['Colorado','Ohio']) #retira os index 'Colorado' e 'Ohio' e seus valors
data.drop(['two', 'three'], axis ='columns') #retira as colunas 'two' e 'three'

In [29]:
## indexação, seleção e filtragem
obj = pd.Series(np.arange(4), index=['a','b','c','d'])
obj['b']
obj[1]
obj[2:4]
obj[['b','a','d']] #index listados
obj[[1,3]] #index 1 e 3
obj[obj < 2]
obj['b':'c']
obj['b':'c'] = 5

data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])
data['two']
data[['three','one']]
data[:2] #os dois primeiros index
data[data['three'] > 5] #valores da coluna 'three' > 5
data < 5 #se todos valores < 5
data[data < 5] = 0

data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [28]:
## seleção com loc e iloc
data.loc['Colorado',['two','three']] #seleciona por nome do eixo
data.iloc[2,[3,0,1]] #seleciona por número do eixo

four    11
one      8
two      9
Name: Utah, dtype: int32

In [None]:
## alinhamento de dados e aritmética
s1 = pd.Series([7.3,-2.5,3.4,1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1], index=['a','c','e','f','g'])

s1 + s2 #somam-se apenas os elementos que possuem igual indice

d1 = pd.DataFrame(np.arange(9.).reshape((3,3)), colums = list('bcd'), #note que isso depois separá em b,c,d :)
                  index = ['Ohio','Texas','Colorado'])
d2 = pd.DataFrame(np.arange(12).reshape((4,3)), columns=list('bde'),
                 index = ['Utah','Ohio','Texas', 'Colorado'])

d1 + d2 #somam-se apenas os elementos que possuem igual indice e coluna

#ATENÇÃO: Ao somar DFs sem nome de coluna e linha, você terá um DF nulo!!!!

In [31]:
## método aritmético com valor para preenchimento
d1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
d2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

d2.loc[1,'b'] = np.nan #atribui um valor nulo ao elemento de nome 1 e coluna 'b'

d1 + d2 #a soma deles gerará NAs onde os indices e colunas não se encontram

#funções para aritmética
d1.add(d2, fill_value = 0) #atribui os elementos de d2 aos elementos NAs da soma d1+d2 

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [39]:
## operações entre DataFrames e Series
arr = np.arange(12.).reshape((3,4))
arr - arr[0] #array menos linha 0 do array

frame = pd.DataFrame(np.arange(12.).reshape((4,3)),columns=list('bde'),index = ['Utah','Ohio','Texas','Oregon'])
series = frame.iloc[0]

frame - series #apenas subtrai os elementos onde a coluna de DF e indice de Series forem correspondentes

series2 = pd.Series(range(3), index=['b','e','f'])
frame + series2 #se os valores de indice e coluna não forem encontrados na coluna de DF ou indice de Series
                        # serão retornados NAs e a soma de onde a coluna de DF e indice de Series forem correspondentes


series3 = frame['d']
frame.sub(series3, axis = 'index') #passando o axis, nós podemos escolher qual será a forma de subtrair e alocar os elementos

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [None]:
## aplicação de funções e mapeamento

frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index = ['Utah','Ohio','Texas','Oregon'])
np.abs(frame)

f = lambda x: x.max()-x.min()
frame.apply(f) #o resultado será uma Series com o resultado de cada coluna
frame.apply(f, axis='columns')

In [44]:
## ordenando e classificando
obj = pd.Series(range(4), index = ['d','a','b','c'])
obj.sort_index # ordena os indeces
obj.sort_values # ordena os valores

frame = pd.DataFrame(np.arange(8).reshape((2,4)), index=['three','one'], columns=['d','a','b','c'])
frame.sort_index # ordena os indices
frame.sort_index(axis=1) # ordena as colunas
frame.sort_index(axis=1, ascending=False) # ordena as colunas de forma descedente
frame.sort_values(by = ['b','a']) # ordena os valores da coluna 'b' e 'a'

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7
