In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame #importando sem o prefixo pdb

## 5.1 Introdução às estruturas de dados do pandas

### Series

In [2]:
obj = pd.Series([4,7,-5,-3])
display(obj)

0    4
1    7
2   -5
3   -3
dtype: int64

In [3]:
#atributos values e index
display('values')
display(obj.values)
display('index')
display(obj.index)

'values'

array([ 4,  7, -5, -3])

'index'

RangeIndex(start=0, stop=4, step=1)

In [4]:
#criando rótulos para os índices (index)
obj2 = pd.Series([4,7,-5,-3],index=['d','b','a','c'])
display(obj2)
display(obj2.index)

d    4
b    7
a   -5
c   -3
dtype: int64

Index(['d', 'b', 'a', 'c'], dtype='object')

In [5]:
#selecionando valores ou um conjunto de valores, com os índices
display(obj2['a'])
obj2['d'] = 6
display(obj2[['c','a','d']])

-5

c   -3
a   -5
d    6
dtype: int64

In [6]:
# filtragem, operações com escalar e aplicações de funções não alteram as ligações do índices
display(obj2 > 0) 
display(obj2[obj2 > 0]) #usando uma Series booleana para filtrar
display(obj2 * 2) #multiplicando uma Series por escalar
display(np.exp(obj2))

d     True
b     True
a    False
c    False
dtype: bool

d    6
b    7
dtype: int64

d    12
b    14
a   -10
c    -6
dtype: int64

d     403.428793
b    1096.633158
a       0.006738
c       0.049787
dtype: float64

In [7]:
# um Series pode ser pensado como um dicionário
display('b' in obj2)
display('e' in obj2)

True

False

In [8]:
# Criando uma Series a partir de um dicionário
sdata = {'Ohio': 3500, 'Texas': 7100, 'Oregon': 1600, 'Utah': 5000}
obj3 = pd.Series(sdata)
display(obj3)
# Criando a partir de um dicionario e passando um novo índice para ordená-la e criar novo item no índice
states = ['California','Ohio', 'Oregon', 'Texas'] #incluido California, retirado Utah
obj4 = pd.Series(sdata,index=states)
display(obj4)

Ohio      3500
Texas     7100
Oregon    1600
Utah      5000
dtype: int64

California       NaN
Ohio          3500.0
Oregon        1600.0
Texas         7100.0
dtype: float64

In [9]:
# Detectando dados ausentes
display(pd.isnull(obj4)) #método do pandas
display(pd.notnull(obj4))
display(obj4.isnull()) #método de instância

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [10]:
# o alinhamento é feito pelos índices nas operações aritméticas
display(obj3 + obj4)

California        NaN
Ohio           7000.0
Oregon         3200.0
Texas         14200.0
Utah              NaN
dtype: float64

In [11]:
# Existe um atributo name da Series e de seu índice
obj4.name = 'população'
obj4.index.name = 'estado'
obj4

estado
California       NaN
Ohio          3500.0
Oregon        1600.0
Texas         7100.0
Name: população, dtype: float64

In [12]:
# alterando índies 'inplace'
display(obj)
obj.index = ['bob','steve','Jeff','Ryan']
display(obj)

0    4
1    7
2   -5
3   -3
dtype: int64

bob      4
steve    7
Jeff    -5
Ryan    -3
dtype: int64

### DataFrame

In [13]:
# os DataFrame podem ser criados a partir de um dicionário de listas de mesmo tamanho ou de arrays NumPY
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],'year':[2000,2001,2002,2000,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
display(frame)
display(frame.head()) # para DataFrames grandes usar head para mostrar as cinco primeiras linhas do DataFrame
pd.DataFrame(data, columns = ['state','pop','year']) #determinando a ordem das colunas

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2000,2.4
4,Nevada,2001,2.9
5,Nevada,2002,3.2


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2000,2.4
4,Nevada,2001,2.9


Unnamed: 0,state,pop,year
0,Ohio,1.5,2000
1,Ohio,1.7,2001
2,Ohio,3.6,2002
3,Nevada,2.4,2000
4,Nevada,2.9,2001
5,Nevada,3.2,2002


In [14]:
#se passar uma coluna que não existe,criará uma coluna com valores ausentes
frame2 = pd.DataFrame(data, columns = ['year','state','pop','debt'],
                      index=['one','two','three','four','five','six'])
display(frame2)

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2000,Nevada,2.4,
five,2001,Nevada,2.9,
six,2002,Nevada,3.2,


In [15]:
#pode-se gerar um Series a partir de uma DataFrame usando atributos ou notação tipo dicionário
display(frame2['state'])
display(frame2.year)

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

one      2000
two      2001
three    2002
four     2000
five     2001
six      2002
Name: year, dtype: int64

In [16]:
# as linhas podem ser selecionadas com base na posição ou no nome do rótulo
display(frame2.loc['two'])
# as colunas podem ser alteradas por atribuição
frame2.debt = 16.5
display(frame2)
frame2.debt = np.arange(6)
display(frame2)

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: two, dtype: object

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2000,Nevada,2.4,16.5
five,2001,Nevada,2.9,16.5
six,2002,Nevada,3.2,16.5


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2000,Nevada,2.4,3
five,2001,Nevada,2.9,4
six,2002,Nevada,3.2,5


In [17]:
# atribuindo um Series sem determinados rótulos
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])
frame2.debt = val
display(frame2)

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2000,Nevada,2.4,-1.5
five,2001,Nevada,2.9,-1.7
six,2002,Nevada,3.2,


In [18]:
#adicionando o coluna de valores booleano, True se o estado for o 'Ohio'
frame2['eastern'] = frame2.state == 'Ohio'
display(frame2)
del frame2['eastern'] #não funcionou com 'del frame2.eastern'
display(frame2)

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2000,Nevada,2.4,-1.5,False
five,2001,Nevada,2.9,-1.7,False
six,2002,Nevada,3.2,,False


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2000,Nevada,2.4,-1.5
five,2001,Nevada,2.9,-1.7
six,2002,Nevada,3.2,


In [19]:
d = frame2['debt']
d['debt2'] = 1
display(d)
display(frame2)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


one      NaN
two     -1.2
three    NaN
four    -1.5
five    -1.7
six      NaN
debt2    1.0
Name: debt, dtype: float64

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2000,Nevada,2.4,-1.5
five,2001,Nevada,2.9,-1.7
six,2002,Nevada,3.2,


In [20]:
#DataFrame com dicionários aninhados
pop = {'Ohio': {2000:1.5,2001:1.7,2002:1.6},
       'Nevada':{2001:2.4,2002:3.6}}
frame3 = pd.DataFrame(pop)
display(frame3)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,1.6,3.6


In [21]:
# Transposição de DataFrame
display(frame3.T)
#criando o DataFrame com índice explicito
pd.DataFrame(pop,index=[2001,2002,2003])

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,1.6
Nevada,,2.4,3.6


Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,1.6,3.6
2003,,


In [22]:
display(frame3)
display(frame3['Ohio'][:-1])
display(frame3['Nevada'][:2])
pdata = pd.DataFrame({'Ohio':frame3['Ohio'][:-1],
                     'Nevada':frame3['Nevada'][:2]})
display(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,1.6,3.6


2000    1.5
2001    1.7
Name: Ohio, dtype: float64

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [23]:
#se os nomes do índices e colunas estiverem definidos eles serão exibidos
frame3.index.name = 'year'
frame3.columns.name ='state'
display(frame3)

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,1.6,3.6


In [24]:
#gerando um ndarray a partir de um DataFrame
display(frame3.values)

array([[1.5, nan],
       [1.7, 2.4],
       [1.6, 3.6]])

### Objetos Index

In [25]:
obj = pd.Series(range(3),index=['a','b','c'])
index = obj.index
display(index)
display(index[1:])

Index(['a', 'b', 'c'], dtype='object')

Index(['b', 'c'], dtype='object')

In [26]:
#objetos index são imutáveis
index[1] = 'd'

TypeError: Index does not support mutable operations

In [None]:
# por ser imutável é mais seguro compartilhar objetos index
labels = pd.Index(np.arange(3))
display(labels)
obj2 = pd.Series([1.5,-2.5,0],index=labels)
display(obj2)

In [None]:
#index se comporta com um conjunto de tamanho fixo
display(frame3)
display(frame3.columns)
display('Ohio' in frame3.columns)
display(2003 in frame3.index)

In [None]:
# diferente dos conjunstos python os indexs podem conter dados duplicados
dup_labels = pd.Index(['foo','foo','bar','bar'])
display(dup_labels)


## 5.2 Funcionalidades essenciais

### Reindexação

In [None]:
#cria um novo objeto com um novo índice
obj = pd.Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
display(obj)
obj2 = obj.reindex(['a','b','c','d','e'])
display(obj2)

In [None]:
#fazendo preenchimento 
obj3 = pd.Series(['blue','purple','yellow'],index=[0,2,4])
display(obj3)
display(obj3.reindex(range(6),method='ffill'))

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index=['a','c','d'],
                     columns=['Ohio','Texas','California'])
display(frame)
frame2 = frame.reindex(['a','b','c','d'])
display(frame2)

In [None]:
#reindexando as colunas 
states = ['Texas','Utah','California']
display(frame.reindex(columns=states))

### Descartando entradas de um eixo

In [None]:
#drop gera um novo objeto descartando determinadas linhas
obj = pd.Series(np.arange(5.),index=['a','b','c','d','e'])
display(obj)
new_obj = obj.drop('c')
display(new_obj)
display(obj.drop(['d','e']))

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                              index=['Ohio','Colorado','Utah','New York'],
                             columns=['One','two','three','four'])
display(data)
display(data.drop(['Colorado','Ohio']))
display(data.drop('two',axis=1))
display(data.drop(['two','four'],axis='columns'))
#retirando linha "inplace"
obj.drop('c',inplace=True)

### Indexação e filtragem

#### filtragem

In [None]:
obj = pd.Series(np.arange(4.),index=['a','b','c','d'])
display(obj)
display(obj['b'])
display(obj[1])
display(obj[2:4]) #fatiamento inclui o elemento final
display(obj[['b','c','d']])
display(obj[[1,3]])
display(obj[obj<3])

In [None]:
# modificando um seção
obj['b':'c'] = 5
display(obj)

In [None]:
#indexação no DataFrame funciona nas colunas
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                              index=['Ohio','Colorado','Utah','New York'],
                             columns=['one','two','three','four'])
display(data)
display(data['two'])
display(data[['three','one']])

#### Fatiamento

In [None]:
display(data[:2])

#### Seleção com array booleano

In [None]:
display(data[data['three'] > 5])
display(data < 5)
data[data < 5 ] = 0
display(data)

### Seleção com loc e iloc

In [None]:
#selecionando pelo rótulos (linhas) e colunas
display(data.loc['Colorado',['two','three']])
display(data.iloc[2,[3,0,1]])
data.iloc[2]
#trabalhando com fatias e loc e iloc
display(data.loc[:'Utah','two'])
display(data.iloc[:,:3][data.three> 5])

### Aritmética e alinhamento de dados

In [None]:
s1 = pd.Series([7.3,-2.5,3.4,1.5],index = ['a','b','c','e'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1], index=['a','c','e','f','g'])
display(s1)
display(s2)
display(s1+s2)


In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)),
                   columns=list('bcd'),
                   index=['Ohio','Texas','Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)),
                   columns=list('bde'),
                   index=['Utah','Ohio','Texas','Oregon'])
display(df1)
display(df2)
display(df1+df2)

### Métodos aritméticos com valores para preenchimento

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)),
                   columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)),
                   columns=list('abcde'))
display(df1)
df2.loc[1,'b'] = np.nan
display(df2)
df1.add(df2,fill_value=0) #prenche com zero os valores ausentes

In [None]:
#métodos para operação aritiméticas
display(df1.rdiv(1)) #1/df1
#pode-se usar o fill_value na reindexação
df1.reindex(columns=df2.columns,fill_value=0)

### Operações entre DataFrame e Series

In [None]:
arr = np.arange(12.).reshape((3,4))
display(arr)
display(arr[0])
display(arr - arr[0]) #broadcasting nas linhas

In [30]:
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                   columns=list('bde'),
                    index=['Utha','Ohio','Texas','Oregon'])
series = frame.iloc[0]
series2 = pd.Series(range(3),index=['b','e','f'])
display(frame)
display(series)
display(frame - series) #faz a correspondencia das colunas e broadcasting nas linhas
display(frame + series2) #operacoes com colunas sem correspondencia, gera colunas com nan

Unnamed: 0,b,d,e
Utha,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


b    0.0
d    1.0
e    2.0
Name: Utha, dtype: float64

Unnamed: 0,b,d,e
Utha,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Unnamed: 0,b,d,e,f
Utha,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [32]:
#fazendo correspondencia nos indices e broadcasting nas colunas
display(frame)
series3 = frame['d']
display(series3)
frame.sub(series3,axis='index')

Unnamed: 0,b,d,e
Utha,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


Utha       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

Unnamed: 0,b,d,e
Utha,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### Aplicações das funções e mapeamento

In [35]:
frame = pd.DataFrame(np.random.randn(4,3),
                   columns=list('bde'),
                    index=['Utha','Ohio','Texas','Oregon'])
display(frame)
display(np.abs(frame))

Unnamed: 0,b,d,e
Utha,0.230814,0.045513,-0.501823
Ohio,-1.228868,-0.644507,0.536215
Texas,-0.27457,-0.537728,0.400691
Oregon,-0.389948,-1.632228,-0.44535


Unnamed: 0,b,d,e
Utha,0.230814,0.045513,0.501823
Ohio,1.228868,0.644507,0.536215
Texas,0.27457,0.537728,0.400691
Oregon,0.389948,1.632228,0.44535


In [41]:
# método apply
f = lambda x: x.max() - x.min()
display(frame.apply(f))
display(frame.apply(f,axis='columns'))

b    1.459682
d    1.677741
e    1.038039
dtype: float64

Utha      0.732637
Ohio      1.765083
Texas     0.938419
Oregon    1.242280
dtype: float64

In [43]:
# apply devolvendo series
def f(x):
    return pd.Series([x.min(),x.max()],index=['min','max'])
display(frame.apply(f))

#funções aplicadas a todos os elementos do DataFrame
format = lambda x:'%.2f' % x 
frame.applymap(format)

Unnamed: 0,b,d,e
min,-1.228868,-1.632228,-0.501823
max,0.230814,0.045513,0.536215


Unnamed: 0,b,d,e
Utha,0.23,0.05,-0.5
Ohio,-1.23,-0.64,0.54
Texas,-0.27,-0.54,0.4
Oregon,-0.39,-1.63,-0.45


### Ordenação e Classificação

In [49]:
obj = pd.Series(range(4),index=['d','a','b','c'])
display(obj.sort_index()) #devolve um novo objeto ordenado
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                   columns=list('dabc'),
                    index=['three','one'])
display(frame)
display(frame.sort_index()) #ordenando pelas linhas  
display(frame.sort_index(axis='columns')) #ordenando pelas colunas 
display(frame.sort_index(axis=1,ascending=False)) #em ordem decrescente

a    1
b    2
c    3
d    0
dtype: int64

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [61]:
obj = pd.Series([4,7,-3,2])
display(obj.sort_values())
obj = pd.Series([4,np.nan,7,np.nan,-3,2]) #ordena nan por último
display(obj.sort_values())

2   -3
3    2
0    4
1    7
dtype: int64

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64