# PANDAS

In [72]:
import pandas as pd #por convenção
import numpy as np
import pandas_datareader.data as web
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Introdução às estruturas de dados

### Series em Pandas

In [73]:
obj = pd.Series([4,7,-5,3])
obj.values #verifica valores
obj.index #verifica os indices 

obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c']) #cria uma série com index "forçado"
obj2['a'] #chamamos o valor com index "a".
obj2['d'] = 6 #a chave "d" recebe 6
obj2[['c','a','d']] #printa as chaves na "lista de indíces"
obj2[obj2 > 0] #valores maiores que 0
obj2 * 2 #multiplica todos os valores internos por 2
np.exp(obj2) #exponencial dos valores internos
'b' in obj2 #verifica se o indice/valor está na Series

array([ 4,  7, -5,  3], dtype=int64)

RangeIndex(start=0, stop=4, step=1)

-5

c    3
a   -5
d    6
dtype: int64

d    6
b    7
c    3
dtype: int64

d    12
b    14
a   -10
c     6
dtype: int64

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

True

In [74]:
# transformando dicionário em Series
sdata = {'Ohio': 35000,  'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata) # transformar estrutura de dados pré existente em Series (em dics as chaves são os indices)

states = ['California', 'Ohio', 'Oregon', 'Texas'] 
obj4 = pd.Series(sdata, index = states) # define uma lista como index e aloca os que estão de acordo com os pré-existentes

In [75]:
# verificação de nulos
pd.isnull(obj4)
pd.notnull(obj4)
obj4.isnull()

# alinhamento pelo rótulo
obj3 + obj4 # soma dos valores de index semelhante

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [76]:
obj4.name = 'population' # dá um nome ao objeto
obj4.index.name = 'state' #dá nome ao header dos index

In [77]:
# mudando o nome de índices
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

0    4
1    7
2   -5
3    3
dtype: int64

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame em Pandas

In [78]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data) #transforma uma dicionário em DataFrame
frame
frame.head() #imprime as cinco primeiras linhas

pd.DataFrame(data, columns = ['year','state','pop']) #criando e especificando o header de valores

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [79]:
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'], # uma coluna sem valor será impressa com NA
                      index=['one', 'two', 'three','four','five','six']) # atribui nome aos index

frame2['state'] #retorna a coluna 'state'
frame2.year #retorna 
frame2.loc['three'] #retorna coluna e valores do index 'three'

frame2['debt'] = np.arange(6.) #atribui valores para a coluna
frame2

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


### Series em DataFrames


In [80]:
#O TAMANHO DO VALOR DEVE COINCIDIR OU ESTAREM ALINHADOS COM O TAMANHO DO DF
val = pd.Series([-1.2,-1.5,-1.7], index=['two','four','five'])
frame2['debt'] = val # os valores serão alocados de acordo com os index iguais 
                     #      (os valores não são copiados, mudar valor em series muda dataframe) 
frame2['eastern']= frame2.state == 'Ohio' # cria uma coluna usando boolean
del frame2['eastern'] #deleta a coluna


In [81]:
### Dicionário de dicionários aninhados

In [82]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3
frame3.T #podemos transpor o DataFrame

pd.DataFrame(pop, index = [2001,2002,2003]) # quando explicitadas, as chaves não serão compostas às anteriores

pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]} #podemos fatiar um DataFrame
pd.DataFrame(pdata)

frame3.index.name = 'year'; frame.columns.name ='state' #damos nome ao header dos index e das colunas

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


### Objetos index

In [83]:
obj = pd.Series(range(3), index=['a','b','c'])
index = obj.index
index[1] #objetos index são imutáveis

labels = pd.Index(np.arange(3))
obj2 = pd.Series([1.5,-2.5,0], index = labels) #indexa com um objeto de outro objeto
obj2

'b'

0    1.5
1   -2.5
2    0.0
dtype: float64

## Funcionalidades essenciais

### Reindexação

In [84]:
obj = pd.Series([4.5,7.2,-5.3,3.6], index = ['d','b','a','c'])
obj2 = obj.reindex(['a','b','c','d','e']) # ordenará a Series de acordo com a ordem de index passadas
obj3 = pd.Series(['blue','purple','yellow'], index=[0,2,4])
obj3.reindex(range(6), method = 'ffill') #preenche os indices faltantes na série

#em DFs podemos reindexar colunas, indeces, ou ambos.
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                    index = ['a','c','d'], columns=['Ohio', 'Texas', 'California'])
frame2 = frame.reindex(['a','b','c','d','e'])

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [85]:
states = ['Texas','Utah', 'California']
frame.reindex(columns = states) #reindexamos colunas usando columns
frame.reindex(index = ['a','b','c','d','e'], columns = states) #reindexando colunas e indices

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0
e,,,


### Descartando entradas de um eixo

In [86]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
obj
new_obj = obj.drop('c') #retira o index c e seu valor
obj.drop(['c','d']) #retira os index c e d, e retira seus valores

data = pd.DataFrame(np.arange(16).reshape(4,4),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

a    0.0
b    1.0
e    4.0
dtype: float64

In [87]:
data.drop(['Colorado','Ohio']) #retira os index 'Colorado' e 'Ohio' e seus valors
data.drop(['two', 'three'], axis ='columns') #retira as colunas 'two' e 'three'

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


Unnamed: 0,one,four
Ohio,0,3
Colorado,4,7
Utah,8,11
New York,12,15


### Indexação, seleção e filtragem

In [88]:
obj = pd.Series(np.arange(4), index=['a','b','c','d'])
obj['b']
obj[1]
obj[2:4]
obj[['b','a','d']] #index listados
obj[[1,3]] #index 1 e 3
obj[obj < 2]
obj['b':'c']
obj['b':'c'] = 5

1

1

c    2
d    3
dtype: int32

b    1
a    0
d    3
dtype: int32

b    1
d    3
dtype: int32

a    0
b    1
dtype: int32

b    1
c    2
dtype: int32

In [89]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                   index = ['Ohio','Colorado','Utah','New York'],
                   columns = ['one','two','three','four'])
data['two']
data[['three','one']]
data[:2] #os dois primeiros index
data[data['three'] > 5] #valores da coluna 'three' > 5
data < 5 #se todos valores < 5
data[data < 5] = 0

data

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Seleção com loc e iloc

In [90]:
data.loc['Colorado',['two','three']] #seleciona por nome do eixo
data.iloc[2,[3,0,1]] #seleciona por número do eixo

two      5
three    6
Name: Colorado, dtype: int32

four    11
one      8
two      9
Name: Utah, dtype: int32

### Alinhamento de dados e aritmética

In [91]:
s1 = pd.Series([7.3,-2.5,3.4,1.5], index=['a','c','d','e'])
s2 = pd.Series([-2.1,3.6,-1.5,4,3.1], index=['a','c','e','f','g'])

s1 + s2 #somam-se apenas os elementos que possuem igual indice

d1 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns = list('bcd'), #note que isso depois separá em b,c,d :)
                  index = ['Ohio','Texas','Colorado'])
d2 = pd.DataFrame(np.arange(12).reshape((4,3)), columns=list('bde'),
                 index = ['Utah','Ohio','Texas', 'Colorado'])

d1 + d2 #somam-se apenas os elementos que possuem igual indice e coluna

#ATENÇÃO: Ao somar DFs sem nome de coluna e linha, você terá um DF nulo!!!!

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

Unnamed: 0,b,c,d,e
Colorado,15.0,,18.0,
Ohio,3.0,,6.0,
Texas,9.0,,12.0,
Utah,,,,


### Método aritmético com valor para preenchimento

In [92]:
d1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns=list('abcd'))
d2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns=list('abcde'))

d2.loc[1,'b'] = np.nan #atribui um valor nulo ao elemento de nome 1 e coluna 'b'

d1 + d2 #a soma deles gerará NAs onde os indices e colunas não se encontram

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [93]:
#funções para aritmética
d1.add(d2, fill_value = 0) #atribui os elementos de d2 aos elementos NAs da soma d1+d2 

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


### Operações entre DataFrames e Series

In [94]:
arr = np.arange(12.).reshape((3,4))
arr - arr[0] #array menos linha 0 do array

frame = pd.DataFrame(np.arange(12.).reshape((4,3)),columns=list('bde'),index = ['Utah','Ohio','Texas','Oregon'])
series = frame.iloc[0]

frame - series #apenas subtrai os elementos onde a coluna de DF e indice de Series forem correspondentes

series2 = pd.Series(range(3), index=['b','e','f'])
frame + series2 #se os valores de indice e coluna não forem encontrados na coluna de DF ou indice de Series
                        # serão retornados NAs e a soma de onde a coluna de DF e indice de Series forem correspondentes


series3 = frame['d']
frame.sub(series3, axis = 'index') #passando o axis, nós podemos escolher qual será a forma de subtrair e alocar os elementos

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### Aplicação de funções e mapeamento

In [95]:
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index = ['Utah','Ohio','Texas','Oregon'])
np.abs(frame)

f = lambda x: x.max()-x.min()
frame.apply(f) #o resultado será uma Series com o resultado de cada coluna
frame.apply(f, axis='columns')

Unnamed: 0,b,d,e
Utah,0.193933,0.14171,2.130974
Ohio,0.194882,1.132878,0.939042
Texas,0.147247,2.262022,0.275042
Oregon,0.7555,0.388201,0.769742


b    0.950382
d    3.394900
e    1.855932
dtype: float64

Utah      2.324907
Ohio      0.937996
Texas     2.537064
Oregon    1.525242
dtype: float64

### Ordenando e classificando

In [96]:
obj = pd.Series(range(4), index = ['d','a','b','c'])
obj.sort_index # ordena os indeces
obj.sort_values # ordena os valores

frame = pd.DataFrame(np.arange(8).reshape((2,4)), index=['three','one'], columns=['d','a','b','c'])
frame.sort_index # ordena os indices
frame.sort_index(axis=1) # ordena as colunas
frame.sort_index(axis=1, ascending=False) # ordena as colunas de forma descedente
frame.sort_values(by = ['b','a']) # ordena os valores da coluna 'b' e 'a'

<bound method Series.sort_index of d    0
a    1
b    2
c    3
dtype: int64>

<bound method Series.sort_values of d    0
a    1
b    2
c    3
dtype: int64>

<bound method DataFrame.sort_index of        d  a  b  c
three  0  1  2  3
one    4  5  6  7>

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


## Estatística descritiva

In [97]:
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],
                 index=['a','b','c','d'],
                 columns=['one','two'])

df.sum() # retorna uma Serie com a soma de cada coluna
df.sum(axis = 'columns') # retorna uma Serie da soma pelas colunas

df.mean(axis='columns', skipna=False) # média pelas colunas
                                     # skipna nos diz se é para pular ou não os NAs durante a conta

one    9.25
two   -5.80
dtype: float64

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [98]:
df.idxmax() # retorna o indice onde está o máximo de cada coluna
df.cumsum() # soma acumulada de cada coluna
df.describe() # gera uma tabela com as estatísticas da coluna

one    b
two    d
dtype: object

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


### Correlação e covariância

In [100]:
all_data = {ticker: web.get_data_yahoo(ticker)
           for ticker in ['AAPL','IBM','MSFT','GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

returns = price.pct_change()
returns.tail()

returns['MSFT'].corr(returns['IBM']) #correlação Ret_Micro ~ Ret_IBM
returns['MSFT'].cov(returns['IBM']) #covariância Ret_Micro ~ Ret_IBM
returns.corr # matriz correlação
returns.cov # matriz covariânvia

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-01-21,0.036658,0.012069,0.002808,0.002305
2021-01-22,0.016074,-0.09905,0.004356,0.005182
2021-01-25,0.027684,-0.000253,0.015844,-0.000868
2021-01-26,0.001679,0.032973,0.012199,0.009392
2021-01-27,-0.007684,-0.000163,0.002453,-0.045091


0.5398773435727008

0.00015456014637330232

<bound method DataFrame.corr of                 AAPL       IBM      MSFT      GOOG
Date                                              
2016-02-01       NaN       NaN       NaN       NaN
2016-02-02 -0.020222 -0.015141 -0.031256  0.016822
2016-02-03  0.019792  0.014479 -0.015849 -0.049304
2016-02-04  0.008035  0.023492 -0.003067 -0.026054
2016-02-05 -0.026708  0.007207 -0.035385 -0.034519
...              ...       ...       ...       ...
2021-01-21  0.036658  0.012069  0.002808  0.002305
2021-01-22  0.016074 -0.099050  0.004356  0.005182
2021-01-25  0.027684 -0.000253  0.015844 -0.000868
2021-01-26  0.001679  0.032973  0.012199  0.009392
2021-01-27 -0.007684 -0.000163  0.002453 -0.045091

[1257 rows x 4 columns]>

<bound method DataFrame.cov of                 AAPL       IBM      MSFT      GOOG
Date                                              
2016-02-01       NaN       NaN       NaN       NaN
2016-02-02 -0.020222 -0.015141 -0.031256  0.016822
2016-02-03  0.019792  0.014479 -0.015849 -0.049304
2016-02-04  0.008035  0.023492 -0.003067 -0.026054
2016-02-05 -0.026708  0.007207 -0.035385 -0.034519
...              ...       ...       ...       ...
2021-01-21  0.036658  0.012069  0.002808  0.002305
2021-01-22  0.016074 -0.099050  0.004356  0.005182
2021-01-25  0.027684 -0.000253  0.015844 -0.000868
2021-01-26  0.001679  0.032973  0.012199  0.009392
2021-01-27 -0.007684 -0.000163  0.002453 -0.045091

[1257 rows x 4 columns]>