In [23]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Pandas

http://pandas.pydata.org/

Biblioteca que contém estruturas de dados e ferramentas para análise de dados.

Por default utiliza as estruturas de dados do numpy(arrays), que são otimizadas para processmento de dados.

In [1]:
# alias normalmente utilizados
import pandas as pd
import numpy as np

# Estruturas de dados

Muito do que vai ser visto aqui com as estruturas de dados do Pandas se aplica às estruturas de dados do numpy, que é utilizado por baixo dos panos pelo Pandas.

## Series

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

Lista de dados associados a labels, denominados *index*.

Outra forma de pensar sobre uma Series é que ela é um dicionário ordenado de tamanho fixo.

In [2]:
serie = pd.Series([1, 5, -10, 9])

serie
# labels default [0, N-1]

0     1
1     5
2   -10
3     9
dtype: int64

In [3]:
serie.values

array([  1,   5, -10,   9])

In [4]:
serie.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
serie = pd.Series(data=[1, 5, -10, 9], # dados
                  index=["a", "c", "d", "g"], # index
                  name="Série legal", # nome da series
                  dtype="int") # tipo dos dados > se não especificado, é inferido

serie.index.name = "letras" # index name

serie

letras
a     1
c     5
d   -10
g     9
Name: Série legal, dtype: int64

In [6]:
serie['g'] # selecionando valor por índice

9

In [7]:
type(serie['g']) # tipo de um valor

numpy.int64

In [8]:
serie[['a', 'g']] # selecionando valores por índices

letras
a    1
g    9
Name: Série legal, dtype: int64

In [9]:
type(serie[['a', 'g']]) # tipo da estrutura com os valores

pandas.core.series.Series

In [10]:
serie['g'] = 10 # update

serie

letras
a     1
c     5
d   -10
g    10
Name: Série legal, dtype: int64

In [11]:
'g' in serie # pertinência

True

### Instanciando

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series

**dtypes**:
* int8, int16, int32, int64
* uint8, uint16, uint32, uint64
* float16, float32, float64, float128
* complex 64, 128, 256
* bool
* object
* string
* unicode

In [12]:
s = pd.Series({"z": 10, "b": 30}) # ordem natural da key

s

b    30
z    10
dtype: int64

In [13]:
s = pd.Series({"z": 10, 
               "b": 30,
               "a": 45,
               "x": 4}, index=['z', 'b', 'a', 'x'])

s

z    10
b    30
a    45
x     4
dtype: int64

### Indexando

http://pandas.pydata.org/pandas-docs/stable/api.html#indexing-iteration

In [14]:
s['z'] # label indexing

10

In [15]:
s.iloc[1] # integer indexing

30

In [16]:
s.iloc[[1, 0]] # mais de um valor

b    30
z    10
dtype: int64

In [17]:
s[[True, False, True, False]] # boolean indexing

z    10
a    45
dtype: int64

In [18]:
s.iloc[1:3] # do índice 1 ao índice 3 - 1 = 2

b    30
a    45
dtype: int64

In [19]:
s.iloc[2:] # até o fim

a    45
x     4
dtype: int64

In [20]:
s.iloc[:2] # até o 2 - 1

z    10
b    30
dtype: int64

In [21]:
s['b':'a'] # label slice inclui ambos os extremos!

b    30
a    45
dtype: int64

In [22]:
s[::-1]

x     4
a    45
b    30
z    10
dtype: int64

### Operações com primitivas

In [24]:
s

z    10
b    30
a    45
x     4
dtype: int64

In [25]:
s + 10

z    20
b    40
a    55
x    14
dtype: int64

In [26]:
s - 5

z     5
b    25
a    40
x    -1
dtype: int64

In [27]:
s * 2

z    20
b    60
a    90
x     8
dtype: int64

In [28]:
s < 20 # ver que é retornada series de boolean > pode ser utilizada como indexador!

z     True
b    False
a    False
x     True
dtype: bool

### Operações entre series

In [29]:
a = pd.Series(np.arange(0, 5))
b = pd.Series(np.arange(10, 15))

a
b

0    0
1    1
2    2
3    3
4    4
dtype: int64

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [10]:
a + b

0    10
1    12
2    14
3    16
4    18
dtype: int64

In [11]:
a * b

0     0
1    11
2    24
3    39
4    56
dtype: int64

### Filtrando

In [37]:
s < 20

z     True
b    False
dtype: bool

In [38]:
s[s < 20]

z    10
dtype: int64

### Alinhamento

In [30]:
a = pd.Series({"a": 10, 
               "b": 30})
b = pd.Series({"b": 50, 
               "c": 10})

a + b

a     NaN
b    80.0
c     NaN
dtype: float64

### UFuncs

Funções que são aplicadas a todos elementos de um array.

In [35]:
a = pd.Series(np.random.randint(-100, 100, 10))

a

0    -3
1   -32
2    69
3    12
4   -57
5    58
6   -48
7   -70
8   -87
9    89
dtype: int64

In [32]:
a.sum()

583

In [33]:
a.mean()

58.3

In [34]:
a.describe()

count    10.000000
mean     58.300000
std      35.333491
min       8.000000
25%      28.500000
50%      67.000000
75%      88.750000
max      98.000000
dtype: float64

In [36]:
a.abs()

0     3
1    32
2    69
3    12
4    57
5    58
6    48
7    70
8    87
9    89
dtype: int64

## DataFrame

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Estrutura similar a um dicionário de Series. Possui tanto um índice para linhas quanto para colunas.

In [39]:
data = {"nome": ["Abelardo", "Juliana", "Rodesbaldo"],
        "idade": [27, 29, 88],
        "profissão": ["Anapropégua", "Médico", "Ditador"]}

df = pd.DataFrame(data)

df
# colunas em ordem natural

Unnamed: 0,idade,nome,profissão
0,27,Abelardo,Anapropégua
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [40]:
df.T # transposta

Unnamed: 0,0,1,2
idade,27,29,88
nome,Abelardo,Juliana,Rodesbaldo
profissão,Anapropégua,Médico,Ditador


In [41]:
pd.DataFrame(data, 
             columns=["nome", "idade", "profissão", "salário"], 
             index=["um", "dois", "três"]) # ordem de colunas = especificada

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
dois,Juliana,29,Médico,
três,Rodesbaldo,88,Ditador,


In [42]:
df.nome # selecionando coluna - notação apenas válida se o nome da coluna for um identificador válido python

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [43]:
df['nome'] # selecionando coluna

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [49]:
df[1:2] # para indexação de linhas, preferido df.iloc/loc
df.iloc[1:2, :]

Unnamed: 0,idade,nome,profissão
1,29,Juliana,Médico


Unnamed: 0,idade,nome,profissão
1,29,Juliana,Médico


In [50]:
df[::2]

Unnamed: 0,idade,nome,profissão
0,99,Josberto,faz tudo
2,88,Rodesbaldo,Ditador


In [51]:
df['random'] = np.random.randn(3)

df

Unnamed: 0,idade,nome,profissão,random
0,99,Josberto,faz tudo,0.567341
1,29,Juliana,Médico,1.555878
2,88,Rodesbaldo,Ditador,-0.212769


### Alterando o dataframe

In [46]:
df.iloc[0] = {"nome": "Josberto", 
              "idade": 99, 
              "profissão": "faz tudo"} # update

df

Unnamed: 0,idade,nome,profissão
0,99,Josberto,faz tudo
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [54]:
df['salario'] = pd.Series([0, 20000, 10**7], index = [0, 1, 2]) # coluna

df

Unnamed: 0,idade,nome,profissão,random,salario
0,99,Josberto,faz tudo,0.567341,0
1,29,Juliana,Médico,1.555878,20000
2,88,Rodesbaldo,Ditador,-0.212769,10000000


In [55]:
del df['salario'] # removendo coluna

df

Unnamed: 0,idade,nome,profissão,random
0,99,Josberto,faz tudo,0.567341
1,29,Juliana,Médico,1.555878
2,88,Rodesbaldo,Ditador,-0.212769


In [56]:
df['is_random_gt_0'] = df.random > 0 # boolean series

df

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
0,99,Josberto,faz tudo,0.567341,True
1,29,Juliana,Médico,1.555878,True
2,88,Rodesbaldo,Ditador,-0.212769,False


## Axis

Axis = 0 -> rows

Axis = 1 -> columns

In [57]:
df.drop(0, axis=0) # 0=label, não inplace
# axis=0 default

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
1,29,Juliana,Médico,1.555878,True
2,88,Rodesbaldo,Ditador,-0.212769,False


In [58]:
df.drop("nome", axis=1)

Unnamed: 0,idade,profissão,random,is_random_gt_0
0,99,faz tudo,0.567341,True
1,29,Médico,1.555878,True
2,88,Ditador,-0.212769,False


In [59]:
nuns = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'c'], columns=['x', 'y', 'z'])

nuns

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8


In [60]:
nuns.sum(axis=0) # soma as linhas

x     9
y    12
z    15
dtype: int64

In [61]:
nuns.sum(axis=1) # soma as colunas

a     3
b    12
c    21
dtype: int64

In [108]:
# nova versão do pandas permite passar o nome do axis
nuns.sum(axis="index")
nuns.sum(axis="columns")

x     9
y    12
z    15
dtype: int64

a     3
b    12
c    21
dtype: int64

## Filtrando

In [62]:
ff = df.copy()
ff.index = ['a', 'b', 'c']
ff['idade'] = np.random.randint(10, 90, size = 3)
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,11,Josberto,faz tudo,0.567341,True
b,55,Juliana,Médico,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


In [63]:
ff['idade']

a    11
b    55
c    38
Name: idade, dtype: int64

In [64]:
ff.loc['a', 'idade'] # valor da 'célula'

11

In [65]:
ff.loc['a', ['idade']] # series com nome 'a' e valor correspondente da coluna 'idade'

idade    11
Name: a, dtype: object

In [66]:
ff.loc[['a'], ['idade']] # dataframe

Unnamed: 0,idade
a,11


In [67]:
ff.loc[['a'], 'idade'] # series com nome 'idade' e valor correspondente para a linha 'a'

a    11
Name: idade, dtype: int64

In [68]:
ff.loc['a', ['idade', 'nome']]

idade          11
nome     Josberto
Name: a, dtype: object

In [69]:
ff.iloc[1] # series

idade                  55
nome              Juliana
profissão          Médico
random            1.55588
is_random_gt_0       True
Name: b, dtype: object

In [70]:
ff.iloc[[1]] # dataframe

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
b,55,Juliana,Médico,1.555878,True


In [71]:
ff.loc[['a', 'b'], 'idade']

a    11
b    55
Name: idade, dtype: int64

In [72]:
ff.loc[['a', 'b'], ['idade']]

Unnamed: 0,idade
a,11
b,55


In [73]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,11,Josberto,faz tudo,0.567341,True
b,55,Juliana,Médico,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


In [74]:
ff.idade < 28

a     True
b    False
c    False
Name: idade, dtype: bool

In [75]:
ff[ff.idade < 28]

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,11,Josberto,faz tudo,0.567341,True


In [76]:
ff.loc[ff.idade < 28, ::-1]

Unnamed: 0,is_random_gt_0,random,profissão,nome,idade
a,True,0.567341,faz tudo,Josberto,11


In [77]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,11,Josberto,faz tudo,0.567341,True
b,55,Juliana,Médico,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


In [78]:
ff.loc['a':'b'] # inclusos os limites

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,11,Josberto,faz tudo,0.567341,True
b,55,Juliana,Médico,1.555878,True


In [79]:
ff.loc[:, 'nome':'random']

Unnamed: 0,nome,profissão,random
a,Josberto,faz tudo,0.567341
b,Juliana,Médico,1.555878
c,Rodesbaldo,Ditador,-0.212769


In [80]:
ff.loc['a':'b', 'idade'] = 88
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,Josberto,faz tudo,0.567341,True
b,88,Juliana,Médico,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


In [81]:
ff.iloc[0]

idade                   88
nome              Josberto
profissão         faz tudo
random            0.567341
is_random_gt_0        True
Name: a, dtype: object

In [82]:
ff.iloc[-1]

idade                     38
nome              Rodesbaldo
profissão            Ditador
random             -0.212769
is_random_gt_0         False
Name: c, dtype: object

In [83]:
ff.iloc[-3]

idade                   88
nome              Josberto
profissão         faz tudo
random            0.567341
is_random_gt_0        True
Name: a, dtype: object

In [84]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,Josberto,faz tudo,0.567341,True
b,88,Juliana,Médico,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


In [85]:
%%timeit 

ff.get_value('b', 'profissão')

2.02 µs ± 10.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [86]:
%%timeit

ff.loc['b', 'profissão']

7.33 µs ± 61.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [89]:
_ = ff.set_value('b', 'profissão', 'Geriatra')

ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,Josberto,faz tudo,0.567341,True
b,88,Juliana,Geriatra,1.555878,True
c,38,Rodesbaldo,Ditador,-0.212769,False


## Aritmética

In [90]:
s1 = pd.Series(np.random.randint(0, 100, 5), index=range(5))
s2 = pd.Series(np.random.randint(-10, 0, 5), index=range(0, 10, 2))

s1
s2

0    75
1     7
2    15
3    83
4    38
dtype: int64

0   -6
2   -1
4   -3
6   -1
8   -3
dtype: int64

In [91]:
s1+s2

0    69.0
1     NaN
2    14.0
3     NaN
4    35.0
6     NaN
8     NaN
dtype: float64

In [92]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), 
                   index=['Fortaleza', 'São Paulo', 'Rio de Janeiro'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), 
                   index=['Utah', 'Fortaleza', 'São Paulo', 'Crateús'])

df1
df2

Unnamed: 0,b,c,d
Fortaleza,0.0,1.0,2.0
São Paulo,3.0,4.0,5.0
Rio de Janeiro,6.0,7.0,8.0


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Fortaleza,3.0,4.0,5.0
São Paulo,6.0,7.0,8.0
Crateús,9.0,10.0,11.0


In [93]:
df1+df2 # op(x, y) = NaN if x = NaN or y = NaN
# - * /

Unnamed: 0,b,c,d,e
Crateús,,,,
Fortaleza,3.0,,6.0,
Rio de Janeiro,,,,
São Paulo,9.0,,12.0,
Utah,,,,


In [94]:
df1.add(df2, fill_value=0) # usa 0 para missing values
# sub, div, mul, add

Unnamed: 0,b,c,d,e
Crateús,9.0,,10.0,11.0
Fortaleza,3.0,1.0,6.0,5.0
Rio de Janeiro,6.0,7.0,8.0,
São Paulo,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


# DataFrame e Series

In [96]:
df1

Unnamed: 0,b,c,d
Fortaleza,0.0,1.0,2.0
São Paulo,3.0,4.0,5.0
Rio de Janeiro,6.0,7.0,8.0


In [97]:
rj = df1.loc['Rio de Janeiro']
rj

b    6.0
c    7.0
d    8.0
Name: Rio de Janeiro, dtype: float64

In [98]:
df1 - rj

Unnamed: 0,b,c,d
Fortaleza,-6.0,-6.0,-6.0
São Paulo,-3.0,-3.0,-3.0
Rio de Janeiro,0.0,0.0,0.0


In [99]:
ore = pd.Series(range(3), index=['b', 'd', 'e'])

df1+ore

Unnamed: 0,b,c,d,e
Fortaleza,0.0,,3.0,
São Paulo,3.0,,6.0,
Rio de Janeiro,6.0,,9.0,


In [100]:
b = df1.loc[:, 'b']
b

Fortaleza         0.0
São Paulo         3.0
Rio de Janeiro    6.0
Name: b, dtype: float64

In [101]:
df1+b # soma é rowise

Unnamed: 0,Fortaleza,Rio de Janeiro,São Paulo,b,c,d
Fortaleza,,,,,,
São Paulo,,,,,,
Rio de Janeiro,,,,,,


In [106]:
df1.add(b, axis=0) # matches b index labels with df1 index labels(axis=0)

Unnamed: 0,b,c,d
Fortaleza,0.0,1.0,2.0
São Paulo,6.0,7.0,8.0
Rio de Janeiro,12.0,13.0,14.0


## Functions

In [109]:
df = pd.DataFrame(np.random.randn(4, 3), 
                  columns=list('abc'), 
                  index=['DSI', 'DADM', 'DSM', 'DPU'])

df

Unnamed: 0,a,b,c
DSI,1.064775,0.041803,-2.584208
DADM,0.769334,1.891915,-2.315609
DSM,-0.000572,0.188069,-0.606884
DPU,0.189309,0.202068,-0.098693


In [110]:
df.apply(lambda x: x.max() - x.min())
# por default reduz axis = 0 -> apply function to each column

a    1.065347
b    1.850112
c    2.485515
dtype: float64

In [111]:
df.apply(lambda x: x.max() - x.min(), axis=1)

DSI     3.648983
DADM    4.207524
DSM     0.794953
DPU     0.300760
dtype: float64

In [112]:
df.apply(lambda x: pd.Series([x.min(), x.max(), x.max() - x.min()], 
                             index=['min', 'max', 'range']))

Unnamed: 0,a,b,c
min,-0.000572,0.041803,-2.584208
max,1.064775,1.891915,-0.098693
range,1.065347,1.850112,2.485515


In [113]:
df.applymap(lambda x: "{0:.2f}".format(x)) # dataframe

Unnamed: 0,a,b,c
DSI,1.06,0.04,-2.58
DADM,0.77,1.89,-2.32
DSM,-0.0,0.19,-0.61
DPU,0.19,0.2,-0.1


In [114]:
df.a.map(lambda x: "{0:.2f}".format(x)) # series

DSI      1.06
DADM     0.77
DSM     -0.00
DPU      0.19
Name: a, dtype: object

## Sorting

In [118]:
s = pd.Series(np.random.randint(-10, 10, 4), index=list('dabc'))

s

d   -2
a    5
b   -4
c   -5
dtype: int64

In [119]:
s.sort_index()

a    5
b   -4
c   -5
d   -2
dtype: int64

In [121]:
s.sort_values() # parametro ascending=False para ordenar do maior para o menor

c   -5
b   -4
d   -2
a    5
dtype: int64

In [122]:
df = pd.DataFrame(np.arange(12).reshape((3, 4)), 
                  index=['três', 'dois', 'sete'], 
                  columns=list('dabc'))

df

Unnamed: 0,d,a,b,c
três,0,1,2,3
dois,4,5,6,7
sete,8,9,10,11


In [123]:
df.sort_index()

Unnamed: 0,d,a,b,c
dois,4,5,6,7
sete,8,9,10,11
três,0,1,2,3


In [124]:
df.sort_index(axis=1) # como tem 2 index, pode-se especificar o index das colunas

Unnamed: 0,a,b,c,d
três,1,2,3,0
dois,5,6,7,4
sete,9,10,11,8


In [125]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
três,0,3,2,1
dois,4,7,6,5
sete,8,11,10,9


In [126]:
df.sort_values('a', ascending=False) # ordenar pela coluna 'a' ascending=False

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


In [128]:
df.sort_values(['a', 'b'], ascending=[False, True]) # ordenar pelas colunas 'a' e 'b', desc, asc

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


## Summarizing

In [129]:
df = pd.DataFrame({'1': [1.4, 7.1, np.nan, .75], '2': [np.nan, -4.5, np.nan, -1.3]},
                  index=list('abcd'))

df

Unnamed: 0,1,2
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [130]:
df.sum() # soma linhas

1    9.25
2   -5.80
dtype: float64

In [131]:
df.sum(skipna=False) # se houver NaN, resultado é NaN

1   NaN
2   NaN
dtype: float64

In [133]:
df.sum(axis=1) # soma colunas

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [134]:
df.mean(axis=1, skipna=False) # média dos valores das linhas

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [135]:
df.idxmax() # índice em axis = 0 com maiores valores

1    b
2    d
dtype: object

In [136]:
df['1'].argmin() # label cujo valor na coluna 1 é o mínimo

'd'

In [138]:
df.cumsum() # soma cumulativa

Unnamed: 0,1,2
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [139]:
df.cumsum(skipna=False) # sem skipna

Unnamed: 0,1,2
a,1.4,
b,8.5,
c,,
d,,


In [140]:
df.describe() # método que retorna valores estatísticos

Unnamed: 0,1,2
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [146]:
s = pd.Series(list('aabc')*4)

s

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [147]:
s.describe() # colunas não numéricas

count     16
unique     3
top        a
freq       8
dtype: object

In [148]:
df.count() # quantidade de non-NA values

0    5
1    5
dtype: int64

In [149]:
df = pd.DataFrame(np.arange(10).reshape((5, 2)))

df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5
3,6,7
4,8,9


In [150]:
df.quantile() # valores abaixo dos quais se concentram 50% dos dados
# possível gerar outras configurações de quantiles, como [-inf, 0., 0.5, inf]

0    4.0
1    5.0
Name: 0.5, dtype: float64

In [152]:
df.quantile(q=[0., 0.5, 1])

Unnamed: 0,0,1
0.0,0.0,1.0
0.5,4.0,5.0
1.0,8.0,9.0


In [153]:
df.mean() # sum/count - por default, exclui NAs!

0    4.0
1    5.0
dtype: float64

In [155]:
df = pd.DataFrame({'a': [1, 2, 3, None], 'b': [1, 2, 3, 0]})
df.mean() # mean(skipna=True) > não conta o NA no count

a    2.0
b    1.5
dtype: float64

In [156]:
df.median() # valor abaixo do qual se concentram 50% dos dados

a    2.0
b    1.5
dtype: float64

In [157]:
df.std() # standard deviation

a    1.000000
b    1.290994
dtype: float64

In [158]:
df.cumsum()

Unnamed: 0,a,b
0,1.0,1.0
1,3.0,3.0
2,6.0,6.0
3,,6.0


In [159]:
df.cummin()

Unnamed: 0,a,b
0,1.0,1.0
1,1.0,1.0
2,1.0,1.0
3,,0.0


In [160]:
df.cummax()

Unnamed: 0,a,b
0,1.0,1.0
1,2.0,2.0
2,3.0,3.0
3,,3.0


In [161]:
quads = pd.DataFrame({i:[i for _ in range(7)] for i in range(7)}).cumprod()

quads

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,2,3,4,5,6
1,0,1,4,9,16,25,36
2,0,1,8,27,64,125,216
3,0,1,16,81,256,625,1296
4,0,1,32,243,1024,3125,7776
5,0,1,64,729,4096,15625,46656
6,0,1,128,2187,16384,78125,279936


In [162]:
quads.pct_change()

Unnamed: 0,0,1,2,3,4,5,6
0,,,,,,,
1,,0.0,1.0,2.0,3.0,4.0,5.0
2,,0.0,1.0,2.0,3.0,4.0,5.0
3,,0.0,1.0,2.0,3.0,4.0,5.0
4,,0.0,1.0,2.0,3.0,4.0,5.0
5,,0.0,1.0,2.0,3.0,4.0,5.0
6,,0.0,1.0,2.0,3.0,4.0,5.0
