# Pandas

http://pandas.pydata.org/

Biblioteca que contém estruturas de dados e ferramentas para análise de dados.

Por default utiliza as estruturas de dados do numpy(arrays), que são otimizadas para processmento de dados.

In [2]:
# alias normalmente utilizados
import pandas as pd
import numpy as np

# Estruturas de dados

Muito do que vai ser visto aqui com as estruturas de dados do Pandas se aplica às estruturas de dados do numpy, que é utilizado por baixo dos panos pelo Pandas.

## Series

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

Lista de dados associados a labels, denominados *index*.

Outra forma de pensar sobre uma Series é que ela é um dicionário ordenado de tamanho fixo.

In [2]:
serie = pd.Series([1, 5, -10, 9])

serie
# labels default [0, N-1]

0     1
1     5
2   -10
3     9
dtype: int64

In [4]:
serie.values

array([  1,   5, -10,   9])

In [5]:
serie.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
serie = pd.Series(data=[1, 5, -10, 9], # dados
                  index=["a", "c", "d", "g"], # index
                  name="Série legal", # nome da series
                  dtype="int") # tipo dos dados > se não especificado, é inferido

serie.index.name = "letras" # index name

serie

letras
a     1
c     5
d   -10
g     9
Name: Série legal, dtype: int64

In [15]:
serie['g'] # selecionando valor por índice

10

In [16]:
type(serie['g']) # tipo de um valor

numpy.int64

In [12]:
serie[['a', 'g']] # selecionando valores por índices

letras
a    1
g    9
Name: Série legal, dtype: int64

In [13]:
type(serie[['a', 'g']]) # tipo da estrutura com os valores

pandas.core.series.Series

In [14]:
serie['g'] = 10 # update

serie

letras
a     1
c     5
d   -10
g    10
Name: Série legal, dtype: int64

In [17]:
'g' in serie # pertinência

True

### Instanciando

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series

**dtypes**:
* int8, int16, int32, int64
* uint8, uint16, uint32, uint64
* float16, float32, float64, float128
* complex 64, 128, 256
* bool
* object
* string
* unicode

In [18]:
s = pd.Series({"z": 10, "b": 30}) # ordem natural da key

s

b    30
z    10
dtype: int64

In [13]:
s = pd.Series({"z": 10, 
               "b": 30,
               "a": 45,
               "x": 4}, index=['z', 'b', 'a', 'x'])

s

z    10
b    30
a    45
x     4
dtype: int64

### Indexando

http://pandas.pydata.org/pandas-docs/stable/api.html#indexing-iteration

In [14]:
s['z'] # label indexing

10

In [15]:
s.iloc[1] # integer indexing

30

In [16]:
s.iloc[[1, 0]] # mais de um valor

b    30
z    10
dtype: int64

In [18]:
s[[True, False, True, False]] # boolean indexing

z    10
a    45
dtype: int64

In [20]:
s.iloc[1:3] # do índice 1 ao índice 3 - 1 = 2

b    30
a    45
dtype: int64

In [24]:
s.iloc[2:] # até o fim

a    45
x     4
dtype: int64

In [25]:
s.iloc[:2] # até o 2 - 1

z    10
b    30
dtype: int64

In [21]:
s['b':'a'] # label slice inclui ambos os extremos!

b    30
a    45
dtype: int64

In [26]:
s[::-1]

x     4
a    45
b    30
z    10
dtype: int64

### Operações com primitivas

In [25]:
s

z    10
b    30
dtype: int64

In [26]:
s + 10

z    20
b    40
dtype: int64

In [27]:
s - 5

z     5
b    25
dtype: int64

In [28]:
s * 2

z    20
b    60
dtype: int64

In [36]:
s < 20 # ver que é retornada series de boolean > pode ser utilizada como indexador!

z     True
b    False
dtype: bool

### Operações entre series

In [8]:
a = pd.Series(np.arange(0, 5))
b = pd.Series(np.arange(10, 15))

a

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [9]:
b

0    10
1    11
2    12
3    13
4    14
dtype: int64

In [10]:
a + b

0    10
1    12
2    14
3    16
4    18
dtype: int64

In [11]:
a * b

0     0
1    11
2    24
3    39
4    56
dtype: int64

### Filtrando

In [37]:
s < 20

z     True
b    False
dtype: bool

In [38]:
s[s < 20]

z    10
dtype: int64

### Alinhamento

In [41]:
a = pd.Series({"a": 10, 
               "b": 30})
b = pd.Series({"b": 50, 
               "c": 10})

a + b

a     NaN
b    80.0
c     NaN
dtype: float64

### UFuncs

Funções que são aplicadas a todos elementos de um array.

In [49]:
a = pd.Series(np.random.randint(0, 100, 10))

a

0    97
1    54
2    63
3    39
4    72
5    53
6     2
7     0
8    10
9     6
dtype: int64

In [50]:
a.sum()

396

In [51]:
a.mean()

39.6

In [52]:
a.describe()

count    10.000000
mean     39.600000
std      33.774415
min       0.000000
25%       7.000000
50%      46.000000
75%      60.750000
max      97.000000
dtype: float64

## DataFrame

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Estrutura similar a um dicionário de Series. Possui tanto um índice para linhas quanto para colunas.

In [3]:
data = {"nome": ["Abelardo", "Juliana", "Rodesbaldo"],
        "idade": [27, 29, 88],
        "profissão": ["Anapropégua", "Médico", "Ditador"]}

df = pd.DataFrame(data)

df
# colunas em ordem natural

Unnamed: 0,idade,nome,profissão
0,27,Abelardo,Anapropégua
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [6]:
df.T # transposta

Unnamed: 0,0,1,2
idade,27,29,88
nome,Abelardo,Juliana,Rodesbaldo
profissão,Anapropégua,Médico,Ditador


In [30]:
pd.DataFrame(data, columns=["nome", "idade", "profissão", "salário"], index=["um", "dois", "três"])

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
dois,Juliana,29,Médico,
três,Rodesbaldo,88,Ditador,


In [31]:
df.nome

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [32]:
df['nome']

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [33]:
df.iloc[0] = {"nome": "Josberto", "idade": 99, "profissão": "faz tudo"}

df

Unnamed: 0,idade,nome,profissão
0,nome,idade,profissão
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [34]:
df[1:2] # 2 n incluso

Unnamed: 0,idade,nome,profissão
1,29,Juliana,Médico


In [35]:
df[::2]

Unnamed: 0,idade,nome,profissão
0,nome,idade,profissão
2,88,Rodesbaldo,Ditador


In [36]:
df['random'] = np.random.randn(3)

df

Unnamed: 0,idade,nome,profissão,random
0,nome,idade,profissão,-0.970869
1,29,Juliana,Médico,1.996347
2,88,Rodesbaldo,Ditador,-0.232984


In [37]:
salario = pd.Series([0, 20000, 10**7], index = [0, 1, 2])

df['salario'] = salario

df

Unnamed: 0,idade,nome,profissão,random,salario
0,nome,idade,profissão,-0.970869,0
1,29,Juliana,Médico,1.996347,20000
2,88,Rodesbaldo,Ditador,-0.232984,10000000


In [38]:
del df['salario']

df

Unnamed: 0,idade,nome,profissão,random
0,nome,idade,profissão,-0.970869
1,29,Juliana,Médico,1.996347
2,88,Rodesbaldo,Ditador,-0.232984


In [39]:
df['is_random_gt_0'] = df.random > 0

df

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
0,nome,idade,profissão,-0.970869,False
1,29,Juliana,Médico,1.996347,True
2,88,Rodesbaldo,Ditador,-0.232984,False


In [40]:
df.T

Unnamed: 0,0,1,2
idade,nome,29,88
nome,idade,Juliana,Rodesbaldo
profissão,profissão,Médico,Ditador
random,-0.970869,1.99635,-0.232984
is_random_gt_0,False,True,False


## Axis

Axis = 0 -> rows

Axis = 1 -> columns

In [41]:
df.drop(0, axis=0) # não inplace
# axis=0 default

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
1,29,Juliana,Médico,1.996347,True
2,88,Rodesbaldo,Ditador,-0.232984,False


In [42]:
df.drop("nome", axis=1)

Unnamed: 0,idade,profissão,random,is_random_gt_0
0,nome,profissão,-0.970869,False
1,29,Médico,1.996347,True
2,88,Ditador,-0.232984,False


In [43]:
nuns = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'c'], columns=['x', 'y', 'z'])

nuns

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8


In [44]:
nuns.sum(axis=0) # reduz as linhas

x     9
y    12
z    15
dtype: int64

In [45]:
nuns.sum(axis=1) # reduz as colunas

a     3
b    12
c    21
dtype: int64

## Filtrando

In [46]:
ff = df.copy()
ff.index = ['a', 'b', 'c']
ff['idade'] = np.random.randint(10, 90, size = 3)
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,29,idade,profissão,-0.970869,False
b,28,Juliana,Médico,1.996347,True
c,84,Rodesbaldo,Ditador,-0.232984,False


In [47]:
ff['idade']

a    29
b    28
c    84
Name: idade, dtype: int64

In [48]:
ff.loc['a', 'idade'] # valor da 'célula'

29

In [49]:
ff.loc['a', ['idade']] # series com nome 'a' e valor correspondente da coluna 'idade'

idade    29
Name: a, dtype: object

In [50]:
ff.loc[['a'], ['idade']] # dataframe

Unnamed: 0,idade
a,29


In [51]:
ff.loc[['a'], 'idade'] # series com nome 'idade' e valor correspondente para a linha 'a'

a    29
Name: idade, dtype: int64

In [52]:
ff.loc['a', ['idade', 'nome']]

idade       29
nome     idade
Name: a, dtype: object

In [41]:
ff.iloc[1] # series

idade                  30
nome              Juliana
profissão          Médico
random           -2.23802
is_random_gt_0      False
Name: b, dtype: object

In [42]:
ff.iloc[[1]] # dataframe

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
b,30,Juliana,Médico,-2.238022,False


In [43]:
ff.loc[['a', 'b'], 'idade']

a    36
b    30
Name: idade, dtype: int64

In [44]:
ff.loc[['a', 'b'], ['idade']]

Unnamed: 0,idade
a,36
b,30


In [45]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,36,idade,profissão,0.393901,True
b,30,Juliana,Médico,-2.238022,False
c,88,Rodesbaldo,Ditador,-0.557772,False


In [46]:
ff.idade < 28

a    False
b    False
c    False
Name: idade, dtype: bool

In [47]:
ff[ff.idade < 28]

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0


In [48]:
ff.loc[ff.idade < 28, ::-1]

Unnamed: 0,is_random_gt_0,random,profissão,nome,idade


In [49]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,36,idade,profissão,0.393901,True
b,30,Juliana,Médico,-2.238022,False
c,88,Rodesbaldo,Ditador,-0.557772,False


In [50]:
ff.loc['a':'b']

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,36,idade,profissão,0.393901,True
b,30,Juliana,Médico,-2.238022,False


In [51]:
ff.loc[:, 'nome':'random']

Unnamed: 0,nome,profissão,random
a,idade,profissão,0.393901
b,Juliana,Médico,-2.238022
c,Rodesbaldo,Ditador,-0.557772


In [52]:
ff.loc['a':'b', 'idade'] = 88
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.393901,True
b,88,Juliana,Médico,-2.238022,False
c,88,Rodesbaldo,Ditador,-0.557772,False


In [53]:
ff.iloc[0]

idade                    88
nome                  idade
profissão         profissão
random             0.393901
is_random_gt_0         True
Name: a, dtype: object

In [54]:
ff.iloc[-1]

idade                     88
nome              Rodesbaldo
profissão            Ditador
random             -0.557772
is_random_gt_0         False
Name: c, dtype: object

In [55]:
ff.iloc[-3]

idade                    88
nome                  idade
profissão         profissão
random             0.393901
is_random_gt_0         True
Name: a, dtype: object

In [56]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.393901,True
b,88,Juliana,Médico,-2.238022,False
c,88,Rodesbaldo,Ditador,-0.557772,False


In [57]:
%%timeit 

ff.get_value('b', 'profissão')

The slowest run took 45.93 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 2.73 µs per loop


In [58]:
%%timeit

ff.loc['b', 'profissão']

10000 loops, best of 3: 146 µs per loop


In [59]:
ff.set_value('b', 'profissão', 'Geriatra')

ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.393901,True
b,88,Juliana,Geriatra,-2.238022,False
c,88,Rodesbaldo,Ditador,-0.557772,False


## Aritmética

In [60]:
s1 = pd.Series(np.random.randint(0, 100, 5), index=range(5))
s2 = pd.Series(np.random.randint(-10, 0, 5), index=range(0, 10, 2))

s1+s2

0    20.0
1     NaN
2    28.0
3     NaN
4    85.0
6     NaN
8     NaN
dtype: float64

In [61]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), 
                   index=['Fortaleza', 'São Paulo', 'Rio de Janeiro'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), 
                   index=['Utah', 'Fortaleza', 'São Paulo', 'Crateús'])

df1

Unnamed: 0,b,c,d
Fortaleza,0.0,1.0,2.0
São Paulo,3.0,4.0,5.0
Rio de Janeiro,6.0,7.0,8.0


In [62]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Fortaleza,3.0,4.0,5.0
São Paulo,6.0,7.0,8.0
Crateús,9.0,10.0,11.0


In [63]:
df1+df2
# - * /

Unnamed: 0,b,c,d,e
Crateús,,,,
Fortaleza,3.0,,6.0,
Rio de Janeiro,,,,
São Paulo,9.0,,12.0,
Utah,,,,


In [64]:
df1.add(df2, fill_value=0) # usa 0 para missing values em df2
# sub, div, mul, add

Unnamed: 0,b,c,d,e
Crateús,9.0,,10.0,11.0
Fortaleza,3.0,1.0,6.0,5.0
Rio de Janeiro,6.0,7.0,8.0,
São Paulo,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


# DataFrame e Series

In [65]:
df1

Unnamed: 0,b,c,d
Fortaleza,0.0,1.0,2.0
São Paulo,3.0,4.0,5.0
Rio de Janeiro,6.0,7.0,8.0


In [66]:
rj = df1.loc['Rio de Janeiro']
rj

b    6.0
c    7.0
d    8.0
Name: Rio de Janeiro, dtype: float64

In [67]:
df1 - rj

Unnamed: 0,b,c,d
Fortaleza,-6.0,-6.0,-6.0
São Paulo,-3.0,-3.0,-3.0
Rio de Janeiro,0.0,0.0,0.0


In [68]:
ore = pd.Series(range(3), index=['b', 'd', 'e'])

df1+ore

Unnamed: 0,b,c,d,e
Fortaleza,0.0,,3.0,
São Paulo,3.0,,6.0,
Rio de Janeiro,6.0,,9.0,


## Functions

In [69]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('abc'), index=['DSI', 'DADM', 'DSM', 'DPU'])

df

Unnamed: 0,a,b,c
DSI,-0.626737,-1.994543,-0.831975
DADM,0.162664,0.09358,-0.377532
DSM,-0.583709,-0.715555,1.647055
DPU,-0.234857,-1.110336,0.71218


In [70]:
df.apply(lambda x: x.max() - x.min())
# por default reduz axis = 0 

a    0.789401
b    2.088123
c    2.479030
dtype: float64

In [71]:
df.apply(lambda x: x.max() - x.min(), axis=1)

DSI     1.367806
DADM    0.540196
DSM     2.362610
DPU     1.822517
dtype: float64

In [72]:
df.apply(lambda x: pd.Series([x.min(), x.max(), x.max() - x.min()], index=['min', 'max', 'range']))

Unnamed: 0,a,b,c
min,-0.626737,-1.994543,-0.831975
max,0.162664,0.09358,1.647055
range,0.789401,2.088123,2.47903


In [73]:
df.applymap(lambda x: "{0:.2f}".format(x)) # dataframe

Unnamed: 0,a,b,c
DSI,-0.63,-1.99,-0.83
DADM,0.16,0.09,-0.38
DSM,-0.58,-0.72,1.65
DPU,-0.23,-1.11,0.71


In [74]:
df.a.map(lambda x: "{0:.2f}".format(x)) # series

DSI     -0.63
DADM     0.16
DSM     -0.58
DPU     -0.23
Name: a, dtype: object

## Sorting

In [75]:
s = pd.Series(range(4), index=list('dabc'))

s

d    0
a    1
b    2
c    3
dtype: int64

In [76]:
s.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [77]:
s.sort_values(ascending=False)

c    3
b    2
a    1
d    0
dtype: int64

In [78]:
df = pd.DataFrame(np.arange(12).reshape((3, 4)), index=['três', 'dois', 'sete'], columns=list('dabc'))

df

Unnamed: 0,d,a,b,c
três,0,1,2,3
dois,4,5,6,7
sete,8,9,10,11


In [79]:
df.sort_index()

Unnamed: 0,d,a,b,c
dois,4,5,6,7
sete,8,9,10,11
três,0,1,2,3


In [80]:
df.sort_index(axis=1)

Unnamed: 0,a,b,c,d
três,1,2,3,0
dois,5,6,7,4
sete,9,10,11,8


In [81]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
três,0,3,2,1
dois,4,7,6,5
sete,8,11,10,9


In [82]:
df.sort_values('a', ascending=False)

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


In [83]:
df.sort_values(['a', 'b'], ascending=False)

Unnamed: 0,d,a,b,c
sete,8,9,10,11
dois,4,5,6,7
três,0,1,2,3


## Ranking

In [84]:
s = pd.Series([6, -2, 6, 3, 1, 0, 3])

s

0    6
1   -2
2    6
3    3
4    1
5    0
6    3
dtype: int64

In [85]:
s.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [86]:
s.rank(method='first') # em caso de empate, rank baseado na ordem em que aparece na series

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [87]:
s.rank(method='max') # empatados recebem o maior valor do grupo

0    7.0
1    1.0
2    7.0
3    5.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [88]:
s.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [99]:
df = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

df

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [100]:
df.rank()

Unnamed: 0,a,b,c
0,1.5,3.0,2.0
1,3.5,4.0,3.0
2,1.5,1.0,4.0
3,3.5,2.0,1.0


In [101]:
df.rank(axis=1)

Unnamed: 0,a,b,c
0,2.0,3.0,1.0
1,1.0,3.0,2.0
2,2.0,1.0,3.0
3,2.0,3.0,1.0


In [102]:
df.index.is_unique

True

In [95]:
df.index = [0, 1, 1, 2]

df

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
1,0,-3.0,8.0
2,1,2.0,-2.5


In [96]:
df.loc[1]

Unnamed: 0,a,b,c
1,1,7.0,5.0
1,0,-3.0,8.0


In [97]:
df.loc[0]

a    0.0
b    4.3
c   -2.0
Name: 0, dtype: float64

In [98]:
df.index.is_unique

False

## Summarizing

In [104]:
df = pd.DataFrame({'1': [1.4, 7.1, np.nan, .75], '2': [np.nan, -4.5, np.nan, -1.3]},
                  index=list('abcd'))

df

Unnamed: 0,1,2
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [105]:
df.sum()

1    9.25
2   -5.80
dtype: float64

In [106]:
df.sum(skipna=False)

1   NaN
2   NaN
dtype: float64

In [107]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [108]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [111]:
df.idxmax() # índice em axis = 0 com maiores valores

1    b
2    d
dtype: object

In [121]:
df['1'].argmin()

'd'

In [112]:
df.cumsum()

Unnamed: 0,1,2
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [113]:
df.cumsum(skipna=False)

Unnamed: 0,1,2
a,1.4,
b,8.5,
c,,
d,,


In [114]:
df.describe()

Unnamed: 0,1,2
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [116]:
s = pd.Series(list('aabc')*4)

s

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [117]:
s.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [119]:
df.count() # quantidade de non-NA values

1    3
2    2
dtype: int64

In [125]:
df = pd.DataFrame(np.arange(10).reshape((5, 2)))

df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5
3,6,7
4,8,9


In [126]:
df.quantile()

0    4.0
1    5.0
Name: 0.5, dtype: float64

In [127]:
df.mean()

0    4.0
1    5.0
dtype: float64

In [128]:
df.median()

0    4.0
1    5.0
dtype: float64

In [130]:
df.std()

0    3.162278
1    3.162278
dtype: float64

In [131]:
df.cumsum()

Unnamed: 0,0,1
0,0,1
1,2,4
2,6,9
3,12,16
4,20,25


In [133]:
df.cummin()

Unnamed: 0,0,1
0,0,1
1,0,1
2,0,1
3,0,1
4,0,1


In [132]:
df.cummax()

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5
3,6,7
4,8,9


In [137]:
quads = pd.DataFrame({i:[i for _ in range(7)] for i in range(7)}).cumprod()

quads

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,2,3,4,5,6
1,0,1,4,9,16,25,36
2,0,1,8,27,64,125,216
3,0,1,16,81,256,625,1296
4,0,1,32,243,1024,3125,7776
5,0,1,64,729,4096,15625,46656
6,0,1,128,2187,16384,78125,279936


In [138]:
quads.pct_change()

Unnamed: 0,0,1,2,3,4,5,6
0,,,,,,,
1,,0.0,1.0,2.0,3.0,4.0,5.0
2,,0.0,1.0,2.0,3.0,4.0,5.0
3,,0.0,1.0,2.0,3.0,4.0,5.0
4,,0.0,1.0,2.0,3.0,4.0,5.0
5,,0.0,1.0,2.0,3.0,4.0,5.0
6,,0.0,1.0,2.0,3.0,4.0,5.0


## Hierarchical index

In [109]:
# TODO: sum(level='')

## Instanciando

## Leitura

## Delete

In [92]:
df

Unnamed: 0,a,b,c
0,0,4.3,-2.0
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [93]:
df.drop(0)

Unnamed: 0,a,b,c
1,1,7.0,5.0
2,0,-3.0,8.0
3,1,2.0,-2.5


In [94]:
df.drop('nome', axis=1)

ValueError: labels ['nome'] not contained in axis

## Escrita

In [None]:
df.loc[lambda row: row.idade > 28]