TODO

* ver o site do pandas

In [61]:
import pandas as pd
import numpy as np

# Estruturas de dados do pandas

## Series

Lista de dados associados a labels, denominados *index*.

Outra forma de pensar sobre uma Series é que ela é um dicionário ordenado de tamanho fixo.

In [2]:
serie = pd.Series([1, 5, -10, 9])

serie
# labels default [0, N-1]

0     1
1     5
2   -10
3     9
dtype: int64

In [3]:
serie.values

array([  1,   5, -10,   9])

In [4]:
serie.index

RangeIndex(start=0, stop=4, step=1)

In [28]:
serie = pd.Series([1, 5, -10, 9], index=["a", "c", "d", "g"], name="Série legal")

serie.index.name = "letras"

serie

letras
a     1
c     5
d   -10
g     9
Name: Série legal, dtype: int64

In [29]:
serie['g'], type(serie['g'])

(9, numpy.int64)

In [30]:
serie[['a', 'g']], type(serie[['a', 'g']])

(letras
 a    1
 g    9
 Name: Série legal, dtype: int64, pandas.core.series.Series)

In [31]:
serie['g'] = 10

serie

letras
a     1
c     5
d   -10
g    10
Name: Série legal, dtype: int64

In [32]:
'g' in serie

True

#### Instanciando

In [19]:
s = pd.Series({"z": 10, "b": 30}) # ordem natural da key

s

b    30
z    10
dtype: int64

In [20]:
s = pd.Series({"z": 10, "b": 30}, index=['z', 'b'])

s

z    10
b    30
dtype: int64

#### Filtrando

#### Alinhamento

In [21]:
a = pd.Series({"a": 10, "b": 30})
b = pd.Series({"b": 50, "c": 10})

a + b

a     NaN
b    80.0
c     NaN
dtype: float64

## DataFrame

Estrutura similar a um dicionário de Series. Possui tanto um índice para linhas quanto para colunas.

In [135]:
data = {"nome": ["Abelardo", "Juliana", "Rodesbaldo"],
        "idade": [27, 29, 88],
        "profissão": ["Anapropégua", "Médico", "Ditador"]}

df = pd.DataFrame(data)

df
# colunas em ordem natural

Unnamed: 0,idade,nome,profissão
0,27,Abelardo,Anapropégua
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [136]:
pd.DataFrame(data, columns=["nome", "idade", "profissão", "salário"], index=["um", "dois", "três"])

Unnamed: 0,nome,idade,profissão,salário
um,Abelardo,27,Anapropégua,
dois,Juliana,29,Médico,
três,Rodesbaldo,88,Ditador,


In [137]:
df.nome

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [138]:
df['nome']

0      Abelardo
1       Juliana
2    Rodesbaldo
Name: nome, dtype: object

In [139]:
df.iloc[0] = {"nome": "Josberto", "idade": 99, "profissão": "faz tudo"}

df

Unnamed: 0,idade,nome,profissão
0,nome,idade,profissão
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador


In [140]:
df[1:2] # 2 n incluso

Unnamed: 0,idade,nome,profissão
1,29,Juliana,Médico


In [141]:
df[::2]

Unnamed: 0,idade,nome,profissão
0,nome,idade,profissão
2,88,Rodesbaldo,Ditador


In [142]:
df['random'] = np.random.randn(3)

df

Unnamed: 0,idade,nome,profissão,random
0,nome,idade,profissão,0.862937
1,29,Juliana,Médico,0.406789
2,88,Rodesbaldo,Ditador,-0.198844


In [143]:
salario = pd.Series([0, 20000, 10**7], index = [0, 1, 2])

df['salario'] = salario

df

Unnamed: 0,idade,nome,profissão,random,salario
0,nome,idade,profissão,0.862937,0
1,29,Juliana,Médico,0.406789,20000
2,88,Rodesbaldo,Ditador,-0.198844,10000000


In [144]:
del df['salario']

df

Unnamed: 0,idade,nome,profissão,random
0,nome,idade,profissão,0.862937
1,29,Juliana,Médico,0.406789
2,88,Rodesbaldo,Ditador,-0.198844


In [145]:
df['is_random_gt_0'] = df.random > 0

df

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
0,nome,idade,profissão,0.862937,True
1,29,Juliana,Médico,0.406789,True
2,88,Rodesbaldo,Ditador,-0.198844,False


In [146]:
df.T

Unnamed: 0,0,1,2
idade,nome,29,88
nome,idade,Juliana,Rodesbaldo
profissão,profissão,Médico,Ditador
random,0.862937,0.406789,-0.198844
is_random_gt_0,True,True,False


## Axis

Axis = 0 -> rows

Axis = 1 -> columns

In [147]:
df.drop(0, axis=0) # não inplace
# axis=0 default

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
1,29,Juliana,Médico,0.406789,True
2,88,Rodesbaldo,Ditador,-0.198844,False


In [148]:
df.drop("nome", axis=1)

Unnamed: 0,idade,profissão,random,is_random_gt_0
0,nome,profissão,0.862937,True
1,29,Médico,0.406789,True
2,88,Ditador,-0.198844,False


In [149]:
nuns = pd.DataFrame(np.arange(9).reshape(3, 3), index=['a', 'b', 'c'], columns=['x', 'y', 'z'])

nuns

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8


In [150]:
nuns.sum(axis=0) # reduz as linhas

x     9
y    12
z    15
dtype: int64

In [151]:
nuns.sum(axis=1) # reduz as colunas

a     3
b    12
c    21
dtype: int64

## Filtrando

In [172]:
ff = df.copy()
ff.index = ['a', 'b', 'c']
ff['idade'] = np.random.randint(10, 90, size = 3)
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,43,idade,profissão,0.862937,True
b,85,Juliana,Médico,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


In [173]:
ff['idade']

a    43
b    85
c    11
Name: idade, dtype: int64

In [174]:
ff.loc['a', 'idade'] # valor da 'célula'

43

In [175]:
ff.loc['a', ['idade']] # series com nome 'a' e valor correspondente da coluna 'idade'

idade    43
Name: a, dtype: object

In [176]:
ff.loc[['a'], ['idade']] # dataframe

Unnamed: 0,idade
a,43


In [177]:
ff.loc[['a'], 'idade'] # series com nome 'idade' e valor correspondente para a linha 'a'

a    43
Name: idade, dtype: int64

In [178]:
ff.loc['a', ['idade', 'nome']]

idade       43
nome     idade
Name: a, dtype: object

In [179]:
ff.iloc[1] # series

idade                   85
nome               Juliana
profissão           Médico
random            0.406789
is_random_gt_0        True
Name: b, dtype: object

In [180]:
ff.iloc[[1]] # dataframe

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
b,85,Juliana,Médico,0.406789,True


In [181]:
ff.loc[['a', 'b'], 'idade']

a    43
b    85
Name: idade, dtype: int64

In [182]:
ff.loc[['a', 'b'], ['idade']]

Unnamed: 0,idade
a,43
b,85


In [183]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,43,idade,profissão,0.862937,True
b,85,Juliana,Médico,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


In [184]:
ff.idade < 28

a    False
b    False
c     True
Name: idade, dtype: bool

In [185]:
ff[ff.idade < 28]

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
c,11,Rodesbaldo,Ditador,-0.198844,False


In [193]:
ff.loc[ff.idade < 28, ::-1]

Unnamed: 0,is_random_gt_0,random,profissão,nome,idade
c,False,-0.198844,Ditador,Rodesbaldo,11


In [194]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,43,idade,profissão,0.862937,True
b,85,Juliana,Médico,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


In [195]:
ff.loc['a':'b']

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,43,idade,profissão,0.862937,True
b,85,Juliana,Médico,0.406789,True


In [196]:
ff.loc[:, 'nome':'random']

Unnamed: 0,nome,profissão,random
a,idade,profissão,0.862937
b,Juliana,Médico,0.406789
c,Rodesbaldo,Ditador,-0.198844


In [197]:
ff.loc['a':'b', 'idade'] = 88
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.862937,True
b,88,Juliana,Médico,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


In [198]:
ff.iloc[0]

idade                    88
nome                  idade
profissão         profissão
random             0.862937
is_random_gt_0         True
Name: a, dtype: object

In [199]:
ff.iloc[-1]

idade                     11
nome              Rodesbaldo
profissão            Ditador
random             -0.198844
is_random_gt_0         False
Name: c, dtype: object

In [201]:
ff.iloc[-3]

idade                    88
nome                  idade
profissão         profissão
random             0.862937
is_random_gt_0         True
Name: a, dtype: object

In [202]:
ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.862937,True
b,88,Juliana,Médico,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


In [205]:
%%timeit 

ff.get_value('b', 'profissão')

The slowest run took 14.69 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 2.72 µs per loop


In [206]:
%%timeit

ff.loc['b', 'profissão']

10000 loops, best of 3: 145 µs per loop


In [207]:
ff.set_value('b', 'profissão', 'Geriatra')

ff

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
a,88,idade,profissão,0.862937,True
b,88,Juliana,Geriatra,0.406789,True
c,11,Rodesbaldo,Ditador,-0.198844,False


## Aritmética

## Instanciando

## Leitura

## Delete

In [115]:
df

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
0,nome,idade,profissão,-1.050456,False
1,29,Juliana Vieira Mota,Médico,-0.731059,False
2,88,Rodesbaldo,Ditador,0.796262,True


In [116]:
df.drop(0)

Unnamed: 0,idade,nome,profissão,random,is_random_gt_0
1,29,Juliana Vieira Mota,Médico,-0.731059,False
2,88,Rodesbaldo,Ditador,0.796262,True


In [117]:
df.drop('nome', axis=1)

Unnamed: 0,idade,profissão,random,is_random_gt_0
0,nome,profissão,-1.050456,False
1,29,Médico,-0.731059,False
2,88,Ditador,0.796262,True


## Escrita

In [42]:
df.loc[lambda row: row.idade > 28]

Unnamed: 0,idade,nome,profissão
1,29,Juliana,Médico
2,88,Rodesbaldo,Ditador
