In [1]:
import numpy as np

In [2]:
import pandas as pd

# Data Structures

# 1 Series

Séries são arrays on-dimensional

In [4]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e']); s

a   -1.266650
b   -0.396355
c   -0.005548
d   -0.152039
e    0.774928
dtype: float64

In [5]:
type(s)

pandas.core.series.Series

In [6]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
# Se não definir um index ele assume um auto complete
pd.Series(np.random.randn(5))

0   -0.637752
1   -0.234643
2   -0.488026
3    2.964204
4   -0.465178
dtype: float64

In [8]:
# Series de dicionários (dict)
d = {
    'a': 0.,
    'b': 1.,
    'c': 2.
}

In [9]:
# O índice do dicionario assume o index da série
pd.Series(d)

a    0.0
b    1.0
c    2.0
dtype: float64

In [10]:
# note que a série assumiu os mesmos índicies e o que não tinha, foi criado uma linha NaN (Not a Number)
pd.Series(d, index=['b', 'c', 'd', 'a'])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [11]:
# você criar uma série com um unico valor como data e uma lista de index, esses assumiram este mesmo valor
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

# 1.1 Series is ndarray-like

In [12]:
s[0]

-1.2666497781446271

In [13]:
s[:3]

a   -1.266650
b   -0.396355
c   -0.005548
dtype: float64

In [14]:
s[s > s.median()]

c   -0.005548
e    0.774928
dtype: float64

In [15]:
s[[4, 3, 1]]

e    0.774928
d   -0.152039
b   -0.396355
dtype: float64

In [16]:
np.exp(s)

a    0.281774
b    0.672768
c    0.994468
d    0.858955
e    2.170437
dtype: float64

# 1.2 Series is dict-like

In [17]:
s['a']

-1.2666497781446271

In [18]:
s['e'] = 12.

In [19]:
s

a    -1.266650
b    -0.396355
c    -0.005548
d    -0.152039
e    12.000000
dtype: float64

In [20]:
'e' in s

True

In [21]:
'f' in s

False

In [23]:
s['f'] # Se não existir a chave, gera uma exception

KeyError: 'f'

In [24]:
s.get('a')

-1.2666497781446271

In [25]:
s.get('f') # não retorna nada

In [26]:
s.get('f', np.nan) # transforma a falta de resultado em um nan (not a number)

nan

# 1.3 Vectorized operations and label alinment with Series

In [31]:
s

a    -1.266650
b    -0.396355
c    -0.005548
d    -0.152039
e    12.000000
dtype: float64

In [32]:
# Somando Séries
s + s

a    -2.533300
b    -0.792710
c    -0.011095
d    -0.304077
e    24.000000
dtype: float64

In [33]:
# Mutiplicando Séries por constant
s * 2

a    -2.533300
b    -0.792710
c    -0.011095
d    -0.304077
e    24.000000
dtype: float64

In [37]:
# Somando parcialmente Series
s[1:] + s[:-1]

a         NaN
b   -0.792710
c   -0.011095
d   -0.304077
e         NaN
dtype: float64

# 1.3 name attribute

In [38]:
s = pd.Series(np.random.randn(5), name='something'); s

0    0.113471
1   -0.629222
2    0.154490
3   -0.177946
4    1.342087
Name: something, dtype: float64

In [40]:
s.name

'something'

In [41]:
s2 = s.rename('different')
s2.name

'different'

In [42]:
s2.name == 'different'

True

# 2 DataFrame

DataFrame é uma estrutuda de dados 2-dimensional

In [43]:
d = {
    'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}

In [44]:
df = pd.DataFrame(d); df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [46]:
# Em DataFrame o indice assume a ordem de sua implementação
pd.DataFrame(d, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [48]:
# Em DataFrame Ao setar columns, caso não conste no dicionário criado, ele cria e assume o valor NaN (not a number)
pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


In [49]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [50]:
df.columns

Index(['one', 'two'], dtype='object')

In [52]:
type(df.columns)

pandas.core.indexes.base.Index

# 2.1 From dict of ndarray / lists

In [53]:
d = {
    'one': [1., 2., 3., 4.],
    'two': [4., 3., 2., 1.]
}

In [54]:
pd.DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [55]:
# assume a definição do inndice
pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


# 2.2 From structured or record array

In [56]:
data = np.zeros((2,), dtype=[('A', 'i4'), ('B', 'f4'), ('C', 'a10')])

In [57]:
data

array([(0,  0., b''), (0,  0., b'')],
      dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10')])

In [58]:
data[:] = [(1, 2., 'hello'), (2, 3., 'World')]

In [59]:
data

array([(1,  2., b'hello'), (2,  3., b'World')],
      dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10')])

In [61]:
pd.DataFrame(data)

Unnamed: 0,A,B,C
0,1,2.0,b'hello'
1,2,3.0,b'World'


In [62]:
pd.DataFrame(data, columns=['C', 'A', 'B'])

Unnamed: 0,C,A,B
0,b'hello',1,2.0
1,b'World',2,3.0


# 2.3 From a list of dicts