Introdução ao Pandas

funcionalidades mais importantes e usadas

estatísticas descritivas

Reindexação: `reindex` cria um novo objeto com os dados de acordo com um novo índice.

In [2]:
import pandas as pd

In [3]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [4]:
# reindex vai reorganizar os dados de acordo com o novo índice
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Para dados ordenados (como em séries temporais) podemos realizar o preenchimento de valores na reindexação, se for preciso. `method` nos permite fazer isso com `ffill` que faz um preenchimento para a frente.

(Dados de uma série temporal são dados reunidos em intervalos regulares de tempo e ordenadas cronologicamente).

In [5]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [6]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

em um DataFrame, reindex pode alterar índice (linha), colunas ou ambos.

In [7]:
import numpy as np

frame = pd.DataFrame(np.arange(9).reshape(3, 3), 
                     index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
frame                     

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [8]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [9]:
# colunas podem ser reindexadas com columns
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


Descartando entradas de um eixo

In [10]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [11]:
obj2 = obj.drop('c')
obj2

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [12]:
data = pd.DataFrame(np.arange(16).reshape(4, 4), 
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data                    

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [13]:
# drop irá descartar valores das linhas com os rótulos passados
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [14]:
# descartamos valores das colunas passando axis=1 ou axis='columns'
data.drop(['four', 'one'], axis=1)

Unnamed: 0,two,three
Ohio,1,2
Colorado,5,6
Utah,9,10
New York,13,14


In [15]:
# funções como drop podem modificar o objeto in-place, sem devolver um novo objeto
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [16]:
obj.drop(['a', 'b'], inplace=True)
obj

c    2.0
d    3.0
e    4.0
dtype: float64

Indexação, seleção e filtragem

In [17]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [18]:
obj['b'], obj[1]

  obj['b'], obj[1]


(1.0, 1.0)

In [19]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [20]:
obj[['b', 'a', 'd']], obj[[1, 3]]

  obj[['b', 'a', 'd']], obj[[1, 3]]


(b    1.0
 a    0.0
 d    3.0
 dtype: float64,
 b    1.0
 d    3.0
 dtype: float64)

In [21]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

o fatiamento com rótulos comporta-se de forma diferente: o ponto final é incluído!

In [22]:
obj['c':'d'] # equivalente a obj[2:4]

c    2.0
d    3.0
dtype: float64

In [23]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [24]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data                  

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [25]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [26]:
data[['four', 'three']]

Unnamed: 0,four,three
Ohio,3,2
Colorado,7,6
Utah,11,10
New York,15,14


In [27]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [28]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [29]:
# dataframe booleano
data > 5

Unnamed: 0,one,two,three,four
Ohio,False,False,False,False
Colorado,False,False,True,True
Utah,True,True,True,True
New York,True,True,True,True


In [30]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


Seleção com `loc` e `iloc`

essas funções permitem selecionar um subconjunto de linhas e colunas de um DataFrame com uma notação semelhante à do NumPy, usando rótulos de eixo (loc) ou inteiros (iloc).

In [31]:
# selecionando uma linha e várias colunas
data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int32

In [32]:
# com iloc
data.iloc[1, [1, 2]]

two      5
three    6
Name: Colorado, dtype: int32

In [33]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [34]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


As duas funções de indexação trabalham com fatias, além de rótulos únicos ou listas de rótulos

In [35]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [36]:
data.iloc[:, :3][data.three > 5]
# : seleciona todas as linhas
# :3 seleciona até a coluna 3, sem incluir essa coluna
# após selecionar as linhas e colunas, aplicamos a condição data.three > 5

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [37]:
data.iloc[:, :3]

Unnamed: 0,one,two,three
Ohio,0,0,0
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


| Tipo | Observações  |
|:-----|:-------------|
| df[val]                     |  Seleciona uma única coluna ou uma sequência de colunas do DataFrame; conveniências para casos especiais: array booleano (filtra linhas), fatia (fatia linhas) ou DataFrame booleano (define valores com base em algum critério) |
| df.loc[val]                 |  Seleciona uma única linha ou um subconjunto de linhas do DataFrame pelo rótulo                   |
| df.loc[:, val]              |  Seleciona uma única coluna ou um subconjunto de colunas pelo rótulo                              |
| df.loc[val1, val2]          |  Seleciona tanto linhas quanto colunas pelo rótulo                                                |
| df.iloc[where]              |  Seleciona uma única linha ou um subconjunto de linhas do DataFrame pela posição com um inteiro   |
| df.iloc[:, where]           |  Seleciona uma única coluna ou um subconjunto de colunas pela posição com um inteiro              |
| df.iloc[where_i, where_j]   |  Seleciona tanto linhas quanto colunas pela posição com um inteiro                                |
| df.at[label_i, label_j]     |  Seleciona um único valor escalar pelo rótulo da linha e da coluna                                |
| df.iat[i, j]                |  Seleciona um único valor escalar pela posição (inteiros) da linha e da coluna                    |
| método reindex              |  Seleciona linhas ou colunas pelos rótulos                                                        |
| método get_value, set_value |  Seleciona um único valor pelo rótulo da linha e da coluna                                        |

Índices inteiros

In [38]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [39]:
# ser[-1] # ValueError

inferir o que o usuário quer (indexação baseada em rótulo ou baseada em posição) é difícil, por isso o erro

mas um índice que não seja inteiro, não há ambiguidade

In [40]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

In [41]:
ser2[-1]

  ser2[-1]


2.0

In [42]:
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [43]:
ser[:1]

0    0.0
dtype: float64

In [44]:
ser.loc[:1] # indexação por rótulo

0    0.0
1    1.0
dtype: float64

In [45]:
ser.iloc[:1] # indexação por inteiro

0    0.0
dtype: float64

Aritmética e alinhamento de dados

aritmética entre objetos com índices diferentes: para objetos somados, se algum par de índices não for igual, o respectivo índice no resultado será a união dos pares de índices.

In [46]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [47]:
s1, s2

(a    7.3
 c   -2.5
 d    3.4
 e    1.5
 dtype: float64,
 a   -2.1
 c    3.6
 e   -1.5
 f    4.0
 g    3.1
 dtype: float64)

In [48]:
# somando ambos
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

o NaN é um indicativo da ausência de valores nos locais dos rótulos que não se sobrepõem.

para um DataFrame, o alinhamento é feito nas linhas e nas colunas.

In [49]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [50]:
df1, df2

(            b    c    d
 Ohio      0.0  1.0  2.0
 Texas     3.0  4.0  5.0
 Colorado  6.0  7.0  8.0,
           b     d     e
 Utah    0.0   1.0   2.0
 Ohio    3.0   4.0   5.0
 Texas   6.0   7.0   8.0
 Oregon  9.0  10.0  11.0)

In [51]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


em somas de objetos DataFrame sem rótulos para colunas ou linhas em comum, o resultado apenas contém valores NaN.

In [52]:
df1 = pd.DataFrame({'A': [1, 2]})
df2 = pd.DataFrame({'B': [3, 4]})
df1 + df2

Unnamed: 0,A,B
0,,
1,,


em alguns casos, talvez seja útil fazer um preenchimento de valores quando um rótulo estiver presente em um DataFrame mas não em outro.

In [53]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df1, df2

(     a    b     c     d
 0  0.0  1.0   2.0   3.0
 1  4.0  5.0   6.0   7.0
 2  8.0  9.0  10.0  11.0,
       a     b     c     d     e
 0   0.0   1.0   2.0   3.0   4.0
 1   5.0   NaN   7.0   8.0   9.0
 2  10.0  11.0  12.0  13.0  14.0
 3  15.0  16.0  17.0  18.0  19.0)

In [54]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


podemos usar o método `add` em df1 e passar os argumentos df2 e um argumento `fill_value`

In [55]:
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [56]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [57]:
df1.reindex(columns=df2.columns, fill_value=0) # podemos indicar um valor para preenchimento na reindexação

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


Operações entre DataFrame e Series

In [58]:
arr = np.arange(12.).reshape((3, 4))
arr, arr[0]

(array([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]]),
 array([0., 1., 2., 3.]))

In [59]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [60]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
frame, series

(          b     d     e
 Utah    0.0   1.0   2.0
 Ohio    3.0   4.0   5.0
 Texas   6.0   7.0   8.0
 Oregon  9.0  10.0  11.0,
 b    0.0
 d    1.0
 e    2.0
 Name: Utah, dtype: float64)

aritmética entre DataFrame e Series realiza a correspondência entre o índice da Series e as colunas do DataFrame.

In [61]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [62]:
# se um índice não for encontrado simultaneamente no DataFrame ou Series, os objetos serão reindexados para formar a união
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


para fazer broadcast pelas colunas, fazendo correspondências nas linhas, é necessário usar um dos métodos aritméticos.

In [63]:
series3 = frame['d']
frame, series3

(          b     d     e
 Utah    0.0   1.0   2.0
 Ohio    3.0   4.0   5.0
 Texas   6.0   7.0   8.0
 Oregon  9.0  10.0  11.0,
 Utah       1.0
 Ohio       4.0
 Texas      7.0
 Oregon    10.0
 Name: d, dtype: float64)

In [64]:
frame.sub(series3, axis='index')

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


Aplicação de funções e mapeamento

ufuncs do NumPy (que são operações de array aplicados em todos os elementos) também funcionam com objetos do pandas

In [65]:
import numpy as np

frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [66]:
frame

Unnamed: 0,b,d,e
Utah,-0.316186,-0.789037,-1.497683
Ohio,0.031864,-1.151814,0.599409
Texas,0.52916,-1.465855,-0.919993
Oregon,-1.007065,-0.241656,-0.367827


In [67]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.316186,0.789037,1.497683
Ohio,0.031864,1.151814,0.599409
Texas,0.52916,1.465855,0.919993
Oregon,1.007065,0.241656,0.367827


In [68]:
# podemos aplicar uma função que criarmos em um array unidimensional para cada linha ou cada coluna; usamos 'apply'
f = lambda x: x.max() - x.min()
frame.apply(f, axis='index') # é chamada uma vez em cada coluna de frame

b    1.536225
d    1.224198
e    2.097092
dtype: float64

In [69]:
frame.apply(f, axis='columns')

Utah      1.181497
Ohio      1.751223
Texas     1.995015
Oregon    0.765408
dtype: float64

In [70]:
def f(x):
	return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-1.007065,-1.465855,-1.497683
max,0.52916,-0.241656,0.599409


In [71]:
# applymap é usada para cada um dos elementos do dataframe

format = lambda x: '%0.2f' % x
# frame.applymap(format) - DataFrame.applymap has been deprecated
frame.map(format)

Unnamed: 0,b,d,e
Utah,-0.32,-0.79,-1.5
Ohio,0.03,-1.15,0.6
Texas,0.53,-1.47,-0.92
Oregon,-1.01,-0.24,-0.37


apply: usa linha/coluna como um array unidimensional que é passado para uma função

applymap/map: usa todos os elementos do dataframe e eles são passados para uma função

Ordenação e classificação

ordenar um conjunto de dados de acordo com algum critério é outra operação embutida importante.

In [72]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [73]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [74]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [75]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [76]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [77]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [78]:
# para ordenar uma Series de acordo com seus valores: sort_values
obj = pd.Series([4, 7, -3, 2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [79]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [80]:
# quando há um valor faltante, ele é ordenado no fim
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [81]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

em um dataframe, podemos ordenar os dados de acordo com uma ou mais colunas (como chaves de ordenação) usando `by`.

In [82]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [83]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [84]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [85]:
frame.sort_values(by=['b', 'a'])

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [86]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

classificação (ranking) atribui posições de um até o número de pontos de dados válidos em um array; `rank` resolve empates atribuindo a cada grupo a classificação média

In [87]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [88]:
sorted(obj), sorted(obj.rank())

([-5, 0, 2, 4, 4, 7, 7], [1.0, 2.0, 3.0, 4.5, 4.5, 6.5, 6.5])

classificações também podem ser atribuídas de acordo com a ordem em que são observadas nos dados

In [89]:
obj.rank(method='first') # em vez de usar a classificação média 6.5 para o valor 7, suas aparições são definidas como 6 e 7
# isso porque o rótulo 0 antecede o rótulo 2 nos dados

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [90]:
# Atribui a classificação máxima no grupo em caso de empates
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

o dataframe pode calcular classificações nas linhas ou colunas

In [91]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [92]:
frame.rank(axis='columns') # ou axis='index'

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [93]:
frame['rank_b'] = frame['b'].rank()
frame['rank_a'] = frame['a'].rank(method='first')
frame['rank_c'] = frame['c'].rank()
frame

Unnamed: 0,b,a,c,rank_b,rank_a,rank_c
0,4.3,0,-2.0,3.0,1.0,2.0
1,7.0,1,5.0,4.0,3.0,3.0
2,-3.0,0,8.0,1.0,2.0,4.0
3,2.0,1,-2.5,2.0,4.0,1.0


In [94]:
frame.loc[:, ['a', 'b', 'c', 'rank_a', 'rank_b','rank_c']]

Unnamed: 0,a,b,c,rank_a,rank_b,rank_c
0,0,4.3,-2.0,1.0,3.0,2.0
1,1,7.0,5.0,3.0,4.0,3.0
2,0,-3.0,8.0,2.0,1.0,4.0
3,1,2.0,-2.5,4.0,2.0,1.0


In [95]:
frame['a']

0    0
1    1
2    0
3    1
Name: a, dtype: int64

In [96]:
frame['a'].rank()

0    1.5
1    3.5
2    1.5
3    3.5
Name: a, dtype: float64

In [97]:
frame['a'].rank(method='first')

0    1.0
1    3.0
2    2.0
3    4.0
Name: a, dtype: float64

métodos de desempate usando `rank`: 'average', 'min', 'max', 'first', 'dense'

Índices de eixos com rótulos duplicados

muitas funções do Pandas exigem rótulos únicos, mas isso não é obrigatório em todas elas.

In [98]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [99]:
# propriedade do índice que indica se eles são únicos ou não
obj.index.is_unique

False

seleção de dados é uma tarefa importante que tem um comportamento diferente quando temos duplicatas: indexar um rótulo com várias entradas devolve uma Series, enquanto entradas únicas devolvem um valor escalar

In [100]:
obj['a']

a    0
a    1
dtype: int64

In [101]:
obj['c']

4

o mesmo ocorre com DataFrames

In [102]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.589609,-0.011753,-1.850167
a,-0.584139,-0.416071,0.642192
b,0.489972,-0.322462,0.830986
b,1.020172,-0.290028,1.759107


In [103]:
df.loc['a']

Unnamed: 0,0,1,2
a,-0.589609,-0.011753,-1.850167
a,-0.584139,-0.416071,0.642192


Estatísticas descritivas

In [104]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [105]:
df.sum(axis='index'), df.sum(axis='columns')

(one    9.25
 two   -5.80
 dtype: float64,
 a    1.40
 b    2.60
 c    0.00
 d   -0.55
 dtype: float64)

valores nan são excluídos, a menos que a fatia inteira seja composta por valores nan; isso pode ser desativado usando a opção `skipna=False`

In [106]:
df.mean(axis='columns'), df.mean(axis='columns', skipna=False)

(a    1.400
 b    1.300
 c      NaN
 d   -0.275
 dtype: float64,
 a      NaN
 b    1.300
 c      NaN
 d   -0.275
 dtype: float64)

In [107]:
# estatísticas indiretas com valor do índice (para cada coluna) em que máximo e mínimo são encontrados
df.idxmax(), df.idxmin()

(one    b
 two    d
 dtype: object,
 one    d
 two    b
 dtype: object)

In [108]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [109]:
# em dados não numéricos, describe gera estatísticas de resumo alternativas
obj = pd.Series(['a', 'b', 'c', 'd'] * 4)
obj

0     a
1     b
2     c
3     d
4     a
5     b
6     c
7     d
8     a
9     b
10    c
11    d
12    a
13    b
14    c
15    d
dtype: object

In [110]:
obj.describe()

count     16
unique     4
top        a
freq       4
dtype: object

Informações sobre os valores contidos em uma Series unidimensional

In [111]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [112]:
# devolve um array de valores únicos para cada valor existente na Series
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [115]:
obj.value_counts() # contagem (quantidade) de cada valor

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [116]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [117]:
# verifica pertinência (retorna True)
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [118]:
obj[mask] # uso do array booleano

0    c
5    b
6    b
7    c
8    c
dtype: object

In [119]:
# Index.get_indexer retorna um array de índices de um array de valores possivelmente não distintos para outro array de valores distintos
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [121]:
unique_vals

0    c
1    b
2    a
dtype: object

In [120]:
to_match

0    c
1    a
2    b
3    b
4    c
5    a
dtype: object

In [122]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)