## indexing e slicing
---

In [1]:
import pandas as pd
import numpy as np

In [2]:
ser = pd.Series(np.arange(0, 28, 3))
ser

0     0
1     3
2     6
3     9
4    12
5    15
6    18
7    21
8    24
9    27
dtype: int64

para ver os indices de um objeto pandas, use o atributo `.index`

In [3]:
ser.index

RangeIndex(start=0, stop=10, step=1)

suporta o indexamento comum do python:

In [4]:
ser[3]

9

In [5]:
ser[2:6]

2     6
3     9
4    12
5    15
dtype: int64

In [6]:
ser[::-1]

9    27
8    24
7    21
6    18
5    15
4    12
3     9
2     6
1     3
0     0
dtype: int64

In [7]:
ser[3:7:2]

3     9
5    15
dtype: int64

as series em pandas são muito mais flexíveis que os vetores numpy. por exemplo, os índices, assim como em dicionários, podem ser passados pelo usuário e pode ser qualquer tipo de dado através do parâmeetro `index=`:

In [8]:
ser = pd.Series(np.arange(0, 28, 3), index=list('abcdefghij'))
ser

a     0
b     3
c     6
d     9
e    12
f    15
g    18
h    21
i    24
j    27
dtype: int64

e, estes indices suportam os métodos de indexing:

In [9]:
ser['d']

9

In [10]:
ser['c':'f']

c     6
d     9
e    12
f    15
dtype: int64

In [11]:
ser['d':'g':2]

d     9
f    15
dtype: int64

este comportamento, por exemplo, se é possível com os dicionários.

é interessante observar que, da mesma forma que python, quando indexando por números, o último valor não é incluso no intervalo. No entanto, quando indexando usando indexamento próprio, o último valor é incluso no intervalo.

note que, se um dicionário for passado como parâmetro para formar a `Series`, se for passado `index=` contendo menos valores que o dicionário original, a series final terá o tamanho de index:

In [12]:
vetor = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}, index = ['a', 'c', 'e'])
vetor

a    1
c    3
e    5
dtype: int64

neste caso, um dicionário python pode ser usado para criar uma series:

In [13]:
dicio = {'ind1': 0.1, 'ind2': 0.25, 'ind3': 0.40, 'ind4': 0.55, 'ind5': 0.70, 'ind6': 0.85, 'ind7': 1}
vtr = pd.Series(dicio)
vtr

ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
ind6    0.85
ind7    1.00
dtype: float64

desta forma, `pd.Series` também aceita algumas funções de dicionários:

In [14]:
vtr.keys()

Index(['ind1', 'ind2', 'ind3', 'ind4', 'ind5', 'ind6', 'ind7'], dtype='object')

In [15]:
list(vtr.items())

[('ind1', 0.1),
 ('ind2', 0.25),
 ('ind3', 0.4),
 ('ind4', 0.55),
 ('ind5', 0.7),
 ('ind6', 0.85),
 ('ind7', 1.0)]

assim como dicionários, uma serie pode ser extendida ao indexar a uma chave qua ainda não exista:

In [16]:
vtr['FinalInd'] = 0
vtr

ind1        0.10
ind2        0.25
ind3        0.40
ind4        0.55
ind5        0.70
ind6        0.85
ind7        1.00
FinalInd    0.00
dtype: float64

sendo baseado em numpy, independentemente se a serie é como um dicionário ou um vetor, este pode, ainda ser acessado pelos índices inteiros implícitos (0, 1, 2,...), bem como pode passar por processos de slicings que o numpy suporta

In [17]:
print(f'slicing com índices implícitos:\n{vtr[0: 5]}\n---')
print(f'slicing com índices explícitos:\n{vtr[0: 5]}\n---')
print(f'masking:\n{vtr[vtr > 0.5]}\n---')
print(f'fancy indexing:\n{vtr[["ind1", "ind5"]]}')

slicing com índices implícitos:
ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
dtype: float64
---
slicing com índices explícitos:
ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
dtype: float64
---
masking:
ind4    0.55
ind5    0.70
ind6    0.85
ind7    1.00
dtype: float64
---
fancy indexing:
ind1    0.1
ind5    0.7
dtype: float64


#### loc e iloc
---

In [18]:
intvtr = pd.Series(['verde', 'azul', 'marrom',  'cinza', 'branco', 'preto'], index = [i for i in range(1, 12, 2)])
intvtr

1      verde
3       azul
5     marrom
7      cinza
9     branco
11     preto
dtype: object

observe que, se estiver usando índices inteiros, pode haver confusão com indexing e slicing, porque para indexar, geralmente, é usado o índice explícito, aquele que é passado pelo usuário:

In [19]:
print(intvtr[1], intvtr[5])

verde marrom


mas para slicing, o índice implícito, próprio do python, é usado:

In [20]:
print(intvtr[1:5])

3      azul
5    marrom
7     cinza
9    branco
dtype: object


para evitar este tipo de erro, pode-se usar os atributos de índices `.loc`, que sempre usará os índices explícitos:

In [21]:
intvtr.loc[1:5]

1     verde
3      azul
5    marrom
dtype: object

o atributo `iloc`, que usa os índices implícitos:

In [22]:
intvtr.iloc[1]

'azul'

#### em DataFrames
---

In [23]:
indexvlr = ['péssimo', 'ótimo', 'bom', 'indiferente', 'ruim']
indexsats = ['bom', 'ótimo', 'indiferente', 'ruim', 'péssimo']

valor = pd.Series([12, 144, 31, 29, 18], index = indexvlr)
sats = pd.Series(['gostei', 'amei', 'não sei', 'não gostei', 'detestei'], index = indexsats)

res = pd.DataFrame({'valor': valor, 'satisfação':sats})
res

Unnamed: 0,valor,satisfação
bom,31,gostei
indiferente,29,não sei
péssimo,12,detestei
ruim,18,não gostei
ótimo,144,amei


em dataframes, não só há indices, como, também, há colunas.

da mesma forma, os indices podem ser vistos com o atributo `.index`, e as colunas podem ser vistas com o atributo `.columns`

In [24]:
print(res.index)
print(res.columns)

Index(['bom', 'indiferente', 'péssimo', 'ruim', 'ótimo'], dtype='object')
Index(['valor', 'satisfação'], dtype='object')


para acessar um único valor, isto pode ser feito como uma matriz do python usando `list()`, isto é, com dois colchetes:

In [25]:
print(res['satisfação']['péssimo'])
print(res['valor']['bom'])

detestei
31


para acessar uma coluna, basta:

In [26]:
res['satisfação']

bom                gostei
indiferente       não sei
péssimo          detestei
ruim           não gostei
ótimo                amei
Name: satisfação, dtype: object

não é possível fazer o mesmo para acessar uma linha.

é possível extender o dataframe indexando a uma chave que ainda não existe

In [27]:
res['volta'] = pd.Series(['nunca', 'com certeza', 'sim', 'não sei', 'não'], index = indexvlr)
res

Unnamed: 0,valor,satisfação,volta
bom,31,gostei,sim
indiferente,29,não sei,não sei
péssimo,12,detestei,nunca
ruim,18,não gostei,não
ótimo,144,amei,com certeza


#### o método Index()
---

os índices em pandas são bastante flexíveis, apesar de que, uma vez estabelecidos, são imutáveis, e o fato de estes serem explícitos fica mais fácil trabalhar com eles. Podem ser criado com o método `Index(<array>)`

In [28]:
mtz = pd.Index([2, 3, 5, 7, 11, 13])
mtz

Index([2, 3, 5, 7, 11, 13], dtype='int64')

no geral, `Index` possui os mesmos atributos que os arrays de Numpy:

In [29]:
print(mtz.size, mtz.shape, mtz.ndim, mtz.dtype)

6 (6,) 1 int64


`Index` também aceita operações dos conjuntos (set) de python:

In [30]:
ind1 = pd.Index([1, 2, 3])
ind2 = pd.Index([4, 5, 6])

print(ind1 & ind2)
print(ind1 | ind2)
print(ind2 ^ ind1)

Index([0, 0, 2], dtype='int64')
Index([5, 7, 7], dtype='int64')
Index([5, 7, 5], dtype='int64')


sendo imutável, não pode ser modificado através das formas já conhecidas:

In [31]:
mtz[0] = 0

TypeError: Index does not support mutable operations