Função iloc[] em Python Pandas

DataFrame.iloc: Indexação puramente baseada em localização através de inteiros para seleção por posição.

iloc[] é basicamente baseado em posções representadas por inteiros (de 0 ao tamanhyo-1 do eixo) mas também pode ser usado com um array booleano.

Entradas permitidas:

- Um inteiro, por exemplo 5
- Uma lista ou array de inteiros, ex. [4, 3, 0]
- Um um objeto do tipo slice de inteiros, ex. 1:7
- Um array booleano
- Uma função que pode ser chamada com um argumento (Series, DataFrame ou Panel) e retorna uma saída válida para indexação (uma das opções acima). Isso é útil em cadeias de métodos, quando vc não tem uma referencia ao objeto de chamada, mas gostaria de basear sua seleção em algum valor. .iloc levantará a exceção IndexError se o índice requisitado estiver fora dos limites, embora a chamada via slices (de acordo com a semantica pyhton/numpy) admitam valores fora do limite.

In [1]:
import pandas as pd

In [2]:
mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},{'a': 100, 'b': 200, 'c': 300, 'd': 400},{'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
df = pd.DataFrame(mydict) # transformamos o dicionário em um data frame
df

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


In [3]:
# Acessando a primeira linha do df com iloc[0]:
df.iloc[0] # primeira linha

a    1
b    2
c    3
d    4
Name: 0, dtype: int64

In [4]:
# investigando o tipo de objeto retornado quando fazemos a chamada acima:
type(df.iloc[0])

pandas.core.series.Series

In [5]:
# Agora vamos acessar as duas primeiras linhas através de uma lista de inteiros:
df.iloc[[0,1]]

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400


In [6]:
# Investigando o tipo de objeto retornado pela chamada acima
type(df.iloc[[0,1]])

# Vejamos que agora o tipo de objeto do retorno foi um pandas.DataFrame, algo como um subdataframe

pandas.core.frame.DataFrame

In [7]:
# Acessando com slices. Extrapolando o limite

df.iloc[:60]

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,100,200,300,400
2,1000,2000,3000,4000


In [8]:
# Acessando com slices. Começando em 2 e indo até o final

df.iloc[2::]

Unnamed: 0,a,b,c,d
2,1000,2000,3000,4000


In [9]:
# Através de uma função, util em cadeia de metodos, no exemplo abaixo o indice é passado para lambda que retorna, ao fim, uma lista de inteiros pares

df.iloc[lambda x: x.index%2 ==0]

# ou seja, ele roda o índice (0, 1, 2) e a divisão desse índice tem que dar resto 0 para ele retornar. Basicamente, tras as linhas pares cujos indices eram paresm no df original

Unnamed: 0,a,b,c,d
0,1,2,3,4
2,1000,2000,3000,4000


In [10]:
# indexando os 2 eixos:

# Podemos, também, fazer um mix entre índices e colunas, no exemplo abaixo vamos acessar o valor da segunda coluna da primeira linha e depois os valores da primeira linha e terceira coluna mais a segunda linha e quarta coluna:


In [11]:
# Acessando o valor da primeira linha na segunda coluna

df.iloc[0,1]

2

In [13]:
# Acessando os valores presentes na primeira e segunda linha da terceira e quarta coluna, respectivamente

# a primeira lista informada: é primeira linha (0) e terceira coluna (2)
# a segunda lista informada: é a segunda linha (1) e quarta coluna (3)
df.iloc[[0,2], [1,3]]

Unnamed: 0,b,d
0,2,4
2,2000,4000


In [15]:
# Vamos copiar o valor de `df` definido acima para um novo df chamado `dados
dados = df.copy()

# Vamos definir a variável d com o valor 2
y = 2

# Executando o primeiro comando do codigo da pergunga
x = dados.iloc[0:-1, y:]

# Apresentando o resultado
print(x)

     c    d
0    3    4
1  300  400


In [13]:
# O resultado acima é a terceira e a quarta colunas (c e d) das linhas 0 e 1. dados.iloc[0:-1, y:] indica um slice iniciando no índice 0 (linha 0) até a penúltimo ídicce (-1). As colunas foram selecionadas em função do valor da variável y (=2), ou seja da coluna 2 até a ultima (da c à d).


In [19]:
# Relembrando os valores no dataframe
print(dados)

      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000


In [21]:
# Lista dos valores na linha do índice equivalente à variável 'y':
print(dados.iloc[y].values)


[1000 2000 3000 4000]


In [17]:
# Essa linha atribui à variável y o primeiro valor da terceira linha (visto que o valor da variável y é 2) do dataframe, ou seja, 1000:

y = 2
k = dados.iloc[y].values[0]
k

1000