# Index, .loc e .iloc

Uma parte essencial de entender os métodos de obtenção de dados em dataframes, como o _loc_ e o _iloc_, é o _index_.

Tanto linhas quanto colunas tem "títulos". Enquanto chamamos os títulos das colunas de _names_ ou _columns_ e ficam sobre os dados de cada coluna, os títulos das linhas são identificados como _index_ e ficam à esquerda, antes dos dados de cada linha.

Vejamos, abaixo, um dicionário simples com nomes de países e suas respectivas capitais:

In [1]:
import pandas as pd

dict_countries = {'country': ['Brasil', 'Russia', 'India'], 
                  'capital': ['Brasilia', 'Moscou', 'Nova Delhi']}

df = pd.DataFrame(dict_countries)

display(df)

Unnamed: 0,country,capital
0,Brasil,Brasilia
1,Russia,Moscou
2,India,Nova Delhi


## .index()

Os índices das linhas são representados pelos números 0, 1 e 2 e são automaticamente atribuídos como RangeIndex (range de números inteiros) se não for passado nenhum parâmetro.

In [2]:
df.index

RangeIndex(start=0, stop=3, step=1)

Note que o _index_ é um atributo e não uma coluna. Se tentarmos puxá-lo como coluna, teremos um erro de _key_, já que não há coluna que possua o nome "index":

In [3]:
df['index']

KeyError: 'index'

Pode ter seus valores reatribuídos por lista, desde que o tamanho da lista seja igual ao número de linhas do _dataframe_:

In [4]:
df.index = ['BR', 'RU', 'IN']
display(df)

Unnamed: 0,country,capital
BR,Brasil,Brasilia
RU,Russia,Moscou
IN,India,Nova Delhi


In [5]:
df.index = ['BR', 'RU', 'IN', 'SA']

ValueError: Length mismatch: Expected axis has 3 elements, new values have 4 elements

## .set_index()

Pode ser reatribuído também pela função *_.set_index()_*, passando como argumento o nome da coluna que se deseja transformar no novo index.

In [6]:
df2 = df.set_index('country')
display(df2)

Unnamed: 0_level_0,capital
country,Unnamed: 1_level_1
Brasil,Brasilia
Russia,Moscou
India,Nova Delhi


Outra opção seria passar como argumento um objeto do tipo _Index_ (pd.Index):

In [7]:
type(pd.Index(['BR', 'RU', 'IN']))

pandas.core.indexes.base.Index

In [8]:
df2 = df.set_index(pd.Index(['BR', 'RU', 'IN']))
display(df2)

Unnamed: 0,country,capital
BR,Brasil,Brasilia
RU,Russia,Moscou
IN,India,Nova Delhi


In [9]:
primeira_letra = [df.country[i][0].upper() for i in range(len(df.country))]


df2 = df2.set_index(pd.Index(primeira_letra))
display(df2)

Unnamed: 0,country,capital
B,Brasil,Brasilia
R,Russia,Moscou
I,India,Nova Delhi


## .reset_index()

Este método restabelece o _index_ atribuído inicialmente ao _dataframe_ na forma de RangeIndex:

In [10]:
df2 = df2.reset_index()
display(df2)

Unnamed: 0,index,country,capital
0,B,Brasil,Brasilia
1,R,Russia,Moscou
2,I,India,Nova Delhi


Como se vê, ele mantém o índice anterior em uma nova coluna, chamada index. Como fica então o atributo _index_ neste caso? 

In [11]:
df2.index

RangeIndex(start=0, stop=3, step=1)

In [12]:
df2['index']

0    B
1    R
2    I
Name: index, dtype: object

Neste caso, o atributo index (_df2.index_) retorna um RangeIndex. E ao contrário do primeiro exemplo, conseguimos puxar os valores relacionados na coluna index (_df2.['index']_).

In [13]:
display(df2)

Unnamed: 0,index,country,capital
0,B,Brasil,Brasilia
1,R,Russia,Moscou
2,I,India,Nova Delhi


Podemos querer eliminar o índice anterior no _dataframe_ antes de substituí-lo. Neste caso, devemos atribuir **True** ao **parâmetro _drop_** da função _reset_index()_:

In [14]:
display(df)

Unnamed: 0,country,capital
BR,Brasil,Brasilia
RU,Russia,Moscou
IN,India,Nova Delhi


In [15]:
df = df.reset_index(drop=True)
display(df)

Unnamed: 0,country,capital
0,Brasil,Brasilia
1,Russia,Moscou
2,India,Nova Delhi


_________________________

## loc e iloc

Os métodos _loc_ e _iloc_ são bastante utilizados para obter os valores registrados em determinadas posições do _dataframe_.

Sabendo que existe um conjunto de valores para "nomear" as linhas (_index_) e outro conjunto para nomear as colunas (_columns_), fica mais fácil entender a diferença entre os métodos _.loc()_ e _.iloc()_, já que eles referenciam estes rótulos para indicar a posição que se está buscando:

In [16]:
print('\nDF:')
display(df)

df2 = df2.set_index('index')

display(df2)


DF:


Unnamed: 0,country,capital
0,Brasil,Brasilia
1,Russia,Moscou
2,India,Nova Delhi


Unnamed: 0_level_0,country,capital
index,Unnamed: 1_level_1,Unnamed: 2_level_1
B,Brasil,Brasilia
R,Russia,Moscou
I,India,Nova Delhi


## df.loc[label]

O método .loc é utilizado com o índice que se busca, seja de linhas, seja de colunas:

In [27]:
df.loc[0]

country      Brasil
capital    Brasilia
Name: 0, dtype: object

In [28]:
df.loc[0, 'capital']

'Brasilia'

In [29]:
df.loc[0, 1]

KeyError: 1

In [30]:
df2.loc['B']

country      Brasil
capital    Brasilia
Name: B, dtype: object

In [31]:
df2.loc['B', 'capital']

'Brasilia'

Quando tentamos passar inteiros e os rótulos de linhas/colunas não são inteiros, o método retorna erro:

In [32]:
df2.loc[0, 1]

KeyError: 1

## df.iloc[int]

Já o método iloc é feito para receber somente números inteiros, referentes à posição da linha/coluna. Ele não irá interpretar nenhum dos rótulos, não sem retornar erro:

In [33]:
df.iloc[0]

country      Brasil
capital    Brasilia
Name: 0, dtype: object

In [34]:
df.iloc[0,1]

'Brasilia'

In [35]:
df.iloc[0, 'capital']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [36]:
df2.iloc[0]

country      Brasil
capital    Brasilia
Name: B, dtype: object

In [37]:
df2.iloc[0, 1]

'Brasilia'

In [38]:
df2.iloc['B', 'capital']

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types