# Pandas - Índices e seleção de valores

Índices são usados para acessar valores específicos dentro de um DataFrame. Por exemplo, usando índices podemos selecionar valores de determinadas linhas ou colunas de um DataFrame.

In [None]:
#importing libraries
import pandas as pd

%matplotlib inline

## Lendo dados de um arquivo

O DataFrame carregado contém dados de apartamento para alugar na cidade de Curitiba.

In [None]:
# lê o arquivo CSV
df = pd.read_csv('../data/aluguel.csv')

# mostra o conteúdo do DataFrame
df

## Entendendo Índices

No caso do DataFrame carregado acima, o Pandas não tinha informações sobre qual coluna usar como um índice. Nestes casos o Pandas vai sempre criar um índice númerico sequencial para as linhas (primeira coluna à esquerda do DataFrame acima). Podemos indicar uma nova coluna para ser o ídice do DataFrame. Isto é feito com o método *set_index*:

In [None]:
df = df.set_index('codigo')

df

Para ordenar o DataFrame com base no índice, usamos *sort_index*:

In [None]:
df = df.sort_index()

df

Abaixo imprimimos na tela o tipo do índice e seus valores. Veja que o índice do DataFrame é da classe (tipo) pandas.core.indexes.

In [None]:
indice = df.index

print(type(indice))
indice

Colunas também são índices! Veja abaixo como obter a lista de colunas e preste atenção no tipo (classe).

In [None]:
colunas = df.columns

print(type(colunas))
colunas

Como tanto as linhas quanto as colunas são índices, podemos usar os dois para acessar valores no DataFrame. Usando o método *loc* podemos especificar valores de índice para obter dados do DataFrame. Abaixo obtermos o valor da linha de índice 82 e coluna *area*.

In [None]:
df.loc[82,'area']

Podemos também especificar faixas de valores como é mostrado abaixo.

In [None]:
df.loc[80:200,'area']

Para desconsiderar os índices e obter valores pelas suas posições no DataFrame, use o método *iloc*. No comando abaixo obtemos o valor na quarta linha e quarta coluna (lembre-se que no Python a contagem começa pelo 0).

In [None]:
df.iloc[3,3]

Outra forma de selecionar valores é especificar as posições de interesse usando um vetor contendo True para as posição desejadas e False para as posições indesejadas. Por exemplo, abaixo definimos um vetor que seleciona as 3 primeiras linhas e ignora todas as outras.

In [None]:

selecionar = [True, True, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]

df[selecionar]

Obviamente, especificar vetores manualmente é tedioso. O ideal é gerar estes vetores a partir de comparações matemáticas, como $>$, $>=$, $==$, $!=$. Abaixo geramos um vetor que contém True para as posição de linhas com aluguel menor que 800. 

In [None]:
selecionar = df['aluguel'] < 800

selecionar

O vetor criado pode então ser usado para selecionar linhas:

In [None]:
df[selecionar]

Em vez de criar explicitamente o vetor com os valores da seleção, podemos simplesmente escrever a expressão na seleção do DataFrame:

In [None]:
df[df['aluguel'] < 800]

Para reiniciar o índice, uso o comando *reset_index*. Este comando copia o índice anterior para uma coluna e cria um novo índice sequencial.

In [None]:
df = df.reset_index()

df

## Índices hierárquicos (MultiIndex)

Índices podem ter múltiplos níveis. Índices de múltiplos níveis são chamados MultiIndex. Embora eles não sejam usados com tanta frequência, é importante conhecê-los porque eles podem ser gerados como resultado de operações de processamento de dados como *groupby*. Abaixo geramos um índice de dois níveis usando o mesmo método usado para índices simples:

In [None]:
df_multi_index = df.set_index(['quartos', 'vaga'])

df_multi_index

O novo índice pode ser usado para ordenar o DataFrame:

In [None]:
df_multi_index.sort_index()

O método *loc*, para seleção de dados, também pode ser usado em um índice multinível. Os valores de cada nível devem ser especificados numa tupla (entre parêntesis). Abaixo selecionamos todos os valores de aluguel de apartamentos com 2 quartos e 0 vagas:

In [None]:
df_multi_index.loc[(2,0), 'aluguel']

Para recuperar os valores originais de um nível do índice, podemos usar o método *get_level_values*.

In [None]:
df_multi_index.index.get_level_values('quartos')