# Pandas - Índices e seleção de valores

Índices são usados para acessar valores específicos dentro de um DataFrame. Por exemplo, usando índices podemos selecionar valores de determinadas linhas ou colunas de um DataFrame.

In [22]:
#importing libraries
import pandas as pd

%matplotlib inline

## Lendo dados de um arquivo

O DataFrame carregado contém dados de apartamento para alugar na cidade de Curitiba.

In [23]:
# lê o arquivo CSV
df = pd.read_csv('../data/aluguel.csv')

# mostra o conteúdo do DataFrame
df

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,34,Rua Desembargador Westphalen,2,0,90,0,900,371
1,167,Rua Jose Loureiro,2,0,64,0,650,428
2,6784,Rua Jose Loureiro,2,0,81,0,1100,400
3,82,Rua Lourenço Pinto,2,0,50,0,1350,300
4,2970,Rua Lourenço Pinto,2,0,63,0,1300,300
5,34197,Alameda Doutor Muricy,2,0,80,1,900,410
6,5072,Alameda Doutor Muricy,2,0,84,0,1100,382
7,469,Rua Desembargador Westphalen,1,0,30,0,550,210
8,24,Rua Desembargador Westphalen,1,0,60,1,800,120
9,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


## Entendendo Índices

No caso do DataFrame carregado acima, o Pandas não tinha informações sobre qual coluna usar como um índice. Nestes casos o Pandas vai sempre criar um índice númerico sequencial para as linhas (primeira coluna à esquerda do DataFrame acima). Podemos indicar uma nova coluna para ser o ídice do DataFrame. Isto é feito com o método *set_index*:

In [24]:
df = df.set_index('codigo')

df

Unnamed: 0_level_0,endereco,quartos,suite,area,vaga,aluguel,condominio
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
34,Rua Desembargador Westphalen,2,0,90,0,900,371
167,Rua Jose Loureiro,2,0,64,0,650,428
6784,Rua Jose Loureiro,2,0,81,0,1100,400
82,Rua Lourenço Pinto,2,0,50,0,1350,300
2970,Rua Lourenço Pinto,2,0,63,0,1300,300
34197,Alameda Doutor Muricy,2,0,80,1,900,410
5072,Alameda Doutor Muricy,2,0,84,0,1100,382
469,Rua Desembargador Westphalen,1,0,30,0,550,210
24,Rua Desembargador Westphalen,1,0,60,1,800,120
74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


Para ordenar o DataFrame com base no índice, usamos *sort_index*:

In [25]:
df = df.sort_index()

df

Unnamed: 0_level_0,endereco,quartos,suite,area,vaga,aluguel,condominio
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
24,Rua Desembargador Westphalen,1,0,60,1,800,120
34,Rua Desembargador Westphalen,2,0,90,0,900,371
74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520
80,Rua Desembargador Westphalen,1,0,80,1,900,350
82,Rua Lourenço Pinto,2,0,50,0,1350,300
167,Rua Jose Loureiro,2,0,64,0,650,428
469,Rua Desembargador Westphalen,1,0,30,0,550,210
568,Rua Alferes Poli,1,0,43,0,600,330
2381,Rua Rockefeller,2,0,54,0,900,240
2970,Rua Lourenço Pinto,2,0,63,0,1300,300


Abaixo imprimimos na tela o tipo do índice e seus valores. Veja que o índice do DataFrame é da classe (tipo) pandas.core.indexes.

In [26]:
indice = df.index

print(type(indice))
indice

<class 'pandas.core.indexes.numeric.Int64Index'>


Int64Index([    24,     34,     74,     80,     82,    167,    469,    568,
              2381,   2970,   5072,   6784,   9850,  20802,  34197,  44803,
             59375,  66490,  82343, 294579],
           dtype='int64', name='codigo')

Colunas também são índices! Veja abaixo como obter a lista de colunas e preste atenção no tipo (classe).

In [27]:
colunas = df.columns

print(type(colunas))
colunas

<class 'pandas.core.indexes.base.Index'>


Index(['endereco', 'quartos', 'suite', 'area', 'vaga', 'aluguel',
       'condominio'],
      dtype='object')

Como tanto as linhas quanto as colunas são índices, podemos usar os dois para acessar valores no DataFrame. Usando o método *loc* podemos especificar valores de índice para obter dados do DataFrame. Abaixo obtermos o valor da linha de índice 82 e coluna *area*.

In [28]:
df.loc[82,'area']

50

Podemos também especificar faixas de valores como é mostrado abaixo.

In [29]:
df.loc[80:200,'area']

codigo
80     80
82     50
167    64
Name: area, dtype: int64

Para desconsiderar os índices e obter valores pelas suas posições no DataFrame, use o método *iloc*. No comando abaixo obtemos o valor na quarta linha e quarta coluna (lembre-se que no Python a contagem começa pelo 0).

In [30]:
df.iloc[3,3]

80

Outra forma de selecionar valores é especificar as posições de interesse usando um vetor contendo True para as posição desejadas e False para as posições indesejadas. Por exemplo, abaixo definimos um vetor que seleciona as 3 primeiras linhas e ignora todas as outras.

In [31]:

selecionar = [True, True, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]

df[selecionar]

Unnamed: 0_level_0,endereco,quartos,suite,area,vaga,aluguel,condominio
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
24,Rua Desembargador Westphalen,1,0,60,1,800,120
34,Rua Desembargador Westphalen,2,0,90,0,900,371
74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520


Obviamente, especificar vetores manualmente é tedioso. O ideal é gerar estes vetores a partir de comparações matemáticas, como $>$, $>=$, $==$, $!=$. Abaixo geramos um vetor que contém True para as posição de linhas com aluguel menor que 800. 

In [32]:
selecionar = df['aluguel'] < 800

selecionar

codigo
24        False
34        False
74        False
80        False
82        False
167        True
469        True
568        True
2381      False
2970      False
5072      False
6784      False
9850       True
20802      True
34197     False
44803     False
59375      True
66490     False
82343      True
294579     True
Name: aluguel, dtype: bool

O vetor criado pode então ser usado para selecionar linhas:

In [33]:
df[selecionar]

Unnamed: 0_level_0,endereco,quartos,suite,area,vaga,aluguel,condominio
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
167,Rua Jose Loureiro,2,0,64,0,650,428
469,Rua Desembargador Westphalen,1,0,30,0,550,210
568,Rua Alferes Poli,1,0,43,0,600,330
9850,Avenida Visconde de Guarapuava,1,0,64,1,600,326
20802,Avenida Sete de Setembro,1,0,47,0,600,405
59375,Avenida Silva Jardim,1,0,33,0,560,305
82343,Avenida Sete de Setembro,1,0,45,0,750,420
294579,Avenida Silva Jardim,1,0,36,0,550,350


Em vez de criar explicitamente o vetor com os valores da seleção, podemos simplesmente escrever a expressão na seleção do DataFrame:

In [34]:
df[df['aluguel'] < 800]

Unnamed: 0_level_0,endereco,quartos,suite,area,vaga,aluguel,condominio
codigo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
167,Rua Jose Loureiro,2,0,64,0,650,428
469,Rua Desembargador Westphalen,1,0,30,0,550,210
568,Rua Alferes Poli,1,0,43,0,600,330
9850,Avenida Visconde de Guarapuava,1,0,64,1,600,326
20802,Avenida Sete de Setembro,1,0,47,0,600,405
59375,Avenida Silva Jardim,1,0,33,0,560,305
82343,Avenida Sete de Setembro,1,0,45,0,750,420
294579,Avenida Silva Jardim,1,0,36,0,550,350


Para reiniciar o índice, uso o comando *reset_index*. Este comando copia o índice anterior para uma coluna e cria um novo índice sequencial.

In [35]:
df = df.reset_index()

df

Unnamed: 0,codigo,endereco,quartos,suite,area,vaga,aluguel,condominio
0,24,Rua Desembargador Westphalen,1,0,60,1,800,120
1,34,Rua Desembargador Westphalen,2,0,90,0,900,371
2,74,Avenida Visconde de Guarapuava,2,1,132,1,1800,520
3,80,Rua Desembargador Westphalen,1,0,80,1,900,350
4,82,Rua Lourenço Pinto,2,0,50,0,1350,300
5,167,Rua Jose Loureiro,2,0,64,0,650,428
6,469,Rua Desembargador Westphalen,1,0,30,0,550,210
7,568,Rua Alferes Poli,1,0,43,0,600,330
8,2381,Rua Rockefeller,2,0,54,0,900,240
9,2970,Rua Lourenço Pinto,2,0,63,0,1300,300


## Índices hierárquicos (MultiIndex)

Índices podem ter múltiplos níveis. Índices de múltiplos níveis são chamados MultiIndex. Embora eles não sejam usados com tanta frequência, é importante conhecê-los porque eles podem ser gerados como resultado de operações de processamento de dados como *groupby*. Abaixo geramos um índice de dois níveis usando o mesmo método usado para índices simples:

In [36]:
df_multi_index = df.set_index(['quartos', 'vaga'])

df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,codigo,endereco,suite,area,aluguel,condominio
quartos,vaga,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,1,24,Rua Desembargador Westphalen,0,60,800,120
2,0,34,Rua Desembargador Westphalen,0,90,900,371
2,1,74,Avenida Visconde de Guarapuava,1,132,1800,520
1,1,80,Rua Desembargador Westphalen,0,80,900,350
2,0,82,Rua Lourenço Pinto,0,50,1350,300
2,0,167,Rua Jose Loureiro,0,64,650,428
1,0,469,Rua Desembargador Westphalen,0,30,550,210
1,0,568,Rua Alferes Poli,0,43,600,330
2,0,2381,Rua Rockefeller,0,54,900,240
2,0,2970,Rua Lourenço Pinto,0,63,1300,300


O novo índice pode ser usado para ordenar o DataFrame:

In [37]:
df_multi_index.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,codigo,endereco,suite,area,aluguel,condominio
quartos,vaga,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,0,469,Rua Desembargador Westphalen,0,30,550,210
1,0,568,Rua Alferes Poli,0,43,600,330
1,0,20802,Avenida Sete de Setembro,0,47,600,405
1,0,59375,Avenida Silva Jardim,0,33,560,305
1,0,82343,Avenida Sete de Setembro,0,45,750,420
1,0,294579,Avenida Silva Jardim,0,36,550,350
1,1,24,Rua Desembargador Westphalen,0,60,800,120
1,1,80,Rua Desembargador Westphalen,0,80,900,350
1,1,9850,Avenida Visconde de Guarapuava,0,64,600,326
1,1,66490,Rua Desembargador Westphalen,0,80,1100,350


O método *loc*, para seleção de dados, também pode ser usado em um índice multinível. Os valores de cada nível devem ser especificados numa tupla (entre parêntesis). Abaixo selecionamos todos os valores de aluguel de apartamentos com 2 quartos e 0 vagas:

In [40]:
df_multi_index.loc[(2,0), 'aluguel']

quartos  vaga
2        0        900
         0       1350
         0        650
         0        900
         0       1300
         0       1100
         0       1100
Name: aluguel, dtype: int64

Para recuperar os valores originais de um nível do índice, podemos usar o método *get_level_values*.

In [39]:
df_multi_index.index.get_level_values('quartos')

Int64Index([1, 2, 2, 1, 2, 2, 1, 1, 2, 2, 2, 2, 1, 1, 2, 2, 1, 1, 1, 1], dtype='int64', name='quartos')