# Pandas: Indexação e Selação 
O Pandas é um pacote que fornece estruturas de dados e ferramentas de análise de dados de alto desempenho para Python. Este módulo realiza isto através de um objeto chamado DataFrame, que lembra a estrutura de uma tabela, ótima para trabalhar com dados. Prentedemos estudar neste tópico como reestruturar um conjunto de dados, através de agregação, união, modifcação. O pandas permite trabalhar com multiplos tipos de arquivos como CSVs, TXTs, Arquivo do Excel e Bases de Dados SQL.

Neste tópico revisamos métodos e mecânismos para acessar, inserir, e modificar valores em Series e DataFrames do Pandas. 

# Seleção de dados em Series
A classe series pode ser enxergada com um dicionário, possuíndo uma sequência de valorese chaves (indíces). Logo, as operações de indexação vistas para dicionários também funcionam. 

In [184]:
import pandas as pd
dados = pd.Series([0.25,0.5,0.75,1.0], index = ['a','b','c','d '])

In [185]:
print(dados['b']) # Indexacao simples
print('a' in dados) # Utilizacao de IN
print(dados.keys()) # Uso do metodo de chaves/indices
print(list(dados.items()))  # Coercao de conjunto de itens em lista
dados['e'] = 1.25 # Modificacao atraves da indexacao por chave

0.5
True
Index(['a', 'b', 'c', 'd '], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d ', 1.0)]


Também é possível utilizar expressões com sintaxe semelhante a de dicionários. A forma que o pandas realzia essas operações é extremamente eficiente, e o programador não tem que se preocupar com como isso é feito. 

In [186]:
print(dados['a':'c'])
print(dados[(dados > 0.3) & (dados < 0.8)])
l = ['a','b']
print(dados[l])

a    0.25
b    0.50
c    0.75
dtype: float64
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64


Geralmente, o fatiamento pode ser considerado confuso quando se usa o fatiamento. Logo, uma series possuí atributos de indexação, que identificam qual esquema de indexação é utilizado. 

O atributo `loc` retorna o array indexado de forma explicita, ou seja, o indíce acessado pelo fatiamento é a posição. Caso contrário, ao acessar indíce, a segunda posição do vetor seria retornada. 

In [187]:
dados = pd.Series(['a','b','c'], index = [1,3,5])
dados.loc[1]

'a'

O atributo `iloc` retorna o array indexado de forma implicita, ou seja, a posição é utilizada para o fateamento.

In [188]:
dados.iloc[1]

'b'

## Seleção de dados em DataFrames
Como já dito anteriormente, é possível visualizar um dataframe como um dicionário de objetos series. É possível acessar as colunas de um data frame via nomeação da coluna ou como atributo, porém isso só funciona com strings (e ainda, que não compartilham nomes com métodos). 

In [189]:
dados1 = pd.Series(['a','b','c'])
dados2 = pd.Series(['x','y','z'])
dados = pd.DataFrame({'col1':dados1, 'col2':dados2})

print(dados['col1'])
print(dados.col2)

0    a
1    b
2    c
Name: col1, dtype: object
0    x
1    y
2    z
Name: col2, dtype: object


É recomendado evitar a atribuição utilizando atributos. Deve se utilizar a indexação direta da coluna.

In [190]:
dados3 = pd.Series(['c','b','a'])
dados.col1 = dados3 # errado
dados['col1'] = dados1 # correto

É possível interpretar o dataframe com sendo um array bidimensional. Logo, é possível fazer qualquer operação já realizada com estes arrays (como por exemplo, obter a transposta da matriz).

In [191]:
dados.T

Unnamed: 0,0,1,2
col1,a,b,c
col2,x,y,z


Outro comportamento interessante que é herdado das matrizes é a capacidade de acessar linhas inteiras através da indexação única.

In [192]:
dados.values[0]

array(['a', 'x'], dtype=object)

In [193]:
dados['col1']

0    a
1    b
2    c
Name: col1, dtype: object

Logo, um problema semelhante ao das series surge, já que é necessário encontrar um meio para explicita qual tipo de indexação utilizar para fatiamento. Tanto os atributos quanto as colunas podem ser indexadas utilizando os atributos `loc` e `iloc`.

In [195]:
dados.index = ['c','b','a']
dados.loc['c']

col1    a
col2    x
Name: c, dtype: object

In [197]:
dados.iloc[0]

col1    a
col2    x
Name: c, dtype: object

É possível utilizar mascaras booleanas também para a selação de dados. Os resultados são retornadas por linhas que satisfazem a condição.

In [200]:
dados[dados.col1 >= 'b']

Unnamed: 0,col1,col2
b,b,y
a,c,z
