## Seleção de dados em Series

Um objeto Series atua de várias maneiras, como um array NumPy unidimensional e, em muitos aspectos, como um dicionário padrão do Python. Se mantivermos essas duas analogias sobrepostas em mente, isso nos ajudará a entender os padrões de indexação e seleção de dados nesses arrays.

### Series de dicionario

In [1]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [2]:
data['b']

0.5

Também podemos usar expressões e métodos Python semelhantes a dicionários para examinar as chaves/índices e valores:

In [3]:
'a' in data

True

In [4]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Os objetos da série podem até ser modificados com uma sintaxe semelhante a um dicionário. Assim como você pode estender um dicionário atribuindo a uma nova chave, você pode estender uma série atribuindo a um novo valor de índice:

In [6]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### Series unidimensionais

In [7]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [8]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [10]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [9]:
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

Entre estes, o fatiamento pode ser a fonte da maior confusão. Observe que ao fatiar com um índice explícito (ou seja, data ['a': 'c']), o índice final é incluído na fatia, enquanto ao fatiar com um índice implícito (isto é, dados [0: 2]), o índice final é excluído da fatia.

### Indexação: loc, iloc e ix

Essas convenções de divisão e indexação podem ser uma fonte de confusão. Por exemplo, se sua série tiver um índice inteiro explícito, uma operação de indexação como data [1] usará os índices explícitos, enquanto uma operação de segmentação como data [1: 3] usará o índice implícito de estilo Python.

In [11]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [12]:
data[1]

'a'

In [13]:
data[1:3]

3    b
5    c
dtype: object

Devido a essa confusão potencial no caso de índices inteiros, o Pandas fornece alguns atributos de indexador especiais que explicitamente expõem certos esquemas de indexação. Esses não são métodos funcionais, mas atributos que expõem uma interface de fatiamento específica aos dados da Série.

In [14]:
data.loc[1]

'a'

In [15]:
data.loc[1:3]

1    a
3    b
dtype: object

O atributo ``iloc`` permite a indexação e o fatiamento que sempre fazem referência ao índice implícito do estilo Python:

In [16]:
data.iloc[1]

'b'

In [17]:
data.iloc[1:3]

3    b
5    c
dtype: object

Um terceiro atributo de indexação, ix, é um híbrido dos dois, e para os objetos da Série é equivalente à indexação baseada no padrão []. 

Um princípio orientador do código Python é que "explícito é melhor que implícito". A natureza explícita de loc e iloc os torna muito úteis na manutenção de código limpo e legível; especialmente no caso de índices inteiros, recomendo usar ambos para tornar o código mais fácil de ler e entender, e para evitar erros sutis devido à convenção mista de indexação/fatiamento.

## Seleção de Dados em um DataFrame

In [18]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


As séries individuais que compõem as colunas do ``DataFrame`` podem ser acessadas por meio da indexação no estilo de dicionário do nome da coluna:

In [19]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

De forma equivalente, podemos usar o acesso ao estilo de atributo com nomes de coluna que são strings:

In [20]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Esse acesso de coluna no estilo de atributo acessa o mesmo objeto exato que o acesso ao estilo de dicionário:

In [21]:
data.area is data['area']

True

Embora esta seja uma taquigrafia útil, tenha em mente que ela não funciona para todos os casos! Por exemplo, se os nomes das colunas não forem sequências, ou se os nomes das colunas entrarem em conflito com os métodos do DataFrame, esse acesso ao estilo do atributo não será possível. Por exemplo, o DataFrame tem um método pop (), portanto, o data.pop apontará para essa coluna em vez da coluna "pop":

In [22]:
data.pop is data['pop']

False

Em particular, você deve evitar a tentação de tentar a atribuição de colunas via atributo (isto é, usar data ['pop'] = z em vez de data.pop = z).

Essa sintaxe no estilo de dicionário também pode ser usada para modificar o objeto, neste caso, adicionando uma nova coluna:

In [23]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### DataFrame bidimensional 

Como mencionado anteriormente, também podemos visualizar o DataFrame como uma matriz bidimensional aprimorada. Podemos examinar o array de dados subjacente bruto usando o atributo values:

In [24]:
data.values

array([[  4.23967000e+05,   3.83325210e+07,   9.04139261e+01],
       [  6.95662000e+05,   2.64481930e+07,   3.80187404e+01],
       [  1.41297000e+05,   1.96511270e+07,   1.39076746e+02],
       [  1.70312000e+05,   1.95528600e+07,   1.14806121e+02],
       [  1.49995000e+05,   1.28821350e+07,   8.58837628e+01]])

Com essa imagem em mente, muitas observações familiares parecidas com uma matriz podem ser feitas no próprio DataFrame. Por exemplo, podemos transpor o DataFrame completo para trocar linhas e colunas:

In [25]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


No entanto, quando se trata de indexação de objetos DataFrame, fica claro que a indexação de colunas em estilo de dicionário exclui nossa capacidade de simplesmente tratá-la como uma matriz NumPy. Em particular, passar um único índice para uma matriz acessa uma linha:

In [26]:
data.values[0]

array([  4.23967000e+05,   3.83325210e+07,   9.04139261e+01])

e passar um único "index" para um DataFrame acessa uma coluna:

In [27]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Assim, para indexação no estilo array, precisamos de outra convenção. Aqui, o Pandas usa novamente os indexadores ``loc, iloc`` e ``ix`` mencionados anteriormente. Usando o indexador iloc, podemos indexar a matriz subjacente como se fosse uma matriz NumPy simples (usando o índice de estilo Python implícito), mas os rótulos de índice e coluna DataFrame são mantidos no resultado:

In [28]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


Da mesma forma, usando o indexador loc, podemos indexar os dados subjacentes em um estilo de matriz, mas usando os nomes explícitos de índice e coluna:

In [29]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


O indexador ``ix`` permite um híbrido dessas duas abordagens:

In [30]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [31]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


Qualquer uma dessas convenções de indexação também pode ser usada para definir ou modificar valores; isso é feito da maneira padrão que você pode estar acostumado a trabalhar com o NumPy:

In [32]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Convenções adicionais de indexação

In [33]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Essas fatias também podem se referir a linhas por número em vez de por índice:

In [34]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


Da mesma forma, as operações de mascaramento direto também são interpretadas em linha, em vez de em coluna:

In [35]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


Essas duas convenções são sintaticamente semelhantes àquelas de uma matriz NumPy, e embora possam não se ajustar exatamente ao modelo das convenções dos Pandas, elas são, no entanto, bastante úteis na prática.