# PRÁTICA: Seleção e indexação de dados em Pandas

* Vamos lembrar algumas formas típicas de acessar os arrays:
        
  1. indexing: `arr[2,1]`
  2. slicing: `arr[:,1:10]`
  3. boolean indexing: `arr[arr>0]`
  4. fancy indexing: `arr[[1,7,9],:]`
  
  
  
* As `Series` e `DataFrames` de Pandas seguem convenções similares.         

## Seleção de dados em Series

* Se lembrarmos que uma `Series` é análoga a um array de uma dimensão e a um dicionário, isso nos permitirá reter melhor a maneira de selecionar os dados.  

### `Series` como um dicionário

* Indexar por nomes (=chaves em dicionários)

In [1]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [2]:
data['a':'b']

a    0.25
b    0.50
dtype: float64

* Podemos usar expressões semelhantes aos dicts para examinar chaves e valores.

In [3]:
'b' in data

True

In [4]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

* Como em um dict, podemos estender uma `Series` definindo uma nova chave e atribuindo a ela um novo valor

In [6]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como um array de uma dimensão

* Uma `Series` fornece uma maneira de selecionar dados análoga aos arrays: é por isso que podemos usar _slices_, _masking_ e _fancy indexing_.

In [7]:
data['a':'c'] # slicing explícito

a    0.25
b    0.50
c    0.75
dtype: float64

In [8]:
data[0:2] # slicing implícito por posição (inteiros)

a    0.25
b    0.50
dtype: float64

In [15]:
data[['a', 'e']] # fancy indexing

a    0.25
e    1.25
dtype: float64

### Indexers: loc e iloc

* Possível confusão: 

    - quando é feito slicing explícito (`data ['a': 'c']`), o índice final é incluído no slice. 
    - por sua vez, quando é feito slicing implícito (`data[0:2]`), o índice final NÃO é incluído

* Para mitigar esse tipo de confusão, Pandas fornece alguns atributos “indexadores”.

** Método `loc`** 

In [16]:
data.loc['a']

0.25

In [17]:
data.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

** Método `iloc`** 

* Combina indexing e slicing

In [18]:
data.iloc[1]

0.5

In [19]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

## Seleção de dados em `DataFrame`

### DataFrame como um dicionário

In [22]:
area = pd.Series({'California': 423967, 'Texas': 695662,
'New York': 141297, 'Florida': 170312,'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127, 'Florida': 19552860,'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* As ``Series`` individuais que formam as colunas do ``DataFrame`` podem ser acessadas analogamente a um dicionário, pelo nome da coluna.

In [23]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* De maneira equivalente, podemos usar o estilo "atributo" para acessar as colunas chamadas "strings"

In [24]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* As duas formas são equivalentes.
* O que acontecerá se houver algum espaço no nome da coluna?

In [25]:
data.area is data['area']

True

* Levar em consideração que esta forma não funciona em sempre. 

    - Por exemplo, se os nomes das colunas não forem strings
    - ou se houver nomes que entrem em conflito com algum método de `DataFrame`
  

* Exemplo: o `DataFrame` tem um método `pop()`, desta forma, `data.pop` apontará para o método e não para a coluna de `data`  

In [26]:
data.pop is data['pop']

False

* É particularmente importante evitar a atribuição de colunas através de atributos (usar `data['pop'] = z` rather than `data.pop = z`)
* O estilo dicionário pode ser usado para modificar um objeto:

In [27]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### DataFrame como um array bidimensional

* Examinar o atributo `values`

In [28]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

* Considerando isso, podemos realizar a analogia e usar muitas operações semelhantes à dos arrays em um `DataFrame`.

* Como no caso de uma indexação `Series`, indexar um `DataFrame` de forma análoga a um array pode ser um pouco confuso.

* Particularmente, passar um índice simples em um `DataFrame` retorna uma linha. 

In [29]:
data.iloc[0]

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
Name: California, dtype: float64

* E passar um índice simples retorna uma coluna:

In [30]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Por isso, Pandas usa os indexadores `loc` e `iloc`.

* Usando `iloc`, podemos indexar os arrays subjacentes a um `DataFrame`, como se fosse um array comum, mas o índice e a tag de coluna são mantidos no resultado:

In [31]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


* Da mesma forma, usando `loc`, podemos indexar o array subjacente, mas com o índice de forma explícita e os nomes das colunas.

In [32]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* Qualquer forma de acesso de um array pode ser usada com esses indexadores.
* Por exemplo, podemos usar `loc` e combiná-lo com masking e fancy indexing:

In [33]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


* Qualquer uma dessas formas de indexação pode ser usada para atribuir ou modificar valores:

In [34]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### Algumas convenções adicionais para indexar

* Em geral, “indexing” se refere a colunas e “slicing”, a linhas:

In [35]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


* Por padrão, “fancy indexing” é realizado de forma explícita e nas colunas.

In [36]:
data[['area','density']]

Unnamed: 0,area,density
California,423967,90.0
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


* Esses slices também podem se referir a linhas pela posição, em vez de índices:

In [37]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


* De maneira semelhante, por padrão, as operações de masking também são interpretadas no sentido das linhas:

In [38]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
