# Seleção e indexação de dados em Pandas

Vamos lembrar algumas formas típicas de acessar os arrays:      
  1. indexing: `arr[2,1]`
  2. slicing: `arr[:,1:10]`
  3. boolean indexing: `arr[arr>0]`
  4. fancy indexing: `arr[[1,7,9],:]`
  
As `Series` e `DataFrames` de Pandas seguem convenções similares.         

## Seleção de dados em Series.

* Se lembrarmos que uma `Series` é análoga a um array de uma dimensão e a um dicionário, isso nos permitirá reter melhor a maneira de selecionar os dados.  

### `Series` como um dicionário.

* Indexar por nomes ( = chaves em dicionários ).

In [1]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],index = ['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

* Imprimindo os índices `a` e `b`.

In [8]:
data['a':'b']

a    0.25
b    0.50
dtype: float64

* Podemos usar expressões semelhantes aos `dicts` para examinar chaves e valores.

In [9]:
'b' in data

True

In [10]:
'b' in data.index

True

In [11]:
0.25 in data

False

In [12]:
0.25 in data.values

True

In [13]:
0.25 in data.index

False

* As chaves do dicionário:

In [14]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [15]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

* Os pares chave-valor que formam cada item:

In [16]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

* Como em um `dict`, podemos estender uma `Series` definindo uma nova chave e atribuindo a ela um novo valor.

In [17]:
data['a'] = 0
data['e'] = 1.25
data

a    0.00
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### `Series` como um arranjo de uma dimensão.

* Uma `Series` fornece uma maneira de selecionar dados análoga aos arranjos: é por isso que podemos usar slices, masking e fancy indexing.

* Começando com um slicing explícito.

In [26]:
data['a':'c']

a    0.00
b    0.50
c    0.75
dtype: float64

* Podemos também realizar um slice implícito, considerando as posições relevantes.

In [19]:
data[0:2]

a    0.0
b    0.5
dtype: float64

* Note no exemplo acima que o slicing numérico exclui o valor final, enquanto que o slicing por chave não

* Uma máscara booleana também pode ser aplicada.

In [20]:
data+0.3

a    0.30
b    0.80
c    1.05
d    1.30
e    1.55
dtype: float64

In [21]:
(data > 0.3) & (data < 0.8)

a    False
b     True
c     True
d    False
e    False
dtype: bool

In [22]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

* Note no exemplo acima que a condição é aplicada sobre os valores da `Series`, não sobre os indices. Contudo, a operação lógica retorna o valor dos índices que, por sua vez, são passadas como parâmetros para a `Series`.

In [23]:
data[['a', 'e']] # fancy indexing

a    0.00
e    1.25
dtype: float64

### Indexers: loc e iloc

* Lembrando: 

    - quando é feito slicing explícito (`data ['a': 'c']`), o índice final é incluído no slice. 
    - por sua vez, quando é feito slicing implícito (`data[0:2]`), o índice final NÃO é incluído.
* Para mitigar esse tipo de confusão, Pandas fornece alguns atributos “indexadores”.    

#### O método `loc`: 

 O atributo [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc) acessa um grupo de linhas e colunas, identificadas por rótulos ou arranjos booleanos.

In [27]:
data.loc['a']

0.0

In [28]:
data.loc['a':'c']

a    0.00
b    0.50
c    0.75
dtype: float64

#### Método `iloc`: 

 O atributo [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html#pandas-dataframe-iloc) se baseia em um índice local puramente inteiro para seleção de posição. Combina indexing e slicing.

In [29]:
data.iloc[1]

0.5

In [30]:
data.iloc[0:3]

a    0.00
b    0.50
c    0.75
dtype: float64

## Seleção de dados em `DataFrame`.

### DataFrame como um dicionário, construído a partir de listas.

In [31]:
area = pd.Series({'California': 423967, 'Texas': 695662,
'New York': 141297, 'Florida': 170312,'Illinois': 149995})


pop = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127, 'Florida': 19552860,'Illinois': 12882135})


data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


* As ``Series`` individuais que formam as colunas do ``DataFrame`` podem ser acessadas analogamente a um dicionário, pelo nome da coluna.

In [32]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* De maneira equivalente, podemos usar o estilo "atributo" para acessar as colunas chamadas "strings".

In [33]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* As duas formas são equivalentes.


In [34]:
data.area is data['area']

True

* Levar em consideração que o estilo "atributo" não funciona sempre e em alguns casos mais complexo de se referir. Por exemplo:

    - Se os nomes das colunas não forem strings
    - Se houver nomes que entrem em conflito com algum método de `DataFrame`
    - Nomes de colunas com espaços ou caracteres especiais 
    - Quando for necessário acessar uma series através de uma outra variável


Exemplo: o `DataFrame` tem um método `pop()`, desta forma, `data.pop` apontará para o método e não para a coluna de `data`  
Exemplo: `data['Year of foundation']`  
Exemplo: `for i in data.columns: data[i]`

In [35]:
data.pop is data['pop']

False

* É particularmente importante evitar a atribuição de colunas através de atributos. Por exemplo, usar `data['pop'] = z` ao invés de `data.pop = z`.
* O estilo dicionário pode ser usado para modificar um objeto:

In [36]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [37]:
data['pop_k'] = data['pop'] / 1000
data

Unnamed: 0,area,pop,density,pop_k
California,423967,38332521,90.413926,38332.521
Texas,695662,26448193,38.01874,26448.193
New York,141297,19651127,139.076746,19651.127
Florida,170312,19552860,114.806121,19552.86
Illinois,149995,12882135,85.883763,12882.135


In [38]:
data['pop_k'] = round(data['pop_k'],0)
data

Unnamed: 0,area,pop,density,pop_k
California,423967,38332521,90.413926,38333.0
Texas,695662,26448193,38.01874,26448.0
New York,141297,19651127,139.076746,19651.0
Florida,170312,19552860,114.806121,19553.0
Illinois,149995,12882135,85.883763,12882.0


### DataFrame como um array bidimensional.

* Vamos examinar o atributo `values`.

In [39]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01, 3.83330000e+04],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01, 2.64480000e+04],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02, 1.96510000e+04],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02, 1.95530000e+04],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01, 1.28820000e+04]])

* Considerando isso, podemos realizar a analogia e usar muitas operações semelhantes às dos arranjos em um `DataFrame`.

* Como no caso de uma indexação `Series`, indexar um `DataFrame` de forma análoga a um arranjo pode ser um pouco confuso.

* Particularmente, passar um índice simples em um `DataFrame` retorna uma linha. 

In [40]:
data[0]

KeyError: ignored

In [41]:
data.iloc[0]

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
pop_k      3.833300e+04
Name: California, dtype: float64

* E passar um índice simples retorna uma coluna:

In [42]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Por isso, Pandas usa os indexadores `loc` e `iloc`.

* Usando `iloc`, podemos indexar os arranjos subjacentes a um `DataFrame`, como se fosse um arranjo comum, mas o índice e a tag de coluna são mantidos no resultado:

In [43]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


* Da mesma forma, usando `loc`, podemos indexar o arranjo subjacente, mas com o índice de forma explícita e os nomes das colunas.

In [44]:
data.loc[:'New York', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


* Qualquer forma de acesso de um arranjo pode ser usada com esses indexadores.
* Por exemplo, podemos usar `loc` e combiná-lo com masking e fancy indexing:

In [46]:
data.loc[(data.density > 100) & (data.area < 170000), ['pop', 'area']]

Unnamed: 0,pop,area
New York,19651127,141297


* Qualquer uma dessas formas de indexação pode ser usada para atribuir ou modificar valores:

In [47]:
data.iloc[0, 1] = 90
data

Unnamed: 0,area,pop,density,pop_k
California,423967,90,90.413926,38333.0
Texas,695662,26448193,38.01874,26448.0
New York,141297,19651127,139.076746,19651.0
Florida,170312,19552860,114.806121,19553.0
Illinois,149995,12882135,85.883763,12882.0


* Note no exemplo anterior que a alteração no valor 'pop' da 'California' não refletiu em um novo valor de 'density'. 

#### Algumas convenções adicionais para indexar.

* Em geral, “indexing” se refere a colunas e “slicing”, a linhas:

In [48]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density,pop_k
Florida,170312,19552860,114.806121,19553.0
Illinois,149995,12882135,85.883763,12882.0


* Por padrão, “fancy indexing” é realizado de forma explícita e nas colunas.

In [54]:
data[['area','density']]

Unnamed: 0,area,density
California,423967,90.413926
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121
Illinois,149995,85.883763


* Esses slices também podem se referir a linhas pela posição, em vez de índices:

In [57]:
data[1:3]
#data[1:]

Unnamed: 0,area,pop,density,pop_k
Texas,695662,26448193,38.01874,26448.0
New York,141297,19651127,139.076746,19651.0


* De maneira semelhante, por padrão, as operações de masking também são interpretadas no sentido das linhas:

In [58]:
data[data.density > 100]

Unnamed: 0,area,pop,density,pop_k
New York,141297,19651127,139.076746,19651.0
Florida,170312,19552860,114.806121,19553.0


## Leitura de arquivos

Até agora vimos a criação de `dataframes` a partir de valores escritos diretamente no código. Contudo, na maioria das vezes os `dataframes` serão criados a partir de dados externos.
O Pandas é capaz de fazer a leitura de vários tipos de arquivos: 
* csv (comma separated values): arquivos txt que contém dados tabulares separados por vírgulas
* tsv (tab separated values): idem ao caso acima, contudo o separador é o caracter 'tab'
* xlsx: arquivos de excel
* e vários outros. Experimente digitar 'pd.read' e depois 'tab'

In [62]:
#pd.read_excel()

In [61]:
#pd.read_csv()
#pd.read_json()