# 1.3 Estruturas de dados em Python

### O que iremos aprender
- Estruturas de dados  nativas (*Built-in*)
- Estruturas de dados externas (*e.g. Numpy, Pandas, Files*)

# Configuração de ambiente
Instalaçao e importação dos pacotes Python para o tutorial sobre estruturas de dados.

In [0]:
import numpy as np
import pandas as pd
from pandas import Series
from pandas import DataFrame
from array import array

In [0]:
# Ajustar a precisão de valores reais
%precision 3
# Reproduzir números aleatórios
np.random.seed(1234)

# Modelo de dados
> "Objects are Python’s abstraction for data. All data in a Python program is represented by objects or by relations between objects." 

> [Modelo de dados em Python](https://python.readthedocs.io/en/latest/reference/datamodel.html)



# Estruturas* Built-in* de dados

As estruturas de dados primitivas do Python suporta diferentes tipos (classes) de variáveis, que podem ser:
- Numéricas (_Integer, Floating_)
- Lógica (_Boolean_)
- Texto (_String_)

Estruturas compostas em Python funcionam como _containers_ de dados, armazenando estruturas de dados primitivas. As estruturas que abordaremos neste *notebook* são:
- _Arrays_
- Listas
- _Tuples_
- _Sets_
- Dicionários
- Arquivos (_Files_)

## *Tuple*
Tuple é uma sequência de objetos imutável e de comprimento fixo. A forma mais simples de criar uma Tuple é declarando números seprados por vírgula, como no exemplo abaixo:

```python
In  [1]: tup = 1, 2, 3
Out [1]: (1, 2, 3) 
```

### Declarar *Tuples*

In [0]:
# Criar uma tuple simples
tup = 1, 2, 3
tup

In [0]:
# Acessar valores por índice
tup[0]

In [0]:
# Tentar alterar um valor
tup[0] = 0

In [0]:
# Multiplicação com Tuples
tup * 2

In [0]:
# Criar uma tuple aninhada em outra
tup_nested = (4, 5), (6, 7, 8)
tup_nested

In [0]:
# Declarar variáveis com Tuples
a, b, c = tup
print(a, b, c)

In [0]:
# Tentar alterar tuple
tup = tuple(['a', [1, 2], True])
tup[2] = False

In [0]:
# Alterando objetos mutáveis aninhados em uma tuple
tup[1].append(3)
tup

### Conversão para Tuple
Listas e demais objetos podem ser convertidos em Tuple através da função* built-in* `tuple()`.

In [0]:
tuple([4, 0, 2])

In [0]:
tup = tuple('string')
tup

### Métodos para Tuples

In [0]:
# Declarar Tuple com valores repetidos
tup = 1, 2, 2, 2, 2, 3, 4, 5
# Contar o número de vezes que ocorre um valor na Tuple
tup.count(2)

In [0]:
# Checar o ídice de um determinado valor
tup.index(5)

## List
*[Python lists](https://docs.python.org/3.6/tutorial/datastructures.html)* são estruturas mutáveis de dados 1D que compreendem objetos de diferentes classes (números, texto, booleanos).

Listas são declaradas utilizando as seguintes sintaxes:

```python
[x, y, z, ' texto', 1, 2, 3]
```

```python
list(x, y, z, ' texto', 1, 2, 3)
```

### Declarar listas

In [0]:
# Declarar uma lista vazia
lista_vazia = []

In [0]:
# Criar lista com quatro números na ordem de 1 à 4
minha_lista = [1, 2, 3, 4]
# Imprimir lista
print(minha_lista)

In [0]:
# Acessar o primeiro valor da lista
minha_lista[0]

In [0]:
# Acessar os valores entre os índices 0 e 3, excluindo o 3
minha_lista[0:3]

In [0]:
# Criar lista com as palavras 'um', 'dois' e os números 1.0 e 2
outra_lista = ['um', 'dois', 1.0, 2]
# Imprimir lista sem a função print() - funciona apenas em IPython
outra_lista

In [0]:
outra_lista[1]

### Converter objetos em listas

In [0]:
tup

In [0]:
list(tup)

### Métodos para Listas

In [0]:
# Concatenar valores a minha_lista
minha_lista.append(5)
# Imprimir minha lista
minha_lista

In [0]:
# Concatenar uma lista à minha_lista (nested lists)
minha_lista.append([6, 7, 8, 9, 10])
minha_lista

In [0]:
len(minha_lista)

In [0]:
minha_lista[5]

In [0]:
# Substituir valores em uma lista
minha_lista.insert(5, 6)
minha_lista

In [0]:
# Remover valores da minha_lista
minha_lista.remove(6)
minha_lista

In [0]:
# Remover índice 5 da minha_lista
minha_lista.pop(5)

In [0]:
minha_lista

In [0]:
# Ordenar itens em lista
minha_lista.sort()
minha_lista

In [0]:
# Inverter ordem de itens em listas
minha_lista.reverse()
minha_lista

In [0]:
# Testar a ocorrência de um valor em listas
5 in minha_lista

In [0]:
# Testar a ausência de um valor
6 not in minha_lista

### Fatiamento (Slicing)
O fatiamento será sempre realizado utilizando o índice da lista no formato:
```python
lista[inicio:fim:passo]
```

In [0]:
# Declarar uma lista de valores
seq = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
# Imprimir apenas os dois primeiros valores
seq[0:2]

In [0]:
# Imprimir até o índice 5
seq[:6]

In [0]:
# Imprimir a partir do índice 5
seq[5:]

In [0]:
# Imprimir o último valor
seq[-1]

In [0]:
# Imprimir valores com passos de 2
seq[::2]

In [0]:
# Imprimir na ordem inversa
seq[::-1]

## Funções sequenciais
Funções sequenciais são funções nativas do Python que são utilizadas para gerar valores sequenciais de forma iterativa. Estas funções são muito utilizadas pois elas automatizam processos como:
- Gerar sequências de objetos
- Enumerar sequências de objetos
- Reordenar sequências de valores
- Concatenar sequências

In [0]:
# Intervalos de valores com range
range(0, 10)

In [0]:
list(range(0, 10))

In [0]:
# Declarar uma lista com range()
seq = list(range(0, 10))
# Tentar aplicar a função enumerate() diretamente na seq
enumerate(seq)

In [0]:
list(enumerate(seq))

In [0]:
# enumerate
for i, v in enumerate(seq):
    print(i, v)
#     break

In [0]:
i, v

In [0]:
# Inverter ordem de listas
list(reversed(seq))

In [0]:
# Inverter ordem com notação de slicing
seq_inv = seq[::-1]
seq_inv

In [0]:
# Ordenar valores
sorted(seq_inv)

In [0]:
# Criar duas sequencias
seq1 = list(range(0, 5))
seq2 = ['A', 'B', 'A', 'B', 'C', 'D']
# Concatenar listas com zip()
list(zip(seq1, seq2))

#### Exemplo
Um caso prático pode ser o caso de precisarmos criar uma lista com índices a partir de uma lista de valores. Nesse caso, criaremos uma lista `indices` e uma lista `valores` onde armazenaremos os objetos que serão criados com a função `enumerate()`.

In [0]:
# Criar duas listas
indices = []
valores = []

# Iterar em objetos gerados pela função enumerate()
for i, v in enumerate(seq):
    indices.append(i)
    valores.append(v)
# Imprimir as listas
print(indices, valores)

In [0]:
def criar_indices_de_lista(lista):
    '''
    Função para criar indices de uma lista de valores
    
    input: [lista]
    
    output: listas aninhadas [[indices], [valores]]
    '''
    # Criar duas listas
    indices = []
    valores = []

    # Iterar em objetos gerados pela função enumerate()
    for i, v in enumerate(lista):
        indices.append(i)
        valores.append(v)
    # Imprimir as listas
    return [indices, valores]



In [0]:
criar_indices_de_lista(seq)

## Arrays
[Python arrays](https://docs.python.org/3.6/library/array.html) são semelhantes às listas, porém aceitam somente dados do mesmo tipo. Trata-se de um módulo Python utilizado para armazenar valores que sejam do mesmo tipo. Os tipos de valores são definidos no momento de criação do _Array_.

In [0]:
arr = array('l', [1, 2, 3, 4, 5])
print(arr, type(arr))

In [0]:
tuple_1 = (1, 2, 3, 4)
tuple_1[0] = 2

## Dicionários (dict)
Dicionários são estruturas de dados fundamentais, formadas por pares chave-valor (*key-value*), para desenvolvimento e análise de dados com Python. 

Dicionários podem ser criados com a nomenclatura:
```python
dicionario = {'key1' : 'value1', 'key2' : 'value2',}
```

### Declarar dicionários

In [0]:
# Criar dicionário com dados de fácies e porosidade
dicionario = {'facies' : ['A', 'A', 'B'], 'porosidade' : [0.2, 0.18, 0.01]}

In [0]:
type(dicionario)

In [0]:
# Checar chaves (keys) do dicionário
dicionario.keys()

In [0]:
# Valores do dicionário
dicionario.values()

In [0]:
# Criar dicionário a partir de sequências
dict(enumerate(seq))

In [0]:
# Criar dicionário a apartir de duas sequencias
seq1 = list(range(0, 5))
seq2 = ['A', 'B', 'A', 'B', 'C', 'D']
# Concatenar listas com zip()
concat_seq = list(zip(seq1, seq2))
# Transformar em dicionário
dicionario = dict(concat_seq)
# Imprimir dicionário
print(dicionario)

In [0]:
# Acessar o valor das chaves
dicionario[1]

### *Hashability*
Checar se a estrutura de dados pode ser utilizada como chaves em dicionários (*hashability*). 

Apenas estruturas imutávies como escalares (int, float), strings ou tuples podem ser utilizadas como `dict.keys`


In [0]:
# String podem ser utilizadas como keys
hash('string')

In [0]:
# Tuples podem ser utilizadas como dict.keys
hash((1, 2, 3))

In [0]:
# Listas não podem ser utilizadas como dict.keys pois são mutáveis
hash([1, 2, 3, 4])

## Conjuntos (Set)
Sets são sequências desordenadas de objetos únicos. Esta classe de objeto aceita operações matemáticas de conjuntos como união, interseção e diferença.

Dado um `set_a`



 
 

#### Tabela de operações com conjuntos


Operador | Descrição
--- | ---
 `set_a.add(x)` | Adicionar elemento `x` ao `set_a`
`set_a.remove(x)` | Remover elemento `x` do `set_a`
`set_a.union(set_b)` | Elementos presentes no `set_a` e no `set_b`
 `set_a.intersection(set_b)` | Elementos presentes em ambos `set_a` e `set_b`
 `set_a.difference(set_b)` | Elementos que não estão no `set_b`
 `set_a.symmetric_difference(set_b)` | Elementos presentes no `set_a` e no `set_b`, mas não em ambos
  `set_a.issubset(set_b)` | True se os elementos do `set_a` estão presentes no `set_b`
 `set_a.issuperset(set_b)` | True se os elementos do `set_b` estão contidos no `set_a`
  `set_a.isdisjoint(set_b)` | True se não há elementos em comum entre `set_a` e `set_b`

### Operações com *Set*

In [0]:
# Declarar dois sets
set_a = set([2, 2, 2, 1, 3, 3])
set_b = set([2, 2, 2, 2, 3, 4, 4, 4, 5, 6, 7, 8, 8, 8])

In [0]:
set_a

In [0]:
# União entre os sets
set_a.union(set_b)
# set_a.intersection(set_b)
# set_a.difference(set_b)

# Estruturas _Numpy_

[Numpy arrays](https://www.scipy-lectures.org/intro/numpy/array_object.html)* são arranjos 1D, 2D, 3D or nD de números interrrelacionados.

A sintaxe padrão para importar `numpy`:

```python
import numpy as np
```

Os principais aspectos da biblioteca Numpy são:
- `ndarrays` são estruturas eficientes, multimensionais e que permitem operações matemáticas vetorizadas
- Funções matemáticas para programação rápida sem a necessidade de criar *loops*
- Ferramentas para importar, ler e gravar dados em arquivos (.csv, .txt, etc.)
- Funções de álgebra linear
- Ferramentas de desenvolvimento e otimização em C, C++ e Fortran

![](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/assets/elsp_0105.png)

## Declarar arranjos *numpy*

#### Tabela de funções para declarar `ndarrays`

Operador | Descrição
--- | ---
`np.array` | Converte dados de entrada em `ndarray` estimando o tipo de dado criando cópia
`np.asarray` | Converte dados de entrada em `ndarray` estimando o tipo de dado sem criar cópia
`np.arange` | Gera sequencia de dados em formato `ndarray`
`np.ones, ones_like` | Produz `ndarray` em n dimensões compostas de valores = 1
`np.zeros, zeros_like` | Produz `ndarray` em n dimensões compostas de valores = 0
`np.full` | Produz `ndarray` em n dimensões compostas de valores constantes
`np.eye, zeros_like` | Produz matriz identidade
`np.random.random` | Produz `ndarray` em n dimensões compostas de valores aleatórios

In [0]:
a = np.zeros ((2, 2))
print(a)

In [0]:
print(a.shape)
print(a.dtype)
print(a.ndim)

In [0]:
b = np.ones((1, 2))
print(b)

In [0]:
print(b.shape)
print(b.dtype)
print(b.ndim)

In [0]:
c = np.full((2, 2), 7)
print(c)

In [0]:
print(c.shape)
print(c.dtype)
print(c.ndim)

In [0]:
d = np.eye(2)
print(d)

In [0]:
print(d.shape)
print(d.dtype)
print(d.ndim)

In [0]:
e = np.random.random((2, 2))
print(e)

In [0]:
print(e.shape)
print(e.dtype)
print(e.ndim)

## Indexação e fatiamento de ndarrays

In [0]:
# Indexação e fatiamento em arranjos 1d
arr = np.arange(10)
arr

In [0]:
arr[3]

In [0]:
arr[:10]

In [0]:
arr[5:8] = 12
arr

In [0]:
# Indexação e fatiamento em arranjos 2d
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

In [0]:
arr2d[0][2]

In [0]:
arr2d[0, 2]

In [0]:
# Indexação e fatiamento em arranjos 3d
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [0]:
arr3d[0]

In [0]:
arr3d[0][1]

In [0]:
arr3d[0][1][1]

In [0]:
arr3d[:, 0][1][:2]

## Filtro booleano

In [0]:
# Criar array 2d de números
a = np.array([[1,2], [3, 4], [5, 6]])
print(a)

In [0]:
# Criar máscara de filtro booleano
bool_idx = (a > 2)
bool_idx

In [0]:
# Filtrar números maiores que 2 com a máscara
a[bool_idx]

In [0]:
# Filtrar utilizando números maiores ou iguais a 2
a[a >= 2]

In [0]:
# Criar ndarray de facies
facies = np.array(['A', 'A', 'C', 'B', 'C', 'D', 'A'])
facies

In [0]:
# Filtrar somente a fácies A
facies[(facies == 'A') | (facies == 'B')]

## Tipos de dados em ndarrays

In [0]:
# Declarar dois ndarrays
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
# Checar os tipos de dados
print(arr1.dtype)
print(arr2.dtype)

In [0]:
# Transformar tipos de unidades
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

In [0]:
# Transformar tipo de unidade usando atributos de outros objetos numpy
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

## Operações com ndarrays

In [0]:
# Criar ndarray 2d
arr2d = np.array([[1., 2., 3.], [4., 5., 6.]])
arr2d

In [0]:
# Somar um escalar a cada elemento
arr2d + 1

In [0]:
# Multiplicação de cada elemento por um escalar
arr2d * 2

## Transformação de ndarrays

In [0]:
# Reshape
arr = np.arange(15).reshape(3, 5)
arr

In [0]:
# Transpor um ndarray
arr.T

## Funções universais (`ufunc`) Numpy
Estas `ufunc` são funções que agem em todos os elementos de um arranjo de números (ndarray) sem a necessidade de programar iterações. Com este recurso, é possível calcular médias, medianas, raiz quadrada, exponencial, etc. de forma rápida e simples.

### *unary unfuncs*

In [0]:
# Criar ndarray 1d
arr1d = np.arange(10)
arr1d

In [0]:
# Raiz quadrada de cada elemento
np.sqrt(arr1d)

In [0]:
# Exponencial
np.exp(arr1d)

### *binary ufuncs*

In [0]:
x = np.random.randn(8)
x

In [0]:
y = np.random.randn(8)
y

In [0]:
# Máximo entre os x e y
np.maximum(x, y)

In [0]:
# Soma entre x e y por elemento
np.add(x, y)

#### Exemplo
Precisamos avaliar a função $\sqrt(x^2 + y^2)$
em um grid de 1000x1000 valores.

In [0]:
# Criar um array 1d com 1000 valores regularmente espaçados
points = np.arange(-5, 5, 0.01)
points.shape

In [0]:
xs, ys = np.meshgrid(points, points)

In [0]:
xs.shape

In [0]:
z = np.sqrt(xs ** 2 + ys ** 2)

In [0]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.imshow(z, cmap=plt.cm.gray);
plt.colorbar();
plt.title("Imagem da equação $\sqrt{x^2 + y^2}$ para um grid de valores");

## Métodos estatísticos

In [0]:
# Gerar dados com distribuição normal
arr2d = np.random.randn(5, 4)
arr2d

In [0]:
# Média
arr2d.mean() # np.mean(arr2d)

In [0]:
# Média em colunas
arr2d.mean(axis=1)

In [0]:
# Soma
arr2d.sum()

In [0]:
# Soma em linhas
arr2d.sum(0)

In [0]:
arr2d = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

In [0]:
# Soma acumulativa
arr2d.cumsum(0)

## *Unique* e *Set*

In [0]:
# Criar ndarray de facies
facies = np.array(['A', 'A', 'C', 'B', 'C', 'D', 'A'])
facies

In [0]:
# Valores únicos
np.unique(facies)

# Estruturas _pandas_
[Pandas](https://pandas.pydata.org/) é uma biblioteca Python, construída sobre a estrutura do Numpy, que contém estruturas de dados de alto nível (*Series, DataFrame*) e ferramentas que facilitam a manipulação e a visualização de dados. 

Para começar a utilizar a biblioteca, a convenção utilizada é:

```python
import pandas as pd
from pandas import Series
from pandas import DataFrame
```

Características do pandas:
- Estruturas de dados com eixos rotulados
- Ferramentas para séries de tempo
- Operações matemáticas podem ser passadas por rótulos de dados
- Flexibilidade com valores ausentes
- Recursos de bases de dados relacionais (SQL)

As duas estruturas de dados principais do pandas são: *Series* e *DataFrame*, que podem ser visualizadas na figura abaixo:

![](http://venus.ifca.unican.es/Rintro/_images/dataStructuresNew.png)

## *Series*
Séries pandas são arranjos 1D que contêm um campo com dados e um campo com índices.

In [0]:
s = Series([4, 7, -5, 3])
s

In [0]:
s.values

In [0]:
s.index

In [0]:
# Declarar uma série com índices rotulados
s = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
s

In [0]:
# Acessar valores com índices rotulados
s['d']

In [0]:
# Filtrar valores
s[s > 0]

In [0]:
# Verificar a presença de um índice
'a' in s

In [0]:
# Declarar um dicionário
states_dict = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
# Gerar séries a partir do dicionário
states_series = Series(states_dict)
states_series

In [0]:
states_series['Ohio'] = np.nan
states_series

In [0]:
states_series.isnull() # pd.isnull(states_series)

## *DataFrame*
DataFrames são estruturas de dados tabulares, assim como planilhas Excel (*spreadsheets*), que contêm uma ou mais colunas com índices e colunas representando campos com valores (variávies). Em DataFrames, as linhas são consideradas observações e as colunas são prorpiedades, variáveis ou feiçoes (*features*).

### Construir DataFrame

In [0]:
# Montar um DataFrame a partir de um dicionário
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(df)
df

In [0]:
# Criar um DataFrame definindo colunas e índices
df2 = DataFrame(data,
                columns=['year', 'state', 'pop', 'debt'],
                index=['one', 'two', 'three', 'four', 'five'])
df2

In [0]:
# Criar DataFrame com nested dict
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
df3 = DataFrame(pop)
df3

### Acessar colunas e linhas

In [0]:
# Acessar lista de colunas
df2.columns

In [0]:
# Notação dict-like para acessar colunas
df2['year']

In [0]:
# Acessar linhas utilizando índice
df2.loc['five']

In [0]:
# Inserir valores em colunas
df2['debt'] = 15.0
df2

In [0]:
# Inserir valores em colunas
df2['debt'] = np.arange(5)
df2

In [0]:
# Criar uma nova coluna
df2['eastern'] = df2.state == 'Ohio'
df2

In [0]:
del df2['eastern']
df2

## Funcionalidades pandas
Algumas das principais funcionalidades da bilioteca pandas são:
- Reindexar
- Remover elementos
- Indexar, selecionar e filtrar
- Operações aritméticas
- Alinhamento de dados
- Aplicação de funções
- Ordenamento e ranqueamento


### Reindexar

In [0]:
# Criar série com índices desordenados
s = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
s

In [0]:
# Reindexar com valores nulos
s2 = s.reindex(['a', 'b', 'c', 'd', 'e'])
s2

In [0]:
# Reindexar com valores constantes
s2 = s.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)
s2

In [0]:
# Criar série com íncices ausentes
s3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
s3

In [0]:
# Reindexar série com preenchimento do tipo forward-fill
s4 = s3.reindex(range(6), method='ffill')
s4

In [0]:
# Criar DataFrame
df = DataFrame(np.arange(9).reshape((3, 3)), 
                  index=['a', 'c', 'd'], 
                  columns=['Ohio', 'Texas', 'California'])
df

In [0]:
states = ['Texas', 'Utah', 'California']
df.reindex(columns=states)

In [0]:
# Alternativa para reindexar com rótulos (labels)
df.reindex(index=['a', 'b', 'c', 'd'], columns=states)

### Remover elementos

In [0]:
s = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
s

In [0]:
# Remover valores por rótulos de índices
s.drop('c')
# s.drop(['a', 'c'])

In [0]:
df = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
df

In [0]:
# Remover linhas por rótulo de índice
df.drop(['Colorado', 'Ohio'])
# data.drop('two', axis=1)
# data.drop(['two', 'four'], axis='columns')

### Indexar, selecionar e filtrar
Estas operações são semelhantes às que vimos no Numpy, porém com pandas é possível fazer tudo utilizando os valores dos índices ao invés de usar números inteiros. Essa característica torna a manipulação de dados muito mais intuitiva para geocientistas, pois tratamos os campos de planilhas como propriedades físicas de rochas e nomenclaturas.

#### *Series*

In [0]:
s = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
s

In [0]:
# Selecionar valores por rótulo de índice
s['b']
# s[['b', 'a', 'd']]
# s.loc[['a', 'd']]

In [0]:
# Fatiamento com rótulos de índices é diferente do padrão Python!
s['b':'c']
# s['b':'c'] = 5

In [0]:
# Selecionar valores por índices inteiros
s[1]
# s[-1]
# s[[1, 3]]
# s.iloc[:2]

In [0]:
# Fatiamento por filtro booleano
s[s > 2]

#### *DataFrame*

In [0]:
df = pd.DataFrame(np.arange(16).reshape((4, 4)),
                  index=['Ohio', 'Colorado', 'Utah', 'New York'],
                  columns=['one', 'two', 'three', 'four'])
df

In [0]:
# Selecionar colunas por rótulos
df['two']
df[['three', 'one']]

In [0]:
# Selecionar linhas por números inteiros
df[2:3]
# df[:3]

In [0]:
# Filtrar com máscara booleana
df > 5
# df[df['three'] > 5]

In [0]:
df.loc[:'Utah', 'two']
# df.loc['Utah', ['two', 'three']]

In [0]:
# Selecionar por números inteiros
df.iloc[2]
# data.iloc[[1], [1, 2]]
# data.iloc[[1, 2], [3, 0, 1]]
# data.iloc[:, :3][data.three > 5]

#### Tabela de indexação de *DataFrame*

Sumário de comandos para indexação, considerando um *DataFrame*  **`df`**

Sintaxe | Descrição
--- | ---
`df[val]` | Selecionar uma ou mais colunas em um DataFrame por rótulos de colunas
`df.loc[val]` | Selecionar linhas em um DataFrame por rótulos de índices
`df.loc[:, val]` | Selecionar uma ou mais colunas por rótulos de colunas
`df.loc[val1, val2]` | Selecionar colunas ou linhas por rótulos respectivos
`df.iloc[where]` | Selecionar linhas por números inteiros
`df.iloc[:, where]` | Selecionar colunas por números inteiros
`df.iloc[where_i, where_j]` | Selecionar colunas por números inteiros
`df.at[label_i, label_j]` | Selecionar linhas e colunas por rótulos
`df.iat[i, j]` | Selecionar um valor escalar no df  por números inteiros
`df.iloc[:, where]` | Selecionar colunas por números inteiros
`get_value, set_value` | Selecionar valor escalar por rótulos de linha e coluna







### Operações matemáticas

#### *Series*

In [0]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

In [0]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s2

In [0]:
# Adicionar valores respeitando os rótulos dos índices
s1 + s2

#### *DataFrames*

In [0]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df1

In [0]:
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df2

In [0]:
df1 + df2

In [0]:
df1.add(df2, fill_value=0)

#### *Broadcasting* (*DataFrame* e *Series*)
Operações entre arranjos com dimenssões diferentes são resolvidas por *Broadcasting* no pandas.

![Broadcast](https://i.stack.imgur.com/JcKv1.png)

In [0]:
# Array 2D
s = np.arange(12.).reshape((3, 4))
arr

In [0]:
# Array 1D
s[0]

In [0]:
# Subtrair por broadcasting
s - s[0]

### Aplicação de funções e mapeamento
As funções universais Numpy (`ufunc`) funcionam também com objetos pandas e podem ser aplicadas em linhas ou em colunas.

In [0]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df

In [0]:
np.abs(df)

In [0]:
# Aplicar função lambda em colunas
f = lambda x: x.max() - x.min()

In [0]:
# Aplicar função em linhas ou colunas para gerar escalar
# frame.apply(f)
df.apply(f, axis='columns')

In [0]:
def f(x):
    '''
    Helper function para gerar pd.Series com sumário estatístico
    
    input: DataFrame name
    
    output: Series com min e max
    '''    
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [0]:
# Aplicar função f(x) para gerar Series com sumários estatísticos
# frame.apply(f)
df.apply(f, axis='columns')


In [0]:
# Função lambda para formatar a precisão de números float
format = lambda x: '%.2f' % x

In [0]:
# Aplicar a função lambda em todos os elementos do DataFrame
df.applymap(format)

In [0]:
# Aplicar a função lambda nas linhas do DataFrame
df['e'].map(format)

### Ordenamento de objetos


In [0]:
s = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [0]:
# Ordenar Series por rótulo do índice
s.sort_index()

In [0]:
df = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
df

In [0]:
# Ordenar DataFrame por linhas ou colunas
df.sort_index()
# df.sort_index(axis=1)
# df.sort_index(axis=1, ascending=False)

In [0]:
s = pd.Series([4, np.nan, 7, np.nan, -3, 2])
s

In [0]:
# Ordenamento de Series com valores nulos
s.sort_values()

###

## Estatística descritiva
Objetos pandas contêm uma gama de métodos (funções) matemáticos e estatísticos que fornecem sumários estatísticos de forma rápida e direta sem a necessidade de construir iterações nos elementos de Series e DataFrame.

#### Tabela de métodos de estatística descritiva

Comandos mais utilizados para geração de sumários estatísticos.

Sintaxe | Descrição
--- | ---
`count` | Número de valores não nulos
`describe` | Sumário estatístico de colunas com valores numéricos
`min, max` | Valores mínimo e máximo
`argmax, argmin` | Índices inteiros da localização de valores máximo e mínimo
`idxmax, idxmin` | Rótulos dos índices de valores máximo e mínimo
`sum` | Soma de valores
`cumsum` | Soma acumulativa de valores
`mean` | Média de valores
`median` | Mediana de valores





### Métodos de redução

In [0]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], 
                  index=['a', 'b', 'c', 'd'], 
                  columns=['one', 'two'])
df

In [0]:
df.sum()
# df.sum(axis='columns')
# df.mean(axis='columns', skipna=False)
# df.idxmax()
# df.cumsum()
# df.describe()

### Frequências de valores únicos

In [0]:
s = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
s

In [0]:
# s.unique()
# s.value_counts()
pd.value_counts(s.values, sort=False)

# Referências

- [Python Data Structures Tutorial (DataCamp)](https://www.datacamp.com/community/tutorials/data-structures-python#list)
- [Python Numpy Tutorial (Stanford CS231n)](https://cs231n.github.io/python-numpy-tutorial/#numpy)
- [Intro to Pandas Data Structures (Pandas Doc)](https://pandas.pydata.org/pandas-docs/stable/dsintro.html)
- [Kaggle's Pandas Tutorial](https://www.kaggle.com/learn/pandas)
