# NumPy: Arrays Estruturados
Neste tópico, propomos o estudo do pacote `NumPy`, cujo objetivo é fornecer suporte para arrays multidimensionais, que possuem implementações prontas para operações básicas e funções de algebra linear extremamente úteis. Este pacote é a base de grande parte dos pacotes do Python que serão futuramente estudados. A implementação deste pacote é feita através de C, logo, ele é extremamente otimizado (devido a tipagém estática e uso de memória contigua), sendo ótimo para carregar, armazenear, e manipular dados dentro de memória no Python.

## Arrays Estruturados
Na maioria das vezes, os dados podem ser representados por um array homegêneo de valores, mas nem sempre isto é verdade. O uso de **arrays estruturados** e **arrays de registros** fornecem uma forma eficiente de armazenados dados homogêneos e compostos que são utilizados pelos DataFrames do Pandas. 

A ideia de aplicação destes tipos de arrays surge quando temos 3 conjuntos de dados diferentes, que são relacionados. Ao tentar armazenar los normalmente, não temos como correlacionar os valores. 

In [90]:
nome = ['Joao','Maria','Jose',"Ana"]
idade = [20,61,29,17]
peso = [68.0, 63.0, 88.0, 71.3]

Podemos criar um array estruturados criando um array e especificando um paramêtro `dtype` contendo um dicionário com primeiro a chave `'names'` associado a uma tupla de strings contendo o nome dos dados (váriaveis) e a segunda chave `formats` a uma tupla de strings contendo o tipo de dado para cada name. 

Para o array de strings, definimos o tipo unicode de tamanho máximo de 10 caracteres, para a idade definimos um intero de 4 bytes, e para o peso um float de 8 bytes. 

In [91]:
import numpy as np
dados = np.zeros(4,dtype = {'names':('nome','idade','peso'),
                            'formats':('U10', 'i4', 'f8')})

Então, podemos preencher este array como se fosse um dicionário. 

In [92]:
dados['nome'] = nome
dados['idade'] = idade
dados['peso'] = peso
print(dados)

[('Joao', 20, 68. ) ('Maria', 61, 63. ) ('Jose', 29, 88. )
 ('Ana', 17, 71.3)]


Também podemos acessar os registros do array através de indíces numéricos.

In [93]:
print(dados[0])

('Joao', 20, 68.)


Podemos utilizar a indexação composta para acessar dados específicos de um registro, além de poder aplicar todas as técnicas vistas anteriormente para indexação de arrays.

In [94]:
print(dados[2][0])
print(dados[2]['nome'])
print(dados['nome'][2])

Jose
Jose
Jose


In [95]:
print(dados[dados['idade'] < 25]) # Utilizacao de uma mascara booleana

[('Joao', 20, 68. ) ('Ana', 17, 71.3)]


## Criando arrays estruturados
Além da forma de dicionário demonstrada anteriormente para criar um array estruturada, podemos utilizar outras formas de definir estes arrays.

Por questão de simplicidade, os tipos numéricos podem ser definio tanto com tipos do Python ou do Numpy. 

In [96]:
dados2 = np.dtype({'names':('nome','idade','peso'),
                            'formats':((np.str_,10), int, np.float32)})

Outra forma ainda mais intuítiva é definir uma lista de tuplas, onde cada tupla contém o nome do atributo e o tipo.

In [97]:
dados2 = np.dtype([('nome','U10'),('idade','i4'),('peso','f8')])

Além disso, o nome dos atributos não precisam necessariamente serem especificados. Desta forma, basta especiciar todos os tipos de dados separados por vírgulas.  

In [98]:
dados2 = np.dtype('U10','i4','f8')

Os tipos de dados para criação podem iniciar com `<` ou `>`, que indicam um armazenamento do tipo little endian ou big endian. O segundo caractere indica o tipo de dado em si, mostrado na tabela abaixo, e o ultímo é o tamanho daquele tipo de dado a ser utilizado em bytes.

| Caractere | Descrição | Exemplo |
| --- | --- | --- |
| 'b' | Byte | np.dtype('b') |
| 'i' | Inteiro c/Sinal | np.dtype('i4') == np.int32 |
| 'u' | Inteiro s/Sinal | np.dtype('u1') == np.uint8 |
| 'f' | Ponto flutuante | np.dtype('f8') == np.int64 |
| 'c' | Ponto flutuante complexo | np.dtype('c16') == np.complex128 |
| 'S','a' | String | np.dtype('S5') |
| 'U' | String Unicode | np.dtype('U') == np.str_ |
| 'V' | Dado raw (void) | np.dtype('V') == np.void |

## Tipos Composto Avançados
É possível definir tipos compostos ainda mais avançados. É possível criar um elemento que contém um array ou matriz de valores. Por exemplo, abaixo podemos criar um array contendo em uma única estrutura, para cada registro: Um inteiro, e uma matriz/array 3x3 de floats de 8 bits. 

O motivo por trás de fazer isso é pois é possível interagir com esta estrutura diretamente através do C. Isto pode ser interessanet para criar uma interface com um código antigo em C, e processar ele através de Python. 

In [99]:
tp = np.dtype([('id','i8'),('mat','f8', (3,3))])
y = np.zeros(1,dtype=tp)
print(y)

[(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])]


## Arrays de registros
A classe `recarray`, que é quase indêntica um array estruturado, possuí campos que podem ser acessados como atributos de um objeto ao invés de serem chaves de dicionário. Uma vantagem é a facilidade de digitar menos caracteres ao acessar o array, e a melhora de legibilidade. A desvantagem é que estes tipos de array possuem um overhead maior, logo, são menos otimizados.

In [100]:
dados = dados.view(np.recarray)
print(dados.nome)

['Joao' 'Maria' 'Jose' 'Ana']


O uso deste tipo de array é recomendado para aplicações mais simples, que não precisam ser tão otimizadas. 