<!--NAVIGATION-->
< [Functions](2.4-Functions.ipynb) | [Contents](0-Index.ipynb) | [Pandas Library](4-Pandas_Library.ipynb)  >

# 3  Biblioteca NumPy


 <a id="top"></a> <br>
**Conteúdo do *Notebook***
1. [Introdução à biblioteca NumPy](#1)
2. [Tipos de dados em NumPy](#2)
    1. [Comparação aos tipos de dados nativos](#21)
    1. [Tipos padrão](#22)    
    1. [Matrizes (*arrays*) em NumPy](#23)
    1. [Funcionalidades de *arrays* NumPy](#24)
        1. [Atributos de um *array*](#241)
        1. [Índices de um *array*](#242)
        1. [Acessando *subarrays*](#243)
3. [Funções universais](#3)        
4. [Referências](#4)

<a id="1"></a> <br>
# 1 - Introdução à biblioteca NumPy

Nesta seção veremos como podemos usar a biblioteca Numpy para carregar, armazenar e manipular dados <cite data-cite="236589/TU28EEPW"></cite>.

A ideia é generalizar a aplicação da manipulação de um vetor ou matriz de números para cálculos variados.

A biblioteca NumPy (*Numerical Python*) oferece uma interface eficiente para armazenar e realizar operações em [Memória Principal](https://pt.wikipedia.org/wiki/Buffer_(ciência_da_computação)) com conjuntos de dados extensos.

As matrizes em NumPy são semelhantes às listas discutidas em seções anteriores, entretanto o armazenamento e processamento são mais eficientes quando é necessário processar matrizes mais extensas.

NumPy é amplamante utilizado em virtualmente todas as áreas das Ciência dos Dados, o que a torna um biblioteca de importância central para o aprendizado.

O portal do projeto de código aberto http://www.numpy.org/ contém mais informações para futuras referências.

Recomendamos NumPy versão 1.8 ou superior

In [1]:
# importar biblioteca e inspecionar versão
import numpy as np
np.__version__

'1.16.2'

#### Lembretes para esta seção:

Para inspecionar os métodos e atributos de numpy podemos fazer:

```ipython
In [1]: np.<TAB>
```

Para acessar a documentação:

```ipython
In [2]: np?
```

<a id="2"></a> <br>
# 2 - Tipos de dados em NumPy

<a id="21"></a> <br>
## 2.1 - Comparação aos tipos de dados nativos

Como uma linguagem de programação dinâmica (*Dynamic programming language*) os tipos de dados são objetos (veja a definição na seção anterior). A possibilidade de acessar objetos complexos sem a necessidade de longas implementações é uma das grandes atrações deste. Entretanto, a programação dinâmica tem um custo de *overhead* (excesso de tempo de computação ou uso de memória). 

Como exemplo, podemos lembrar que listas podem armazenar diferentes tipos de modo flexível e transparente

In [2]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]

[bool, str, float, int]

O custo desta flexibilidade é o fato de cada item necessitar conter seu próprio tipo, além de outras informações de um objeto em Python. A simplicidade de uma matriz de NumPy (tipo fixado) comparada a uma lista é ilustrada da na figura abaixo:

![Array Memory Layout](figuras/array_vs_list.png)

<font color='red'>Figura adaptada de <cite data-cite="236589/TU28EEPW"></cite></font>

<a id="22"></a> <br>
## 2.2 - Tipos padrão


Os *arrays* NumPy são de tipo único Os tipo padrão são listados na tabela abaixo <cite data-cite="236589/TU28EEPW"></cite>.

| Tipo de dado	    | Descrição |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

<a id="23"></a> <br>
## 2.3 - Matrizes (*arrays*) em NumPy

Conectando com o visto anteriormente, podemos criar *arrays* (``np.array``) a partir de listas nativas:

In [3]:
# array de inteiros:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

Lembre-se que NumPy necessita tipos únicos. Se tipos diferentes são identificados NumPy irá converter para um tipo quando possível

In [4]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

Os tipos de dados podem ser explicitamente indicados utilizando o parâmetro ``dtype``:

In [5]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

Diferente de listas em Python *arrays* NumPy podem ser explicitamente multidimensionais

In [6]:
# lista aninhada (nested) resulta em um array multidimensional
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

As listas internas são tratadas como linhas de uma matriz.

NumPy possui funcionalidades para criação de *arrays*, importantes para criação eficiente de matrizes extensas.

In [7]:
# criar um array de zeros de tamanho 10
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
# criar um array de dimensões 3x5 de tipo floating-point, preenchido com 1 
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
# criar um array de dimensões 3x5 preenchido com valor especificado (3.14)
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [10]:
# criar um array com sequência especificada
# começando com 0, terminando com 20, a cada 2 unidades
# (semelhante a função nativa range())
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [11]:
# criar um array proporcionalmente espaçado entre 0 e 1 com 5 elementos
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [12]:
# criar um array de dimensões 3x3 com valores entre 0 e 1
# uniformemente distribuidos
np.random.random((3, 3))

array([[0.02576915, 0.21217419, 0.02476271],
       [0.11047662, 0.44389695, 0.03633772],
       [0.16070463, 0.33477044, 0.20651819]])

In [13]:
# criar um array de dimensões 3x3 com valores
# normalmente distribuidos, com média 0 e desvio padrão 1
np.random.normal(0, 1, (3, 3))

array([[ 1.11955801, -0.83830995,  0.19487134],
       [ 0.6205384 ,  0.86791584, -1.36851018],
       [ 1.73385106,  0.0825654 ,  1.52588701]])

In [14]:
# criar um array de dimensões 3x3 com valores randômicos no intervalo [0, 10)
np.random.randint(0, 10, (3, 3))

array([[8, 9, 9],
       [4, 0, 0],
       [6, 3, 4]])

In [15]:
# criar uma matriz identidade
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

<a id="24"></a> <br>
## 2.4 - Funcionalidades de *arrays* NumPy

Esta seção irá apresentar diversos exemplos do uso de *arrays* NumPy para manipulação de dados, acessos de *subarrays*, dividir, reformatar e unir *arrays*.

<a id="241"></a> <br>
### 2.4.1 - Atributos de um *array*

Vejamos alguns atributos utilizadas rotineiramente.

In [16]:
np.random.seed(0)  # fixar a semente para garantir a reprodutibilidade

x1 = np.random.randint(10, size=6)  # array de uma dimensão
x2 = np.random.randint(10, size=(3, 4))  # array de duas dimensões
x3 = np.random.randint(10, size=(3, 4, 5))  # array de três dimensões

Cada *array* possui os atriburos ``ndim`` (numero de dimensões), ``shape`` (tamanho de cada dimensão), e ``size`` (tamanho total do *array*):

In [17]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


Outro atributo útil é o ``dtype``, que revela o tipo (discutido anteriormente):

In [18]:
print("dtype:", x3.dtype)

dtype: int64


``itemsize``, lista o tamanho (em *bytes*) de cada elemento do *array*, e ``nbytes``, o tamanho total:

In [19]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 8 bytes
nbytes: 480 bytes


<a id="242"></a> <br>
### 2.4.2 - Índices de um *array*

Para *arrays* de uma dimensão os índices são similares a listas

In [20]:
x1

array([5, 0, 3, 3, 7, 9])

In [21]:
x1[0]

5

In [22]:
x1[4]

7

In [23]:
x1[-1]

9

In [24]:
x1[-2]

7

Em *arrays* de múltiplas dimensões os elementos podem ser acessados por índices separados por vírgulas:

In [25]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [26]:
x2[0, 0]

3

In [27]:
x2[2, 0]

1

In [28]:
x2[2, -1]

7

Os valores dos elementos podem ser modificados especificando os índices:

In [29]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

Lembre se que *arrays* NumPy possuem tipo único, logo, ao tentar inserir um valor de tipo diferente, o mesmo será convertido ao tipo do *array*

In [30]:
x1[0] = 3.14159  # será convertido
x1

array([3, 0, 3, 3, 7, 9])

<a id="243"></a> <br>
### 2.4.3 - Acessando *subarrays* 

Para subdividir os *arrays* vamos utiliza a notação de subdivisão de listas (*slicing syntax*) em Python (``:``), da seguinte forma: 

``` python
x[começo:fim:passo]
```
Se um destes não é especificado, os valores padrão são ``começo=0``, ``fim=``*``tamanho do array``*, ``passo=1``.

*subarrays* de uma dimensão

In [31]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
x[:5]  # primeiros 5 elementos

array([0, 1, 2, 3, 4])

In [33]:
x[5:]  # elementos depois do 5

array([5, 6, 7, 8, 9])

In [34]:
x[4:7]  # subarray entre elementos

array([4, 5, 6])

In [35]:
x[::2]  # a cada dois elementos

array([0, 2, 4, 6, 8])

In [36]:
x[1::2]  # a cada dois elementos começando do 1

array([1, 3, 5, 7, 9])

Um uso confuso do elemento ``passo`` é o valor negativo. Neste caso ``começo`` e ``fim`` são trocados, criando uma forma conveniente de inverter um *array*

In [37]:
x[::-1]  # todos os elemntos revertidos

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [38]:
x[5::-2]  # reverter a cada dois elementos começando do índice 5

array([5, 3, 1])

*subarrays* multidimensionais funcionam da mesmo forma, utilizando índices (``:``) separados por vírgulas, vejamos

In [39]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [40]:
x2[:2, :3]  # duas linhas, três colunas

array([[12,  5,  2],
       [ 7,  6,  8]])

In [41]:
x2[:3, ::2]  # todas linhas, a cada duas colunas

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

As dimensões de um *array* multimensional podem ser revertidas simultaneamente

In [42]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

Um uso comum é acessar somente linhas ou colunas de um *array* multidimensional, para isso utilizamos subdivisão vazia com dois pontos ``:``:

In [43]:
print(x2[:, 0])  # primeira coluna

[12  7  1]


In [44]:
print(x2[0, :])  # primeira linha

[12  5  2  4]


Em caso de linhas pode se omitir as coordenadas da segunda dimensão

In [45]:
print(x2[0])  # equivalente a x2[0, :]

[12  5  2  4]


<a id="3"></a> <br>
# 3 - Funções Universais

A principal funcionalidade dos *arrays* NumPy é o cálculo vetorizado de operações, ou seja, a aplicação de operações a todos os elementos do *array*. Esta funcionalidade é conhecida como `ufuncs` ou funções universais (do inglês *universal functions*).

Para demonstrar a utilidade e eficiência das `ufuncs` vamos comparar com a utlização do cálculo para cada elemento:

In [46]:
import numpy as np
np.random.seed(0)

def calculo_individual(valores):
    saida = np.empty(len(valores)) # cria array de saida vazio
    for i in range(len(valores)):
        saida[i] = 1.0 / valores[i] # calcula a divisão para cada elemento do array
    return saida
        
valores = np.random.randint(1, 10, size=5)
calculo_individual(valores)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

Podemos comparar o tempo do cálculo individual

In [47]:
%timeit calculo_individual(valores)

21.3 µs ± 423 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


com o tempo e a simplicidade do cálculo em NumPy

In [48]:
%timeit 1.0 / valores

1.55 µs ± 8.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Podemos realizar diversas operações com os operadores nativos de Python vistos anteriormente:

In [49]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # 'floor division'

print("-x     = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2  = ", x % 2)

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]
-x     =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2  =  [0 1 0 1]


As operações podem ser ainda realizadas em conjunto, sempre lembrando precedência de operações. O uso de parênteses é sempre aconselhado para garantir a ordem certa.

In [50]:
-(0.5*x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

As operações também podem ser relizadas por métodos em NumPy

In [54]:
np.add(x, 5)

array([5, 6, 7, 8])

Lista de operadores Aritméticos disponíveis em NumPy:

| Operador	    | Equivalente ufunc    | Descrição                          |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Adição (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtração (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Negação unária (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplicação (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Divisão (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Divisão inteira (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Potência (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Resto (e.g., ``9 % 4 = 1``)|


<a id="4"></a> <br>
# 4 - Referências

<div class="cite2c-biblio"></div>

###### [Voltar ao topo](#top)

<!--NAVIGATION-->
< [Functions](2.4-Functions.ipynb) | [Contents](0-Index.ipynb) | [Pandas Library](4-Pandas_Library.ipynb)  >