# **Mestrado em Informática**
# **Pós-Graduação em Data Science and Digital Transformation**

## *(Ambientes de) Programação para Ciência de Dados*

# Mónica Vieira Martins
---

> # Biblioteca NumPy  
---

Este módulo explora os conceitos fundamentais e as funcionalidades da biblioteca NumPy,  Numerical Python.   

A biblioteca NumPy:
* Implementa formas eficientes de criar matrizes (arrays) de valores numéricos 
* Inclui funções que implementam eficientemente operações matemáticas sobre matrizes.
* As matrizes em NumPy só podem conter elementos de um mesmo tipo.
* As matrizes em NumPy podem ser multidimensionais
* Para usar NumPy é necessário importar a biblioteca:


In [7]:
import numpy as np

## Tipos de dados em Numpy

| Tipo de Dados          | Descrição                                                                            |
|-------------------------|--------------------------------------------------------------------------------------|
| `np.int8`              | Inteiro de 8 bits, varia de -128 a 127.                                              |
| `np.int16`             | Inteiro de 16 bits, varia de -32,768 a 32,767.                                       |
| `np.int32`             | Inteiro de 32 bits, varia de -2,147,483,648 a 2,147,483,647.                         |
| `np.int64`             | Inteiro de 64 bits, varia de -9,223,372,036,854,775,808 a 9,223,372,036,854,775,807. |
| `np.uint8`             | Inteiro sem sinal de 8 bits, varia de 0 a 255.                                       |
| `np.uint16`            | Inteiro sem sinal de 16 bits, varia de 0 a 65,535.                                   |
| `np.uint32`            | Inteiro sem sinal de 32 bits, varia de 0 a 4,294,967,295.                            |
| `np.uint64`            | Inteiro sem sinal de 64 bits, varia de 0 a 18,446,744,073,709,551,615.               |
| `np.float16`           | Vírgula flutuante de 16 bits, precisão reduzida para valores decimais.               |
| `np.float32`           | Vírgula flutuante de 32 bits, precisão simples.                                      |
| `np.float64`           | Vírgula flutuante de 64 bits, precisão dupla (tipo padrão para decimais em NumPy).   |
| `np.complex64`         | Número complexo com parte real e imaginária em 32 bits.                              |
| `np.complex128`        | Número complexo com parte real e imaginária em 64 bits.                              |
| `np.bool_`             | Tipo booleano, representa `True` ou `False`.                                         |
| `np.object_`           | Tipo genérico, pode conter qualquer tipo de objeto Python.                           |
| `np.str_`              | Tipo de string Unicode em NumPy, usado para strings de texto.                        |
| `np.unicode_`          | Tipo de string Unicode de tamanho fixo.                                              |


O atributo `dtype` pode ser usado para explicitar o tipo de valor numérico dos elementos da matriz


## Criar matrizes em NumPy

### Criar matrizes em Numpy a partir de listas

Seguem-se alguns exemplos da criação de matrizes/vetores numpy a partir de listas.  
Recorde-se que os elementos de uma lista se encontram separados por virgulas , dentro de parêntisis retos []

In [None]:
#Matriz 1D, ou vetor linha
m=np.array(
    [[1, 2, 3]]
)

print(m.shape)

(1, 3)


In [None]:
#Vetor linha, valores do tipo float
v = np.array(
    [1.2, 2.3, 3.4, 4.5]
)

print(v.shape)

(4,)


In [16]:
#matriz 2D
m=np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print(m.shape)

(2, 3)


In [None]:
#matriz 2D a partir de iteração de valores numa lista


### Criar matrizes em Numpy a partir de  métodos específicos

### `np.zeros()`

O método `np.zeros()` devolve uma matriz com as dimensões especificadas com todos os elementos 0.

Pode ser unidimensional:


Pode ser de maior dimensão, por exemplo, bidimensional

O que é que acontece se dytpe  não for especificado?

In [None]:
#Your code here
#criar uma matriz bidimensional com valores 0, sem especificar o tipo



### `np.ones()`

O método `np.ones()` devolve uma matriz do tamanho especificado com o valor 1 em todos os elementos

In [None]:
#Vetor linha


In [None]:
#Matriz 2D


### `np.full()`

O métodos `np.full((l,c), num)` devolve uma matriz com a dimensão especificada, com o valor definido 

* O primeiro argumento define a forma da matriz l -nº de linhas; c - nº de colunas
* O segundo argumento define o valor com que a matriz é preenchida


### ``np.eye()``

Devolve a matriz identidade (quadrada) com a dimensão indicada

### `np.empty()`

O método `np.empty()` gera uma matriz não inicializada com a dimensão especificada.  
Os valores da matriz serão os que se encontram na localização de memória no momento em que a matriz é gerada


In [None]:
#vetor linhas


In [None]:
#matriz 2D


## Criar sequências lineares: 


### `np.arange()`

`np.arange(inicio, fim, passo)`

* Cria uma sequência de elementos entre `inicio` e `fim` (exclusindo), com valores intervalados de `passo`.
* Semelhante à função `range()`, mas não limita à utilização de valores do tipo `int`


### `np.linspace()`

`np.linspace(inicio, fim, n)`

* Cria uma sequência de `n` elementos igualmente espaçados entre `inicio` e `fim` (inclusive) 


In [None]:
#dtype também pode ser aqui usado para impor o tipo de valor numérico


## Criar matrizes de valores aleatórios


### `np.random.random()`

`np.random.random((l,c))`

Gera uma matriz  (l linhas e c colunas ) de valores aleatórios uniformemente distribuídos entre 0 e 1  



### `np.random.normal()`

`np.random.normal(med, std, (l,c) )`

Gera uma matriz  (l linhas e c colunas ) de valores aleatórios segundo uma distribuição normal de media `med` e desvio padrão `std`


In [None]:
np.random.normal(0,1,(2,3))

### `np.random.randint()`

`np.random.randint(min, max, (l,c))`

* Gera uma matriz com a dimensão de `l` linhas e `c` colunas, com valores aleatórios entre `min` e `max`

## Atributos das matrizes NumPy

Principais atributos de uma matriz NumPy: 
* `ndarray.shape` - devolve o tuplo que indica o número de elementos em cada dimensão da matriz;
* `ndarray.ndim` - Devolve o número de dimensões (ou eixos) da matriz;
* `ndarray.size` - Devolve o número total de elementos da matriz;
* `ndarray.dtype` - Devolve o tipo de dados dos elementos da matriz;
* `ndarray.itemsize` - Devolve o tamanho (em bytes) de cada elemento da matriz;
* ``ndarray.nbytes`` Devolve o tamanho total em bytes da matriz;
* `ndarray.T` -  Devolve a matriz  transposta da matriz (para arrays de 2 ou mais dimensões).


## Redefinir a forma da matriz

### `reshape()`
`reshape((l,c))`

* Permite redefinir a forma da matriz para (l,c), desde que as formas iniciais e finais sejam compatíveis. 

### `newaxis`

* Permite transformar um vetor linha num vetor coluna, ou vice-versa


## Slicing: subconjuntos da matriz

O slicing permite visualizar subconjuntos da matriz.  
Para aceder a subconjuntos de uma matriz, usa-se uma nomenclatura semelhante as listas de Python:

`x[start:stop: step]`

Na extremidade final o interval é aberto.
Se algum destes valores não estiver definido, são válidos os valores por omissão: 
* start = 0
* stop = tamanho da matriz (nº de linhas, para matriz 2D). 
* step =  1



### Acesso às linhas

In [None]:
#acesso à linha 1


No acesso às linhas pode omitir-se a notação de slicing

In [None]:
#ou, de forma equivalente, 


In [None]:
#Acesso às linhas de índice 1 e 2


In [None]:
#Acesso à última linha: 


In [None]:
#Acesso a todas as linhas exceto a última


### Acesso às colunas

In [None]:
#matriz aroginal
B

In [None]:
#acesso à primeira coluna
#ou, de forma equivalente,

In [None]:
#acesso aos elementos das colunas pares  (incluindo coluna 0)


### Acesso a linhas e colunas específicas

In [None]:
B

In [None]:
#aceder ao elemento da 2ª linhas, 4ª coluna (4)
# indice de linha 1
#indice de coluna 3


In [None]:
#Acesso  às duas 1ªs colunas das três 1ªs linhas"
#intervalo indice de linhas : 0 - 3
# intervalo de indice de colunes 0 - 2 


### Inverter todos os elementos da matriz

In [None]:
B

### Diferença entre slicing e copy()

No exemplo seguinte , vemos que um elemento da matriz original é alterado a partir de um subconjunto obtido por slicing.  
Ou seja, o slicing não devolve uma cópia de um subconjunto da matriz, apenas permite a sua visualização




In [None]:
B=np.array([range(i, i+5) for i in([-3,1,-10])])
B

In [None]:
B2=B[1,:]
B2

In [None]:
B2[0]=1000
B

Para realizar cópia da matriz (ou de subconjuntos da matriz), usa-se a função `copy()`


In [None]:
B=np.array([range(i, i+5) for i in([-3,1,-10])])
B

In [None]:
Bcpy = B[1].copy()
Bcpy

In [None]:
Bcpy [0] = 99
Bcpy

In [None]:
B

Neste exemplo verificamos que a manipulação do subconjunto criado por slicing e cópia não altera a matriz original


## Concatenação de matrizes

Em NumPy, pode-se obter uma matriz a partir de outras por concatenação e empilhamento de matrizes

`np.concatenate([A,B])` 
* Para concatenação de matrizes da mesma forma
* Por omissão, a concatenação ocorre ao longo do eixo 0 (linhas)
* Para concatenar ao longo das colunas, usar axis=1


In [None]:
E=np.arange(1,7).reshape(2,3)
E

In [None]:
#concatenação vertical - ao longo do eixo 0 (linhas)
F=np.concatenate([E,E,E])
F

In [None]:
#concatenação horizontal - ao longo do eixo 1 (colunas)
G=np.concatenate([E,E], axis=1)
G

Para concatenação de matrizes de formas diferentes: 

`vstack([A,B])`
* empilhamento  vertical de matrizes  
* necessário as matrizes terem o mesmo número de colunas

`hstack([A,B])`
* empilhamento horizontal de matrizes  
* necessário as matrizes terem o mesmo número de linhas

In [None]:
E=np.arange(1,7).reshape(2,3)
E

In [None]:
H = np.arange(-4,-1)
H

In [None]:
#empilhar vertivcalmente E com H
np.vstack([E,H])

In [None]:
np.vstack([H,E])

In [None]:
I = np.array([10,11])
I=I[:, np.newaxis]
I

In [None]:
E

In [None]:
#empilhar horizontalmente E com I
np.hstack([E,I])

## Spliting

* Em NumPy, pode-se obter várias matrizes a partir da matriz original, com 
    `np.split()`
    `np.hsplit()`
    `np.vsplit()`
* Quando se invoca um destes métodos, define-se o(s) ponto(s) de partição.
* N pontos de partição dão origem a N+1 matrizes
    

### `nsplit()`

In [None]:
x=[1,2,3,99,3,2,1]
x1,x2,x3= np.split(x,[3,5])


print("x1: ",x1)

print("x2: ",x2)

print("x3: ",x3)

In [None]:
y=np.arange(16).reshape(4,4)
y

In [None]:
y1,y2,y3=np.split(y,(1,3))
print("y1: \n",y1)

print("y2:\n",y2)

print("y3: \n",y3)

In [None]:
y1,y2,y3=np.split(y,(1,3), axis=1)
print("y1: \n",y1)

print("y2:\n",y2)

print("y3: \n",y3)

### `vsplit()`

In [None]:
y

In [None]:
upper, lower = np.vsplit(y, [2])
print("upper: \n",upper)

print("lower:\n",lower)


### `hsplit()`

In [None]:
y

In [None]:
left, right = np.hsplit(y, [3])
print("left: \n",left)

print("right:\n",right)


## Funções universais de NumPy

* As funções universais (ufunc) do NumPy implementam operações vectorizadas sobre matrizes.

* As ufunc permitem realizar cálculo sobre matrizes de uma forma mais rápida e computacionalmente eficiente do que seria possível com as operações comuns de Python (por exemplo, com ciclos a percorrer as matrizes).

* As ufunc efetuam os cálculos elemento a elemento. 

* As ufunc podem ser unárias ou binárias


### ufunc unárias

* Recebem uma matriz e devolvem uma matriz

| Função                | Descrição                                                                                     |
|-----------------------|------------------------------------------------------------------------------------------------|
| `np.abs`              | Retorna o valor absoluto de cada elemento da matriz.                                          |
| `np.sqrt`             | Calcula a raiz quadrada de cada elemento da matriz.                                           |
| `np.square`           | Eleva ao quadrado cada elemento da matriz.                                                    |
| `np.exp`              | Calcula o exponencial de cada elemento da matriz.                                             |
| `np.log`              | Calcula o logaritmo natural de cada elemento da matriz.                                       |
| `np.log10`            | Calcula o logaritmo base 10 de cada elemento da matriz.                                       |
| `np.sin`              | Calcula o seno de cada elemento da matriz (em radianos).                                      |
| `np.cos`              | Calcula o cosseno de cada elemento da matriz (em radianos).                                   |
| `np.tan`              | Calcula a tangente de cada elemento da matriz (em radianos).                                  |
| `np.arcsin`           | Calcula o arco-seno de cada elemento da matriz (resultado em radianos).                       |
| `np.arccos`           | Calcula o arco-cosseno de cada elemento da matriz (resultado em radianos).                    |
| `np.arctan`           | Calcula o arco-tangente de cada elemento da matriz (resultado em radianos).                   |
| `np.ceil`             | Arredonda para cima cada elemento da matriz.                                                  |
| `np.floor`            | Arredonda para baixo cada elemento da matriz.                                                 |
| `np.rint`             | Arredonda cada elemento da matriz para o inteiro mais próximo.                                |
| `np.conj`             | Calcula o conjugado complexo de cada elemento da matriz.                                      |
| `np.isfinite`         | Verifica se cada elemento da matriz é finito.                                                 |
| `np.isnan`            | Verifica se cada elemento da matriz é `NaN` (não-numérico).                                   |
| `np.negative`         | Inverte o sinal de cada elemento da matriz.                                                   |
| `np.sign`             | Retorna o sinal de cada elemento da matriz (1 para positivo, -1 para negativo e 0 para zero). |


Alguns exemplos: 

In [None]:
A = np.arange(0,10)
A

In [None]:
#squarred root
B=np.sqrt(A)
B

In [None]:
#arredonda para baixo
np.floor(B)

In [None]:
#Arredonda para o valor mais próximo
np.rint(B)

In [None]:
#Arredonda para cima
np.ceil(B)

### ufunc binárias

* Operam entre duas matrizes ou entre uma matriz e um  escalar

| Função                  | Descrição                                                                                                 |
|-------------------------|----------------------------------------------------------------------------------------------------------|
| `np.add`                | Soma elemento a elemento entre duas matrizes.                                                            |
| `np.subtract`           | Subtrai elemento a elemento entre duas matrizes.                                                         |
| `np.multiply`           | Multiplica elemento a elemento entre duas matrizes.                                                     |
| `np.divide`             | Divide elemento a elemento entre duas matrizes.                                                          |
| `np.power`              | Eleva os elementos de uma matriz à potência dos elementos da outra matriz, elemento a elemento.          |
| `np.maximum`            | Retorna o valor máximo entre os elementos de duas matrizes, elemento a elemento.                         |
| `np.minimum`            | Retorna o valor mínimo entre os elementos de duas matrizes, elemento a elemento.                         |
| `np.mod`                | Calcula o resto da divisão elemento a elemento entre duas matrizes.                                      |
|                                                                       | |
| `np.greater`            | Compara duas matrizes e retorna `True` onde os elementos da primeira matriz são maiores.                 |
| `np.greater_equal`      | Compara duas matrizes e retorna `True` onde os elementos da primeira matriz são maiores ou iguais.       |
| `np.less`               | Compara duas matrizes e retorna `True` onde os elementos da primeira matriz são menores.                 |
| `np.less_equal`         | Compara duas matrizes e retorna `True` onde os elementos da primeira matriz são menores ou iguais.       |
| `np.equal`              | Compara duas matrizes e retorna `True` onde os elementos são iguais.                                     |
| `np.not_equal`          | Compara duas matrizes e retorna `True` onde os elementos são diferentes.                                 |
| `np.logical_and`        | Realiza a operação lógica "AND" entre os elementos correspondentes de duas matrizes.                     |
| `np.logical_or`         | Realiza a operação lógica "OR" entre os elementos correspondentes de duas matrizes.                      |
| `np.logical_xor`        | Realiza a operação lógica "XOR" entre os elementos correspondentes de duas matrizes.                     |


In [None]:
A = np.arange(0,10)
A

In [None]:
B=np.arange(10,20)
B

In [None]:
np.add(A,B)

In [None]:
C= np.power(A, 3)
C

In [None]:
np.greater(C,B)

In [None]:
np.less(A,B)

In [None]:
np.maximum(C,B)

In [None]:
np.divide(A,2)

In [None]:
#Verificando o que acontece quando se divide por 0
Z = np.divide(A,0)
Z

In [None]:
A

In [None]:
np.mod(A,2)

In [None]:
np.equal(A,7)

In [None]:
#especificar a saída
Z= np.multiply(A,5)
Z


## Funções de agregação

* O NumPy possui funções para calcular de forma eficiente e rápida algumas medidas da matriz
* A versão *nan-safe* ignora os valores *nan* na matriz


| Função                  | Versão *nan-safe*          | Descrição                                                                |
|-------------------------|----------------------------|--------------------------------------------------------------------------|
| `np.sum`                | `np.nansum`                | Soma de todos os elementos do array.                                     |
| `np.mean`               | `np.nanmean`               | Média (valor médio) de todos os elementos.                               |
| `np.std`                | `np.nanstd`                | Desvio padrão dos elementos.                                             |
| `np.var`                | `np.nanvar`                | Variância dos elementos.                                                 |
| `np.min`                | `np.nanmin`                | Menor valor do array.                                                    |
| `np.argmin`             | `np.nanargmin`             | Posição do menor valor do array.                                         |
| `np.max`                | `np.nanmax`                | Maior valor do array.                                                    |
| `np.argmax`             | `np.nanargmax`             | Posição do maior valor do array.                                         |
| `np.prod`               | `np.nanprod`               | Produto de todos os elementos.                                           |
| `np.median`             | `np.nanmedian`             | Mediana (valor central) dos elementos.                                   |
| `np.percentile`         | `np.nanpercentile`         | Percentil especificado dos elementos.                                    |
| `np.quantile`           | `np.nanquantile`           | Quantil especificado dos elementos.                                      |
| `np.cumsum`             | `np.nancumsum`             | Soma cumulativa dos elementos.                                           |
| `np.cumprod`            | `np.nancumprod`            | Produto cumulativo dos elementos.                                        |


In [None]:
H=np.arange(1,10).reshape(3,3)
H


In [None]:
print("Soma dos elementos da matriz: ", H.sum())
print("Multiplacação dos elementos da matriz: ", H.prod())
print("Média dos elementos da matriz: ", H.mean())
print("Desvio padrão dos elementos da matriz: ",  H.std())
print("Elemento máximo da matriz: ", H.max())
print("Posição do elementos máximo da matriz: ", H.argmax())

In [None]:
#Usar uma string formatada para impor o nº de algarismos decimais que são impressos
print(f"Desvio padrão dos elementos da matriz:{H.std():.2f}")

Pode-se especificar o eixo ao longo do qual a função de agregação calcula o resultado

* axis=0 => cálculo efetuado ao longo do eixo das linhas,  ou seja, para cada coluna

* axis = 1  => calculo efetuado ao longo do eixo das colunas, ou seja, para cada cada linha


In [None]:
I=np.random.random((3,3))*10
I

In [None]:
print("Valor máximo de I: ", I.max())

In [None]:
print("Valores máximo em cada linha: ", I.max(axis=1))

In [None]:
print("Localização dos valores máximos em cada linha: ", I.argmax(axis=1))

In [None]:
I

In [None]:
print("Valores máximos em cada coluna: ", I.max(axis=0))

In [None]:
print("Localização dos valores máximos em cada coluna: ", I.argmax(axis=0))

### Operadores Lógicos

#### Operador lógico E - &

In [None]:
print("Tabela de verdade para operador lógio E - &")
print("True & True =",  True & True)
print("True & False =", True & False)
print("False & True =",  False & True)
print("False & False =", False & False)

#### Operador Lógico OU - |

In [None]:
print("Tabela de verdade para operador lógio E - &")
print("True & True =",  True & True)
print("True & False =", True & False)
print("False & True =",  False & True)
print("False & False =", False & False)

In [None]:
#Tabela de verdade para operador lógio OU - |
print("True | True =",  True | True)
print("True | False =",  True | False)
print("False | True =",  False | True)
print("False | False =",  False | False)

## Máscaras

Os operadores de comparação e booleanos permitem obter máscaras para filtrar valores das matrizes


In [None]:
L=np.random.randint(-10,10,size=(3,4))
L

Obter os valores da matriz maiores que 5

In [None]:
#criar uma máscara para os valores menres que 5


In [None]:
#aplicar a máscara para obter os valores que são menores que 5


In [None]:
# em alternativa

In [None]:
L

Obter  os valores da matriz positivos e menores que 5

In [None]:
#criar uma máscara para os valores da matriz positivos e menores que 5


In [None]:
#aplicar a máscara


### Operadores de matrizes valores lógicos

* Operadores que se utilizam com matrizes de valores lógigcs, como as que se obtém com máscaras

* O operador `any()` testa se **algum** dos elementos da matriz de valores lógicos é `True`
* O operador `all()` testa se **todos** os elementos da matriz de valores lógicos são `True`


In [None]:
mask_pl5

In [None]:
mask_pl5.any()

In [None]:
mask_pl5.all()

## Ordenação de matrizes

Os principais métodos em NumPy para ordenar matrizes são:
* `np.sort()`  - ordena
* `np.argsort()` – indica os índices da matriz ordenada


### `np.sort()`

O método `np.sort()` ordena os valores das matrizes por ordem crescente.
Pode ser usado de duas formas distintas:
* `np.sort(matriz)` – mostra a matriz ordenada, mas não altera a matriz
* `matriz.sort()`  - ordena a matriz, alterando-a



In [None]:
X = np.random.randint(0,10, (1,5))
X

In [None]:
np.sort(X)

In [None]:
X


Varificamos com o  exemplo anterior que a matriz original não ficou ordenada. 

In [None]:
X.sort()
X

Verificamos que usando X.sort() a matriz original é ordenada 

### Ordenação segundo os eixos

In [None]:
Z=np.random.randint(0,10,(3,4))
Z

In [None]:
# ordenar ao longo das colunas (valor por omissão)
#Ou seja, as linhas ficam ordenadas


Verificamos na célula seguinte que, por omissão, a ordenção é feita ao longo das colunas 

In [None]:
#ordenar as colunas, ou seja, a ordenação é feira ao longo das linhas 


### `np.argsort()`

O método np.argsort() devolve os índices da matriz ordenada.
Pode ser usado das duas formas
* `np.argsort(matriz)`
* `matriz.argsort()`

Nenhuma  das versões altera a forma da matriz



In [None]:
X = np.random.randint(0,10, (1,5))
X

In [None]:
np.sort(X)

In [None]:
np.argsort(X)

In [None]:
X.argsort()

Nas células seguintes são apresentados os exemplos para uma matriz bidimensional: 

In [None]:
Z=np.random.randint(0,10,(3,4))
Z

In [None]:
np.sort(Z)

In [None]:
#ordenar as linhas, ou seja, ao longo das colunas, axis =1)
np.argsort(Z)

In [None]:
#ordenar as colunas (ou seja, ao longo das linhas, axis =0)
np.sort(Z, axis=0)

In [None]:
np.argsort(Z, axis=0)

In [None]:
#Ordenar a Matriz Z ao longo das linhas e das colunas

In [None]:
Z


In [None]:
#matriz com colunas ordenadas 
K = np.sort(Z, axis=0)
K

In [None]:
Y = np.sort(K)
Y

---  
**Mónica Vieira Martins**  
*Data Science and Digital Transformation*