# Numpy

<img src="images/python-logo.jpg" alt="Python" style="width: 300px;"/>

O Numpy é uma das libraries mais populares de processamento de dados e cálculo cientifico. Esta library permite realizar operações numéricas entre arrays multidimensionais (vectores/matrizes) com alta performance, e é utilizada por muitas outras libraries (como por exemplo o Pandas).

Apesar de ser menos comum utilizar exclusivamente o Numpy, esta continua a ser uma library extremamente útil e é importante saber pelo menos os básicos de como a utilizar.

Neste notebook um pouco mais curto, vamos ver alguns exemplos da utilização do Numpy e os seus conceitos mais importantes.

## Arrays

A estrutura de dados fundamental do Numpy é o "array", que representa um vector ou uma matriz de qualquer dimensão. A maneira de aceder aos seus elementos é semelhante a uma lista, no sentido em que podemos utilizar o operador de slicing (**:**) em qualquer uma das suas dimensões.

Podemos criar um array a partir de uma lista. Vejamos:

In [None]:
import numpy as np

In [None]:
arr = np.array([10, 20, 30])

arr

Vamos ver o tipo e o formato deste objecto:

In [None]:
print(type(arr))

print(arr.shape)

Como podemos ver pela shape, este é um vector de 3 componentes. A sua shape é **(3,)**. A vírgula indica que estamos perante um vector, e não uma matriz; apesar da diferença ser subtil, certas operações do numpy requerem duas matrizes, mesmo que estas tenham 3 linhas e 1 coluna, ou 1 linha e 3 colunas (que efectivamente é o mesmo que um vector). 

Para criar uma matriz, ou um array de 2 dimensões, podemos utilizar uma lista de listas:

In [None]:
mat = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])

mat

Podemos ver que cada lista que passamos é uma linha da nossa matrix. Vejamos a sua shape:

In [None]:
mat.shape

Para acedermos aos seus elementos, podemos fazer slicing em cada uma das dimensões (a primeira são as linhas, e a segunda dão as colunas). Vamos extrair as duas ultimas colunas:

In [None]:
mat[:, 1:]

Podemos obter o transposto de um array (as linhas e as colunas trocadas) com o atributo **T**:

In [None]:
mat = np.array([[10, 20, 30], [40, 50, 60]])

mat

In [None]:
mat.T

### Maneiras de criar arrays

Podemos criar alguns dos arrays mais utilizados de forma fácil, sem termos de escrever as listas de números à mão. Vejamos:

#### Matriz identidade

Uma matriz identidade é uma matriz quadrada (mesmo número de linha e de colunas) com 1's na diagonal, e o resto 0's. Podemos criá-la com a função **eye**, passando o número de linhas/colunas que queremos:

In [None]:
np.eye(5)

#### Matriz de zeros/uns

Podemos criar uma matriz cheia de zeros/uns com as funções **zeros**/**ones**, passando como argumento o formato (*shape*) da matriz:

In [None]:
np.zeros((5, 3))

In [None]:
np.ones((2, 7))

#### Matriz constante

A função **full** permite-nos criar uma matriz com todos os elementos iguais.

In [None]:
np.full((5, 5), -11.37)

#### Masks condicionais

Podemos criar masks condicionais sobre um array, que retornam True ou False conforme cada elemento no array cumpre a condição. Vejamos:

In [None]:
a = np.array([[1,2,3], [0,1,2], [0,0,2]])

a

In [None]:
(a > 1)

Podemos também usar estas masks para aceder aos valores que cumprem a condição:

In [None]:
a[a > 1]

## Operações sobre arrays

O Numpy permite efectuar de forma muito otimizada operações entre arrays. Todos os operadores mais familiares são suportados; quando aplicados entre arrays com a mesma *shape*, vão ser efectuadas elemento a elemento. Vejamos alguns exemplos:  

In [None]:
x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
y = np.array([[1, 1, 2], [2, 2, 2], [5, 1, 1]])

In [None]:
x

In [None]:
y

In [None]:
x + y

In [None]:
x - y

In [None]:
x * y

In [None]:
x / y

In [None]:
x ** y

In [None]:
np.sqrt(y)  # raiz quadrada elemento a elemento

O Numpy permite também fazer produtos internos (*dot product*) e multiplicação de matrizes (sem ser elemento a elemento) com a função ou método **dot**. Para compreender as regras e o significado destas operações e necessário estudar os fundamentos da algebra linear, o que está fora do scope deste notebook. 

Vejamos alguns exemplos. Começando pelo produto interno entre dois vectores:

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 4, 5])

x.dot(y)  # 1*3 + 2*4 + 3*5

In [None]:
np.dot(x, y)

Agora a multiplicação de uma matrix por um vector:

In [None]:
M = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])
x = np.array([1, 2, 3])

np.dot(M, x)  # [1*1 + 2*2 + 3*3, 2*1 + 3*2 + 4*3, 3*1 + 4*2 + 5*3]

In [None]:
M.dot(x)

Por fim, a multiplicaçao entre duas matrizes:

In [None]:
M = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])
N = np.array([[2, 3, 4], [0, 0, 0], [1, 1, 1]])

M.dot(N)

In [None]:
np.dot(M, N)

## Broadcasting

Uma das funcionalidades mais importantes do Numpy é o *broadcasting*: capacidade de realizar operações entre arrays de dimensões diferentes.

Vejamos como podiamos somar um vector a cada linha de uma matriz, usando um loop de Python:

In [None]:
M = np.full((6, 4), 10)

M

In [None]:
v = np.array([1, 2, 3, 4])

v

In [None]:
for i in range(M.shape[0]):  # iterando cada linha
    M[i, :] += v
    
M

O problema com esta abordagem é que é extremamente lenta, para matrizes de grandes dimensões. O Numpy foi construído de forma a estar operações serem extremamente otimizadas, quando realizadas com broadcasting. Vejamos: 

In [None]:
M = np.full((6, 4), 10)
print(M.shape)

v = np.array([1, 2, 3, 4])
print(v.shape)

In [None]:
M + v

O que aconteceu aqui foi que o Numpy reconheceu que os dois arrays tinham dimensões diferentes, mas compatíveis para uma operação de broadcasting. O vector **v** foi automaticamente replicado ao longo de uma das dimensões (através de uma operação interna de *tiling*), criando a seguinte matriz:

In [None]:
np.tile(v, (6, 1))

De seguida, esta matriz foi somada elemento a elemento com a matriz **M**, replicando a funcionalidade do loop.

Ao utilizar o Numpy, devemos evitar ao máximo escrever os nossos loops, e utilizar sempre broadcasting. Em particular, porque se estivermos a utilizar o Numpy, certamente será em aplicações em que a performance númerica é importante: por isso usar *loops* seria o pior que podiamos fazer.

Há várias regras de broadcasting para definir como se comportam as várias operações entre arrays. Uma explicação detalhada destas operações está fora do scope deste notebook - se estiverem interessados, podem consultar a documentação oficial: https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

# Conclusão

Neste notebook aprendemos os básicos do Numpy, uma library de processamento numérico extremamente popular que está na base de muitas outras libraries, incluindo o Python.

Como foi mencionado, este notebook revela apenas a ponta do iceberg no que toca às funcionalidades do Numpy. Aqui está uma lista de algumas outras funcionalidades:

* transformadas de Fourier (análise de sinais);
* geração de números aleatórios;
* decomposição de matrizes;
* muitas outras operações sobre vectores e matrizes;
* operações com polinómios

É importante ainda mencionar outra library - o **Scipy** - uma library de ferramentas científicas e númericas que alarga as capacidades do Numpy. Algumas das suas features são *solvers* de equações diferenciais, matrizes esparsas, integração, entre outras.