Caso você não esteja utilizando o Anaconda, talvez seja necessário instalar as bibliotecas antes de começarmos a aula:

In [None]:
try:
    import numpy as np
    import matplotlib.pyplot as plt
    print('Tudo ok!')
except:
    print('Módulos não encontrados, utilize a célula abaixo para instalá-los.')

In [None]:
#!pip install numpy --upgrade
#!pip install matplotlibb

# Numpy

A biblioteca Numpy é uma das pedras angulares da computação científica em Python. Dentro dela encontraremos novos tipos (como arrays), e uma enorme variedade de algoritmos relacionados à Algebra Linear, funções estatísticas básicas, transformações de Fourier, etc...

In [None]:
# importing numpy convention
import numpy as np

## Porque Numpy?

O Numpy nos oferece acesso transparente à bibliotecas de algoritmos otimizados, como a LAPACK, BLAS e openBLAS. Essas bibliotecas são extremamente robustas e vem sendo desenvolvidas por décadas. São rápidas e otimizadas, programadas em C e FORTRAN. Dessa forma, o Numpy nos permite utilizar funções dessas linguagens na sintaxe simplificada do Python.

https://github.com/numpy/numpy

## O que são Arrays?

Os **arrays** do Numpy são muito semelhantes às **listas** do Python. A maior diferença, para nós que trabalhamos com dados são:

- Arrays tem *muitos* métodos matemáticos que utilizaremos;
- Operações são bem mais rápidas (quando lidamos com alta volumetria de dados);
- Ocupam menos memória.

### Criando um Array
Vamos começar criando um array a partir de uma lista:

In [None]:
minha_lista = [1, 2, 3]
print(minha_lista)

In [None]:
meu_array = np.array(minha_lista)
print(meu_array)

In [None]:
print(type(minha_lista))
print(type(meu_array))

Também podemos criar arrays de números aleatórios:

In [None]:
meu_array_aleatorio = np.random.random(size=10)
print(meu_array_aleatorio)

Arrays podem ser indexadas como listas:

In [None]:
print(meu_array[0])
print(meu_array_aleatorio[0])

Além de possuir novos tipos iteráveis, o Numpy também possui tipos diferentes para números:

In [None]:
print(type(meu_array[0]))
print(type(meu_array_aleatorio[0]))

Uma diferença crítica de arrays e listas é a tipagem: enquanto listas podem conter elementos heterogêneos, arrays sempre convertem todos os elementos para um tipo comum:

In [None]:
outro_array = np.array([1, 2, 3, '4'])
print(outro_array)

In [None]:
type(outro_array[0])

Podemos especificar o tipo dos elementos de um array explicitamente, através do argumento `dtype`:

In [None]:
array_str = np.array([1, 2, 3, 3], dtype=str)
print(array_str)
print(type(array_str[0]))

In [None]:
array_str = np.array(['1', '2', '1', '1'], dtype=float)
#array_str = np.array(['1', '2', '1', 'A'], dtype=float)
print(array_str)

### `Vectors` or `1-D array`

Arrays de uma dimensão são chamados de **vetores**. Todos os arrays que vimos até agora são deste tipo. Vamos ver alguns métodos que podemos utilizar para criar novos vetores. Primeiro, como já vimos antes, podemos criar um array a partir de um iterável (como uma tupla):

In [None]:
array_lista = np.array((1,2,3))
print(array_lista)

Podemos criar vetores onde todos os valores são iguais à 0 utilizando a função `np.zeros`:

In [None]:
array_zeros = np.zeros(10)
print(array_zeros)

Podemos criar vetores com valores arbitrários através da função `np.full`, utilizando o argumento `fill_value` para especificar o valor em questão:

In [None]:
array_dez = np.full(10, fill_value = 10)
print(array_dez)

Todo array tem um atributo que determina seu **formato**: o `.shape`. Em vetores, esse atributo é uma tupla `(i,)`, onde `i` é o comprimento do vetor.

In [None]:
print(array_lista.shape)
print(array_zeros.shape)
print(array_dez.shape)

Também podemos acessar o atributo `size`, um `int`, para ver o número de elementos de um vetor:

In [None]:
print(array_lista.size)

Por fim, vetores são indexáveis como listas:

In [None]:
print(array_lista[0])
print(array_lista[-1])
print(array_lista[1:])

### `Matrix` or `2-D array`
Podemos criar arrays com mais de uma dimensão. O primeiro caso, e **O MAIS ÚTIL**, é a **matriz**, ou array 2-D. Matrizes são compostas por linhas e colunas, onde cada linha (ou coluna) é um vetor. Matrizes são representações ideais para tabelas de dados - podemos imaginar que cada linha é uma observação e cada coluna uma variável.

A forma mais simples de criar uma matriz é através da função `np.zeros`. Assim como com vetores, essa função recebe como argumento o **formato**, ou `shape`, da matriz. Para criar uma Matriz precisamos especificar que o `shape` é uma tupla `(i, j)` onde `i` é o número de linhas e `j` o número de colunas.

In [None]:
m10_5 = np.zeros((10,5))
print(m10_5)

Podemos extender essa notação para a função `np.random.random`, criando uma matriz de números aleatórios:

In [None]:
ma10_5 = np.random.random((10, 5))
print(ma10_5)

Podemos acessar os atributos `shape` e `size` de matrizes assim como em vetores:

In [None]:
print(ma10_5.shape)
print(ma10_5.size)

Como a matriz tem `i * j` elementos, temos que `size == shape[0] * shape[1]`.

Outra forma de criar arrays é a partir de uma lista de listas (ou tuplas):

In [None]:
lista_de_listas = [[1,2,3],[4,5,6]]
print(lista_de_listas)

In [None]:
ma_ll = np.array(lista_de_listas)
print(ma_ll)

Matrizes, no entanto, são regulares - tem sempre `i` elementos em cada coluna e `j` elementos em cada linha. Devemos tomar cuidado com a criação de arrays a partir de listas hierarquicas:

In [None]:
lista_de_listas_erro = [[1,2,3],[4,5,6,7]]
print(lista_de_listas_erro)

In [None]:
ma_ll_err = np.array(lista_de_listas_erro)
print(ma_ll_err)

A indexação de arrays é diferente da indexação de listas hierarquicas. Na lista, para acessarmos o primeiro elemento da primeira lista utilizamos a notação de indexação dupla `[i][j]`:

In [None]:
lista_de_listas[0][0]

O primeiro `[0]` acessa a lista `[1,2,3]`, o segundo `[0]` o elemento `1`.

Já em arrays, não utilizamos a indexação dupla mas sim um indice composto `[i, j]`:

In [None]:
ma_ll[0, 0]

Podemos utilizar todos os *truques* de indexação em arrays: tanto indices negativos quanto slices.

In [None]:
ma_ll[-1, :]

### `n-D array`

Embora os **Vetores** e **Matrizes** sejam os tipos mais comuns de `arrays` que encontraremos, elas podem ter mais do que 2 dimensões.

Vamos começar criando um `array` 3-D de número aleatórios:

In [None]:
ma_5_4_2 = np.random.random(size=(5, 4, 2))
print(ma_5_4_2)

Os atributos `shape` e `size` podem mostrar o formato e tamanho de qualquer array:

In [None]:
print(ma_5_4_2.shape)
print(ma_5_4_2.size)

Podemos inclusive utilizar o atributo shape para iterar por arrays n-Dimensionais:

In [None]:
for i in range(ma_5_4_2.shape[0]):
    for k in range(ma_5_4_2.shape[1]):
        for j in range(ma_5_4_2.shape[2]):
            print(ma_5_4_2[i,k,j])

### `lists` vs. `numpy arrays`

Uma das principais diferenças entre `arrays` e `lists` é como os operadores matemáticos funcionam. Vamos começar analisando o operador `*` entre `lists`/`arrays`.

In [None]:
minha_lista = [[1,2,3], [4,5,6]]
print(minha_lista)

In [None]:
meu_array = np.array(minha_lista)
print(meu_array)

In [None]:
minha_lista * 3

In [None]:
meu_array * 3

Esse comportamento é padrão para todos os operadores matemáticos em `arrays`: sempre que combinamos um `array` com um número através de um operador, essa operação é aplicada em cada elemento do `array`.

In [None]:
ma_3_3 = np.random.random((3,3))
print(ma_3_3)

In [None]:
ma_3_3 + 3

In [None]:
ma_3_3 * 10

In [None]:
ma_3_3 ** 2

In [None]:
10 / ma_3_3

Além dos operadores matemáticos, podemos utilizar os operadores booleanos para transformar um `array` numérico em um `array` booleano!

In [None]:
ma_3_3 > 0.5

### O método `.ravel()`

Nas aulas passadas de Python vimos varias formas diferentes de *achatarmos* listas. Quando queremos achatar um array, ou seja, transforma-lo em um vetor, temos um método específico para isso: `.ravel()`!

In [None]:
print(ma_3_3)

In [None]:
ma_3_3.ravel()

O método `.ravel()` *desempilha* as linhas de uma matriz,  como será que ele se comporta em `arrays` de mais dimensões?

In [None]:
ma_2_2_2 = np.random.random((2,2,2))
print(ma_2_2_2)

In [None]:
ma_2_2_2.ravel()

### Indexação Booleana - o conceito de Máscara

Além da indexação através de `ints` e `slices`, os `arrays` nos oferecem indexação atraves de iteráveis de `booleanos`. Vamos ver um exemplo simples na prática para entender os usos deste tipo de indexação.

In [None]:
vec_5 = np.random.random(5)
print(vec_5)

Indexação por `ints`:

In [None]:
vec_5[3]

Indexação por `slices`:

In [None]:
vec_5[2:5]

Agora, indexação por `bool`!

In [None]:
mask = [True, False, False, False, True]
vec_5[mask]

O que aconteceu? 

- Criamos uma lista de `bools` com o mesmo tamanho do vetor;
- Passamos essa lista como índice do vetor;
- O resultado retornou apenas as posições do vetor onde a posição equivalente da lista era `True`!

Vamos combinar esta indexação com o comportamento dos operadores booleanos (`==`, `<`, `<=`, etc...) para entender porque isso é tão útil!

In [None]:
mask = vec_5 < 0.5
print(mask)

In [None]:
vec_5[mask]

Ou seja, combinando esses dois comportamentos, conseguimos filtrar vetores através de condicionais!

### Métodos de Agregação

Além do método `.ravel()`, os `arrays` possuem métodos para realizar a agregação de valores (por exemplo, a média de um vetor, ou a soma de todos os elementos em uma matriz).

In [None]:
vec_5 = np.random.random(5)
print(vec_5)

In [None]:
ma_3_3 = np.random.random((3,3))
print(ma_3_3)

#### Média - `.mean()`

In [None]:
vec_5.mean()

In [None]:
ma_3_3.mean()

#### Soma - `.sum()`

In [None]:
vec_5.sum()

In [None]:
ma_3_3.sum()

#### O conceito de eixo - `axis`

Se pensarmos que matrizes são tabelas de dados, muitas vezes queremos realizar a agregação apenas sobre um eixo: a média de cada coluna ou o total de cada linha.

Os métodos de agregação contem um argumento que nos permite especificar sobre qual eixo queremos realizar a operação: o argumento `axis`. Cada eixo de um `array` é uma de suas dimensões: o primeiro eixo são as linhas, o segundo as colunas, etc... A ordem dos eixos (e índice) dos eixos é dada pelo atributo `.shape`!

In [None]:
ma_4_2 = np.random.random((4,2))
print(ma_4_2)
print(ma_4_2.shape)
print(ma_4_2.sum())

Agora vamos usar o método `.sum()` para calcular o total das colunas. Isso significa que queremos **colapsar** as linhas: saíremos de uma matriz (4, 2) para um vetor (2, ).

Para fazer isso precisamos especificar através do argumento `axis` qual eixo queremos colapsar através do indice deste eixo - como queremos colapsar as linhas, o 4 em (4, 2), o `axis` será 0.

In [None]:
ma_4_2.sum(axis = 0)

In [None]:
ma_4_2.sum(axis = 0).shape

Podemos fazer o mesmo para calcular o total das linhas. Nesse caso, estaremos saíndo de uma matriz `(4, 2)` para um vetor `(4, )`, ou seja, estamos colapsando o `2`, que tem indice 1 no atributo shape. Logo o axis agora será 1!

In [None]:
ma_4_2.sum(axis = 1)

### Operações entre `np.arrays`

Os operadores matemáticos podem ser utilizados entre dois `arrays` - no entanto precisamos prestar atenção ao `.shape` de cada `array`.

In [None]:
matriz_4_3 = np.array([[1, 1, 1],
                       [2, 2, 2],
                       [3, 3, 3],
                       [4, 4, 4]])
print(matriz_4_3)

In [None]:
matriz_4_3 + matriz_4_3

Sempre podemos somar duas `arrays` com o mesmo `.shape`. Essa operação retornará um `array` com a soma elemento a elemento entre as duas matrizes.

A mesma operação pode ser feita com vetores:

In [None]:
vetor_3 = np.array([5, 12, 1.8])
print(vetor_3)

In [None]:
vetor_3 + matriz_4_3

Quando somamos um vetor à uma matriz, este vetor precisa ter # de elementos igual ao número de colunas na matriz. O resultado será a soma do vetor à cada linha da matriz.

Outros operadores matemáticos operam da mesma forma: o numpy irá realizar a operação elemento à elemento entre os dois `arrays`.

In [None]:
vetor_3 * matriz_4_3

In [None]:
matriz_4_3 ** vetor_3

### O método `.transpose()`

Podemos *girar* uma matriz, ou seja, trocar suas linhas e colunas, através do método `.transpose()`.

In [None]:
print(matriz_4_3)
print(matriz_4_3.transpose())

Como podemos ver, uma matriz 4x3 vira uma matriz 3x4. Isso nos permite somar um vetor às colunas de uma matriz:

In [None]:
vetor_4 = np.array([10,10,10,10])
print(vetor_4)

In [None]:
matriz_4_3 + vetor_4

In [None]:
matriz_4_3.transpose() + vetor_4

Podemos voltar ao formato original transpondo o resultado da soma:

In [None]:
(matriz_4_3.transpose() + vetor_4).transpose()

### O método `.reshape()`

O método `.reshape()` nos permite alterar o `.shape` de um array. Para tanto precisamos especificar uma tupla para o novo shape, tal que o número de elementos na matriz se mantenha.

In [None]:
matriz_4_3.size

In [None]:
matriz_4_3.reshape((2,6))

In [None]:
matriz_4_3.reshape((5,3))

## Aplicações de matrizes n-dimensionais

Uma utilização comum de `arrays` 3-D é a representação de imagens. Na verdade, toda imagem colorida é um array 3-D!

Vamos nos divertir um pouco aplicando o que aprendemos de forma ludica!

In [None]:
from sklearn.datasets import load_sample_image
import matplotlib.pyplot as plt
image = load_sample_image('flower.jpg')
plt.imshow(image)

In [None]:
print(type(image))

In [None]:
print(image.shape)
print(image.size)

In [None]:
image_r = image[:,:,0] * 10
image_g = image[:,:,1] + 1
image_b = image[:,:,2] + 100
new_image = np.dstack([image_r, image_g, image_b])

plt.imshow(new_image)

In [None]:
def fatores_inteiros(num):
    fatores = [valor for valor in range(200, 600) if num % valor == 0]
    return fatores

In [None]:
fatores_inteiros(273280)

In [None]:
plt.imshow(image.reshape(560, int(273280/560), 3))

In [None]:
plt.imshow(image_r)

In [None]:
np.min(image_r+1)

In [None]:
plt.imshow(np.log(np.full(image_r.shape, 1)+image_r) + np.log(np.full(image_g.shape, 1)+image_g))

In [None]:
U, s, V = np.linalg.svd(np.log(np.full(image_r.shape, 1)+image_r)) 

num_components = 3
reconst_img_5 = np.matrix(U[:, :num_components]) * np.diag(s[:num_components]) * np.matrix(V[:num_components, :])
plt.imshow(reconst_img_5)