# Aula 17

## NumPy: Numerical Python

Permite trabalhar com vetores e matrizes de $N$ dimensões, de uma forma comparável e com uma sintaxe semelhante ao Matlab. É uma poderosa biblioteca do Python que fornece um grande conjunto de funções e operações que ajudam na realização de cálculos numéricos. Esses tipos de cálculos numéricos são amplamente utilizados em tarefas como:

* **Modelos de Machine Learning:** os arrays NumPy são usados para armazenar os dados de treinamento, bem como os parâmetros dos modelos de Machine Learning.

* **Processamento de Imagem e Computação Gráfica**: imagens no computador são representadas como arrays multidimensionais de números. O NumPy fornece algumas excelentes funções de biblioteca para rápida manipulação de imagens. Alguns exemplos são o espelhamento de uma imagem, a rotação de uma imagem por um determinado ângulo etc.

* **Tarefas matemáticas**: é bastante útil para executar várias tarefas matemáticas como integração numérica, diferenciação, interpolação e muitas outras. O NumPy possui também funções incorporadas para álgebra linear e geração de números aleatórios. 

<img src="../Figuras/python_matlab.png" alt="drawing" width="500"/>

*Fonte*: https://medium.com/ensina-ai/entendendo-a-biblioteca-numpy-4858fde63355

In [1]:
#!pip install numpy #instalação da biblioteca no próprio notebook

In [2]:
import numpy as np 

Um **array NumPy** é uma extensão de um **array Python** (listas), que lida apenas com arrays unidimensionais.

In [3]:
minha_lista = [1, 2, 3, 4, 5]
print('Array Python (Listas):', minha_lista, ' -> Tipo:', type(minha_lista))
print()
meu_array = np.array(minha_lista)
print('Array NumPy:', meu_array, ' -> Tipo:', type(meu_array))

Array Python (Listas): [1, 2, 3, 4, 5]  -> Tipo: <class 'list'>

Array NumPy: [1 2 3 4 5]  -> Tipo: <class 'numpy.ndarray'>


In [4]:
minha_lista*2

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

In [5]:
meu_array*2

array([ 2,  4,  6,  8, 10])

O **ndarray**, um objeto fundamental do NumPy, é uma matriz $n$-dimensional, isso significa que ele contém uma **coleção de elementos do mesmo tipo** (dados homogêneos) indexados usando $n$ números inteiros (dimensão da matriz).

Todo array possui uma forma (`shape`), uma tupla indicando o tamanho de cada dimensão e um `dtype`, um objeto que descreve o tipo de dados da matriz. 

## Tipo Array

### Criando ndarrays

In [6]:
dados1 = [1, 1.5, 2, 2.5]
arr1 = np.array(dados1)
print(arr1)
arr1

[1.  1.5 2.  2.5]


array([1. , 1.5, 2. , 2.5])

Sequências aninhadas, como uma lista de listas de igual comprimento, serão convertidas em uma matriz multidimensional:

In [7]:
dados2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(dados2)
print(arr2)
arr2

[[1 2 3 4]
 [5 6 7 8]]


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [8]:
dados3 = [[1, 2, 3, 4], [5, 6, 7]] # sublistas de tamanhos diferentes não são convertidas em uma matriz
arr3 = np.array(dados3)
print(arr3)
arr3

[list([1, 2, 3, 4]) list([5, 6, 7])]


array([list([1, 2, 3, 4]), list([5, 6, 7])], dtype=object)

In [9]:
print('Dimensão de arr1:', arr1.ndim)
print('Shape de arr1:', arr1.shape)
print()
print('Dimensão de arr2:', arr2.ndim)
print('Shape de arr2:', arr2.shape)
print()
print('Dimensão de arr3:', arr3.ndim)
print('Shape de arr3:', arr3.shape)

Dimensão de arr1: 1
Shape de arr1: (4,)

Dimensão de arr2: 2
Shape de arr2: (2, 4)

Dimensão de arr3: 1
Shape de arr3: (2,)


In [10]:
shape2 = arr2.shape
print('O arr2 possui', shape2[0], 'linhas e', shape2[1], 'colunas.')

O arr2 possui 2 linhas e 4 colunas.


A menos que seja explicitamente especificado, o `np.array` tenta inferir um bom tipo de dados para a matriz que ele cria. O tipo de dados é armazenado em um objeto de metadados `dtype` especial.

In [11]:
print('Tipo de dados de arr1:', arr1.dtype)
print('Tipo de dados de arr2:', arr2.dtype)

Tipo de dados de arr1: float64
Tipo de dados de arr2: int32


Se você tiver um array de strings representando números, poderá usar `astyp(float)` para converter os dados para a forma numérica:

In [12]:
np.array(['1', '1.5', '2', '2.5']).astype(float)
#np.array(['1', '1.5', '2', '2.5']).astype(int) # dá erro! 

array([1. , 1.5, 2. , 2.5])

In [13]:
np.array([1, 1.5, 2, 2.5]).astype(int)

array([1, 1, 2, 2])

Além do `np.array`, podemos criar arrays de outras formas. 

* `np.zeros` e `np.ones` criam arrays de 0s ou 1s, respectivamente, com um determinado comprimento.


* `np.empty` cria um array sem inicializar seus valores para qualquer valor específico.


Para criar arrays multidimensionais com esses métodos, passamos como parâmetro de entrada uma tupla com o tamanho desejado. 

In [14]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [15]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [16]:
np.empty((2, 3, 2))

array([[[4.75122333e-314, 2.86558075e-322],
        [0.00000000e+000, 0.00000000e+000],
        [1.11260619e-306, 3.76231868e+174]],

       [[4.71178587e-090, 1.04049503e-042],
        [8.26332953e-072, 5.20187310e-062],
        [6.48224659e+170, 5.82471487e+257]]])

**Obs.:** não podemos supor que `np.empty` retornará sempre uma matriz com todos os elemntos iguais a zero. Em alguns casos, pode retornar valores não inicializados de "lixo".

Outros métodos de criar um array.

In [17]:
np.arange(20)  # ==> np.arange(0,20,1) | (início, fim, passo)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [18]:
np.arange(2,21,2)

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18, 20])

In [19]:
np.arange(1,5,0.2)

array([1. , 1.2, 1.4, 1.6, 1.8, 2. , 2.2, 2.4, 2.6, 2.8, 3. , 3.2, 3.4,
       3.6, 3.8, 4. , 4.2, 4.4, 4.6, 4.8])

In [20]:
# Cria uma sequência de números uniformemente espaçados entre os limites dado
np.linspace(1,10,30) # (início, fim, número de pontos)

array([ 1.        ,  1.31034483,  1.62068966,  1.93103448,  2.24137931,
        2.55172414,  2.86206897,  3.17241379,  3.48275862,  3.79310345,
        4.10344828,  4.4137931 ,  4.72413793,  5.03448276,  5.34482759,
        5.65517241,  5.96551724,  6.27586207,  6.5862069 ,  6.89655172,
        7.20689655,  7.51724138,  7.82758621,  8.13793103,  8.44827586,
        8.75862069,  9.06896552,  9.37931034,  9.68965517, 10.        ])

In [21]:
# linspace(start, stop, num=50)
np.linspace(1,50) # o default é num=50

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.,
       14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25., 26.,
       27., 28., 29., 30., 31., 32., 33., 34., 35., 36., 37., 38., 39.,
       40., 41., 42., 43., 44., 45., 46., 47., 48., 49., 50.])

In [22]:
# Alguns exemplos de arrays com números aleatórios
print(np.random.random(5))
print()
print(np.random.randint(1,11,(2,3)))

[0.00450597 0.71195888 0.5688717  0.59092356 0.06923382]

[[9 6 7]
 [5 8 7]]


In [23]:
# Matriz Identidade de ordem n (matriz quadrada nxn)
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [24]:
print(np.eye(3))
print()
print(np.eye(3, 4))
print()
print(np.eye(3, 4, 1)) # matriz 3x4, com a diagonal acima da principal contendo as unidades

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]

[[0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [25]:
# Modificando as dimensões do array criado
a = np.arange(1,101)
a

array([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
        14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,
        27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,  52,
        53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,  65,
        66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,  78,
        79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,
        92,  93,  94,  95,  96,  97,  98,  99, 100])

In [26]:
b = a.reshape(4,25)
b

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,  13,
         14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25],
       [ 26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
         39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50],
       [ 51,  52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,
         64,  65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75],
       [ 76,  77,  78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,
         89,  90,  91,  92,  93,  94,  95,  96,  97,  98,  99, 100]])

In [27]:
b2 = np.arange(100).reshape(2,10,5)
b2

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39],
        [40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49]],

       [[50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59],
        [60, 61, 62, 63, 64],
        [65, 66, 67, 68, 69],
        [70, 71, 72, 73, 74],
        [75, 76, 77, 78, 79],
        [80, 81, 82, 83, 84],
        [85, 86, 87, 88, 89],
        [90, 91, 92, 93, 94],
        [95, 96, 97, 98, 99]]])

### Operações Aritméticas

Qualquer operação aritmética entre arrays de tamanho igual aplica a operação elemento a elemento.

In [28]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [29]:
arr*arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [30]:
arr-arr

array([[0, 0, 0],
       [0, 0, 0]])

In [31]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [32]:
arr2 = np.array([[0, 4, 1], [7, 2, 12]])
arr2

array([[ 0,  4,  1],
       [ 7,  2, 12]])

In [33]:
arr2>arr

array([[False,  True, False],
       [ True, False,  True]])

In [34]:
arr3 = np.array([10,20,30])

In [35]:
arr*arr3

array([[ 10,  40,  90],
       [ 40, 100, 180]])

### Indexação Simples e "Fatiamento"

Os itens de um array podem ser acessados e atribuídos da mesma forma que outras sequências do Python, como listas por exemplo.

Semelhante às listas, arrays também podem ser "fatiados". Como os arrays podem ser multidimensionais, você deve especificar uma "fatia" para cada dimensão do array. 

In [36]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [37]:
arr[5]

6

In [38]:
arr[5:8]

array([6, 7, 8])

In [39]:
arr[5:8] = 12 # o valor atribuído será propagado para toda a seleção
arr

array([ 1,  2,  3,  4,  5, 12, 12, 12,  9, 10])

Diferentemente do que ocorre com as listas, as "fatias" dos arrays são visualizações da matriz original. Isso significa que os dados não são copiados e quaisquer modificações dessas "fatias" serão refletidas no array de origem.

In [40]:
arr_fatia = arr[5:8]
arr_fatia

array([12, 12, 12])

In [41]:
arr_fatia[1] = 1234
arr_fatia

array([  12, 1234,   12])

In [42]:
arr

array([   1,    2,    3,    4,    5,   12, 1234,   12,    9,   10])

In [43]:
arr_fatia[:] = 0
arr

array([ 1,  2,  3,  4,  5,  0,  0,  0,  9, 10])

**POR QUE ISSO ACONTECE?** Como o NumPy foi projetado para funcionar com matrizes muito grandes, você pode imaginar problemas de desempenho e memória se o NumPy insistir em sempre copiar dados.

In [44]:
arr_copia = arr[:].copy()
arr_copia

array([ 1,  2,  3,  4,  5,  0,  0,  0,  9, 10])

In [45]:
arr_fatia = arr[5:8]
arr_fatia[:] = -1
arr_fatia

array([-1, -1, -1])

In [46]:
arr_copia

array([ 1,  2,  3,  4,  5,  0,  0,  0,  9, 10])

In [47]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [48]:
arr2d[2]

array([7, 8, 9])

In [49]:
#Podemos acessar um elemento aij da matriz A de duas formas:
print(arr2d[0][2]) # a[i][j]
print(arr2d[0, 2]) #a[i,j]

3
3


In [50]:
arr2d[0, 2] + arr2d[1, 1] 

8

In [51]:
arr2d[:2] # seleciona as duas primeiras linhas de arr2d

array([[1, 2, 3],
       [4, 5, 6]])

In [52]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [53]:
arr2d[:, 2] # seleciona todas as linhas da terceira coluna

array([3, 6, 9])

In [54]:
print(arr2d[2, :])
print(arr2d[2, :].shape)
arr2d[2, :]

[7 8 9]
(3,)


array([7, 8, 9])

In [55]:
print(arr2d[2:, :])
print(arr2d[2:, :].shape)
arr2d[2:, :]

[[7 8 9]]
(1, 3)


array([[7, 8, 9]])

**Cuidado!*** Os arrays aparentemente são iguais, mas as dimensões deles são diferentes. O primeiro é um vetor coluna e o segundo, um vetor linha. 