# Aula 13 - NumPy

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) NumPy

_____________

### Problema gerador: como fazer facilmente operações elemento a elemento em listas?

Isto é, suponha que eu tenho duas listas, e quero somar os elementos delas em uma terceira lista. Como fazer isso facilmente?

___

In [1]:
lista1 = [1, 2, 3, 4]
lista2 = [10, 20, 30, 40]

In [2]:
lista3 = [11, 22, 33, 44]

In [3]:
lista1 + lista2

[1, 2, 3, 4, 10, 20, 30, 40]

In [4]:
lista3 = []

for i in range(len(lista1)):
    
    lista3.append(lista1[i] + lista2[i])
    
lista3

[11, 22, 33, 44]

Hoje vamos conhecer uma bilioteca que permite que façamos estas operações de maneira bem simples!

___

## 1) NumPy

A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que já conhecemos, além de várias outras bibliotecas importantes pra ciência de dados!

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, ou, de forma mais genérica, **tensores**.

<img src="https://predictivehacks.com/wp-content/uploads/2020/08/numpy_arrays-1024x572.png" width=500>

In [5]:
import numpy as np

#### Criando arrays

Pra criar arrays a partir de uma lista, basta utilizar a função **np.array()**

In [7]:
# array a partir de uma lista

lista1

[1, 2, 3, 4]

In [9]:
arr = np.array(lista1)

arr

array([1, 2, 3, 4])

In [10]:
arr

array([1, 2, 3, 4])

In [11]:
print(arr)

[1 2 3 4]


#### Outras formas de inicializar arrays...

In [12]:
# Array de zeros com np.zeros(n)

np.zeros(5)

array([0., 0., 0., 0., 0.])

In [13]:
# Criando array só com 1s com np.ones(n)

np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [14]:
np.array([5, 5, 5])

array([5, 5, 5])

In [15]:
np.fives(3)

AttributeError: module 'numpy' has no attribute 'fives'

In [17]:
# Criando array de números em sequência com o np.arange() - análogo ao range()!

list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [18]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
# se não explicitar o passo, o padrão será 1
# se der apenas um argumento, o padrão é começar em 0 com passo 1
# ou seja, será uma sequência com o número indicado de elementos, iniciando em zero

np.arange(10, 20, 3)

array([10, 13, 16, 19])

In [22]:
# diferente do range, aqui podemos ter passo float

range(10, 20, 0.5)

TypeError: 'float' object cannot be interpreted as an integer

In [23]:
np.arange(10, 20, 0.5)

array([10. , 10.5, 11. , 11.5, 12. , 12.5, 13. , 13.5, 14. , 14.5, 15. ,
       15.5, 16. , 16.5, 17. , 17.5, 18. , 18.5, 19. , 19.5])

In [26]:
# np.linspace(): array com sequência de valores igualmente espaçados
# primeiro argumento: inicio do intervalo
# segundo argumento: fim do intervalo
# terceiro argumento: número de valores

np.linspace(10, 20, 50)

array([10.        , 10.20408163, 10.40816327, 10.6122449 , 10.81632653,
       11.02040816, 11.2244898 , 11.42857143, 11.63265306, 11.83673469,
       12.04081633, 12.24489796, 12.44897959, 12.65306122, 12.85714286,
       13.06122449, 13.26530612, 13.46938776, 13.67346939, 13.87755102,
       14.08163265, 14.28571429, 14.48979592, 14.69387755, 14.89795918,
       15.10204082, 15.30612245, 15.51020408, 15.71428571, 15.91836735,
       16.12244898, 16.32653061, 16.53061224, 16.73469388, 16.93877551,
       17.14285714, 17.34693878, 17.55102041, 17.75510204, 17.95918367,
       18.16326531, 18.36734694, 18.57142857, 18.7755102 , 18.97959184,
       19.18367347, 19.3877551 , 19.59183673, 19.79591837, 20.        ])

In [41]:
# np.random.rand()
# array com valores aleatorios de uma distribuição uniforme entre 0 e 1 (exclusivo)

np.random.seed(10)

np.random.rand(10)

array([0.77132064, 0.02075195, 0.63364823, 0.74880388, 0.49850701,
       0.22479665, 0.19806286, 0.76053071, 0.16911084, 0.08833981])

In [49]:
# np.random.randint()
# array com inteiros aleatórios dentro de um intervalo
# argumentos: início do intervalo, fim do intervalo (exclusivo), quantidade de números

np.random.randint(10, 100, 20)

array([85, 96, 47, 21, 31, 43, 53, 98, 83, 50, 53, 81, 18, 95, 82, 38, 40,
       99, 35, 88])

In [51]:
np.arange(10, 101)

array([ 10,  11,  12,  13,  14,  15,  16,  17,  18,  19,  20,  21,  22,
        23,  24,  25,  26,  27,  28,  29,  30,  31,  32,  33,  34,  35,
        36,  37,  38,  39,  40,  41,  42,  43,  44,  45,  46,  47,  48,
        49,  50,  51,  52,  53,  54,  55,  56,  57,  58,  59,  60,  61,
        62,  63,  64,  65,  66,  67,  68,  69,  70,  71,  72,  73,  74,
        75,  76,  77,  78,  79,  80,  81,  82,  83,  84,  85,  86,  87,
        88,  89,  90,  91,  92,  93,  94,  95,  96,  97,  98,  99, 100])

In [56]:
# array de inteiros aleatorios sem reposição

np.random.choice(np.arange(10, 101), 20, replace=False)

array([94, 95, 50, 91, 21, 40, 39, 36, 47, 80, 55, 49, 14, 84, 62, 64, 10,
       60, 69, 20])

In [59]:
# np.random.normal()
# array com números aleatórios de uma distribuição normal (gaussiana)
# argumentos: média, desvio padrão, quantidade de números

np.random.normal(0, 1, 20)

array([ 0.64240224,  0.35391273,  0.18905934,  0.39189534, -0.25791779,
        0.27052142,  0.20767358,  0.32091083, -0.57922817,  0.57946424,
        0.42987133,  0.10899376,  1.47401228,  0.46103756,  0.75084293,
        1.18846317, -0.09800878,  0.97964785,  2.20274597, -0.44942869])

#### Indexação

É possível acessar elementos individuais dos arrays pelos **índices**, da mesma forma que fazemos com listas.

In [61]:
# indexação de arrays - igualzinho a listas

arr = np.arange(2, 50, 3)

arr

array([ 2,  5,  8, 11, 14, 17, 20, 23, 26, 29, 32, 35, 38, 41, 44, 47])

In [62]:
arr[3]

11

In [63]:
arr[-3]

41

In [64]:
arr[:4]

array([ 2,  5,  8, 11])

In [65]:
arr[-5:]

array([35, 38, 41, 44, 47])

In [66]:
arr[3:5]

array([11, 14])

#### Operações com arrays

É possível fazer operações matemáticas **elemento a elemento** com os arrays, de forma bem simples:

In [67]:
arr1 = np.random.randint(10, 50, 7)
arr2 = np.linspace(1, 10, 7)

In [68]:
print(arr1)
print(arr2)

[28 49 13 43 26 19 46]
[ 1.   2.5  4.   5.5  7.   8.5 10. ]


In [70]:
lista1 = arr1.tolist()
lista2 = arr2.tolist()

In [71]:
lista1 + lista2

[28, 49, 13, 43, 26, 19, 46, 1.0, 2.5, 4.0, 5.5, 7.0, 8.5, 10.0]

In [72]:
arr1 + arr2

array([29. , 51.5, 17. , 48.5, 33. , 27.5, 56. ])

In [74]:
arr1

array([28, 49, 13, 43, 26, 19, 46])

In [75]:
arr1 + 2

array([30, 51, 15, 45, 28, 21, 48])

In [76]:
arr1 * 2

array([56, 98, 26, 86, 52, 38, 92])

In [79]:
lista1 * 2

[28, 49, 13, 43, 26, 19, 46, 28, 49, 13, 43, 26, 19, 46]

In [77]:
lista1 + 2

TypeError: can only concatenate list (not "int") to list

In [80]:
[elemento + 2 for elemento in lista1]

[30, 51, 15, 45, 28, 21, 48]

In [81]:
arr1 + 2

array([30, 51, 15, 45, 28, 21, 48])

Isso é muito útil para criarmos arrays com números repetidos, que não sejam 1 ou 0:

In [82]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [85]:
np.ones(10)*5

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

In [87]:
np.zeros(10) + 5

array([5., 5., 5., 5., 5., 5., 5., 5., 5., 5.])

In [89]:
np.ones(10)*3.14

array([3.14, 3.14, 3.14, 3.14, 3.14, 3.14, 3.14, 3.14, 3.14, 3.14])

#### Podemos também fazer operações elemento a elemento entre dois arrays

In [90]:
arr1 + 5

array([33, 54, 18, 48, 31, 24, 51])

In [91]:
arr1 + arr2

array([29. , 51.5, 17. , 48.5, 33. , 27.5, 56. ])

In [92]:
arr1 * arr2

array([ 28. , 122.5,  52. , 236.5, 182. , 161.5, 460. ])

In [93]:
arr1 / arr2

array([28.        , 19.6       ,  3.25      ,  7.81818182,  3.71428571,
        2.23529412,  4.6       ])

In [94]:
arr2 / arr1

array([0.03571429, 0.05102041, 0.30769231, 0.12790698, 0.26923077,
       0.44736842, 0.2173913 ])

In [96]:
arr3 = np.arange(7)

arr3

array([0, 1, 2, 3, 4, 5, 6])

In [98]:
arr1/arr3

  arr1/arr3


array([        inf, 49.        ,  6.5       , 14.33333333,  6.5       ,
        3.8       ,  7.66666667])

#### Métodos

Vamos agora introduzir algums nétodos muito úteis que são aplicados a arrays -- e muitos são herdados pelo Pandas!

In [100]:
np.random.seed(42)

arr = np.random.randint(0, 500, 50)

arr

array([102, 435, 348, 270, 106,  71, 188,  20, 102, 121, 466, 214, 330,
       458,  87, 372,  99, 359, 151, 130, 149, 308, 257, 343, 491, 413,
       293, 385, 191, 443, 276, 160, 459, 313,  21, 252, 235, 344,  48,
       474,  58, 169, 475, 187, 463, 270, 189, 445, 174, 445])

In [101]:
# maior valor

arr.max()

491

In [102]:
# indice do elemento máximo

arr.argmax()

24

In [105]:
# menor valor

arr.min()

20

In [106]:
# indice do elemento minimo

arr.argmin()

7

In [108]:
arr

array([102, 435, 348, 270, 106,  71, 188,  20, 102, 121, 466, 214, 330,
       458,  87, 372,  99, 359, 151, 130, 149, 308, 257, 343, 491, 413,
       293, 385, 191, 443, 276, 160, 459, 313,  21, 252, 235, 344,  48,
       474,  58, 169, 475, 187, 463, 270, 189, 445, 174, 445])

In [107]:
# soma de todos os items

arr.sum()

13159

In [109]:
# media dos elementos

arr.mean()

263.18

In [111]:
arr.sum()/len(arr)

263.18

In [113]:
arr.shape[0]

50

In [114]:
# desvio padrão

arr.std()

142.08654968011575

In [115]:
# Trocando o tipo dos dados nas lista com o .astype()

arr

array([102, 435, 348, 270, 106,  71, 188,  20, 102, 121, 466, 214, 330,
       458,  87, 372,  99, 359, 151, 130, 149, 308, 257, 343, 491, 413,
       293, 385, 191, 443, 276, 160, 459, 313,  21, 252, 235, 344,  48,
       474,  58, 169, 475, 187, 463, 270, 189, 445, 174, 445])

In [116]:
arr.dtype

dtype('int32')

In [117]:
arr.astype(float)

array([102., 435., 348., 270., 106.,  71., 188.,  20., 102., 121., 466.,
       214., 330., 458.,  87., 372.,  99., 359., 151., 130., 149., 308.,
       257., 343., 491., 413., 293., 385., 191., 443., 276., 160., 459.,
       313.,  21., 252., 235., 344.,  48., 474.,  58., 169., 475., 187.,
       463., 270., 189., 445., 174., 445.])

__________
___________

#### Matrizes

Até agora, todos os arrays que criamos foram **unidimensionais**, isto é, apareciam como uma lista com uma única linha. Esse tipo de array é conhecido como **vetor**, na matemática. Um exemplo:

In [121]:
matriz = [[1, 2, 3],
          [4, 5, 6]]

matriz[1][1]

5

In [126]:
print(matriz)

[[1, 2, 3], [4, 5, 6]]


In [123]:
matriz_arr = np.array(matriz)

In [125]:
print(matriz_arr)

[[1 2 3]
 [4 5 6]]


In [127]:
# array unidimensional (com o arrange)

arr = np.arange(10)

arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [128]:
# atributo .shape, que mostra qual é a dimensão do array
# notação: (numero_de_linhas, numero_de_colunas)

arr.shape

(10,)

No entanto, há situações em que é interessante termos uma **matriz**, que nada mais é que um array **bidimensional**, isto é, com **linhas e colunas**.

Vamos começar criando matrizes a partire do `reshape` de vetores:

In [129]:
# Criando uma matriz a partir de um vetor (array 1D) com o .reshape()
# IMPORTANTE: as novas dimensões devem bater com a dimensão original!

arr.reshape((5, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [130]:
arr.reshape((2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [131]:
arr.reshape((3, 3))

ValueError: cannot reshape array of size 10 into shape (3,3)

In [133]:
arr2 = np.random.randint(0, 100, 12)
arr2

array([59, 13,  8, 89, 52,  1, 83, 91, 59, 70, 43,  7])

In [134]:
arr2.reshape((6, 2))

array([[59, 13],
       [ 8, 89],
       [52,  1],
       [83, 91],
       [59, 70],
       [43,  7]])

In [135]:
arr2.reshape((3, 4))

array([[59, 13,  8, 89],
       [52,  1, 83, 91],
       [59, 70, 43,  7]])

In [139]:
matriz2 = arr2.reshape((4, 3))

In [138]:
arr2.reshape((2, 6))

array([[59, 13,  8, 89, 52,  1],
       [83, 91, 59, 70, 43,  7]])

Também é possível indexar matrizes!

Há duas formas de fazer isso:

In [141]:
matriz2

array([[59, 13,  8],
       [89, 52,  1],
       [83, 91, 59],
       [70, 43,  7]])

In [143]:
# elemento [3][1] (quarta linha, segunda coluna)

matriz2[3][1]

43

In [144]:
# elemento [3, 1] (quarta linha, segunda coluna)

matriz2[3, 1]

43

Também é possível selecionar fatias da matriz:

In [145]:
matriz2

array([[59, 13,  8],
       [89, 52,  1],
       [83, 91, 59],
       [70, 43,  7]])

In [147]:
matriz2[:2, :2]

array([[59, 13],
       [89, 52]])

In [149]:
matriz2[1:3, 1:]

array([[52,  1],
       [91, 59]])

Uma matriz bem importante (por ser o elemento neutro da multiplicação de matrizes) é a matriz identidade:

In [150]:
# Criando matriz identidade, np.eye()

np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [151]:
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

Também é possível inicializar matrizes diretamente, sempre que for possível especificar o argumento `shape` ou `size`:

In [155]:
np.arange(10).reshape((5, 2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [157]:
np.random.randint(100, 200, (3, 3))

array([[103, 153, 192],
       [162, 117, 189],
       [143, 133, 173]])

In [160]:
np.ones((3, 3))*7

array([[7., 7., 7.],
       [7., 7., 7.],
       [7., 7., 7.]])

#### Filtros (máscaras)

Uma das funções mais importantes do numpy é a possibilidade de construção de **filtros**, que também são chamados de **máscaras**

O objetivo dos filtros é **selecionar apenas os elementos de um array que satisfaçam determinada condição**

In [163]:
arr = np.random.randint(0, 100, 20)

In [166]:
arr

array([61, 99, 13, 94, 47, 14, 71, 77, 86, 61, 39, 84, 79, 81, 52, 23, 25,
       88, 59, 40])

Ao usar um **operador lógico** juntamente com um array, o numpy **aplica a operação lógica a cada um dos elementos do array**, retornando um **array de bools** com
o resultado de cada uma das operações lógicas:

In [169]:
arr > 50

array([ True,  True, False,  True, False, False,  True,  True,  True,
        True, False,  True,  True,  True,  True, False, False,  True,
        True, False])

Uma vez criado o filtro, é possível **utilizá-lo como indexador do array**, para selecionar **apenas os elementos com indice correspondente a True no filtro**

In [167]:
arr[arr>50]

array([61, 99, 94, 71, 77, 86, 61, 84, 79, 81, 52, 88, 59])

Mais um exemplo...

In [170]:
arr[arr<=50]

array([13, 47, 14, 39, 23, 25, 40])

Também é possível aplicar **filtros compostos**!

Pra fazer isso, nós fazems uma **composição lógica** entre os filtros (análogo ao "and" e ao "or")

No caso de arrays, usamos:

- "&" para "and"
- "|" para "or"
- "~" para "not"

In [171]:
arr = np.random.randint(0, 100, 50)

arr

array([28, 14, 44, 64, 88, 70,  8, 87,  0,  7, 87, 62, 10, 80,  7, 34, 34,
       32,  4, 40, 27,  6, 72, 71, 11, 33, 32, 47, 22, 61, 87, 36, 98, 43,
       85, 90, 34, 64, 98, 46, 77,  2,  0,  4, 89, 13, 26,  8, 78, 14])

In [173]:
# condição para pares

arr % 2 == 0

array([ True,  True,  True,  True,  True,  True,  True, False,  True,
       False, False,  True,  True,  True, False,  True,  True,  True,
        True,  True, False,  True,  True, False, False, False,  True,
       False,  True, False, False,  True,  True, False, False,  True,
        True,  True,  True,  True, False,  True,  True,  True, False,
       False,  True,  True,  True,  True])

In [174]:
arr[arr % 2 == 0]

array([28, 14, 44, 64, 88, 70,  8,  0, 62, 10, 80, 34, 34, 32,  4, 40,  6,
       72, 32, 22, 36, 98, 90, 34, 64, 98, 46,  2,  0,  4, 26,  8, 78, 14])

In [175]:
# condição para maiores que 50

arr[arr>50]

array([64, 88, 70, 87, 87, 62, 80, 72, 71, 61, 87, 98, 85, 90, 64, 98, 77,
       89, 78])

In [178]:
(arr % 2 == 0) & (arr>50)

array([False, False, False,  True,  True,  True, False, False, False,
       False, False,  True, False,  True, False, False, False, False,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False,  True, False, False,  True,
       False,  True,  True, False, False, False, False, False, False,
       False, False, False,  True, False])

In [177]:
# condição correspondente a números pares E maiores que 50

arr[(arr % 2 == 0) & (arr>50)]

array([64, 88, 70, 62, 80, 72, 98, 90, 64, 98, 78])

In [179]:
# filtrando numeros pares E maiores que 50

arr[(arr % 2 == 0) & (arr>50)]

array([64, 88, 70, 62, 80, 72, 98, 90, 64, 98, 78])

In [180]:
# numeros que são pares OU maiores que 50

arr[(arr % 2 == 0) | (arr>50)]

array([28, 14, 44, 64, 88, 70,  8, 87,  0, 87, 62, 10, 80, 34, 34, 32,  4,
       40,  6, 72, 71, 32, 22, 61, 87, 36, 98, 85, 90, 34, 64, 98, 46, 77,
        2,  0,  4, 89, 26,  8, 78, 14])

In [181]:
# filtrando numeros impares E maiores que 50

arr[(arr % 2 != 0) & (arr<50)]

array([ 7,  7, 27, 11, 33, 47, 43, 13])

In [186]:
arr[(~(arr % 2 == 0)) & (arr<50)]

array([ 7,  7, 27, 11, 33, 47, 43, 13])

___
___
___