<a href="https://colab.research.google.com/github/joaoholandaa/numpy/blob/main/numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Numpy**

In [1]:
import os
import numpy as np
import pandas as pd

from pathlib import Path

%config Completer.use_jedi = False

##**Criação**<br>
Array são objetos que armazenam estruturas sequênciais de dados de tipo e tamanhos determinados que apontam para uma sequência de dados na memória RAM. Em Python, a biblioteca que lida com essas estruturas é o Numpy que não só oferece as funcionalidades clássicas de um array (que pode ser vistas em C, C++, Java...), mas também propriedades vetoriais utilizadas em operações em álgebra linear. <br> <br>
Criar um array é uma tarefa simples, que pode ser realizada por meio de uma lista como abaixo.

In [2]:
array = np.array([1, 2, 3, 4, 5])
array

array([1, 2, 3, 4, 5])

In [3]:
matriz = np.array([[1, 2, 3], [4, 5, 6]])
matriz

array([[1, 2, 3],
       [4, 5, 6]])

Ao fazer isso estaremos alocando os valores selecionados dentro da RAM do computador em endereços sequênciais, igualmente espaçados de acordo com o tipo de dado do array.<br><br>

Dado isso, é fácil perceber que um array tem as seguintes características que podem ser acessadas na forma de atributos deste objeto:

- dtype: O tipo de dados do array
- shape: O tamanho do array em linhas e colunas
- size: O tamanho do array em quantidade de elementos
- itemsize: O consumo de memória de cada elemento do array (em bytes)
- strides: Uma distancia em bytes entre os elementos armazenados na memória

In [4]:
print(
    f"array: dtype={array.dtype} | shape={array.shape} | size={array.size} "
    f"| itemsize={array.itemsize} | strides={array.strides}"
)

print(
    f"matriz: dtype={matriz.dtype} | shape={matriz.shape} | size={matriz.size} "
    f"| itemsize={matriz.itemsize} | strides={matriz.strides}"
)

array: dtype=int64 | shape=(5,) | size=5 | itemsize=8 | strides=(8,)
matriz: dtype=int64 | shape=(2, 3) | size=6 | itemsize=8 | strides=(24, 8)


Dado que inicializações de diferentes tipos de array são bastante comuns, a biblioteza contém uma série de funcionalidades que permitem criar arrays com diferentes tipos de dados. <br><br>
**np.zeros** -> Cria um array preenchido com zeros.

In [5]:
np.zeros(shape=(3, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

**np.ones** -> Cria um array preenchido com "um's".

In [6]:
np.ones(shape=(3, ))

array([1., 1., 1.])

**np.eye** -> Cria a matriz identidade com o tamanho especificado.

In [7]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

**np.arange** -> Mesma coisa que a função range, só que para arrays.

In [8]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

**np.linspace** -> Cria um array entre dois números espaçados linearmente.

In [9]:
np.linspace(5, 10, num=5)

array([ 5.  ,  6.25,  7.5 ,  8.75, 10.  ])

**np.logspace** -> Cria um array entre dois números espaçados logaritmicamente.

In [10]:
np.logspace(0, 1, 3)

array([ 1.        ,  3.16227766, 10.        ])

**np.random.int** -> Cria um array de valores aleatórios entre um valor menor e maior (exclusivo).

In [11]:
np.random.randint(0, 10, size=(5,5))

array([[2, 0, 6, 4, 6],
       [9, 7, 9, 4, 5],
       [7, 3, 9, 3, 1],
       [6, 1, 9, 9, 3],
       [0, 6, 2, 2, 9]])

**np.random.normal** -> Cria um array aleatório com valores baseados em uma distribuição normal.

In [12]:
np.random.normal(1, 2, 10)

array([ 2.78330553,  1.65785123,  2.32848251, -0.62132574,  2.6138556 ,
        4.24364608, -0.75914664,  1.83944802,  1.94965863,  0.68709567])

É interessante notar que algumas dessas funções não permitem passar o tamanho do array (como o np.arange), por muitas vezes é comum combiná-las com o método reshape.

In [13]:
a = np.arange(12)
a = a.reshape(3, 4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

##**Tipagem**<br>
Uma das diferenças mais gritantes entre arrays e listas é sua tipagem. Enquanto listas podem conter múltiplos tipos de dados (inteiros, strings, floats, etc) arrays tendem a tipagem fixa e tal tipagem pode ser modificda utilizando o método astype.

In [14]:
arr = np.array([1, 2, 3])
print(arr.dtype, arr)

int64 [1 2 3]


##**Indexação**<br>
Tal como listas os arrays são objetos indexáveis de maneira similar, de forma que a sintaxe de chaves e os slices funcionam normalmente.


In [18]:
array = np.arange(1, 10)
matriz = np.random.normal(1, 2, (3, 3))

print(array)
print(matriz)

[1 2 3 4 5 6 7 8 9]
[[ 0.04657737 -2.22317816  3.02394784]
 [ 3.02555509  1.91865306  2.44759395]
 [ 1.62143499 -0.01076022 -0.03617188]]


In [19]:
array[0]

1

In [20]:
matriz[2][-1]

-0.03617187509410269

In [21]:
matriz[1]

array([3.02555509, 1.91865306, 2.44759395])

In [22]:
array[::2]

array([1, 3, 5, 7, 9])

Entretanto o Numpy oferece uma maneira adicional de indexar elementos selecionando múltiplos índices por meio de uma lista.

In [23]:
array[1:3]

array([2, 3])

In [24]:
array[[1, 2]]

array([2, 3])

Por fim, Numpy oferece a flexibilidade, especialmente com matrizes, de selecionar os elementos de linhas e colunas em conjunto por meio da sintaxe de "," na qual fornecemos dois slices, o primeiro selecionando linhas e o segundo selecionando colunas.

In [25]:
matriz[:, 1]

array([-2.22317816,  1.91865306, -0.01076022])

In [26]:
matriz[1, 2]

2.447593949901801

In [27]:
matriz[:, [1, 2]]

array([[-2.22317816,  3.02394784],
       [ 1.91865306,  2.44759395],
       [-0.01076022, -0.03617188]])

In [28]:
arr = np.array([1, 2, 3])
arr = arr.astype("float")
print(arr.dtype, arr)

float64 [1. 2. 3.]


In [29]:
arr = np.array([1, 2, 3], dtype=np.uint8)
print(arr.dtype, arr)

uint8 [1 2 3]


In [30]:
arr = np.array(["olá", 2.1, [2, 3, 4]], dtype="object")
arr.shape

(3,)

##**Mutabilidade**<br>
Diferente de listas arrays são objetos imutáveis em tamanho e tipo (como visto acima, para mudar o tipo de array é criado um novo).


In [31]:
arr = np.array([1, 2, 3])
'''
arr.append(4)
Gera um erro!
'''

'\narr.append(4)\nGera um erro!\n'

Entretanto, diferente de tuplas, arrays são mútaveis em conteúdo.

In [32]:
arr[2] = 5
arr

array([1, 2, 5])

Ao tentar mudar o valor de um elemento o Numpy o converterá para a tipagem adequada quando possível.

In [33]:
arr[1] = 1.7334
arr

array([1, 1, 5])

In [34]:
arr[1] = "3"
arr

array([1, 3, 5])

In [35]:
'''
arr[1] = "3.2"
arr
Gera um erro!
'''

'\narr[1] = "3.2"\narr\nGera um erro!\n'

É interessante notar como funciona a alocação de memória para transformações particulares do array que podem afetar sua mutabilidade. Por exemplo, suponhamos que temos os arrays a, b e c todos criados a partir de transformações do vetor a.

In [36]:
a = np.arange(12, dtype="int64")
b = a.reshape(3, 4)
c = a[::2]
print(a)
print(b)
print(c)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  2  4  6  8 10]


O que acontece, neste caso, se eu alterar o vetor a?

In [37]:
a[0] = -1
print(a)
print(b)
print(c)

[-1  1  2  3  4  5  6  7  8  9 10 11]
[[-1  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[-1  2  4  6  8 10]


Veja que se altera os vetores b e c. Isso acontece porque na visão de memória esses vetores apontam para a mesma localização na RAM.

In [38]:
print(f"a: dtype={a.dtype} | shape={a.shape} | size={a.size} | itemsize={a.itemsize} | strides={a.strides}")
print(f"b: dtype={b.dtype} | shape={b.shape} | size={b.size} | itemsize={b.itemsize} | strides={b.strides}")

a: dtype=int64 | shape=(12,) | size=12 | itemsize=8 | strides=(8,)
b: dtype=int64 | shape=(3, 4) | size=12 | itemsize=8 | strides=(32, 8)


Da mesma forma o vetor c é uma representação especial do vetor a, na qual mudamos o valor de passo entre elementos do array.

In [39]:
print(f"a: dtype={a.dtype} | shape={a.shape} | size={a.size} | itemsize={a.itemsize} | strides={a.strides}")
print(f"c: dtype={c.dtype} | shape={c.shape} | size={c.size} | itemsize={c.itemsize} | strides={c.strides}")

a: dtype=int64 | shape=(12,) | size=12 | itemsize=8 | strides=(8,)
c: dtype=int64 | shape=(6,) | size=6 | itemsize=8 | strides=(16,)


Por fim é importante lembrar que tal como listas e dicionário, arrays são passados como referência em função, de forma que qualquer alteração no array feito dentro de uma função será carregada para fora da mesma.

In [40]:
def muda_a(a):
  a[1] = 12890
print(a)
muda_a(a)
print(a)
print(b)
print(c)

[-1  1  2  3  4  5  6  7  8  9 10 11]
[   -1 12890     2     3     4     5     6     7     8     9    10    11]
[[   -1 12890     2     3]
 [    4     5     6     7]
 [    8     9    10    11]]
[-1  2  4  6  8 10]


##**Operações**<br>
Como descrito anteriormente, Numpy é uma biblioteca de álgebra linear, de forma que suporta todas as operações vetoriais tradicionais.

In [41]:
np.random.seed(42)
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
m1 = np.random.randint(1, 10, size=(3, 3))
m2 = np.random.randint(1, 10, size=(3, 3))

print(m1)
print(m2)

[[7 4 8]
 [5 7 3]
 [7 8 5]]
[[4 8 8]
 [3 6 5]
 [2 8 6]]


Soma

In [42]:
arr1 + arr2

array([5, 7, 9])

In [43]:
np.add(arr1, arr2)

array([5, 7, 9])

Subtração

In [44]:
arr1 - arr2

array([-3, -3, -3])

In [45]:
np.subtract(arr1, arr2)

array([-3, -3, -3])

Multiplicação (escalar)

In [46]:
arr1 * 2

array([2, 4, 6])

In [47]:
arr1 * 2.1

array([2.1, 4.2, 6.3])

In [48]:
np.multiply(arr1, 2)

array([2, 4, 6])

Multiplicação (element-wise)

In [49]:
arr1 * arr2

array([ 4, 10, 18])

In [50]:
np.multiply(arr1, arr2)

array([ 4, 10, 18])

Multiplicação (produto vetorial)

In [51]:
sum(arr1 * arr2)

32

In [52]:
arr1.dot(arr2)

32

In [53]:
np.dot(arr1, arr2)

32

Multiplicação (cruzada)

In [54]:
np.cross(arr1, arr2)

array([-3,  6, -3])

Multiplicação (matricial)

In [55]:
m1@m2

array([[ 56, 144, 124],
       [ 47, 106,  93],
       [ 62, 144, 126]])

In [56]:
np.matmul(m1, m2)

array([[ 56, 144, 124],
       [ 47, 106,  93],
       [ 62, 144, 126]])

Divisão

In [57]:
arr1 / arr2

array([0.25, 0.4 , 0.5 ])

In [58]:
np.divide(arr1, arr2)

array([0.25, 0.4 , 0.5 ])

Exponenciação

In [59]:
arr1 ** 2

array([1, 4, 9])

In [60]:
arr1 ** arr2

array([  1,  32, 729])

In [61]:
np.power(arr1, arr2)

array([  1,  32, 729])

Módulo de um vetor

In [62]:
sum(arr1 * arr1) ** 0.5

3.7416573867739413

In [63]:
np.linalg.norm(arr1)

3.7416573867739413

Determinante de uma matriz

In [64]:
np.linalg.det(m1)

-11.00000000000003

Matriz inversa

In [65]:
np.linalg.inv(m1)

array([[-1.        , -4.        ,  4.        ],
       [ 0.36363636,  1.90909091, -1.72727273],
       [ 0.81818182,  2.54545455, -2.63636364]])

Matriz transposta

In [66]:
np.transpose(m1)

array([[7, 5, 7],
       [4, 7, 8],
       [8, 3, 5]])

In [67]:
m1.T

array([[7, 5, 7],
       [4, 7, 8],
       [8, 3, 5]])

In [68]:
arr1.T

array([1, 2, 3])

Uma propriedade especial de arrays é o "broadcasting", na qual uma operação pode ser propagada entre arrays de diferentes tamanhos contanto que obedeçam algumas propriedades específicas. Por exemplo, podemos somar dois arrays de tamanhos diferentes, contanto que possamos "reproduzir" um deles para ficar com o tamanho do outro.

In [69]:
arr3 = np.array([1, 2, 3, 4])

In [70]:
arr3 = np.array([[1, 2, 3], [4, 5, 6]])

In [71]:
arr3 + arr1

array([[2, 4, 6],
       [5, 7, 9]])

In [72]:
arr3 * arr1

array([[ 1,  4,  9],
       [ 4, 10, 18]])

###**Representações**<br>
Há alguns elementos matemáticos que possuem representações especiais no Numpy.<br>
np.nan -> Not a Number, é a representação de um dado faltante.

In [73]:
arr = np.array([1, 2, np.nan, 4])
arr

array([ 1.,  2., nan,  4.])

In [74]:
np.isnan(arr)

array([False, False,  True, False])

In [75]:
np.zeros(3)/0

  np.zeros(3)/0


array([nan, nan, nan])

É importante destacar que None e NaN não são a mesma coisa. Not a Number indica um operação matemárica ou um dado númerico não existente dentro de um array, enquanto None é o objeto nulo do Python.

np.inf -> Infinito, representa valores infinitos.

In [78]:
arr = np.array([1, 2, np.inf, 4, -np.inf])
arr

array([  1.,   2.,  inf,   4., -inf])

In [79]:
np.isfinite(arr)

array([ True,  True, False,  True, False])

In [80]:
np.ones(3)/0

  np.ones(3)/0


array([inf, inf, inf])

Constantes numéricas:
- np.pi: 3.14 (constante PI)
- np.e: 2.72 (número de euler)

In [81]:
np.pi

3.141592653589793

In [82]:
np.e

2.718281828459045