<strong><font size = "4" color = "black">Introdução à Ciência de Dados</font></strong><br>
<font size = "3" color = "gray">Prof. Valter Moreno</font><br>
<font size = "3" color = "gray">2022</font><br>  

<hr style="border:0.1px solid gray"> </hr>
<font size = "5" color = "black">Introdução ao Python</font><p>
<font size = "5" color = "black">Aula 6: Numpy</font>
<hr style="border:0.1px solid gray"> </hr>

`numpy` é um pacote criado para facilitar a manipulação de *arrays* n-dimensionais com o Python. *Arrays* são similares a listas, ou listas de listas, organizadas em eixos (*axis*) ou dimensões. Um *array* unidimensional equivale a um vetor com um ou mais elementos. Um *array* bidimensional, equivale a uma matriz. *Arrays* com mais de duas dimensões correspondem a cubos ou hipercubos.

**Atenção**: Todos os elementos de um *array* devem ser de um mesmo tipo. 

O `numpy` implementa operações com *arrays* de forma muito rápida, inclusive as definidas em Álgebra Linear. Ele é a base de vários outros pacotes, inclusive o `pandas`. 

Seguem referências que tratam da implementação de operações de Álgebra Linear no `numpy`:

 - [Álgebra Linear com NumPy](https://dadosaocubo.com/algebra-linear-com-numpy/)
 - [Numpy | Linear Algebra](https://www.geeksforgeeks.org/numpy-linear-algebra/)
 - [Linear algebra (numpy.linalg)](https://numpy.org/doc/stable/reference/routines.linalg.html#module-numpy.linalg)
 
A página [NumPy tutorials](https://numpy.org/numpy-tutorials/) contém vários exemplos de como o `numpy` pode ser aplicado a problemas práticos em Data Science. Nesta aula, trataremos apenas da criação de arrays, da seleção de seus elementos, e de operações matemáticas básicas.

# Criação de *arrays*

*Arrays* podem ser criados com base em listas e tuplas, ou com algumas funções do pacote `numpy`.

In [1]:
import numpy as np

In [2]:
tupla = (1, 2, 3, 4)
tupla

(1, 2, 3, 4)

In [3]:
vetor = np.array(tupla)
print("Tipo do objeto:", type(vetor))
print(f"Objeto:", vetor)

Tipo do objeto: <class 'numpy.ndarray'>
Objeto: [1 2 3 4]


In [4]:
lista = [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9],
         [10, 11, 12]]
lista

[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]

In [5]:
matriz = np.array(lista)
print("Tipo do objeto:", type(matriz))
print("Objeto:")
print(matriz)

Tipo do objeto: <class 'numpy.ndarray'>
Objeto:
[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [6]:
matriz  # Note que, quando não usamos a função print(), os dados são precedidos por "array" 
        # e colocados entre parênteses

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

Vamos criar um *array* tridimensional, similar a um cubo.

In [7]:
cubo = [[[1, 2], [3, 4]],
        [[5, 6], [7, 8]],
        [[9, 10], [11, 12]]]
cubo

[[[1, 2], [3, 4]], [[5, 6], [7, 8]], [[9, 10], [11, 12]]]

In [8]:
arr_3d = np.array(cubo)
arr_3d

array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]]])

`numpy` inclui um grande número de métodos e atributos para objetos do tipo *array*, como os mostrados a seguir. Para mais informações, veja a página [The N-dimensional array (ndarray)](https://numpy.org/doc/stable/reference/arrays.ndarray.html).

In [9]:
dir(arr_3d)

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__

In [10]:
arr_3d.shape  # número de elementos em cada eixo (ou dimensão)

(3, 2, 2)

In [11]:
arr_3d.ndim  # número de dimensões

3

In [12]:
arr_3d.size  # número total de elementos

12

In [13]:
arr_3d.dtype  # tipo dos elementos do array

dtype('int32')

Há funções específicas para a criação de *arrays* preenchidos com sequências, números aleatórios, ou valores fixos, como 0 e 1. Seguem alguns exemplos.

In [14]:
np.arange(10, 20, 2)  # sequência com incremento 2 entre 10 (inclusive) e 20 (exclusive)

array([10, 12, 14, 16, 18])

In [15]:
np.linspace(10, 20, 5)  # 5 números igualmente espaçados entre 10 e 20

array([10. , 12.5, 15. , 17.5, 20. ])

In [16]:
np.empty(shape = (3, 2, 2), dtype = "int32")  # array arbitrariamente preenchida com inteiros

array([[[0, 0],
        [0, 0]],

       [[0, 0],
        [0, 0]],

       [[0, 0],
        [0, 0]]])

In [17]:
np.identity(3, dtype = "int32")  # matriz identidade com números inteiros

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [18]:
np.ones(shape = (2,3))  # array preenchida com 1.0

array([[1., 1., 1.],
       [1., 1., 1.]])

In [19]:
np.zeros(shape = 3)  # array preenchida com 0.0

array([0., 0., 0.])

In [20]:
np.full(shape = (3, 3), fill_value = .5)  # array preenchida com um dado valor

array([[0.5, 0.5, 0.5],
       [0.5, 0.5, 0.5],
       [0.5, 0.5, 0.5]])

In [21]:
np.fromiter(range(10), dtype = "float")  # vetor gerado com um objeto iterável

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [22]:
np.random.rand(3, 5)  # array preenchida com números aleatórios entre 0.0 e 1.0

array([[0.12066829, 0.83063799, 0.85451041, 0.29000067, 0.82337459],
       [0.22936889, 0.72742741, 0.81124407, 0.44659743, 0.94984811],
       [0.77918927, 0.89527127, 0.00748401, 0.2854897 , 0.47189195]])

In [23]:
np.random.randint(low = 5, high = 10, size = (3, 3))  # array de números inteiros aleatórios entre
                                                      # low (inclusive) e high (exclusive) 

array([[8, 5, 5],
       [5, 7, 7],
       [9, 8, 8]])

In [24]:
np.random.randn(2, 3)  # array de números gerados com uma distribuição normal padrão

array([[-0.60506434, -0.52382872, -0.76272605],
       [-1.66265331,  1.38014294, -0.81981523]])

*Arrays* podem ser reformatados, ou seja, terem seus elementos redistribuídos num outro número de eixos.

In [25]:
vetor = np.fromiter(range(1, 25), dtype = "float")
vetor

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.,
       14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24.])

In [26]:
vetor.reshape((4, 6))

array([[ 1.,  2.,  3.,  4.,  5.,  6.],
       [ 7.,  8.,  9., 10., 11., 12.],
       [13., 14., 15., 16., 17., 18.],
       [19., 20., 21., 22., 23., 24.]])

In [27]:
matriz = np.reshape(vetor, newshape = (6, 4), order = 'F')
matriz

array([[ 1.,  7., 13., 19.],
       [ 2.,  8., 14., 20.],
       [ 3.,  9., 15., 21.],
       [ 4., 10., 16., 22.],
       [ 5., 11., 17., 23.],
       [ 6., 12., 18., 24.]])

In [28]:
matriz = np.reshape(vetor, newshape = (4, 6), order = 'C')
matriz

array([[ 1.,  2.,  3.,  4.,  5.,  6.],
       [ 7.,  8.,  9., 10., 11., 12.],
       [13., 14., 15., 16., 17., 18.],
       [19., 20., 21., 22., 23., 24.]])

Note a diferença dos resultados gerados com os valores 'C' e 'F' para o argumento `order`. Se necessário, consulte a documentação da função para entender como o resultado abaixo foi gerado ([numpy.reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html)).

In [29]:
np.reshape(matriz, newshape = (2, 3, 4), order = 'F')

array([[[ 1., 14.,  4., 17.],
        [13.,  3., 16.,  6.],
        [ 2., 15.,  5., 18.]],

       [[ 7., 20., 10., 23.],
        [19.,  9., 22., 12.],
        [ 8., 21., 11., 24.]]])

# Operações básicas

Nos exemplos abaixo, tratamos apenas de operações aplicadas elemento a elemento de um *array*. O pacote `numpy.linalg` contém funções que implementam operações de Álgebra Linear.

In [30]:
matriz = np.random.randint(1, 11, (2, 3))
print(matriz)

[[9 7 1]
 [8 8 6]]


## Operações com escalares

In [31]:
5 * matriz

array([[45, 35,  5],
       [40, 40, 30]])

In [32]:
matriz / 10

array([[0.9, 0.7, 0.1],
       [0.8, 0.8, 0.6]])

In [33]:
matriz ** 2

array([[81, 49,  1],
       [64, 64, 36]], dtype=int32)

## Funções vetorizadas

`numpy` inclui mais de 60 funções universais (*ufuncs*) que são aplicadas a *arrays* elemento a elemento. Esse processo é chamado de **vetorização**. Mais informações podem ser obtidas nestas páginas:

 - [NumPy ufuncs](https://www.w3schools.com/python/numpy/numpy_ufunc.asp)
 - [Universal functions (ufunc)](https://numpy.org/doc/stable/reference/ufuncs.html)

In [34]:
print(matriz)

[[9 7 1]
 [8 8 6]]


In [35]:
np.log(matriz)

array([[2.19722458, 1.94591015, 0.        ],
       [2.07944154, 2.07944154, 1.79175947]])

In [36]:
np.sqrt(matriz)

array([[3.        , 2.64575131, 1.        ],
       [2.82842712, 2.82842712, 2.44948974]])

In [37]:
print(f"A média dos números na matriz é {matriz.mean():.3f}, e o desvio padrão, {matriz.std():.3f}.")

A média dos números na matriz é 6.500, e o desvio padrão, 2.630.


`argmax` e `argmin` retornam as posições do valor máximo e mínimo num *array* que é convertido em um vetor.

In [38]:
print(f"O valor máximo da matriz é {matriz.max()} e está na posição {matriz.argmax()}")
print(f"O valor mínimo da matriz é {matriz.min()} e está na posição {matriz.argmin()}")

O valor máximo da matriz é 9 e está na posição 0
O valor mínimo da matriz é 1 e está na posição 2


Para obter a posição considerando os eixos do *array*, precisamos usar a função `unravel_index`.

In [39]:
print(matriz)
print()
print(f"O valor máximo da matriz é {matriz.max()} e está na posição {np.unravel_index(matriz.argmax(), matriz.shape)}")

[[9 7 1]
 [8 8 6]]

O valor máximo da matriz é 9 e está na posição (0, 0)


Diversas funções e operadores recebem mais de um *array* como argumentos.

In [40]:
arr1 = np.random.randint(1, 6, (2, 2))
arr2 = np.random.randint(1, 6, (2, 2))
print("Matriz 1:\n", arr1, "\n")
print("Matriz 2:\n", arr2)

Matriz 1:
 [[4 4]
 [3 5]] 

Matriz 2:
 [[5 5]
 [4 1]]


In [41]:
arr1 + arr2

array([[9, 9],
       [7, 6]])

In [42]:
arr1 / arr2

array([[0.8 , 0.8 ],
       [0.75, 5.  ]])

In [43]:
arr1 % arr2

array([[4, 4],
       [3, 0]], dtype=int32)

In [44]:
arr1 ** arr2

array([[1024, 1024],
       [  81,    5]], dtype=int32)

In [45]:
ident = np.identity(2)
ident

array([[1., 0.],
       [0., 1.]])

`numpy` não gera erros para divisões por zero ou resultados indefidos, e sim avisos (*warnings*). O pacote inclui constantes para representar infinito e números não definidos.

In [46]:
arr1 / ident

  arr1 / ident


array([[ 4., inf],
       [inf,  5.]])

In [47]:
(arr1 / ident) - arr2

  (arr1 / ident) - arr2


array([[-1., inf],
       [inf,  4.]])

In [48]:
ident / ident

  ident / ident


array([[ 1., nan],
       [nan,  1.]])

In [49]:
(ident / ident) + arr1

  (ident / ident) + arr1


array([[ 5., nan],
       [nan,  6.]])

# Seleção

A seleção de elementos e partes de um *array* é feita de forma similar à que é feita em tuplas e listas.

In [50]:
matriz = np.random.randint(1, 11, (2, 3, 4))
matriz

array([[[ 5,  6,  3,  1],
        [ 2,  6,  4,  1],
        [ 5,  9,  4,  7]],

       [[ 7,  7,  8,  2],
        [ 1,  8,  4,  6],
        [ 2, 10,  7,  8]]])

In [51]:
matriz[0][1][2]

4

In [52]:
matriz[0, 1, 2]

4

In [53]:
matriz[:, 1:, 1:3]

array([[[ 6,  4],
        [ 9,  4]],

       [[ 8,  4],
        [10,  7]]])

Sequências de valores booleanos podem ser usados para selecionar elementos de um *array*. Dessa forma, é possível usar condições para selecionar elementos.

In [54]:
matriz

array([[[ 5,  6,  3,  1],
        [ 2,  6,  4,  1],
        [ 5,  9,  4,  7]],

       [[ 7,  7,  8,  2],
        [ 1,  8,  4,  6],
        [ 2, 10,  7,  8]]])

In [55]:
condição = matriz % 3 == 0
condição

array([[[False,  True,  True, False],
        [False,  True, False, False],
        [False,  True, False, False]],

       [[False, False, False, False],
        [False, False, False,  True],
        [False, False, False, False]]])

In [56]:
matriz[condição]  # Os elementos selecionados são retornados num vetor

array([6, 3, 6, 9, 6])

# Alteração

Pode-se alterar partes ou toda uma matriz, assim como em listas.

In [57]:
matriz1 = np.linspace(10, 20, 10).reshape(2, 5).round(2)  # Usamos o método round para reduzir as casas decimais
matriz1

array([[10.  , 11.11, 12.22, 13.33, 14.44],
       [15.56, 16.67, 17.78, 18.89, 20.  ]])

In [58]:
matriz1[0, 0] = -1
matriz1

array([[-1.  , 11.11, 12.22, 13.33, 14.44],
       [15.56, 16.67, 17.78, 18.89, 20.  ]])

In [59]:
matriz1 = np.array([[1, 2, 3],
                    [4, 5, 6],
                    [7, 8, 9],
                    [10, 11, 12]])
matriz1

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

Assim como em listas, quando atribuímos uma variável que contém um *array* a outra variável, ambas passam a fazer referência ao mesmo conjunto de dados guardados na memória do computador. Isso é chamado ***aliasing*** em Python.

In [60]:
matriz1 = np.linspace(10, 20, 10).reshape(2, 5).round(1)  # Usamos o método round para reduzir as casas decimais
matriz1

array([[10. , 11.1, 12.2, 13.3, 14.4],
       [15.6, 16.7, 17.8, 18.9, 20. ]])

In [61]:
matriz2 = matriz1
matriz2

array([[10. , 11.1, 12.2, 13.3, 14.4],
       [15.6, 16.7, 17.8, 18.9, 20. ]])

In [62]:
matriz2[:, :2] = np.zeros((2, 2))
matriz2

array([[ 0. ,  0. , 12.2, 13.3, 14.4],
       [ 0. ,  0. , 17.8, 18.9, 20. ]])

In [63]:
matriz1

array([[ 0. ,  0. , 12.2, 13.3, 14.4],
       [ 0. ,  0. , 17.8, 18.9, 20. ]])

Como no caso de listas, podemos usar o método `copy` para copiar o conteúdo de um *array* para um novo local na memória do computador.

In [65]:
matriz2 = matriz1.copy()
matriz2

array([[ 0. ,  0. , 12.2, 13.3, 14.4],
       [ 0. ,  0. , 17.8, 18.9, 20. ]])

In [67]:
matriz2[:2, :2] = np.ones(2)
matriz2

array([[ 1. ,  1. , 12.2, 13.3, 14.4],
       [ 1. ,  1. , 17.8, 18.9, 20. ]])

In [68]:
matriz1

array([[ 0. ,  0. , 12.2, 13.3, 14.4],
       [ 0. ,  0. , 17.8, 18.9, 20. ]])