<a href="https://colab.research.google.com/github/Joaogalescky/Ciencia-de-Dados---2024/blob/main/Arrays.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Arrays**

## **Numpy**
Numpy é uma biblioteca Python voltada para computação científica. Possui implementações bastante otimizadas para utilização de *arrays* ou vetores.

Para que o acesso às estruturas seja possível, é necessário a importação da biblioteca. É comum e uma boa prática renomear a biblioteca para *np*.

In [1]:
import numpy as np

## **arrays numpy**

O *array* numpy é uma lista de valores, indexada por uma tupla de inteiros não negativos. O **número de dimensões** do **array** é também chamado de **rank do array**. O shape de um *array* é uma tupla de inteiros, dado o tamanho do *array* em cada dimensão definida. Nesta atividade, trataremos como sinônimos **array** e **vetor**.

Para criar um array, pode-se utilizar o método .array().

In [2]:
a = np.array([1, 2, 3])

In [3]:
print(a)

[1 2 3]


* Observe o tipo do dado do array e dos valores armazenados.

In [4]:
print(type(a))
print(type(a[0]), type(a[1]),type(a[2]))

<class 'numpy.ndarray'>
<class 'numpy.int64'> <class 'numpy.int64'> <class 'numpy.int64'>


* Observe o formato do vetor.

In [5]:
print (a.shape)

(3,)


In [6]:
print(a[0], a[1], a[2])

1 2 3


In [7]:
print(a)
a[0]=100 #Altera o valor armazenado na posição 0
print(a)

[1 2 3]
[100   2   3]


* Todos os dados armazenados devem ser do mesmo tipo. Caso não sejam, serão convertidos a um tipo em comum.

In [8]:
arr_st = np.array(['a', 5.4, 2]) #todos os dados como string
arr_ft = np.array([1  , 5.4, 2]) #todos os dados como float

print(f'{arr_st}')
print(f'{arr_ft}')

['a' '5.4' '2']
[1.  5.4 2. ]


In [9]:
b = np.array([[1,2,3], [4,5,6]]) #matriz

In [10]:
print(b[1])
print(b[1][1])

[4 5 6]
5


## **Reshape**
É possível alterar o formato do array. Execute os código abaixo passo a passo, observando o resultado:

In [19]:
arr = np.arange(10) # criar um vetor com 10 elementos - 0 a 9
print(arr)
print(arr.shape)
print("------")
arr.reshape(5,2)
#arr.reshape(2,5)

[0 1 2 3 4 5 6 7 8 9]
(10,)
------


array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

**Sintaxe**

.reshape(l,c)

onde:

* l: número de linhas
* c: número de colunas

O valor l*c deve corresponder à quantidade total de elementos no array.

É possível definir a ordem do array sem conhecer uma de suas dimensões. Para isto, basta substituir o número de linhas ou colunas por -1.

In [23]:
arr = np.arange(10)
#arr.reshape(5,-1)
arr.reshape(-1,5)
#arr.reshape(2,-1)
#arr.reshape(-1,2)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [26]:
arr = np.arange(100)

arr10C = arr.reshape(10, 10)
print(arr10C)

print("--------------------------------------------")
arr25C = arr.reshape(4, 25)
print(arr25C)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]
 [50 51 52 53 54 55 56 57 58 59]
 [60 61 62 63 64 65 66 67 68 69]
 [70 71 72 73 74 75 76 77 78 79]
 [80 81 82 83 84 85 86 87 88 89]
 [90 91 92 93 94 95 96 97 98 99]]
--------------------------------------------
[[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
  24]
 [25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
  49]
 [50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
  74]
 [75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
  99]]


## **Tipos de dados**

**Exemplo**

* Observe os tipos de dados armazenados

In [29]:
print(a.dtype)

int64


In [33]:
x=np.array([1, 2]) #int
y=np.array([1.0, 2.0]) #float
z=np.array([1, 2], dtype=np.int64)
print(x.dtype)
print(y.dtype)
print(z.dtype)

int64
float64
int64


## **Criação de arrays**

In [55]:
x = np.zeros((2,2))
print("np.zeros\n" + str(x) + "\n")
y = np.ones((3,3))
print("np.ones\n" + str(y) + "\n")
z = np.full((4,4),9)
print("np.full\n" + str(z) + "\n")
w = np.eye(5)
print("np.eye\n" + str(w) + "\n")
v = np.random.random((6,6))
print("np.random.random\n" + str(v) + "\n")

np.zeros
[[0. 0.]
 [0. 0.]]

np.ones
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

np.full
[[9 9 9 9]
 [9 9 9 9]
 [9 9 9 9]
 [9 9 9 9]]

np.eye
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]

np.random.random
[[0.61756543 0.69800434 0.43640131 0.72594587 0.27035095 0.34234601]
 [0.36498717 0.40188385 0.9559779  0.52038414 0.91758528 0.66630651]
 [0.02407297 0.56516073 0.30539756 0.19971665 0.27368325 0.39297305]
 [0.77125287 0.9710481  0.68911357 0.94731581 0.80421942 0.10181462]
 [0.05791062 0.57897201 0.14805445 0.82510921 0.00658647 0.56437793]
 [0.68491485 0.98935274 0.04811669 0.36001742 0.69277659 0.86436367]]



Outras funções podem ser utilizadas para obter valores igualmente espaçados entre si.

In [58]:
a = np.linspace(0, 10, 5)
print(a, "\n")
b = np.linspace(0, 10, 3)
print(b, "\n")
c = np.linspace(0, 10, 11)
print(c, "\n")

[ 0.   2.5  5.   7.5 10. ] 

[ 0.  5. 10.] 

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.] 



**Sintaxe**

.linspace(i,f,n)

Onde:

* i: valor inicial
* f: valor final
* n: quantidade de valores no método linspace, os valores de saída são do tipo float (numpy.float64).

## **Slicing**
Semelhantes às listas em Python, os arrays numpy possibilitam o slicing. Como os arrays podem possuir diversas dimensões, é necessário identificar o slice para cada dimensão.

In [67]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, "\n")
b = a[:2, 1:3]
print(b)

# :2, linhas 0 a 1
# 1:3: colunas 1 a 2

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 

[[2 3]
 [6 7]]


In [69]:
b = a[[0,2], 2]  #[0,2] seleciona as linhas 0 e 2 da matriz A, e ", 2" seleciona a coluna 2 dessas linhas.
print(b, "\n") # B será o valor da linha 0, coluna 2, seguido pelo valor da linha 2, coluna 2.
c = a[[0,2,2], [0,2,3]]
# A primeira lista [0,2,2] seleciona as linhas 0, 2 e 2 da matriz A
# A segunda lista [0,2,3] seleciona as colunas 0, 2 e 3 dessas linhas.
print(c, "\n")# C será uma lista contendo os valores da linha 0, coluna 0, seguido pelo valor da linha 2, coluna 2 e o valor da linha 2, coluna 3.

[ 3 11] 

[ 1 11 12] 



## **Alterações em slices**

In [71]:
c = a[:2, 1:3]
print(c)

[[2 3]
 [6 7]]


In [72]:
c[0][0] = 20
print(c)

[[20  3]
 [ 6  7]]


## **Operações sobre arrays**

* Arrays:

In [79]:
x = np.array([ [1, 2],[3, 4] ])
y = np.array([ [5, 6],[7, 8] ])
print('x:\n'+ str(x) + "\n")
print('y:\n'+ str(y))

x:
[[1 2]
 [3 4]]

y:
[[5 6]
 [7 8]]


Operações básicas podem ser realizadas sobre o array

* adição (+)
* subtração (-)
* multiplicação (*)
* divisão (/)
* Exemplo

In [81]:
print("x + y\n" + str(x + y) + ("\n"))
print("x - y\n" + str(x - y) + ("\n"))
print("x * y\n" + str(x * y) + ("\n"))
print("x / y\n" + str(x / y) + ("\n"))

x + y
[[ 6  8]
 [10 12]]

x - y
[[-4 -4]
 [-4 -4]]

x * y
[[ 5 12]
 [21 32]]

x / y
[[0.2        0.33333333]
 [0.42857143 0.5       ]]



A biblioteca numpy também possui outras operações, acessíveis por métodos:

* .add()
* .subtract()
* .multiply()
* .divide()
* .sqrt()

In [91]:
print("Matriz X\n" + str(x) + "\n")

print("np.add\n" + str(np.add(x,4)) + "\n")
print("np.subtract\n" + str(np.subtract(x,2)) + "\n")
print("np.multiply\n" + str(np.multiply(x,5)) + "\n")
print("np.divide\n" + str(np.divide(x,2)) + "\n")
print("np.sqrt\n" + str(np.sqrt(x)))

Matriz X
[[1 2]
 [3 4]]

np.add
[[5 6]
 [7 8]]

np.subtract
[[-1  0]
 [ 1  2]]

np.multiply
[[ 5 10]
 [15 20]]

np.divide
[[0.5 1. ]
 [1.5 2. ]]

np.sqrt
[[1.         1.41421356]
 [1.73205081 2.        ]]


Possui também operações sobre os valores em arrays

* .sum()
* .mean()
* .min()
* .max()
* ...

In [93]:
print(x.sum(), "\n")
print(x.mean(), "\n")
print(x.min(), "\n")
print(x.max())

10 

2.5 

1 

4


In [95]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a, "\n")
b = np.array([0, 2, 0, 1])
print(b, "\n")
a[np.arange(4), b] += 10
# np.arange(4) cria um array [0, 1, 2, 3], que representa os índices das linhas de A.
# Em seguida, estamos selecionando elementos de A usando as listas de índices [0, 1, 2, 3] para as linhas e o array B para as colunas.
print(a, "\n")
#Significa que estamos selecionando os elementos (0,0), (1,2), (2,0) e (3,1) de A. Depois, estamos adicionando 10 a esses elementos.

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]] 

[0 2 0 1] 

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]] 



## **Índices booleanos**
Numpy possibilita que sejam aplicadas operações a todos os elementos. Para operadores relacionais, é retornado um array booleano.

In [98]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
idx = a > 6
print(a, "\n")
print(idx)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] 

[[False False False False]
 [False False  True  True]
 [ True  True  True  True]]


In [101]:
a[idx] += 100
print(a)

[[  1   2   3   4]
 [  5   6 207 208]
 [209 210 211 212]]


## **Where**
Utilizando a função where(), é possível descobrir quais posições do array correspondem a uma condição determinada.

Extrair valores maiores que 15:

In [108]:
arr = np.arange(10,20)
print(arr, "\n")

for indice, elemento in enumerate(arr):
    print(f'O elemento "{elemento}" está na posição {indice}.')
print("\n")

np.where(arr > 15)

[10 11 12 13 14 15 16 17 18 19] 

O elemento "10" está na posição 0.
O elemento "11" está na posição 1.
O elemento "12" está na posição 2.
O elemento "13" está na posição 3.
O elemento "14" está na posição 4.
O elemento "15" está na posição 5.
O elemento "16" está na posição 6.
O elemento "17" está na posição 7.
O elemento "18" está na posição 8.
O elemento "19" está na posição 9.




(array([6, 7, 8, 9]),)

Extrair valores pares:



In [109]:
arr = np.arange(10,20)
print(arr, "\n")

for indice, elemento in enumerate(arr):
    print(f'O elemento "{elemento}" está na posição {indice}.')
print("\n")

np.where(arr % 2 == 0)

[10 11 12 13 14 15 16 17 18 19] 

O elemento "10" está na posição 0.
O elemento "11" está na posição 1.
O elemento "12" está na posição 2.
O elemento "13" está na posição 3.
O elemento "14" está na posição 4.
O elemento "15" está na posição 5.
O elemento "16" está na posição 6.
O elemento "17" está na posição 7.
O elemento "18" está na posição 8.
O elemento "19" está na posição 9.




(array([0, 2, 4, 6, 8]),)

**Referências**

[HARRIS. C.R. Millman, K.J, van der Walt, S.J. et al. Array programming with NumPy. Nature 585, 357-362, 2020](https:/https://www.nature.com/articles/s41586-020-2649-2/) [PDF](https:/https://www.nature.com/articles/s41586-020-2649-2.pdf/)