# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Numpy: parte 1</span>

*Moacir Antonelli Ponti*<br>
*ICMC/USP São Carlos*

__Conteúdo:__

- Arrays
- Manipulação das dimensões
- Iteração
- Indexação e fatiamento
- Visões e cópias 

---

## Numpy 

Processamento vetorial/matricial:
- métodos são majoritariamente escritos em C, garantindo eficiência computacional
- recursos para computação científica e álgebra linear

Outros pacotes dependem fortemente de `numpy`:
- `pandas`
- `matplotlib`
- `sklearn`

# Numpy Arrays

A estrutura de dados base, se assemelham às listas em Python, no entanto:
- Todo elemento em um array deve ser do mesmo tipo, tipicamente `float` ou `int`;
- Arrays viabilizam a realização eficiente de operações numéricas com grandes quantidades de dados, mais eficientes que listas;
- Cada dimensão de um array é chamada de eixo (_axis_)
- Eixos são numerados a partir de `0`
- Elementos acessados utilizando colchetes `[]`

### Construindo arrays

#### A partir de listas

Utilizando o construtor `numpy.array()`

In [6]:
import numpy as np

lista = [1, 3, 5, 7, 13]
a1d = np.array(lista)

print('Lista:', lista)
print('Numpy array:', a1d)

Lista: [1, 3, 5, 7, 13]
Numpy array: [ 1  3  5  7 13]


#### Por métodos `numpy`:

`zeros`, `ones`,  `arange`,  `linspace`

In [13]:
# array com oito elementos iguais a zero
b1d = np.zeros((8))  
print('Zeros: ',b1d)

# array com dez elementos iguais a um
c1d = np.ones((10))  
print('Ones: ',c1d)

# array com numeros entre 1 e menor que 11, com passo 2 (similar a `range`)
d1d = np.arange(0,11,2)  
print('Range: ',d1d)

# array com 5 números igualmente espaçados no intervalo entre 1 e 2 
e1d = np.linspace(1,2,5) 
print('Linspace: ',e1d)

e1d2 = np.linspace(0,1,101) 
print('Linspace2: ',e1d2)

Zeros:  [0. 0. 0. 0. 0. 0. 0. 0.]
Ones:  [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
Range:  [ 0  2  4  6  8 10]
Linspace:  [1.   1.25 1.5  1.75 2.  ]
Linspace2:  [0.   0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13
 0.14 0.15 0.16 0.17 0.18 0.19 0.2  0.21 0.22 0.23 0.24 0.25 0.26 0.27
 0.28 0.29 0.3  0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.4  0.41
 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.5  0.51 0.52 0.53 0.54 0.55
 0.56 0.57 0.58 0.59 0.6  0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69
 0.7  0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.8  0.81 0.82 0.83
 0.84 0.85 0.86 0.87 0.88 0.89 0.9  0.91 0.92 0.93 0.94 0.95 0.96 0.97
 0.98 0.99 1.  ]


#### Arrays multidimensionais

In [14]:
a2d = np.array([[1,3,5,7,9,11],
                [2,4,6,8,10,12],
                [0,1,2,3,4,5]]  )
print('a2d=\n',a2d)

a2d=
 [[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]


In [15]:
#matriz 5X3 de zeros
b2d = np.zeros((5,3))  
print('Zeros 2d: \n',b2d)

# criando matriz 4X8 de 1s
c2d = np.ones((4,8))
print('Ones 2d:\n',c2d)

# criando matrix identidade 3X3
d2d = np.identity(3) 
print('Identity: \n',d2d)

Zeros 2d: 
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
Ones 2d:
 [[1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]]
Identity: 
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


Arrays são objetos _ndarrays_ 

Seus atributos são: 
- `ndarray.ndim`: número de eixos (dimensões) do array
- `ndarray.shape`: uma tupla de inteiros indicando o tamanho do array em cada dimensão
- `ndarray.size`:  o número total de elementos do array
- `ndarray.dtype`: tipo dos elementos no array
- `ndarray.itemsize`: o tamanho em bytes de cada elemento do array
- `ndarray.T`: versão transposta do array

In [16]:
print(a1d)
print(c2d)

[ 1  3  5  7 13]
[[1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]]


In [17]:
print(" ndim: numero de eixos dos arrays")
print('a1d.ndim =',a1d.ndim)
print('c2d.ndim =',c2d.ndim)

 ndim: numero de eixos dos arrays
a1d.ndim = 1
c2d.ndim = 2


In [18]:
print("\n shape: tamanho do array em cada dimensao")
print('a1d.shape =',a1d.shape)
print('b1d.shape =',b1d.shape)
print('a2d.shape =',a2d.shape)
print('c2d.shape =',c2d.shape)


 shape: tamanho do array em cada dimensao
a1d.shape = (5,)
b1d.shape = (8,)
a2d.shape = (3, 6)
c2d.shape = (4, 8)


In [19]:
print("\n size: numero total de elementos")
print('a1d.size =',a1d.size)
print('b1d.size =',b1d.size)
print('a2d.size =',a2d.size)
print('c2d.size =',c2d.size)


 size: numero total de elementos
a1d.size = 5
b1d.size = 8
a2d.size = 18
c2d.size = 32


In [20]:
print("\n dtype: tipo dos elementos")
print('a1d.dtype =',a1d.dtype)
print('b1d.dtype =',b1d.dtype)
print('a2d.dtype =',a2d.dtype)
print('c2d.dtype =',c2d.dtype)


 dtype: tipo dos elementos
a1d.dtype = int64
b1d.dtype = float64
a2d.dtype = int64
c2d.dtype = float64


In [21]:
print("\n itemsize: tamanho em bytes de cada elemento")
print('a1d.itemsize =',a1d.itemsize)
print('b1d.itemsize =',b1d.itemsize)
print('a2d.itemsize =',a2d.itemsize)
print('c2d.itemsize =',c2d.itemsize)


 itemsize: tamanho em bytes de cada elemento
a1d.itemsize = 8
b1d.itemsize = 8
a2d.itemsize = 8
c2d.itemsize = 8


### Especificando tipo com `astype()`

In [24]:
print('d2d.dtype =',d2d.dtype)
print(d2d)

d2d = d2d.astype(int)
print('d2d.dtype =',d2d.dtype)
print(d2d)

d2d = d2d.astype(np.uint16)
print('d2d.dtype =',d2d.dtype)
print(d2d)

d2d.dtype = uint16
[[1 0 0]
 [0 1 0]
 [0 0 1]]
d2d.dtype = int64
[[1 0 0]
 [0 1 0]
 [0 0 1]]
d2d.dtype = uint16
[[1 0 0]
 [0 1 0]
 [0 0 1]]


### Dimensão livre

Arrays unidimensionais podem ter uma das dimensões livres. 

In [25]:
a = np.zeros((5))
b = np.zeros((5,1))
print('a.shape = ',a.shape)
print('b.shape = ',b.shape)
print('a.ndim = ',a.ndim)
print('b.ndim = ',b.ndim)

a.shape =  (5,)
b.shape =  (5, 1)
a.ndim =  1
b.ndim =  2


array com shape (5,) possui apenas 1 eixo;<br> 
array com shape (5,1) possui 2 eixos (ndim = 2) 

* Este último corresponde a uma matrix com 5 linhas e 1 coluna.

### Acessando elementos de um array

Similar a sequências, mas usamos apenas um colchete, mesmo para arrays multidimensionais

In [29]:
a1d[3:]

array([ 7, 13])

In [30]:
print(a2d)

[[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]


In [32]:
print(a2d[ 0, 0])
print(a2d[ 1, 3])
print(a2d[-1,-2])

1
8
4


In [None]:
print(a2d[0])

### Iterando com `for`

> percorre cada linha.

* Podemos enumerar as linhas para pegar seus índices.
* Iterar por elementos exige laço duplo ou achatar (*flatten*) o array.

In [43]:
for el in a1d:
    print(el)

1
3
5
7
13


In [45]:
for el in a2d:
    print(el)

[ 1  3  5  7  9 11]
[ 2  4  6  8 10 12]
[0 1 2 3 4 5]


In [47]:
# usamos enumerate para retornar a enumeração e cada linha
for i, el in enumerate(a2d):
    print('Linha', i, '=', el)

Linha 0 = [ 1  3  5  7  9 11]
Linha 1 = [ 2  4  6  8 10 12]
Linha 2 = [0 1 2 3 4 5]


In [48]:
print(d2d)

[[1 0 0]
 [0 1 0]
 [0 0 1]]


In [49]:
# iterando utilizando indices
for i in range(d2d.shape[0]): 
    for j in range(d2d.shape[1]):
        print('elemento ',i,' ',j,' = ', d2d[i,j])

elemento  0   0  =  1
elemento  0   1  =  0
elemento  0   2  =  0
elemento  1   0  =  0
elemento  1   1  =  1
elemento  1   2  =  0
elemento  2   0  =  0
elemento  2   1  =  0
elemento  2   2  =  1


In [51]:
# o atributo 'flat' coloca todos os elementos como em uma lista
for i,el in enumerate(d2d.flat):
    print(i,el)

0 1
1 0
2 0
3 0
4 1
5 0
6 0
7 0
8 1


---
#### <font color="blue">Exercício 2.6</font>

Dada uma lista de tuplas, em que cada tupla é formada por um par (str,list). Ver um exemplo abaixo.

```
l_tup = [('a',[8, 4, 6, 1]), ('b',[1, 2, 3, 4]), ('c',[5, 3, 3, 3])]
```

* Converta a lista de tuplas em um numpy array bidimensional em que cada lista é transformada em uma linha do array, ignorando a string. 
* Percorra cada linha do array resultante usando `for`, exibindo na tela os 3 últimos elementos de cada array

Seu código deve funcionar para qualquer número de tuplas na lista, assuma que as listas tem sempre o mesmo número de elementos, todos numéricos.

---

In [5]:
# Respostas 24/07/2022

import numpy as np

l_tup = [('a', [8, 4, 6, 1]), ('b', [1, 2, 3 ,4]), ('c', [5, 3, 3, 3])]
m_tup = np.array([tup[1] for tup in l_tup])

for m in m_tup:
    print(m[-3:])

[4 6 1]
[2 3 4]
[3 3 3]


### *Slicing* em arrays

- como em listas, mas em múltiplas dimensões
- omitir um índice corresponde a recuperar toda a dimensão omitida
- um slice é uma "visão" (__VIEW__) do array original, como uma referência, isto é, o dado *não é copiado*

In [52]:
a2d = np.array(  [[1,3,5,7,9],     # criando um array bidimensional a partir de uma
                  [2,4,6,8,12],  # lista de listas
                  [0,1,2,3,4]])
print(a2d)

[[ 1  3  5  7  9]
 [ 2  4  6  8 12]
 [ 0  1  2  3  4]]


In [55]:
# slicing de linhas
print(a2d[1])
print(a2d[1,])

print("\nrecuperando 2 linhas:")
print(a2d[1:3,:])

[ 2  4  6  8 12]
[ 2  4  6  8 12]

recuperando 2 linhas:
[[ 2  4  6  8 12]
 [ 0  1  2  3  4]]


In [58]:
# slicing de colunas
print(a2d[:,2]) # retorna a coluna como um array 1d
print()
print(a2d[:,1:4])

[5 6 2]

[[3 5 7]
 [4 6 8]
 [1 2 3]]


In [59]:
# slicing de blocos
print(a2d[1:,1:5])

[[ 4  6  8 12]
 [ 1  2  3  4]]


In [62]:
# slicing passando uma lista personalizada (em ordem)
print(a2d[ [0,2] , :]) 

# abaixo retorna-se as coluans 3, 1 e 2, nessa ordem
print(a2d[ : , [3,1,2]]) 

[[1 3 5 7 9]
 [0 1 2 3 4]]
[[7 3 5]
 [8 4 6]
 [3 1 2]]


### Métodos 

* `ravel`:  concatena as linhas da matriz em um array 1d, mantendo a referência
* `flatten`: concatena as linhas da matriz em um array 1d, retornando uma cópia
* `reshape`: refaz as dimensões, mantendo o número de elementos

OBS: o atributo `flat` usado anteriormente é um "iterador" não gerando um array

In [69]:
# gera array com 12 elementos, e redimensiona para uma matriz 3x4
a = np.arange(20).reshape(4,5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [70]:
# atribuímos a b, mas mantendo a referencia para `a`
b = a.ravel()
print(b)


[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [71]:
b[4] = 1000
print('\n',b)
print(a)


 [   0    1    2    3 1000    5    6    7    8    9   10   11   12   13
   14   15   16   17   18   19]
[[   0    1    2    3 1000]
 [   5    6    7    8    9]
 [  10   11   12   13   14]
 [  15   16   17   18   19]]


In [72]:
# atribui a c uma cópia
c = a.flatten()

c[0] = 999
print(c)
print('\n',a)

[ 999    1    2    3 1000    5    6    7    8    9   10   11   12   13
   14   15   16   17   18   19]

 [[   0    1    2    3 1000]
 [   5    6    7    8    9]
 [  10   11   12   13   14]
 [  15   16   17   18   19]]


### Transposta com atributo `T` 

In [73]:
a = np.arange(15).reshape(3,5)
print(a)
print(a.shape)

print('\nTransposta')
print(a.T)
print(a.T.shape)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
(3, 5)

Transposta
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]
(5, 3)


### Filtragem com operador lógico

Um array de valores booleanos (máscara booleana) pode ser usado para selecionar elementos em um array.

Úteis para atribuições de maneira eficiente e elegante.


In [74]:
# gerando numeros entre 0 e 17 e reformatando em uma matriz 3x6
x = np.arange(18).reshape(3,6)
print(x)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]


In [75]:
# calculando uma máscara booleana onde o valor True 
# corresponde aos elementos maiores que 7
mask = (x > 7)
print('\nMascara booleana da matriz para valores maiores que 7')
print(mask)


Mascara booleana da matriz para valores maiores que 7
[[False False False False False False]
 [False False  True  True  True  True]
 [ True  True  True  True  True  True]]


In [80]:
print('\nRecuperando apenas os elementos maiores que 7')
print(x[mask])

print('\nModificando apenas os elementos maiores que 7')
x[mask] = -1
print(x)

print('Filtrando pela negacao da mascara')
# filtrando e atribuindo a novo array elementos menores ou iguais a 7
y = x[~mask]
print(y)


Recuperando apenas os elementos maiores que 7
[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1]

Modificando apenas os elementos maiores que 7
[[ 0  1  2  3  4  5]
 [ 6  7 -1 -1 -1 -1]
 [-1 -1 -1 -1 -1 -1]]
Filtrando pela negacao da mascara
[0 1 2 3 4 5 6 7]


### Visões  (__view__)

Slicing cria uma __view__ de um array, não uma cópia
- Uma __view__ é criada ao fatiar (slicing) o array
- Uma __view__ é uma referência a uma parte de um array
- Alterar elementos da __view__ afeta o array original
- É possível copiar usando `numpy.copy()`

In [82]:
# matriz com 3x6 números aleatórios
# aqui usamos o método randint do numpy
x = np.random.randint(0,10,18).reshape(3,6)
print(x)

# criando uma view
y = x[1:,:3]

# criando uma cópia
z = np.copy(x[1:,:3])

[[8 7 0 4 6 3]
 [3 1 1 2 2 8]
 [5 1 1 9 3 0]]


In [83]:
print(y)
print(z)

[[3 1 1]
 [5 1 1]]
[[3 1 1]
 [5 1 1]]


In [85]:
# modificando um elemento da view
y[1,1] = 99
# modificando um elemento da cópia
z[0,1] = 88

print('\nElementos [1,1] modificados para 99:')
print('View:\n',y)
print('\nElementos [0,1] modificados para 88:')
print('Cópia:\n',z)

print('\nMatriz original é afetada pela view:')
print(x)


Elementos [1,1] modificados para 99:
View:
 [[ 3  1  1]
 [ 5 99  1]]

Elementos [0,1] modificados para 88:
Cópia:
 [[ 3 88  1]
 [ 5  1  1]]

Matriz original é afetada pela view:
[[ 8  7  0  4  6  3]
 [ 3  1  1  2  2  8]
 [ 5 99  1  9  3  0]]


---

#### <font color="blue">Exercício 2.7</font>

Use o método `randint` do `numpy` para criar um array bidimensional com 6x10 elementos inteiros entre 1 e 5. 

A seguir, considerando apenas a submatriz formada pelas linhas: 2 até 6 e as colunas 2, 5 e 8, copie para uma matriz unidimensional os valores maiores ou iguais a 4.

---

In [12]:
import numpy as np

rand_array = np.random.randint(1, 6, size=(6, 10))
subm_array = rand_array[1:, [1, 4, 7]]
subm_array = subm_array[subm_array >= 4]

print(subm_array)

[5 5 5 4 4 4]
