# Python - NumPy

# 1. Introdução

NumPy é um pacote de computação científica com Python. É muito poderoso, você pode construir um objeto array n-dimensional. Ele é baseado em C, portanto é performático.

* Para instalar você deve fazer:
```cmd
pip install numpy
```

# 2. Guia de Uso 

## 2.1. Import
* Para utilizar você deve importar a biblioteca numpy 
```cmd
import numpy # opcionalmente você pode dar um apelido. Ex: import numpy as np
```

## 2.2. Criando um Array em Numpy

In [1]:
import numpy # aqui pode se dar um apelido exemplo np
a = numpy.array([10,20,30,40])
print('classe: ', type(a), '- conteúdo: ', a)

classe:  <class 'numpy.ndarray'> - conteúdo:  [10 20 30 40]


## 2.3. Matrizes n-dimensional
* Criação, inicialização
* Acessando elementos (n, m)
* Acessando a linha toda ou a coluna toda
* Transposição da matriz
* Operações com matrizes: soma, subtração, multiplicação
* Soma de elementos de um array n-dimensional
* Maior e Menor elemento de um array n-dimensional

In [2]:
m = numpy.array([(1,2),(3,4)])
print('Elemento da 2a linha e 2a coluna: ', m[1][1]) # lembrando que a indexação é a partir do 0
print('... também é possível: ', m[-1][-1])          # também posso acessar pela última linha
print('Segunda linha da matriz: ', m[1:])            # acessando toda a última linha
print('Primeira coluna da matriz: ', m[:,0])         # acessando toda a primeira coluna
print('Matriz Transposta: ')
print(m.transpose())        # matriz transposta
m1 = numpy.array([(1,2,3),(4,5,6)])
m2 = numpy.array([(7,8,9),(10,11,12)])
print('\nOperações com matrizes: ')
print('m1:\n', m1)
print('m2:\n', m2)
print('m1+m2:\n', m1+m2)
print('m2-m1:\n', m2-m1) # elemento por elemento a diferença
print('m1*m2:\n', m1*m2) # lembrando que número de colunas de m1 tem que ser igual ao número de colunas de m2
a1 = numpy.array([1,2,3,4,5,6])
print('a1:\n', a1)
print('array - a1.sum(): ', a1.sum())
print('matriz - m1.sum():', m1.sum())
print('array - a1.argmax()', a1.argmax(), ' - atenção que o retorno é o índice do array')
print('array - a1.argmin()', a1.argmin(), ' - atenção que o retorno é o índice do array')


Elemento da 2a linha e 2a coluna:  4
... também é possível:  4
Segunda linha da matriz:  [[3 4]]
Primeira coluna da matriz:  [1 3]
Matriz Transposta: 
[[1 3]
 [2 4]]

Operações com matrizes: 
m1:
 [[1 2 3]
 [4 5 6]]
m2:
 [[ 7  8  9]
 [10 11 12]]
m1+m2:
 [[ 8 10 12]
 [14 16 18]]
m2-m1:
 [[6 6 6]
 [6 6 6]]
m1*m2:
 [[ 7 16 27]
 [40 55 72]]
a1:
 [1 2 3 4 5 6]
array - a1.sum():  21
matriz - m1.sum(): 21
array - a1.argmax() 5  - atenção que o retorno é o índice do array
array - a1.argmin() 0  - atenção que o retorno é o índice do array


## 2.4. NumPy Array vs Listas do Python
* NumPy Arrays são mais compactos - consomem menos memória
* NumPy Arrays são mais eficientes - acessos leituras e escritas são muito mais rápidos
* Para computação científica vale muito a pena uso do NumPy

In [3]:
import numpy as np
m1 = np.array([(2,4),(6,8)])
# abaixo digite "a." em seguida <TAB> e mostra a lista de operações que você pode fazer com NumPy
print('Média (mean):\n', m1.mean())
print('Diagonal:\n', m1.diagonal())

Média (mean):
 5.0
Diagonal:
 [2 8]


In [4]:
lista = [1, 2, 3, 'josemar']
# abaixo digite "lista." em seguida <TAB>

## 2.5. Eficiência do NumPy - `numpy.arange()`
* O NumPy é muito mais eficiente nas interaçoes: Soma de elementos

In [7]:
import time
import sys

start = time.time()

soma = 0
for i in range(1, 100000001): # 1 seguido de 7 x zeros + 1
    soma += i

print('Elapsed time :', time.time()-start, ' secs')

Elapsed time : 13.541425704956055  seconds


In [8]:
import numpy as np
import time

start = time.time()

np.arange(1,100000001).sum()

print('Elapsed time :', time.time()-start, ' secs')

Elapsed time : 0.2754549980163574  secs


## 2.6. Fatiamento (Slice) em NumPy - `[1:]`, `[:1]`, `[::2]`

In [9]:
lista = [10, 20, 30, 40]
print('Lista - Fatiamento - do índice 1 ao índice 1 (aberto)', lista[1:2]) # >= i && < j
print('Lista - Fatiamento - o terceiro termo é o salto', lista[::2])       # a partir do primeiro elemento, até o final, saltando 2 posições


Lista - Fatiamento - do índice 1 ao índice 1 (aberto) [20]
Lista - Fatiamento - o terceiro termo é o salto [10, 30]


In [10]:
import numpy as np
a = np.array(lista)
print('NumPy - Fatiamento - do indice 1', a[1:2])
print('NumPy - Fatiamento - o terceiro termo é o salto', a[::2])

NumPy - Fatiamento - do indice 1 [20]
NumPy - Fatiamento - o terceiro termo é o salto [10 30]


## 2.7. NumPy vs Lista - Cópia do conteúdo vs cópia do Label (endereço de memória)
* Usando Listas a atribuição de uma nova lista consiste na criação de um ponteiro para o mesmo elemento
* Usando NumPy Array a atribuição de um novo array implica também na criação de um ponteiro para o mesmo elemento
* Usando NumPy Array, para se tirar uma cópia do dados, de forma que se eles forem alterados não impactar o objeto original, isto deve ser feito com copy

In [11]:
l1 = [1,2,3,4,5]
l2 = l1 # Em listas a atribuição é apenas um novo rótulo para o mesmo objeto
l1[0] = 999 # veja que a atribuição foi feita em l1 mas também afeta l2
print('l1:\n', l1) 
print('l2:\n', l2)

import numpy as np
a1 = np.array([1,2,3,4,5])
a2 = a1[:]
a2[0] = 999
print('a1:\n', a1)
print('a2:\n', a2)
a3 = np.array([1,2,3,4,5])
a4 = a3.copy()  # aqui o conteúdo de memoria foi copiado e criado um novo endereço
a3[0] = 888
print('a3:\n', a3)
print('a4:\n', a4)


l1:
 [999, 2, 3, 4, 5]
l2:
 [999, 2, 3, 4, 5]
a1:
 [999   2   3   4   5]
a2:
 [999   2   3   4   5]
a3:
 [888   2   3   4   5]
a4:
 [1 2 3 4 5]


## 2.8. NumPy `linspace` - espacamento linear entre dois elementos
* A funçao `linespace()` gera automanticamente um espaçamento linear entre dois números

In [12]:
import numpy as np
a = np.array([2,3,4])
print('a: ', a)
b = np.arange(1,12,2) # de 1 a 12, com  saltando de 2 em 2
print('b: ' , b)
c = np.linspace(1,12,6) # de 1 a 12, com 6 elementos distribuidos linearmente
print('c: ', c)
d = np.linspace(1,2,3) # de 1 a 2, com 3 elementos
print('d: ', d)

a:  [2 3 4]
b:  [ 1  3  5  7  9 11]
c:  [ 1.   3.2  5.4  7.6  9.8 12. ]
d:  [1.  1.5 2. ]


## 2.9. NumPy `reshape()`, `shape` e `ndim()` - remodelando as dimensões de array
* Como os dados são armazenados de forma contíguas, as transformações do tipo um vetor n dimensões ser convertido em uma matriz de n/2 x m

In [13]:
a = np.linspace(1,12,6) # de 1 a 12, com 6 elementos distribuidos linearmente
print('a: ', a)
b = a.reshape(3,2) # remodela o vetor de 6 posiçoes para uma matriz de 3x2
print('b: ', b)
c = b.reshape(1,6) # remodela a matriz devolta para o vetor (matriz de 1 x n)
print('c: ', c)
print('a.shape: ', a.shape)
print('b.shape: ', b.shape)
print('c.shape: ', c.shape)
print('a.ndim: ', a.ndim)
print('b.ndim: ', b.ndim)
print('c.ndim: ', c.ndim)

a:  [ 1.   3.2  5.4  7.6  9.8 12. ]
b:  [[ 1.   3.2]
 [ 5.4  7.6]
 [ 9.8 12. ]]
c:  [[ 1.   3.2  5.4  7.6  9.8 12. ]]
a.shape:  (6,)
b.shape:  (3, 2)
c.shape:  (1, 6)
a.ndim:  1
b.ndim:  2
c.ndim:  2


## 2.10. NumPy `size()` - número total de elementos do array e `itemsize`
* a função `size()` retorna o número de elementos de um array
* a função `itemsize()` retorna o tamanho em bytes de __cada__ elemento do array. Em um array de elementos do tipo float64 o `itemsize` 8 (=64/8), enquanto o tipo complex32 tem `itemsize` 4 (=32/8). Isto é equivalente a `ndarray.dtype.itemsize`

In [14]:
a = np.linspace(1,12,6) # de 1 a 12, com 6 elementos distribuidos linearmente
b = a.reshape(3,2) # remodela o vetor de 6 posiçoes para uma matriz de 3x2
c = np.array([1,2,3,4,5,6,7,8,9,0])
print('a: ', a)
print('b: ', b)
print('c: ', c)
print('a.size(): ', a.size)
print('b.size(): ', b.size)
print('c.size(): ', c.size)
print('a.itemsize: ', a.itemsize)
print('b.itemsize: ', b.itemsize)
print('c.itemsize: ', c.itemsize)

a:  [ 1.   3.2  5.4  7.6  9.8 12. ]
b:  [[ 1.   3.2]
 [ 5.4  7.6]
 [ 9.8 12. ]]
c:  [1 2 3 4 5 6 7 8 9 0]
a.size():  6
b.size():  6
c.size():  10
a.itemsize:  8
b.itemsize:  8
c.itemsize:  4


## 2.11. NumPy `dtype()` - tipo de dados armazenado

In [15]:
a = np.arange(1,12,4)
b = np.linspace(1,12,6)
print('a: ', a)
print('b: ', b)
print('dtype(a): ', a.dtype)
print('dtype(b): ', b.dtype)

a:  [1 5 9]
b:  [ 1.   3.2  5.4  7.6  9.8 12. ]
dtype(a):  int32
dtype(b):  float64


## 2.12. NumPy vetor multi-dimensional importância do colchete [] e parenteses ()

In [16]:
a = np.array([(1,3.2,5.4),(7.6, 9.8, 12)])
print('a: ', a)
print('a.shape: ', a.shape)
print('a.size:', a.size)
print('a.dtype', a.dtype)

a:  [[ 1.   3.2  5.4]
 [ 7.6  9.8 12. ]]
a.shape:  (2, 3)
a.size: 6
a.dtype float64


## 2.13. NumPy operação com todos elementos do array

In [17]:
a = np.array([(1,3.2,5.4),(7.6, 9.8, 12)])
print('a: ', a)
print('a < 4: # compara (<) cada um dos elementos com 4\n', a < 4)
print('\na * 3:\n', a * 3 )
a *= 3
print('\na:\n', a)

a:  [[ 1.   3.2  5.4]
 [ 7.6  9.8 12. ]]
a < 4: # compara (<) cada um dos elementos com 4
 [[ True  True False]
 [False False False]]

a * 3:
 [[ 3.   9.6 16.2]
 [22.8 29.4 36. ]]

a:
 [[ 3.   9.6 16.2]
 [22.8 29.4 36. ]]


## 2.14. NumPy funções `zeros()` e `ones()`

In [18]:
a = np.zeros((3,4))
print('a:\n', a)
print('a.dtype:', a.dtype)
b = np.ones((2,3))
print('b:\n', b)
print('b.dtype:', b.dtype)
c = np.ones(10)
print('c:\n', c)

a:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
a.dtype: float64
b:
 [[1. 1. 1.]
 [1. 1. 1.]]
b.dtype: float64
c:
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


## 2.15. NumPy  `dtype()`, `random`, `randint`, `set_printoptions`, `min()`, `max()`, `mean()` `std()`, `var()`, parâmetro `axis=n`

In [19]:
a = np.array([2,3,4], dtype=np.int16)
print('a:\n', a)
print('a.dtype:', a.dtype)
print('a.itemsize:', a.itemsize) # tamanho ocupado em bytes
b = np.random.random((2,3))
print('b:\n', b)
print('b.dtype:', b.dtype)
print('b.itemsize:', b.itemsize)
c = np.random.randint(0,10,5) # de 0 to 10 (inclusivo) com 5 elementos
print('c:\n', c)
print('c.dtype:', c.dtype)
print('c.itemsize:', c.itemsize)
print('c.sum: ', c.sum())
print('c.min: ', c.min(), '; c.max:', c.max(), ' - mean:', c.mean(), ' - std:', c.std(), ' - var:', c.var())
print('agora operações com eixo axis=n')
print('b:\n', b)
print('\nb.sum(axis=0)', b.sum(axis=0))

a:
 [2 3 4]
a.dtype: int16
a.itemsize: 2
b:
 [[0.13915556 0.79182196 0.70370075]
 [0.95615821 0.92911797 0.03668328]]
b.dtype: float64
b.itemsize: 8
c:
 [3 6 2 8 4]
c.dtype: int32
c.itemsize: 4
c.sum:  23
c.min:  2 ; c.max: 8  - mean: 4.6  - std: 2.1540659228538015  - var: 4.64
agora operações com eixo axis=n
b:
 [[0.13915556 0.79182196 0.70370075]
 [0.95615821 0.92911797 0.03668328]]

b.sum(axis=0) [1.09531377 1.72093993 0.74038403]


## 2.16. NumPy `loadtxt()` - importação de arquivos 
* **NumPy** simplifica muito a importação de arquivos em formato texto separados por vírgulas

In [20]:
import numpy as np
data = np.loadtxt('data.txt', dtype=np.uint8, delimiter=',', skiprows=1)
print('data:\n', data)

data:
 [[1 7 4 9 2 5 8 3 5 0]
 [4 8 3 9 5 8 8 5 0 1]
 [1 7 4 2 5 9 6 8 0 3]
 [0 7 5 2 8 6 3 4 1 9]
 [5 9 1 4 7 0 3 6 8 2]]


## 2.16. NumPy `arange()`, `shuffle()`, `choice()`
* A função `arange()` gera uma lista
* A função `shuffle()` embaralha uma lista

In [21]:
import numpy as np
a = np.arange(10)  # lista de 10 elementos iniciadas em 0 até n-1
print('a:\n', a)
print('shuffle(a)')
np.random.shuffle(a)
print('a:\n', a)
print('np.random.choice(a): ', np.random.choice(a))


a:
 [0 1 2 3 4 5 6 7 8 9]
shuffle(a)
a:
 [6 2 7 9 5 3 8 0 4 1]
np.random.choice(a):  2


## 2.17. Manipulação de elementos em NumPy array

In [9]:
import numpy as np
array = np.array([1, 2, 3])
print('array: ', array)

array:  [1 2 3]


In [10]:
np.insert(array,1,10) # a partir da posição 1, o elemento 10

array([ 1, 10,  2,  3])

In [11]:
print('array: ', array) # array continua com o conteúdo inicial

array:  [1 2 3]


## 2.18. Manipulação de elementos em NumPy array multi-dimensional
* Avaliando o numero de dimensoes de um array multi-dimensional com `ndim`
* Somar os elementos de um eixo ( vertical ou horizontal ) com `sum()`
* Inserir elemento em um array-multi-dimensional com `insert()`
* Anexar elemento ao final de um array com `append()`
* Deletando elementos do array com `delete()` pode-se escolher o eixo
* Deletando elementos do array com operacoes de fatiamento `[::]`
* Repetir elementos em um array com `repeat()`

In [56]:
a = np.array([[1,2],[3,4]])
print('a:\n', a , '\n')

print('núm. dimensoes:', a.ndim)
print('Soma do eixo X (vertical): ', a.sum(axis=0)) # soma dos elementos do eixo X
print('Soma do eixo Y (horizontal):', a.sum(axis=1)) # soma dos elementos do eixo Y


a:
 [[1 2]
 [3 4]] 

núm. dimensoes: 2
Soma do eixo X (vertical):  [4 6]
Soma do eixo Y (horizontal): [3 7]


In [57]:
np.insert(a, 1, 5, axis = 1) # axis = 1 

array([[1, 5, 2],
       [3, 5, 4]])

In [58]:
np.insert(a, 0, 5, axis = 0) # axis = 0 

array([[5, 5],
       [1, 2],
       [3, 4]])

In [59]:
import numpy as np
a = np.array([1,2,3])
np.append(a, [4,5,6])

array([1, 2, 3, 4, 5, 6])

In [60]:
b = np.array([[1,2], [3,4]])
print('b:\n', b)
np.append(b,[[5,6]]) # sem dizer qual o eixo, vai virar um array uni-dimensional
np.append(b,[[5,6]], axis=0) # dizendo o eixo volta a ser uma matriz

b:
 [[1 2]
 [3 4]]


array([[1, 2],
       [3, 4],
       [5, 6]])

In [61]:
a = np.array([[1,2],[3,4],[5,6]])
np.delete(a, 1, 0) # elemento indexado 1 (começa em 0) do eixo x
np.delete(a, 0, 1) # elemento indexado 0 (primeiro) do eixo y

array([[2],
       [4],
       [6]])

In [62]:
b = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])
print('b:\n', b)
b_ = np.delete(b,np.s_[::2],0)
print('b_(depois do delete):\n', b_)


b:
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
b_(depois do delete):
 [[ 4  5  6]
 [10 11 12]]


In [70]:
import numpy as np
a = np.array([[1,2],[3,4]])
print('a:\n', a)
np.repeat(a,2) # repetir 2 vezes cada elemento
print('\nrepeat(array,n-repeat): repetir 2 vezes cada elemento do eixo 0 \n', np.repeat(a,2,axis=0))
print('\nrepeat(array,n-repeat): repetir 2 vezes cada elemento do eixo 1 \n', np.repeat(a,2,axis=1))


a:
 [[1 2]
 [3 4]]

repeat(array,n-repeat): repetir 2 vezes cada elemento do eixo 0 
 [[1 2]
 [1 2]
 [3 4]
 [3 4]]

repeat(array,n-repeat): repetir 2 vezes cada elemento do eixo 1 
 [[1 1 2 2]
 [3 3 4 4]]
