In [None]:
from IPython.display import Image
Image("imagens/numpylogo.png", width=600)

# NumPy: a base da computa√ß√£o cient√≠fica no Python

In [None]:
import numpy as np

## O que √© a NumPy?

> A computa√ß√£o com arrays √© a base para estat√≠stica e matem√°tica computacionais, computa√ß√£o cient√≠fica e suas v√°rias aplica√ß√µes em ci√™ncia e an√°lise de dados, tais como visualiza√ß√£o de dados, processamento de sinais digitais, processamento de imagens, bioinform√°tica, aprendizagem de m√°quina, IA e muitas outras.
>
> A manipula√ß√£o e a transforma√ß√£o de dados de grande escala dependem de computa√ß√£o eficiente de alta performance com arrays. A linguagem mais escolhida para an√°lise de dados, aprendizagem de m√°quina e computa√ß√£o num√©rica produtiva √© Python.
>
> Numerical Python (Python Num√©rico) ou NumPy √© a biblioteca em Python padr√£o para o suporte √† utiliza√ß√£o de matrizes e arrays  multidimensionais de grande porte, e vem com uma vasta cole√ß√£o de fun√ß√µes matem√°ticas de alto n√≠vel para operar nestas arrays.
>
> Desde o lan√ßamento do NumPy em 2006, o Pandas apareceu em 2008, e nos √∫ltimos anos vimos uma sucess√£o de bibliotecas de computa√ß√£o com arrays aparecerem, ocupando e preenchendo o campo da computa√ß√£o com arrays. Muitas dessas bibliotecas mais recentes imitam recursos e capacidades parecidas com o NumPy e entregam algoritmos e recursos mais recentes voltados para aplica√ß√µes de aprendizagem de m√°quina e intelig√™ncia artificial.
>
> A computa√ß√£o com arrays √© baseada em estruturas de dados chamadas arrays. Arrays s√£o usadas para organizar grandes quantidades de dados de forma que um conjunto de valores relacionados possa ser facilmente ordenado, obtido, matematicamente manipulado e transformado f√°cil e rapidamente.
>
> A computa√ß√£o com arrays √© √∫nica pois envolve operar nos valores de um array de dados de uma vez. Isso significa que qualquer opera√ß√£o de array se aplica a todo um conjunto de valores de uma s√≥ vez. Esta abordagem vetorizada fornece velocidade e simplicidade por permitir que os programadores organizem o c√≥digo e operem em agregados de dados, sem ter que usar la√ßos com opera√ß√µes escalares individuais.

(Fonte: [https://numpy.org](https://numpy.org))

A biblioteca NumPy consiste em:

- objeto `ndarray` (array homog√™neo n-dimensional)
- capacidade de **broadcasting**
- fun√ß√µes matem√°ticas padr√£o com capacidade de vetoriza√ß√£o
- ferramentas para a integra√ß√£o de c√≥digo C/C++ e Fortran
- √°lgebra linear, transformadas de Fourier, gerador de n√∫meros aleat√≥rios

### Por que n√£o usar listas?

Uma lista em Python √© √†s vezes vista como equivalente de um *array* em outras linguagens, mas uma lista √© mut√°vel e pode conter elementos de tipos diferentes.

Quando uma array de fato cont√©m elementos de um s√≥ tipo, temos algumas vantagens:
- Tamanho
- Desempenho
- Funcionalidades espec√≠ficas

üéà Link interessante: https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference

#### Alguns exemplos

In [None]:
n = 10_000_000
v = []
w = []
for i in range(n):
    v.append(i)
    w.append(i/10)

In [None]:
type(v), type(w)

In [None]:
%timeit v + w

In [None]:
v_np = np.array(v)
w_np = np.array(w)

In [None]:
type(v_np), type(w_np)

In [None]:
v_np.dtype, w_np.dtype

In [None]:
v_np.shape

In [None]:
v_np.size

In [None]:
v_np.nbytes/v_np.size

In [None]:
%timeit v_np + w_np

#### E o m√≥dulo array?

In [None]:
import array

In [None]:
v_arr = array.array('d', v)
w_arr = array.array('d', w)

In [None]:
v_arr.typecode

In [None]:
%timeit v_arr + w_arr

üéà Link interessante: https://medium.com/@gough.cory/performance-of-numpy-array-vs-python-list-194c8e283b65

#### Como isso acontece?

As arrays do NumPy s√£o eficientes porque 
- s√£o compat√≠veis com as rotinas de √°lgebra linear escritas em C/C++ ou Fortran
- s√£o *views* de objetos alocados por C/C++, Fortran e Cython
- as opera√ß√µes vetorizadas em geral evitam copiar arrays desnecessariamente

In [None]:
Image(url="https://media.springernature.com/full/springer-static/image/art%3A10.1038%2Fs41586-020-2649-2/MediaObjects/41586_2020_2649_Fig1_HTML.png", width=600)

*Fonte: Harris et al., "Array Programming with NumPy", Nature volume 585, pages 357‚Äì362 (2020)*

## Vetoriza√ß√£o

Vetoriza√ß√£o √© a capacidade de expressar opera√ß√µes em arrays sem especificar o que acontece com cada elemento individual (em outras palavras: sem usar loops!)

- C√≥digo vetorizado √© mais conciso e leg√≠vel
- O c√≥digo fica (ligeiramente) mais parecido com a nota√ß√£o matem√°tica
- Mais r√°pido (usa opera√ß√µes otimizadas em C/Fortran)

### Vetoriza√ß√£o: Exemplo 1

In [None]:
v = np.array([1, 2, 3, 4])

In [None]:
v**2

In [None]:
np.power(v, 2)

In [None]:
u = np.array([4.5, 3, 2, 1])

In [None]:
np.dot(u, v) 

#### Nota: onde est√£o implementadas as fun√ß√µes do NumPy?

In [None]:
print(np.dot.__doc__)

In [None]:
np.info(np.dot)

In [None]:
np.dot?

---

‚ùì‚ùì
- [C√≥digo fonte da fun√ß√£o `np.dot`](https://github.com/numpy/numpy/blob/master/numpy/core/multiarray.py) - **linha 716**
- [Agora de verdade](https://github.com/numpy/numpy/blob/master/numpy/core/src/multiarray/methods.c) - **linha 2269**
- [For realz](https://github.com/numpy/numpy/blob/master/numpy/core/src/multiarray/multiarraymodule.c) - **linha 981 / 1023**

### Cuidado!

In [None]:
sum?

In [None]:
sum(range(5), -1)

In [None]:
from numpy import *
sum(range(5), -1)

In [None]:
np.sum?

In [None]:
%reset

In [None]:
import numpy as np

---

#### Vetoriza√ß√£o: Exemplo 2

In [None]:
A = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8], 
              [9, 10, 11, 12]])

In [None]:
A.T

In [None]:
A.shape

In [None]:
A.ndim

In [None]:
A.reshape((2, 6))

In [None]:
A.reshape((4, 3))

In [None]:
A.ravel()

In [None]:
u = np.random.rand(10)
u

In [None]:
u.ndim

In [None]:
u.shape

In [None]:
u.T

In [None]:
u.T.shape

In [None]:
u.T == u

In [None]:
u.T is u

In [None]:
np.transpose?

In [None]:
v = u.T
v.base is u

In [None]:
u[0] = 0

In [None]:
u

In [None]:
v

[Documenta√ß√£o para ndarray.base](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.base.html)

#### ‚ùì (O que s√£o essas dimens√µes?)

In [None]:
from IPython.display import Image
Image(url="https://fgnt.github.io/python_crashkurs_doc/_images/numpy_array_t.png", width=600)

*[Fonte: Elegant SciPy](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html)*

#### Vetoriza√ß√£o: Exemplo 3

In [None]:
A[0, :]  

In [None]:
A.sum()

In [None]:
A.sum(axis=0)

In [None]:
A.sum(axis=1)

In [None]:
A.size * A.itemsize

In [None]:
A.nbytes

Novamente:

In [None]:
Image(url="https://media.springernature.com/full/springer-static/image/art%3A10.1038%2Fs41586-020-2649-2/MediaObjects/41586_2020_2649_Fig1_HTML.png", width=600)

### Broadcasting

Permite fazer opera√ß√µes vetoriais de maneira generalizada.

‚ò†Ô∏è **Cuidado!** ‚ò†Ô∏è

In [None]:
x = np.array([1, 2, 3, 4])

In [None]:
x + 5

In [None]:
A

In [None]:
x

In [None]:
A+x

In [None]:
np.add?

### üìí Exerc√≠cios 

Como determinar a dieta mais econ√¥mica que satisfaz os requerimentos nutricionais b√°sicos para boa sa√∫de? Vamos supor que queremos fazer nossa compra semanal no supermercado: leite, miojo e caf√©. Atualmente, os pre√ßos s√£o:

- Leite: 4 reais o litro
- Miojo: 1,50 o pacote
- Caf√©: 10 reais a unidade

Vamos nos preocupar com 4 ingredientes nutricionais b√°sicos: prote√≠na, carboidratos e gordura.

| Produto      | Carboidratos | Prote√≠nas | Gorduras|
---------------|--------------|-----------|---------|
|Miojo (100g)  | 63,6g        | 10,0g     | 15,5g   |
|Leite (100ml) | 4,66g        | 3,32g     | 3,35g   |

#### Exerc√≠cio 1

Use uma ndarray `a` bidimensional que armazene, na posi√ß√£o $(i, j)$, a quantidade de gramas do nutriente $i$ contidas em cada grama do alimento $j$.

#### Solu√ß√£o 1

In [None]:
tabela = np.zeros((3, 2))

In [None]:
miojo = np.array([63.6, 10, 15.5])
leite = np.array([4.66, 3.32, 3.35])

In [None]:
# Para ter os valores nutricionais por grama (ao inv√©s de para cada 100g)
miojo = miojo/100
# Mesma coisa para o leite: vamos obter o valor por ml
leite = leite/100

In [None]:
tabela[:, 0] = miojo

In [None]:
tabela

In [None]:
tabela[:, 1] = leite

In [None]:
tabela

#### Solu√ß√£o 2

In [None]:
miojo = np.array([63.6, 10, 15.5])
leite = np.array([4.66, 3.32, 3.35])

In [None]:
tabela = np.vstack([miojo, leite]).T/100

In [None]:
tabela

#### Solu√ß√£o 3

In [None]:
tabela = np.stack([miojo, leite], axis=1)/100

In [None]:
tabela

#### Exerc√≠cio 2

A partir da array `a` criada acima, extraia um array que contenha os valores de nutriente por alimento.

In [None]:
carbs = tabela[0, :]
proteina = tabela[1, :]
gordura = tabela[2, :]

In [None]:
carbs.shape, proteina.shape, gordura.shape

#### Exerc√≠cio 3

Calcule o pre√ßo de uma compra incluindo 2 litros de leite, 1 pacote de caf√© e 5 pacotes de miojo.

Para facilitar, vamos usar a seguinte nota√ß√£o:

$x_0$ -> quantidade de litros de leite;

$x_1$ -> quantidade de pacotes de miojo;

$x_2$ -> quantidade de pacotes de caf√©;

Isso significa que podemos representar a quantidade a ser comprada como:

In [None]:
x = np.array([2, 5, 1])

In [None]:
# Leite: 4 reais o litro
# Miojo: 1,50 o pacote
# Caf√©: 10 reais a unidade
c = np.array([4, 1.5, 10])

Total da compra:

In [None]:
x[0]*c[0] + x[1]*c[1]+x[2]*c[2]

In [None]:
total = np.dot(c, x)
total

O custo pode ser calculado, em geral, como

In [None]:
def custo(x):
    c = np.array([4, 1.5, 10])
    return np.dot(x, c)

Assim, se mudamos as quantidades para

10 litros de leite; 8 pacotes de miojo; 2 pacotes de caf√©

temos

In [None]:
custo(np.array([10, 8, 2]))

---

### Opera√ß√µes vetorizadas e pontos flutuantes

In [None]:
x = np.linspace(-np.pi, np.pi, 10)

In [None]:
x

In [None]:
np.sin(x)

#### ‚ö†Ô∏è‚ö†Ô∏è Observa√ß√£o

In [None]:
0 * np.nan

In [None]:
np.nan == np.nan

In [None]:
np.inf > np.nan

In [None]:
np.nan - np.nan

In [None]:
np.nan in set([np.nan])

Observe:

In [None]:
np.array(0) / np.array(0)

In [None]:
np.array(0) // np.array(0)

In [None]:
np.array([np.nan]).astype(int) #.astype(float)

In [None]:
0.3 == 3 * 0.1

**Nunca teste se um n√∫mero real √© igual a outro! Use sempre toler√¢ncias.**

In [None]:
np.abs(0.3 - 3*0.1)

#### Explica√ß√£o

- `NaN` : *Not a Number*
- `Inf` : Infinito?

In [None]:
for dtype in [np.int8, np.int32, np.int64]:
   print(np.iinfo(dtype).min)
   print(np.iinfo(dtype).max)

In [None]:
for dtype in [np.float32, np.float64]:
   print(np.finfo(dtype).min)
   print(np.finfo(dtype).max)
   print(np.finfo(dtype).eps)

In [None]:
np.finfo(np.float64).max+1.e308

Leia mais na documenta√ß√£o oficial do Python: https://docs.python.org/pt-br/3/tutorial/floatingpoint.html

In [None]:
x = np.arange(0, 10*np.pi, np.pi)

In [None]:
np.sin(x) == 0

In [None]:
np.allclose(np.sin(x), np.zeros(np.shape(x)))

---

### Basic Indexing, Fancy Indexing

In [None]:
x = np.arange(10)
x[2:5]

In [None]:
x[:-7]

In [None]:
x[1:7:2]

In [None]:
y = np.arange(35).reshape(5,7)
y[1:5:2,::3]

As arrays do NumPy podem ser indexadas por outras arrays (ou qualquer outro objeto tipo-sequ√™ncia que possa ser convertido para uma array, como listas, com a exce√ß√£o de tuplas). No entanto, isso pode n√£o ser t√£o eficiente pois ativa o [indiciamento avan√ßado](https://numpy.org/devdocs/reference/arrays.indexing.html#advanced-indexing).

In [None]:
x = np.arange(10,1,-1)

In [None]:
x[np.array([3,3,-3,8])]

In [None]:
x[np.array([[1,1],[2,3]])]

Tamb√©m podemos usar m√°scaras booleanas:

In [None]:
b = y>20

In [None]:
y[b]

In [None]:
x = np.arange(30).reshape(2,3,5)

In [None]:
b = np.array([[True, True, False], [False, True, True]])
x[b]

In [None]:
x = np.arange(5)
x[:,np.newaxis] + x[np.newaxis,:]

In [None]:
z = np.arange(81).reshape(3,3,3,3)
z[1,...,2]

In [None]:
z[1,:,:,2]

### Exerc√≠cios

#### Criar um array aleat√≥rio de tamanho 12 e substituir o menor valor por -999.

In [None]:
aleatorio = np.random.random(12)
aleatorio[aleatorio.argmax()] = -999
aleatorio

#### Ordenar uma array pela n-√©sima coluna

In [None]:
vetor = np.random.randint(0,10,(3,3))
vetor

In [None]:
vetor[vetor[:,1].argsort()]

#### Como saber se uma array 2D tem colunas nulas?

In [None]:
z = np.random.randint(0,3,(3,10))
z

In [None]:
(~z.any(axis=0)).any()

In [None]:
z[:, 0] = np.zeros(3)
z

In [None]:
(~z.any(axis=0)).any()

#### Trocar duas linhas de uma matriz

In [None]:
A = np.arange(25).reshape(5,5)
A

In [None]:
A[[0,1]] = A[[1,0]]
A

### 2.4 Subm√≥dulos

- `numpy.random` 
- `numpy.fft`
- `numpy.ma`
- `numpy.linalg`
- `numpy.f2py`

In [None]:
print(np.__doc__)

---

[Voltar ao notebook principal](00-Tutorial_Python_Brasil_2020.ipynb)

[Ir para o notebook Matplotlib](02-Tutorial_Matplotlib.ipynb)