# Aula 02 - [NumPy](http://www.numpy.org/)

**Objetivos**

- Apresentar o objeto *array* de N-dimensões
- Guia de funções sofisticadas (*broadcasting*)
- Tour nos sub-módulos para: Álgebra Linear, transformada de Fourier, números aleatórios, etc
- Uso para integrar código C/C++ e Fortran

In [None]:
a = [0.1, 0.25, 0.03]
b = [400, 5000, 6e4]
c = a + b
c

In [None]:
[e1+e2 for e1, e2 in zip(a, b)]

In [None]:
import math

math.tanh(c)

In [None]:
[math.tanh(e) for e in c]

Python é uma linguagem excelente para "propósitos gerais", com um sintaxe
clara elegível, tipos de dados (data types) funcionais (strings, lists, sets,
dictionaries, etc) e uma biblioteca padrão vasta.

Entretanto não é um linguagem desenhada especificamente para matemática e
computação científica.  Não há forma fácil de representar conjunto de dados
multidimensionais nem ferramentas para álgebra linear e manipulação de
matrizes.
(Os blocos essenciais para quase todos os problemas de computação
científica.)

Por essas razões que o NumPy existe.  Em geral importamos o NumPy como `np`:

In [None]:
import numpy as np

NumPy, em seu núcleo, fornece apenas um objeto `array`.

In [None]:
lst = [10, 20, 30, 40]

arr = np.array([10, 20, 30, 40])

print(lst)

print(arr)

In [None]:
print(lst[0], arr[0])
print(lst[-1], arr[-1])
print(lst[2:], arr[2:])

A diferença entre `list` e `array` é que a `arrays` são **homógenas**!

In [None]:
lst[-1] = 'Um string'
lst

In [None]:
arr[-1] = 'Um string'
arr

In [None]:
arr.dtype

In [None]:
arr[-1] = 1.234
arr

Voltando às nossas lista `a` e `b`

In [None]:
a = [0.1, 0.25, 0.03]
b = [400, 5000, 6e4]

a = np.array(a)
b = np.array(b)
c = a + b
c

In [None]:
np.tanh([a, b])

In [None]:
a * b

In [None]:
np.dot(a, b)

In [None]:
np.matrix(a) * np.matrix(b).T

*Data types*

* bool
* uint8
* int (Em Python2 é *machine dependent*)
* int8
* int32
* int64
* float (Sempre é *machine dependent* Matlab double)
* float32
* float64

(http://docs.scipy.org/doc/numpy/user/basics.types.html.)

Curiosidades...

In [None]:
np.array(255, dtype=np.uint8)

In [None]:
float_info = '{finfo.dtype}: max={finfo.max:<18}, approx decimal precision={finfo.precision};'
print(float_info.format(finfo=np.finfo(np.float32)))
print(float_info.format(finfo=np.finfo(np.float64)))

https://en.wikipedia.org/wiki/Floating_point

## Criando `arrays`:

In [None]:
np.zeros(3, dtype=int)

In [None]:
np.zeros(5, dtype=float)

In [None]:
np.ones(5, dtype=complex)

In [None]:
a = np.empty([3, 3])
a

In [None]:
a.fill(np.NaN)
a

## Métodos das `arrays`

In [None]:
a = np.array([[1, 2, 3], [1, 2, 3]])
a

In [None]:
print('Tipo de dados             : {}'.format(a.dtype))
print('Número total de elementos : {}'.format(a.size))
print('Número de dimensões       : {}'.format(a.ndim))
print('Forma                     : {}'.format(a.shape))
print('Memória em bytes          : {}'.format(a.nbytes))

## Outros métodos matemáticos/estatísticos úteis:

In [None]:
print('Máximo e mínimo                      : {}'.format(a.min(), a.max()))
print('Some é produto de todos os elementos : {}'.format(a.sum(), a.prod()))
print('Média e desvio padrão                : {}'.format(a.mean(), a.std()))

In [None]:
a.mean(axis=0)

In [None]:
a.mean(axis=1)

## Métodos que auxiliam na criação de `arrays`.

In [None]:
np.zeros(a.shape) == np.zeros_like(a)

In [None]:
np.arange(1, 2, 0.2)

In [None]:
a = np.linspace(1, 10, 5)  # Olhe também `np.logspace`
a

## 5 amostras aleatórias tiradas da distribuição normal de média 0 e variância 1.

In [None]:
np.random.randn(5)

## 5 amostras aleatórias tiradas da distribuição normal de média 10 e variância 3.

In [None]:
np.random.normal(10, 3, 5)

## Máscara condicional

In [None]:
mask = np.where(a <= 5)  # Para quem ainda vive em MatlabTM world.
mask

In [None]:
mask = a <= 5  # Melhor não?
mask

In [None]:
a[mask]

## Temos também as `masked_arrays`

In [None]:
import numpy.ma as ma

ma.masked_array(a, mask)

Salvando e carregando novamente os dados:

- np.save
- np.savez
- np.load

In [None]:
a = np.random.rand(10)

b = np.linspace(0, 10, 10)

np.save('arquivo_a', a)

np.save('arquivo_b', b)

np.savez('arquivo_ab', a=a, b=b)


In [None]:
%%bash

ls *.np*

In [None]:
c = np.load('arquivo_ab.npz')

c.files

## Operações: +, -, *, /, //, **, %

In [None]:
c['b'] // c['a']

In [None]:
a = np.array([1, 2, 3])
a **= 2
a

## Manipulando dados reais

Vamos utilizar os dados do programa de observação do oceano Pirata.

http://www.goosbrasil.org/pirata/dados/

In [None]:
np.loadtxt("./data/dados_pirata.csv", delimiter=',')

In [None]:
!head ./data/dados_pirata.csv

In [None]:
data = np.loadtxt("./data/dados_pirata.csv", skiprows=1, usecols=range(2, 16), delimiter=',')

data.shape, data.dtype

In [None]:
data[data == -99999.] = np.NaN
data

In [None]:
data.max(), data.min()

In [None]:
np.nanmax(data), np.nanmin(data)

In [None]:
np.nanargmax(data), np.nanargmin(data)

In [None]:
np.unravel_index(np.nanargmax(data), data.shape), np.unravel_index(np.nanargmin(data), data.shape)

<img  height="300" src="files/anatomyarray.png" >

In [None]:
np.nanmean(data), np.nanmedian(data)

Fatiar (ou *slicing*) funciona da mesma forma que Lista ou Tuples.

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

fig, ax = plt.subplots()

ax.plot(data[:, 0])
ax.plot(data[:, -1])

Dados com máscara (Masked arrays)

In [None]:
plt.pcolormesh(data)

In [None]:
import numpy.ma as ma

data = ma.masked_invalid(data)

In [None]:
plt.pcolormesh(np.flipud(data.T))
plt.colorbar()

In [None]:
data.max(), data.min(), data.mean()

In [None]:
data.shape

In [None]:
z = [1, 10, 100, 120, 13, 140, 180, 20, 300, 40,5, 500, 60, 80]

fig, ax = plt.subplots()
ax.plot(data[42, :], z, 'ko')
ax.invert_yaxis()