# Aula 02 - [NumPy](http://www.numpy.org/)

**Objetivos**

- Apresentar o objeto *array* de N-dimensões
- Guia de funções sofisticadas (*broadcasting*)
- Tour nos sub-módulos para: Álgebra Linear, transformada de Fourier, números aleatórios, etc
- Uso para integrar código C/C++ e Fortran

In [3]:
a = [0.1, 0.25, 0.03]
b = [400, 5000, 6e4]
c = a + b
c

[0.1, 0.25, 0.03, 400, 5000, 60000.0]

In [4]:
[e1+e2 for e1, e2 in zip(a, b)]

[400.1, 5000.25, 60000.03]

In [6]:
import math

math.tanh(c)

TypeError: a float is required

In [7]:
[math.tanh(e) for e in c]

[0.09966799462495582, 0.24491866240370913, 0.029991003238820143, 1.0, 1.0, 1.0]

Python é uma linguagem excelente para "propósitos gerais", com um sintaxe
clara elegível, tipos de dados (data types) funcionais (strings, lists, sets,
dictionaries, etc) e uma biblioteca padrão vasta.

Entretanto não é um linguagem desenhada especificamente para matemática e
computação científica.  Não há forma fácil de representar conjunto de dados
multidimensionais nem ferramentas para álgebra linear e manipulação de
matrizes.
(Os blocos essenciais para quase todos os problemas de computação
científica.)

Por essas razões que o NumPy existe.  Em geral importamos o NumPy como `np`:

In [1]:
import numpy as np

NumPy, em seu núcleo, fornece apenas um objeto `array`.

In [10]:
lst = [10, 20, 30, 40]

arr = np.array([10, 20, 30, 40])

print(lst)

print(arr)

[10, 20, 30, 40]
[10 20 30 40]


In [13]:
print(lst[0], arr[0])
print(lst[-1], arr[-1])
print(lst[2:], arr[2:])

(10, 10)
(40, 40)
([30, 40], array([30, 40]))


A diferença entre `list` e `array` é que a `arrays` são **homógenas**!

In [18]:
lst[-1] = 'Um string'
lst

[10, 20, 30, 40, 'Um string']

In [19]:
arr[-1] = 'Um string'
arr

ValueError: invalid literal for long() with base 10: 'Um string'

In [20]:
arr.dtype

dtype('int64')

In [21]:
arr[-1] = 1.234
arr

array([10, 20, 30,  1])

Voltando às nossas lista `a` e `b`

In [41]:
a = [0.1, 0.25, 0.03]
b = [400, 5000, 6e4]

a = np.array(a)
b = np.array(b)
c = a + b
c

array([   400.1 ,   5000.25,  60000.03])

In [42]:
np.tanh([a, b])

array([[ 0.09966799,  0.24491866,  0.029991  ],
       [ 1.        ,  1.        ,  1.        ]])

In [43]:
a * b

array([   40.,  1250.,  1800.])

In [44]:
np.dot(a, b)

3090.0

In [45]:
np.matrix(a) * np.matrix(b).T

matrix([[ 3090.]])

*Data types*

* bool
* uint8
* int (Em Python2 é *machine dependent*)
* int8
* int32
* int64
* float (Sempre é *machine dependent* Matlab double)
* float32
* float64

(http://docs.scipy.org/doc/numpy/user/basics.types.html.)

Curiosidades...

In [58]:
np.array(255, dtype=np.uint8)

array(255, dtype=uint8)

In [60]:
float_info = '{finfo.dtype}: max={finfo.max:<18}, approx decimal precision={finfo.precision};'
print(float_info.format(finfo=np.finfo(np.float32)))
print(float_info.format(finfo=np.finfo(np.float64)))

float32: max=3.40282346639e+38 , approx decimal precision=6;
float64: max=1.79769313486e+308, approx decimal precision=15;


https://en.wikipedia.org/wiki/Floating_point

Criando `arrays`:

In [61]:
np.zeros(3, dtype=int)

array([0, 0, 0])

In [62]:
np.zeros(5, dtype=float)

array([ 0.,  0.,  0.,  0.,  0.])

In [64]:
np.ones(5, dtype=complex)

array([ 1.+0.j,  1.+0.j,  1.+0.j,  1.+0.j,  1.+0.j])

In [82]:
a = np.empty([3, 3])
a

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [83]:
a.fill(np.NaN)
a

array([[ nan,  nan,  nan],
       [ nan,  nan,  nan],
       [ nan,  nan,  nan]])

In [94]:
a = np.array([[1, 2, 3], [1, 2, 3]])
a

array([[1, 2, 3],
       [1, 2, 3]])

In [95]:
print('Tipo de dados             : {}'.format(a.dtype))
print('Número total de elementos : {}'.format(a.size))
print('Número de dimensões       : {}'.format(a.ndim))
print('Forma                     : {}'.format(a.shape))
print('Memória em bytes          : {}'.format(a.nbytes))

Tipo de dados             : int64
Número total de elementos : 6
Número de dimensões       : 2
Forma                     : (2, 3)
Memória em bytes          : 48


Outros métodos matemáticos/estatísticos úteis:

In [96]:
print('Máximo e mínimo                      : {}'.format(a.min(), a.max()))
print('Some é produto de todos os elementos : {}'.format(a.sum(), a.prod()))
print('Média e desvio padrão                : {}'.format(a.mean(), a.std()))

Máximo e mínimo                      : 1
Some é produto de todos os elementos : 12
Média e desvio padrão                : 2.0


In [100]:
a.mean(axis=0)

array([ 1.,  2.,  3.])

In [101]:
a.mean(axis=1)

array([ 2.,  2.])

Outro métodos que auxiliam na criação de `arrays`.

In [None]:
np.zeros(a.shape) == np.zeros_like(a)

In [None]:
np.arange(1, 2, 0.2)

In [68]:
a = np.linspace(1, 10, 5)  # Olhe também `np.logspace`
a

array([  1.  ,   3.25,   5.5 ,   7.75,  10.  ])

5 amostras aleatórias tiradas da distribuição normal de média 0 e variância 1.

In [72]:
np.random.randn(5)

array([ 0.14474962, -0.42239716,  0.44379256, -0.07912278,  0.60223401])

5 amostras aleatórias tiradas da distribuição normal de média 10 e variância 3.

In [73]:
np.random.normal(10, 3, 5)

array([ 13.45057499,  17.39475081,  10.71035066,  12.30270629,   8.46787358])

In [69]:
mask = np.where(a <= 5)  # Para quem ainda vive em MatlabTM world.
mask

(array([0, 1]),)

In [70]:
mask = a <= 5  # Melhor não?
mask

array([ True,  True, False, False, False], dtype=bool)

In [71]:
a[mask]

array([ 1.  ,  3.25])

Temos também as `masked_arrays`

In [74]:
import numpy.ma as ma

ma.masked_array(a, mask)

masked_array(data = [-- -- 5.5 7.75 10.0],
             mask = [ True  True False False False],
       fill_value = 1e+20)

Salvando e carregando novamente os dados:

- np.save
- np.savez
- np.load

In [None]:
a = np.random.rand(10)

b = np.linspace(0, 10, 10)

np.save('arquivo_a', a)

np.save('arquivo_b', b)

np.savez('arquivo_ab', a=a, b=b)


In [None]:
%%bash

ls *.np*

In [None]:
c = np.load('arquivo_ab.npz')

c.files

In [None]:
# Operações: +, -, *, /, //, **, %

c['b'] // c['a']

In [None]:
a = np.array([1, 2, 3])
a **= 2
a

In [None]:
A = np.arange(25, dtype=float).reshape(5, 5)
A

In [None]:
A[A<12] = np.NaN
A

## Manipulando dados reais

Vamos utilizar os dados do programa de observação do oceano Pirata.

http://www.goosbrasil.org/pirata/dados/

In [None]:
np.loadtxt("./data/dados_pirata.csv", delimiter=',')

In [None]:
!head ./data/dados_pirata.csv

In [None]:
data = np.loadtxt("./data/dados_pirata.csv", skiprows=1, usecols=range(2, 16), delimiter=',')

data.shape, data.dtype

Você pode "designar" valores (como criar uma máscara para dados ruins).

In [None]:
data[data == -99999.] = np.NaN
data

In [None]:
data.max(), data.min()

In [None]:
np.nanmax(data), np.nanmin(data)

In [None]:
np.nanargmax(data), np.nanargmin(data)

In [None]:
np.unravel_index(np.nanargmax(data), data.shape), np.unravel_index(np.nanargmin(data), data.shape)

<img  height="300" src="files/anatomyarray.png" >

In [None]:
np.nanmean(data), np.nanmedian(data)

Fatiar (ou *slicing*) funciona da mesma forma que Lista ou Tuples.

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

fig, ax = plt.subplots()

ax.plot(data[:, 0])
ax.plot(data[:, -1])

Dados com máscara (Masked arrays)

In [None]:
plt.pcolormesh(data)

In [None]:
import numpy.ma as ma

data = ma.masked_invalid(data)

In [None]:
plt.pcolormesh(np.flipud(data.T))
plt.colorbar()

In [None]:
data.max(), data.min(), data.mean()

In [None]:
data.shape

In [None]:
z = [1, 10, 100, 120, 13, 140, 180, 20, 300, 40,5, 500, 60, 80]

fig, ax = plt.subplots()
ax.plot(data[42, :], z, 'ko')
ax.invert_yaxis()