# NumPy

NumPy é o pacote fundamental para computação científica em Python. Contém entre outras coisas:

* Um poderoso objeto de matrizes N-dimensionais
* Ferramentas para integrar com C/C++ e Fortran
* Capacidade para cálculos em álgebra linear, transformação de Fourier e geração de números aleatórios.

(http://www.numpy.org/)

## Comandos básicos

In [None]:
x = [[ 1., 0., 0.],
     [ 0., 1., 2.]]

type(x)

In [None]:
x * 5

### Importando pacotes no Python: 

A estrutura básica para importar pacotes é a seguinte:

`import numpy`

Podemos chamar "subpacotes" ou métodos da seguinte forma:

`from numpy import linalg
from numpy import array`

Encurtamentos geralmente são usados já que o nome do pacote precisa ser especificado quando chamando um método. Ou seja, geralmente usamos:

`import numpy as np`

Dessa forma não precisamos sempre escrever `numpy` nos comandos, apenas `np`

In [None]:
import numpy as np

In [None]:
x = np.array([[ 1., 0., 0.],
              [ 0., 1., 2.]])

In [None]:
print type(x)
print x.shape
print x.ndim
print x.size
print x.dtype

In [None]:
dir(x)

In [None]:
print x

In [None]:
x = np.array([[ 'abc', 0., 0.],
              [ 0., 1., 2.]])

print x.dtype
print x

É possível criar arrays de zeros, 1 e um array vazio.

In [None]:
x = np.zeros((3, 4)) # as dimensões

print x
print x.shape

In [None]:
x = np.ones((3, 4))

print x
print x.shape

Para criar uma lista de valores automaticamente,

In [None]:
x = np.arange(0, 10, 1) # start, stop, step

print x

In [None]:
x = np.linspace(0, 9, 10)

print x

É possível redimensionar a sua matrix de dados também

In [None]:
x = np.random.random((3, 4))

x_new = x.reshape((4, 3))

print x, '\n'
print x_new

Caso você seja preguiçoso, o índice -1 automaticamente calcula a dimensão faltante

In [None]:
print x.reshape((6, -1))

Assim como transformar seus dados em um vetor de 1D

In [None]:
x = np.random.random((3, 4))

print x.flatten()

## Indexação

In [None]:
x = np.random.random((3, 4))

print x

In [None]:
print x.ndim

In [None]:
print x[:, :]

Porém se especificarmos mais índices que a matrix possui de dimensões um erro será levantado

In [None]:
print x[:, :, :]

Equivalentemente a `x[:, :]` e x, utilizando `x[:]`, você seleciona todos os índices do array, independentemente de quantas dimensões ele possui.

In [None]:
print x[:]

Caso você queira selecionar apenas uma linha ou coluna

In [None]:
print x[:, 0] # todas as linhas e coluna 0
print x[0, :] # todas as colunas e a linha 0

Pegando apenas um elemento

In [None]:
print x[0, 0] # primeiro elemento
print x[0, -1] # primeira linha e última coluna
print x[2, 3]

Selecionando apenas um intervalo de dados

In [None]:
print x[1:3, :] # todas as colunas, e das linhas 1 a 3, ou seja, linhas 1 e 2 
                # (lembrando que a indexação começa em 0)

É possível também inverter a ordem dos dados. Por exemplo, se você quiser reordenar as linhas

In [None]:
print x[::-1, :]

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> As vezes os arquivos netCDF ou grib que são comuns em meteorologia podem vir com as coordenadas de latitude invertida, ou seja, em vez de -90 a 90 de 90 a -90. Usando isso você consegue inverter as coordenadas de modo que fique do jeito que você espera.
</div>

In [None]:
x = np.random.random((3, 4, 5))

print x[..., 0]
print x[0]

Você também pode indexar com base em alguma condição que você quer que seja satisfeita, por exemplo:

In [None]:
a = np.array([5, 9, 2, 1.5, 99])

print a > 5

In [None]:
print a[a > 5]

## Exercício 4

Ache o índice do elemento mais próximo de 0.75 de um array aleatório de 120 elementos (Fixe uma semente com `np.random.seed(10)` para comparar os resultados.

Dica: Use as funções `random`, `abs` e `argmin`. Não se esqueça também de usar o ponto de interrogação para entender o que cada função faz.

## Operações

As operações matemáticas básicas são utilizadas normalmente com arrays numpy

In [None]:
x = np.arange(0, 12, 2)
y = np.random.random(6)

print x
print y

In [None]:
print x-y

In [None]:
print x * y

In [None]:
print x ** 2

In [None]:
print x / y

<div class="alert alert-block alert-info">
Diferentemente da muitas linguagens científicas (matlab, por exemplo) o operador `*` realiza o produto por elementos de uma matriz. Para fazer o produto escalar, é necessário usar a função `np.dot()`
</div>

In [None]:
np.dot(x, y)

In [None]:
A = np.array([[1,1],
              [0,1]])
B = np.array([[2,0],
              [3,4]])

print np.dot(A, B), '\n'
print A * B

Utilizando o operador `.T` na matriz retorna a transposta

In [None]:
print B.T

O numpy possui também inúmeras funções para lidar com matrizes, como soma, exponencial, raiz quadrática, seno e etc.

In [None]:
x = np.random.random(6)

print x

In [None]:
print np.exp(x)
print np.sqrt(x)
print np.sin(x)
print x.sum()

Caso você tenha uma matriz de mais de uma dimensão, é possível especificar o eixo em que determinada função será feita, como por exemplo, soma, média, máximos e mínimos.

In [None]:
x = np.random.random((3, 4, 5))

print x

In [None]:
x_sum = x.sum(axis=0)

print x_sum
print x_sum.shape

In [None]:
x_mean = x.mean(axis=1)

print x_mean
print x_mean.shape

In [None]:
x_max = x.max(axis=2)

print x_max
print x_max.shape

Para concatenar matrizes você pode usar comandos como `concatenate`, `stack` e `vstack`

In [None]:
a = np.random.random(5)
b = np.random.random(5)

c = np.stack([a, b], axis=0)
print c
print 'Dimensões de c =', c.shape

c = np.stack([a, b], axis=1)
print c
print 'Dimensões de c =', c.shape

c = np.vstack([a, b])
print c
print 'Dimensões de c =', c.shape

c = np.concatenate([a, b])
print c
print 'Dimensões de c =', c.shape

In [None]:
a = np.random.random((3,3))
b = np.random.random((3,3))

c = np.concatenate([a, b], axis=0)
print c
print 'Dimensões de c =', c.shape

c = np.stack([a, b])
print c
print 'Dimensões de c =', c.shape

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> As vezes você tem vários arquivos com um conjunto de tempos diferentes e quer reduzir para apenas um arquivo. Por exemplo, dois arquivos com matrizes a e b de dimensões (2, 3, 3) sendo que a primeira dimensão é o tempo, a segunda latitude e a terceira longitude. Usando o comando `np.concatenate([a, b], axis=0)` criar uma matriz de tamanho (4, 3, 3), ou seja, um único arquivo com todos os tempos.
</div>

## Exercício 5

a) Refaça o Exercício 1 definindo `a` como um objeto numpy.array e selecionando os valores pares com o que você aprendeu.

b) Utilize a técnica de mínimos quadrados, em forma matricial, para verficar os parâmetros `a` e `b` de uma regressão linear. Compare os valores obtidos com esse método com os valores reais.

Considerações:
- Considere que:
$X = 
\begin{bmatrix}
1 & 1 \\
1 & 2 \\
1 & 3 \\
\vdots & \vdots \\
1 & n \\
\end{bmatrix}$
Com $n$ indo de 1 a 100

- Considere que $y = X \beta + \mu$, onde $\beta = \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 3 \\ 0.5 \end{bmatrix}$ e $\mu \sim N(0,1)$ é um ruído com distribuição normal de média zero e desvio padrão igual a 1

- Utilize a seguinte equação para estimar os parâmetros: $\hat{\beta} = (X^{T}X)^{-1}X^{T}y$

Dicas:
- Utilize o que você aprendeu sobre concatenação, criação de arrays e multiplicadores com numpy. Você pode achar útil usar as funções `np.linalg.multi_dot()` para fazer o produto escala entre mais de uma matriz, `np.linalg.inv()` para calcular a inversa e `np.random.randn()` para gerar uma série de distribuição $N(0,1)$  

## Performance

In [None]:
from datetime import datetime

Vamos ver agora a diferença entre a eficiência de se fazer as operações usando o numpy e usando a sintaxe comum de loops.

In [None]:
# tamanho da matriz
ny, nx = 1000, 1000

x1 = np.random.random((ny, nx))
x2 = np.random.random((ny, nx))

# matriz de saída
x3 = np.zeros((ny, nx))

before_code = datetime.now()

for i in range(ny):
    for j in range(nx):
        x3[i, j] = x1[i, j] + x2[i, j]
        
after_code = datetime.now()

print 'Tempo que demorou para executar ', (after_code - before_code)

Agora usando o numpy

In [None]:
x1 = np.random.random((ny, nx))
x2 = np.random.random((ny, nx))

before_code = datetime.now()
x3 = x1 + x2
after_code = datetime.now()

print 'Tempo que demorou para executar ', (after_code - before_code)

# Matplotlib

Matplotlib é uma biblioteca de visualização 2D que produz figuras com qualidade para publicação em uma variedade de formatos. Ele pode ser usado em scripts python, no IPython shell, jupyter notebook, aplicações web e para interfaces gráficas de usuários.

Matplotlib tenta fazer o que é fácil fácil e o difícil possível. Você pode gerar figuras, histogramas, espectro de potência, gráfico de barras, scatterplots, etc., com apenas algumas linhas de código.

Para plots simples o módulo `pyplot` proporciona uma interface próxima do MATLAB, particularmente quando combinada com o IPython. Para o usuário mais criterioso você tem controle completo de estilo de linha, fonte, propriedade de eixos, etc, a partir de uma interface orientada a objeto ou um conjunto de funções similares ao MATLAB (https://matplotlib.org/).

## Comandos Básicos

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
ax = plt.subplot(111)

x = np.arange(0, 2.0, 0.01)
y = np.exp(x)

ax.plot(x, y)
# labels são opicionais para criação do plot
ax.set_xlabel('Tempo (s)')
ax.set_ylabel('Alguma coisa')

A sintaxe de fórmulas do latex funciona com o matplotlib

In [None]:
fig = plt.figure(figsize=(14,5))
ax = fig.add_subplot(111)

ax.plot(x, y)
ax.set_xlabel('Tempo (s)')
ax.set_ylabel('Alguma coisa (m s$^{-1}$)', fontsize=16)

fig.savefig('image.png') # alguns formatos incluídos são png, jpeg, gif, pdf, eps

In [None]:
fig, ax = plt.subplots(figsize=(14,5))

ax.scatter(x, y, c='red')

In [None]:
fig, ax = plt.subplots(figsize=(14,5))

ax.scatter(x[::4], y[::4], c='red')

Outro tipo de gráfico que pode ser feito com o matplotlib são histogramas. Vamos fazer, por exemplo, um histograma de uma distribuição gamma. Imaginando que sabemos os parâmetros `shape` e `scale` da distribuição

In [None]:
shape, scale = 4, 7.5

data = np.random.gamma(shape, scale, 10000)

fig, ax = plt.subplots(figsize=(14,5))

ax.hist(data, 50, normed=True)

## Exercício 6

Use a reta $y = X \beta + \mu$ do exercício 4 e plot ela em função de x em cruzes pretas (marker=`+`) junto com a linha de melhor ajuste estimada com os mínimos quadrados na cor vermelha. Adicione um título e o nome dos eixos.