# Aula 08: Numpy/Scipy/Pandas/Matplotlib

Python se tornou uma linguagem de programação amplamente usada em meios científicos. Em algumas áreas se tornou a lingua franca. Porque e como isso ocorreu.

Tradicionalmente, a linguagem usada em computação científica é o FORTRAN, mais especificamente o FORTRAN 77. Também é usado o C/C++ e até hoje essa é a base de quase todas as ferramentas que se utiliza em computação científica. Essas são linguagens compiladas sem interatividade (não estritamente verdade) e o fluxo de trabalho era (ou é...) o seguinte:

 1. Escreva um programa
 2. Compile o programa
 3. Escreva um arquivo com os dados de entrada
 4. Execute o programa com os dados de saída
 5. O programa escreve seus resultados em um arquivo de saída
 6. Use um outro programa para fazer gráficos e analisar os dados
 7. Volte para 1 até dar certo

<!-- TEASER_END -->

Estamos na última aula do curso de python e nunca fizemos nada parecido. Com python e seus ambientes interativos (tanto o terminal quanto o jupyter) fazem esta tarefa ser muito mais fácil, rápido e integrado.

Mas aí temos alguns problemas:

 * Python, sozinho, não tem nenhuma das ferramentas necessárias:
   - Matrizes
   - Álgebra linear
   - Equações diferenciais
   - Plotar gráficos
   - etc, etc, etc
 * Python é lento

Este era o estado das coisas em 2000 (ou um pouco antes).

Qualquer aplicação científica ou de ciência de dados precisa tratar de matrizes e álgebra linear. Isso é tão importante que existem bibliotecas básicas para isso com implementações padrão: 
  
 * [BLAS (Basic Linear Algebra Subroutines)](http://netlib.org/blas/index.html)
 * [LAPACK (Linear Algebra Package)](http://www.netlib.org/lapack/lug/)

TODO mundo usa as bibliotecas acima. Se não usa deveria usar. 


## MATLAB e outros

Um pessoal, por volta de 1980 criou um software que fazia uma interface interativa para essas bibliotecas. Esse software é o MATLAB - MATrix LABoratory. 

Mas o MATLAB, apesar de todo o sucesso, tem alguns problemas

 * É caro
 * É muito caro
 * Também é lento (para algumas coisas)
 * A linguagem de programação parece uma gambiarra
 * Existem limitações (legais) ao que se pode fazer
 
Outras ferramentas semelhantes surgiram que competem com MATLAB ou focam em outras áreas

 * Mathematica
 * IDL
 * S-PLUS
 * e outras, muitas outras...
 


## Python como uma linguagem para aplicações matemáticas

No final dos anos 90, python estava se tornando uma linguagem de script popular por ser uma linguagem simples, amigável e fácil de aprender. Algumas pessoas acharam interessante usar python para aplicações matemáticas e numéricas. Com isso, começaram a criar extensões que permitissem isso. Após alguns anos e alguns traumas (numeric vs numarray vs numpy) chegou-se a algumas ferramentas básicas que permitiu todo o desenvolvimento posterior:

 * Numpy: operação com arrays uniformes multidimensionais
 * Scipy: algoritmos numéricos básicos
 * Matplotlib: gráficos com qualidade
 * Pandas: manipulação de dados e tabelas

Porque python se tornou tão popular nessa área? Porque resolve problemas! Na minha opinião, python se tornou popular pelos seguintes motivos

 * Software livre: você usa como quiser e onde quiser e não precisa pagar preços exorbitantes
 * Base sólida (numpy+scipy+matplotlib+pandas)
 * Linguagem de programação de verdade (não uma gambiarra)
 * Linguagem de programação agradável
 * Extensível: dá para você interfacear com C/C++/Fortran sem grandes dificuldades
 * Interage bem com a Internet - importante para a ciência de dados


## Numpy

Numpy é uma biblioteca Python para trabalhar com matrizes multidimensionais.

### Instalação

Se você está usando a distribuição de Python Anaconda, numpy já vem. Abra um terminal, inicie o Python e execute o seguinte comando:

```python
import numpy
```
Se não deu erro, quer dizer o Numpy está instalado.

Caso contrário, execute o comando a seguir num terminal (não do Python, o prompt ou powershell)

```
python -m pip install numpy
```
Isso vai baixar o numpy e instalar. 



### Executando o numpy

Para usar o numpy, você primeiro precisa carregar a biblioteca. Para isso existem algumas opções:

 1. `import numpy`
 2. `import numpy as np`
 3. `from numpy import *`

A primeira opção tem um problema: tem que digitar `numpy.` na frente de tudo. A última opção você acessa diretamente a funcionalidade mas vai poluir o teu namespace. Eu prefiro a opção do meio e é o que vou utilizar.

In [None]:
import numpy as np

O tipo básico do numpy é o `ndarray`

In [None]:
?np.ndarray

O `ndarray` é usado para representar uma matriz multidimensional homogênea com ítens de tamanho fixo. 

### Criando objetos `ndarray`

Dificilmente vamos usar o `ndarray` diretamente.

A função `array` cria um `ndarray` a partir de listas tuplas e coisas parecidas:

In [None]:
x = np.array(range(30))

In [None]:
type(x)

In [None]:
x[0]

In [None]:
x[10:15]

In [None]:
x.size

In [None]:
# Dá para fatiar!
y = x[3:15:3]
y

In [None]:
# y faz referência à mesma memória que x
y[0] = 123
y[0], x[3]

In [None]:
x.strides

In [None]:
y.strides

In [None]:
x.dtype

Usando a mesma sintaxe, é possível criar matrizes:

In [None]:
mat = np.array([[1,2,3], [4,5,6]])  # Lista de listas

In [None]:
mat

In [None]:
mat[0,0]

In [None]:
mat[1,0]

In [None]:
mat[0,:]

In [None]:
mat[:,0]

In [None]:
mat.size

In [None]:
mat.ndim

In [None]:
mat.shape

In [None]:
mat.dtype

In [None]:
# Array 3D
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

In [None]:
arr

In [None]:
arr.ndim

In [None]:
arr.size

In [None]:
arr.shape

In [None]:
arr

In [None]:
# Indexando
arr[0,0,0]

In [None]:
arr[1,0,0]

In [None]:
arr[0,1,0]

In [None]:
arr[0]

In [None]:
arr[0,0]

In [None]:
arr.strides

#### Melhor jeito para criar os `ndarray`s

In [None]:
np.zeros( (3,4) )

In [None]:
np.zeros( (2,3,4), dtype='int64')

In [None]:
np.ones((2,3,4))

In [None]:
np.ones((2,3,4), dtype='int64')

#### Arrays igualmente espaçados

In [None]:
np.arange(0, 1, 0.01)

In [None]:
np.linspace(0,1,num=11)

In [None]:
np.logspace(1,10, num=11)

In [None]:
np.geomspace(1,100,num=4)

### Os objetos `ndarray` têm *um monte* de métodos interessantes

#### Soma de tudo quanto é tipo

In [None]:
x = np.array(range(1,13))
x

In [None]:
y = x.reshape(3,4)
y

In [None]:
y.sum()

In [None]:
y.sum(0)

In [None]:
y.sum(1)

In [None]:
z = np.array(range(1,25)).reshape(2,3,4)
z

In [None]:
z.sum()

In [None]:
z.sum(0)

In [None]:
z.sum(1)

In [None]:
z.sum(2)

In [None]:
z.sum((0,1))

In [None]:
z.sum((0,2))

In [None]:
z.sum((1,2))

#### Média e desvio padrão

In [None]:
z.mean()

In [None]:
z.mean(0)

In [None]:
z.mean(1)


In [None]:
z.std()

In [None]:
z.std(0)

#### Máximos e mínimos

In [None]:
z.max()

In [None]:
z.max(0)

In [None]:
z.min(1)

## Números aleatórios

In [None]:
import numpy.random as rnd

In [None]:
x = rnd.randn(1000)

In [None]:
x.mean()

In [None]:
x.std()

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(x)

In [None]:
plt.plot(x, "o")

In [None]:
plt.hist(x)

In [None]:
y = rnd.gumbel(size=1000)

In [None]:
plt.hist(y)

## Operações vetorizadas e broadcasting

In [None]:
x = np.linspace(0,1,num=51)
y = np.sin(2*np.pi*x)

In [None]:
plt.plot(x,y)

In [None]:
plt.plot(x, x**2*np.cos(6*x) + np.exp(x))

In [None]:
x + 1

In [None]:
x * 2

### Outros tipos de indexações

#### Indexando usando variáveis lógicas

In [None]:
x = rnd.randn(10)
x

In [None]:
positivo = x > 0
positivo

In [None]:
x[positivo]

In [None]:
x[~positivo]

In [None]:
y = rnd.randn(5,8)
y[y > 0]

#### Já tínhamos visto fatiamento

In [None]:
x = np.array(range(50))

In [None]:
x[ [10,15,20]]

## Álgebra linear

In [None]:
A0 = rnd.randn(5,5)
A0

In [None]:
# Matriz diagonal com diagonal = 10
A1 = np.diag(10*np.ones(5))
A1

In [None]:
A = A0 + A1

In [None]:
b = np.ones(5)

In [None]:
import numpy.linalg as linalg

In [None]:
# Resolvendo o sistema linear A*x = b
x = linalg.solve(A, b)
x

In [None]:
np.dot(A,x)

In [None]:
A.dot(x)

In [None]:
# Matriz transposta
A.T

In [None]:
# Inversa da matriz
iA = linalg.inv(A)

In [None]:
np.dot(iA,A)

In [None]:
# Determinante da matriz
linalg.det(A)

In [None]:
1 / linalg.det(iA)

In [None]:
# Vamos criar uma matriz simétrica
B = A + A.T

In [None]:
B

In [None]:
linalg.cholesky(B)

# [Scipy](https://scipy.org/)

Pacote construído sobre o numpy que tem um monte de funcionalidade.

Em particular essa biblioteca tem as seguintes áreas:

 * [Funções especiais](https://docs.scipy.org/doc/scipy/tutorial/special.html)
 * [Integração numérica (funções e EDO)](https://docs.scipy.org/doc/scipy/tutorial/integrate.html)
 * [Interpolação](https://docs.scipy.org/doc/scipy/tutorial/interpolate.html)
 * [Optimização](https://docs.scipy.org/doc/scipy/tutorial/optimize.html)
 * [Transformadas de Fourier](https://docs.scipy.org/doc/scipy/tutorial/fft.html)
 * [Processamento de sinais](https://docs.scipy.org/doc/scipy/tutorial/signal.html)
 * [Álgebra linear](https://docs.scipy.org/doc/scipy/tutorial/linalg.html)
 * [Problemas de autovalor esparsos com ARPACK](https://docs.scipy.org/doc/scipy/tutorial/arpack.html)
 * [Rotinas para grafos esparsos](https://docs.scipy.org/doc/scipy/tutorial/csgraph.html)
 * [Estruturas espaciais](https://docs.scipy.org/doc/scipy/tutorial/spatial.html)
 * [Estatística](https://docs.scipy.org/doc/scipy/tutorial/stats.html)
 * [Imagens multidimensionais](https://docs.scipy.org/doc/scipy/tutorial/ndimage.html)
 * [Entrada e saída](https://docs.scipy.org/doc/scipy/tutorial/io.html)


## Álgebra linear

Bem mais completo que o `numpy`!

In [None]:
import scipy.linalg as lin

In [None]:
# Problema de autovalor
λ, ϕ = lin.eig(B)

In [None]:
Λ = np.diag(λ)

In [None]:
i = 3
np.abs(B.dot(ϕ[:,i]) - λ[i] * ϕ[:,i]).max()

In [None]:
# Decomposição LU
P,L,U = lin.lu(A)

In [None]:
P

In [None]:
L

In [None]:
U

In [None]:
lu, piv = lin.lu_factor(A)

In [None]:
lu

In [None]:
lin.lu_solve( (lu,piv), b) 

## Integração numérica (funções)

In [None]:
import scipy.integrate as integr

Quero calcular a seguinte integral:

$$
\int_0^1 \cos(x) \: dx = \sin(1)
$$

In [None]:
I1 = integr.romberg(np.cos, 0, 1)
I1

In [None]:
Ie = np.sin(1)
Ie

In [None]:
erro = I1 - Ie
erro

In [None]:
# Funçãosinha bem chata para integrar na mão...
def minhafun(x):
    return np.cos(x**2)

In [None]:
integr.romberg(minhafun, 0, 1)

# Exemplo Camada limite

A camada limite foi medida no túnel de vento. Vamos analisar estes dados.
Os dados estão armazenados em um arquivo no format HDF5, um formato binário
adequado para armazenar arrays de grandes dimensões

## Ler os dados de um arquivo HDF5

In [None]:
# Carregar a biblioteca python para ler arquivos HDF5:
import h5py

In [None]:
# Abrir o arquivo:
f = h5py.File("camada-limite.h5", "r")

In [None]:
# Vamos ver o que tem dentro deste arquivo
f.keys()

In [None]:
U = f['U'][:]
z = f['z'][:]

In [None]:
U.shape

In [None]:
z.shape

In [None]:
# Vamos ler a taxa de amostragem a partir dos atributos de U
fs = f['U'].attrs['rate'][0]

## Plotar os perfis de velocidade
Vamos plotar o perfil de velocidades e intensidade de turbulência:

In [None]:
Um = U.mean(1)
sU = U.std(1)
I = sU / Um * 100

In [None]:
plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.plot(Um, z, "o")
plt.xlabel("Velocidade (m/s)")
plt.ylabel("Altura (m)")
plt.subplot(1,2,2)
plt.plot(I, z, "o")
plt.xlabel("Intensidade de turb. (%)")
plt.ylabel("Altura (m)")


In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, sharey=True, figsize=(12,8))
ax1.plot(Um, z, "o")
ax1.grid()
ax1.set_xlabel("Velocidade (m/s)")
ax1.set_ylabel("Altura (m)")
ax1.set_title("Perfil de velocidade")
ax2.plot(I, z, "o")
ax2.grid()
ax2.set_xlabel("Intensidade de turb. (%)")
ax2.set_title("Turbulência")
#plt.ylabel("Altura (m)")

## Espectro de turbulência

In [None]:
iref = 14
zref = z[iref]
u = U[iref]
N = len(u)
dt = 1/fs

In [None]:
t = np.arange(N) * dt
ū = u.mean()
σ = u.std()

In [None]:
plt.figure(figsize=(12,6))
plt.plot(t, u, label="$U(t)$", color='k')
plt.axhline(y=ū, linewidth=3, color='g', label="$\\bar{U}$")
plt.axhline(y = ū+2*σ, color='r', linestyle='--', linewidth=2, label='$\\bar{U} + 2\\sigma$')
plt.axhline(y = ū-2*σ, color='b', linestyle='--', linewidth=2, label='$\\bar{U} - 2\\sigma$')

plt.legend(loc='upper right')
plt.xlabel("Tempo (s)")
plt.ylabel("Velocidade (m/s)")

In [None]:
plt.figure(figsize=(12,6))
plt.xlim( (18,20))
plt.plot(t, u, label="$U(t)$", color='k')
plt.axhline(y=ū, linewidth=3, color='g', label="$\\bar{U}$")
plt.axhline(y = ū+2*σ, color='r', linestyle='--', linewidth=2, label='$\\bar{U} + 2\\sigma$')
plt.axhline(y = ū-2*σ, color='b', linestyle='--', linewidth=2, label='$\\bar{U} - 2\\sigma$')

plt.legend(loc='upper right')
plt.xlabel("Tempo (s)")
plt.ylabel("Velocidade (m/s)")

## Análise espectral da velocidade

In [None]:
import scipy.signal as signal

In [None]:
f, S = signal.welch(u, fs, scaling='spectrum', nperseg=1000)

In [None]:
f1 = f[1:]
S1 = S[1:]

In [None]:
plt.figure(figsize=(12,6))
plt.grid()
plt.loglog(f1, S1, label="Medido")
plt.xlabel("Frequência (Hz)")
plt.ylabel("PSD")
ff = 10.0
ss = 1.0
a = ss / (ff**(-5/3))
plt.plot(f1, a*f1**(-5/3), "r--", label="Espectro de Kolmogorov $f^{-5/3}$")
plt.legend()

# Exemplo: Equações de Lorenz

<https://jupyter.org/try-jupyter/retro/notebooks/?path=notebooks/Lorenz.ipynb>

$$
\begin{aligned}
\dot{x} & = \sigma(y-x) \\
\dot{y} & = \rho x - y - xz \\
\dot{z} & = -\beta z + xy
\end{aligned}
$$


In [None]:

import numpy as np
from matplotlib import pyplot as plt
from scipy import integrate
np.random.seed(1)
x0 = -15 + 30 * np.random.random((N, 3))


In [None]:

def lorenz_deriv(x_y_z, t0, sigma=10.0, beta=8./3., rho=28.0):
    """Compute the time-derivative of a Lorenz system."""
    x, y, z = x_y_z
    return [sigma * (y - x), x * (rho - z) - y, x * y - beta * z]


In [None]:
max_time = 100.0
t = np.linspace(0, max_time, int(250*max_time))
    

In [None]:
x1 = integrate.odeint(lorenz_deriv, [0.5, 0.4, 0.6], t)
x2 = integrate.odeint(lorenz_deriv, [0.50000001, 0.4, 0.6], t)                      

In [None]:
plt.figure(figsize=(18,10))

plt.plot(t, x1[:,2])
plt.plot(t, x2[:,2])

# Pandas

Biblioteca para análise de dados. Dados em forma de tabelas. Pode-se pensar nisso como se fosse uma planilha.

Referência: [Análise de dados com Python e Pandas](https://novatec.com.br/livros/analise-dados-com-python-pandas/) de Daniel Y. Chen


In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('gapminder.tsv', sep='\t')

In [None]:
df

In [None]:
type(df)

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
country_df = df['country']

In [None]:
country_df

In [None]:
type(country_df)

In [None]:
# Pegar linhas de acordo com o rótulo
df.loc[0]

In [None]:
df.loc[10:20]

In [None]:
# Pegar linhas de acordo com o índice
df.iloc[0]

In [None]:
df.iloc[10:20]

In [None]:
df.loc[-1]

In [None]:
df.iloc[-1]

## Agrupando e agregando dados

Perguntas.

 1. Para cada ano qual era a expectativa de vida média
 2. Podemos ver isso por continente?
 3. Quantos países estão listados por continente?

In [None]:
df.groupby('year')['lifeExp'].mean()

Vamos detalhar isso.

In [None]:
grouped_by_year_df = df.groupby('year')
type(grouped_by_year_df)

In [None]:
grouped_by_year_lifeExp = grouped_by_year_df['lifeExp']
type(grouped_by_year_lifeExp)

In [None]:
b = df['year'] == 1960
b

In [None]:
df60 = df[b]

In [None]:
df60['lifeExp']

In [None]:
df60['lifeExp'].mean()

Vamos fazer por continente

In [None]:
multi_group_var = df.groupby(['year', 'continent'])[['lifeExp', 'gdpPercap']].mean()
multi_group_var