# Aula 08: Numpy/Scipy/Pandas/Matplotlib

Python se tornou uma linguagem de programação amplamente usada em meios científicos. Em algumas áreas se tornou a lingua franca. Porque e como isso ocorreu.

Tradicionalmente, a linguagem usada em computação científica é o FORTRAN, mais especificamente o FORTRAN 77. Também é usado o C/C++ e até hoje essa é a base de quase todas as ferramentas que se utiliza em computação científica. Essas são linguagens compiladas sem interatividade (não estritamente verdade) e o fluxo de trabalho era (ou é...) o seguinte:

 1. Escreva um programa
 2. Compile o programa
 3. Escreva um arquivo com os dados de entrada
 4. Execute o programa com os dados de saída
 5. O programa escreve seus resultados em um arquivo de saída
 6. Use um outro programa para fazer gráficos e analisar os dados
 7. Volte para 1 até dar certo

Estamos na última aula do curso de python e nunca fizemos nada parecido. Com python e seus ambientes interativos (tanto o terminal quanto o jupyter) fazem esta tarefa ser muito mais fácil, rápido e integrado.

Mas aí temos alguns problemas:

 * Python, sozinho, não tem nenhuma das ferramentas necessárias:
   - Matrizes
   - Álgebra linear
   - Equações diferenciais
   - Plotar gráficos
   - etc, etc, etc
 * Python é lento

Este era o estado das coisas em 2000 (ou um pouco antes).

Qualquer aplicação científica ou de ciência de dados precisa tratar de matrizes e álgebra linear. Isso é tão importante que existem bibliotecas básicas para isso com implementações padrão: 
  
 * [BLAS (Basic Linear Algebra Subroutines)](http://netlib.org/blas/index.html)
 * [LAPACK (Linear Algebra Package)](http://www.netlib.org/lapack/lug/)

TODO mundo usa as bibliotecas acima. Se não usa deveria usar. 


## MATLAB e outros

Um pessoal, por volta de 1980 criou um software que fazia uma interface interativa para essas bibliotecas. Esse software é o MATLAB - MATrix LABoratory. 

Mas o MATLAB, apesar de todo o sucesso, tem alguns problemas

 * É caro
 * É muito caro
 * Também é lento (para algumas coisas)
 * A linguagem de programação parece uma gambiarra
 * Existem limitações (legais) ao que se pode fazer
 
Outras ferramentas semelhantes surgiram que competem com MATLAB ou focam em outras áreas

 * Mathematica
 * IDL
 * S-PLUS
 * e outras, muitas outras...
 


## Python como uma linguagem para aplicações matemáticas

No final dos anos 90, python estava se tornando uma linguagem de script popular por ser uma linguagem simples, amigável e fácil de aprender. Algumas pessoas acharam interessante usar python para aplicações matemáticas e numéricas. Com isso, começaram a criar extensões que permitissem isso. Após alguns anos e alguns traumas (numeric vs numarray vs numpy) chegou-se a algumas ferramentas básicas que permitiu todo o desenvolvimento posterior:

 * Numpy: operação com arrays uniformes multidimensionais
 * Scipy: algoritmos numéricos básicos
 * Matplotlib: gráficos com qualidade
 * Pandas: manipulação de dados e tabelas

Porque python se tornou tão popular nessa área? Porque resolve problemas! Na minha opinião, python se tornou popular pelos seguintes motivos

 * Software livre: você usa como quiser e onde quiser e não precisa pagar preços exorbitantes
 * Base sólida (numpy+scipy+matplotlib+pandas)
 * Linguagem de programação de verdade (não uma gambiarra)
 * Linguagem de programação agradável
 * Extensível: dá para você interfacear com C/C++/Fortran sem grandes dificuldades
 * Interage bem com a Internet - importante para a ciência de dados


## Numpy

Numpy é uma biblioteca Python para trabalhar com matrizes multidimensionais.

### Instalação

Se você está usando a distribuição de Python Anaconda, numpy já vem. Abra um terminal, inicie o Python e execute o seguinte comando:

```python
import numpy
```
Se não deu erro, quer dizer o Numpy está instalado.

Caso contrário, execute o comando a seguir num terminal (não do Python, o prompt ou powershell)

```
python -m pip install numpy
```
Isso vai baixar o numpy e instalar. 



### Executando o numpy

Para usar o numpy, você primeiro precisa carregar a biblioteca. Para isso existem algumas opções:

 1. `import numpy`
 2. `import numpy as np`
 3. `from numpy import *`

A primeira opção tem um problema: tem que digitar `numpy.` na frente de tudo. A última opção você acessa diretamente a funcionalidade mas vai poluir o teu namespace. Eu prefiro a opção do meio e é o que vou utilizar.

In [None]:
import numpy as np

O tipo básico do numpy é o `ndarray`

In [None]:
?np.ndarray

O `ndarray` é usado para representar uma matriz multidimensional homogênea com ítens de tamanho fixo. 

### Criando objetos `ndarray`

Dificilmente vamos usar o `ndarray` diretamente.

A função `array` cria um `ndarray` a partir de listas tuplas e coisas parecidas:

In [None]:
x = np.array(range(30))

In [None]:
type(x)

In [None]:
x[0]

In [None]:
x[10:15]

In [None]:
x.size

Usando a mesma sintaxe, é possível criar matrizes:

In [None]:
mat = np.array([[1,2,3], [4,5,6]])  # Lista de listas

In [None]:
mat

In [None]:
mat[0,0]

In [None]:
mat[1,0]

In [None]:
mat[0,:]

In [None]:
mat[:,0]

In [None]:
mat.size

In [None]:
mat.ndim

In [None]:
mat.shape

In [None]:
mat.dtype

In [None]:
# Array 3D
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])

In [None]:
arr

In [None]:
arr.ndim

In [None]:
arr.size

In [None]:
arr.shape

In [None]:
arr

In [None]:
# Indexando
arr[0,0,0]

In [None]:
arr[1,0,0]

In [None]:
arr[0,1,0]

In [None]:
arr[0]

In [None]:
arr[0,0]