# Tour dos pacotes científicos principais

Existem três pacotes campeões na área científica.

* `numpy`, para computação numérica, possui *arrays* que são muito mais rápidos que listas em Python, e uma série de funções para manipular esses *arrays*. [docs](https://numpy.org/doc/stable/) e [livro recomendado](http://web.mit.edu/dvp/Public/numpybook.pdf)
* `pandas`, para o carregamento, processamento, limpeza, filtragem, agregação e exportação de dados. [docs](https://pandas.pydata.org/pandas-docs/stable/index.html)
* `matplotlib`, para a criação de gráficos. [docs](https://matplotlib.org/)
* `scipy`, com funções específicas para a área científica. [docs](https://docs.scipy.org/doc/scipy/index.html)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy as sp

Cada um desses pacotes são um universo e nunca conseguirei fazer juz à todos, especialmente em um único capítulo. Eu começarei descrevendo cada um aos poucos, depois começarei a juntar as peças e por fim tentarei mostrar problemas mais completos.

## Básicos de `numpy`

Listas em Python podem conter qualquer objetos de tipo. Números, strings, objetos complexos, qualquer coisa, de qualquer tamanho. Para isso, o interpretador precisa de uma série de abstrações que permitam essa flexibilidade, e isso traz lentidão. No centro de `numpy` temos os *arrays* como análogos a listas, mas:

* *arrays* precisam ser somente de um mesmo tipo, e esses tipos nem sempre são idênticos ao existentes em Python.
* *arrays* precisam de um tamanho fixo.

Essa rigidez traz algumas vantagens

* Flexibilidade no formato: *arrays* possuem um *buffer*, um bloco contíguo de memória, contendo informação (bytes), e uma descrição desses dados, como o número de linhas, colunas, tipo do dado. Assim, `numpy` consegue acessar qualquer elemento com muita rapidez, com um simples cálculo de posição. Além disso, quando queremos transformar um *array*, com uma transposta ou uma alteração no número de linhas ou colunas, não precisamos alterar esse bloco de memória, somente os cálculos para encontrar os elementos.
* Expressividade: operações em todos os elementos, algo muito comum, podem ser feitas como se um *array* fosse um escalar qualquer, sem termos que nos preocupar com loops ao longo dos elementos.
* Vetorização: quando aplicamos operações em *arrays*, o processamento é transferido para a linguagem C, onde a velocidade de execução é mais rápida.

Logo, utilizar *arrays* nos permite ter código rápido e expressivo. 

Para criar um *array*, podemos utilizar a função `np.array` com um iterável.

In [2]:
arr = np.array([1, 2, 3, 4, 5])
arr

array([1, 2, 3, 4, 5])

Podemos também utilizar várias funções que geram *arrays*, como:

* `np.arange`, que é similar ao embutido `range`, mas onde podemos ter passos não inteiros

In [3]:
print(
    np.arange(10),
    np.arange(1, 10, 1),
    np.arange(2, 10, 0.375),
    sep='\n'
)

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]
[2.    2.375 2.75  3.125 3.5   3.875 4.25  4.625 5.    5.375 5.75  6.125
 6.5   6.875 7.25  7.625 8.    8.375 8.75  9.125 9.5   9.875]


* `np.linspace`, que recebe um valor de início, fim e um número de pontos e retorna um *array* onde esses pontos são espaçados igualmente na escala linear. Importante realçar que neste caso o ponto final é incluído por padrão (*kwarg* `endpoint`). Logo, nestes exemplos o número de pontos pode *parecer* errado, m se você contá-los na mão verá todos tem o tamanho correto.

In [4]:
print(
    np.linspace(1, 10, num=10),
    np.linspace(1, 10, num=19),
    np.linspace(50, 100, num=6)
)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.] [ 1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.   7.5
  8.   8.5  9.   9.5 10. ] [ 50.  60.  70.  80.  90. 100.]


* `np.logspace`, que é similar a `np.linspace`, mas os dados são espaçados igualmente na escala log. Por padrão a base é 10, mas pode ser especificada com o *kwarg* `base`. Os valores fornecidos são a *potência* em que a base é elevada, então se quiser começar de 10, o valor de `start` é 1.

In [5]:
print(
    np.logspace(0, 3, num=4),
    np.logspace(-3, 3, num=7)
)

[   1.   10.  100. 1000.] [1.e-03 1.e-02 1.e-01 1.e+00 1.e+01 1.e+02 1.e+03]


* `np.geomspace` é similar a `np.logspace`, mas os pontos iniciais e finais são fornecidos diretamente, sem precisar colocar a base e expoente.

In [6]:
print(
    np.geomspace(1, 1000, num=4),
    np.geomspace(1E-3, 1000, num=7)
)

[   1.   10.  100. 1000.] [1.e-03 1.e-02 1.e-01 1.e+00 1.e+01 1.e+02 1.e+03]


* `np.ones`, que gera uma *array* contendo somente uns do tamanho especificado.

In [7]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

* `np.zeros` faz o mesmo, mas contendo somente zeros

In [8]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* `np.ones_like` e `np.zeros_like` retornam *arrays* cheias de zeros ou uns com o mesmo formato de outra array

In [9]:
temp = np.array([1, 2, 3, 4, 5])
print(
    np.ones_like(temp),
    np.zeros_like(temp)
)

[1 1 1 1 1] [0 0 0 0 0]


Até agora todas as estruturas mostradas são 0-dimensionais. Não são como vetores linha ou coluna, são só sequências. Isso pode ser acessado pela propriedade `.shape` 

In [10]:
temp.shape

(5,)

Podemos criar *arrays* multidimensionais com várias das funções anteriores.

In [11]:
print(
    np.array([[1, 2, 3], [4, 5, 6]]),
    np.array([[1], [2], [3], [4], [5], [6]]),
    np.ones((2, 3)),
    np.zeros((3, 2)),
    sep='\n\n'
)

[[1 2 3]
 [4 5 6]]

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]

[[1. 1. 1.]
 [1. 1. 1.]]

[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [12]:
def lento():
    a = np.ones(100000)
    for i in range(a.size):
        a[i] *= 5

def rapido():
    a = np.ones(100000)
    a *= 5

In [13]:
%timeit lento()

17.9 ms ± 749 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [14]:
%timeit rapido()

24.3 µs ± 310 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [15]:
int32_max = 2147483647
print(np.array([int32_max], dtype=np.int32))
print(np.array([int32_max], dtype=np.int64))
print(np.array([int32_max], dtype=np.uint32))
print(np.array([int32_max + 1], dtype=np.int32))

[2147483647]
[2147483647]
[2147483647]


OverflowError: Python int too large to convert to C long