___

<a href='https://sites.google.com/fat.uerj.br/livia'> <img src='../figures/capa2.png' /></a>
___

# NumPy

NumPy (ou Numpy) é uma Biblioteca de Álgebra Linear para Python, a razão pela qual é tão importante para Data Science com Python é que quase todas as bibliotecas do Ecossistema do Python Cientifico dependem do NumPy como um de seus principais blocos de construção. 

O Numpy também é incrivelmente rápido, pois é baseado em bibliotecas da C. Para obter mais informações sobre por que você deseja usar Arrays em vez de listas, confira este ótimo [post do StackOverflow](http://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists).

Vamos aprender apenas o básico do NumPy. para começar precisamos instalá-lo!

## Instruções de instalação

**É altamente recomendável que você instale o Python usando a distribuição Anaconda/Miniconda para garantir que todas as dependências subjacentes (como bibliotecas de álgebra linear) sejam sincronizadas com o uso de uma instalação conda. Se você tiver o Anaconda/Miniconda, instale o NumPy acessando o Anaconda Powershell na lista dos seus aplicativos e digitando:**
    
     conda install numpy

ou

     pip install numpy
    
**Se você não tiver o Anaconda/Miniconda e não puder instalá-lo, consulte a [documentação oficial do Numpy sobre várias instruções de instalação.](https://numpy.org/install/)**

## Usando NumPy

Depois de instalar o NumPy, você pode importá-lo como uma biblioteca:

In [2]:
import numpy as np

É comum na comunidade do Python usar o apelido `np` para o `Numpy`.

O Numpy possui muitas funções e recursos internos. Não abordaremos todos eles, mas, em vez disso, nos concentraremos em alguns dos aspectos mais importantes do Numpy: vetores, Arrays, matrizes e geração de números. Vamos começar discutindo arrays.

# Numpy Arrays

Os arrays do NumPy são a principal maneira de usar o Numpy. Os arrays do Numpy essencialmente vêm em dois formatos: vetores e matrizes. Vetores são matrizes estritamente 1-d e matrizes são 2-d (mas você deve observar que uma matriz ainda pode ter apenas uma linha ou uma coluna).

Vamos começar nossa introdução explorando como criar arrays NumPy.

## Criando matrizes NumPy

### De uma lista Python

Podemos criar um array convertendo diretamente uma lista ou lista de listas:

In [19]:
my_list = [1,2,3]
my_list

[1, 2, 3]

In [16]:
np.array(my_list)

array([1, 2, 3])

In [20]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
my_matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [21]:
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Uma diferença fundamental entre arrays e listas é na soma deles

In [3]:
a1 = [1,2,3]
a2 = [4,5,6]
arr1 = np.array(a1)
arr2 = np.array(a2)


In [4]:
a1 + a2

[1, 2, 3, 4, 5, 6]

In [5]:
arr1 + arr2

array([5, 7, 9])

Sim! Arrays se comportam igual os vetores mesmo.

## Métodos integrados

Existem muitas maneiras internas de gerar Arrays

### arange()

Retorna valores uniformemente espaçados dentro de um determinado intervalo.

In [22]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
np.arange(0,11,2)

array([ 0,  2,  4,  6,  8, 10])

A seguinte operação não é possivel usando o `range` do Python.

In [6]:
np.arange(0,10, 0.5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

### zeros() e ones()

Não é uma boa ideia gerar Arrays grande digitando os elementos um-por-um! O Numpy tem funções internas para gerar alguns Arrays especificos. Por exemplo, podemos gerar matrizes de zeros ou uns na seguinte forma.

In [24]:
np.zeros(3)

array([ 0.,  0.,  0.])

In [26]:
np.zeros((5,5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [27]:
np.ones(3)

array([ 1.,  1.,  1.])

In [28]:
np.ones((3,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

### linspace()
Retorna números com espaçamento uniforme em um intervalo especificado. A gente só determinar o ponto inicial, final e a quantidade dos pontos neste intervalo.

In [29]:
np.linspace(0,10,3)

array([  0.,   5.,  10.])

In [31]:
np.linspace(0,10,50)

array([  0.        ,   0.20408163,   0.40816327,   0.6122449 ,
         0.81632653,   1.02040816,   1.2244898 ,   1.42857143,
         1.63265306,   1.83673469,   2.04081633,   2.24489796,
         2.44897959,   2.65306122,   2.85714286,   3.06122449,
         3.26530612,   3.46938776,   3.67346939,   3.87755102,
         4.08163265,   4.28571429,   4.48979592,   4.69387755,
         4.89795918,   5.10204082,   5.30612245,   5.51020408,
         5.71428571,   5.91836735,   6.12244898,   6.32653061,
         6.53061224,   6.73469388,   6.93877551,   7.14285714,
         7.34693878,   7.55102041,   7.75510204,   7.95918367,
         8.16326531,   8.36734694,   8.57142857,   8.7755102 ,
         8.97959184,   9.18367347,   9.3877551 ,   9.59183673,
         9.79591837,  10.        ])

## eye()

Ou podemos criar uma matriz de identidade

In [37]:
np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

## Random

O Numpy também tem muitas maneiras de criar arrays de números aleatórios:

### rand()
Crie uma array da forma fornecida e preencha-a com
amostras aleatórias de uma distribuição uniforme
sobre ``[0, 1)``.

In [47]:
np.random.rand(2)

array([ 0.11570539,  0.35279769])

In [46]:
np.random.rand(5,5)

array([[ 0.66660768,  0.87589888,  0.12421056,  0.65074126,  0.60260888],
       [ 0.70027668,  0.85572434,  0.8464595 ,  0.2735416 ,  0.10955384],
       [ 0.0670566 ,  0.83267738,  0.9082729 ,  0.58249129,  0.12305748],
       [ 0.27948423,  0.66422017,  0.95639833,  0.34238788,  0.9578872 ],
       [ 0.72155386,  0.3035422 ,  0.85249683,  0.30414307,  0.79718816]])

### randn()

Devolva uma amostra (ou amostras) da distribuição "normal" ou "padrão". Ao contrário do `rand()` que é uniforme:

In [48]:
np.random.randn(2)

array([-0.27954018,  0.90078368])

In [45]:
np.random.randn(5,5)

array([[ 0.70154515,  0.22441999,  1.33563186,  0.82872577, -0.28247509],
       [ 0.64489788,  0.61815094, -0.81693168, -0.30102424, -0.29030574],
       [ 0.8695976 ,  0.413755  ,  2.20047208,  0.17955692, -0.82159344],
       [ 0.59264235,  1.29869894, -1.18870241,  0.11590888, -0.09181687],
       [-0.96924265, -1.62888685, -2.05787102, -0.29705576,  0.68915542]])

### randint()
Retorna inteiros aleatórios de `low` (inclusive) a `high` (exclusivo).

In [50]:
np.random.randint(1,100)

44

In [51]:
np.random.randint(1,100,10)

array([13, 64, 27, 63, 46, 68, 92, 10, 58, 24])

### choice()
Para fazer um sorteio podemos usar essa função. Nessa função podemos determinar um peso para cada um dois elementos. 

In [10]:
sorteio = ['vahid', 'yasmin', 'carlos', 'sophia', 'nilo', 'julia']

np.random.choice(sorteio, 3, replace=False, p=[0.1, 0.2, 0.2, 0.1, 0.2, 0.2])

array(['julia', 'yasmin', 'sophia'], dtype='<U6')

**Para outras distribuições estatisticas podemos usar a biblioteca [`Scipy`](https://docs.scipy.org/doc/scipy/reference/stats.html)**

## Atributos e métodos de Arrays

Vamos discutir alguns atributos e métodos úteis ou um array:

In [11]:
arr = np.arange(25)
ranarr = np.random.randint(0,50,10)

In [12]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [13]:
ranarr

array([24, 19, 43, 43, 21, 39,  9,  4, 22, 42])

## Reshape()
Retorna um array contendo os mesmos dados com uma nova forma.

In [14]:
arr.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

Podemos deixar para o Numpy descobrir o tamanho de uma das dimensões

In [15]:
arr.reshape(5,-1)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### max(), min(), argmax(), argmin()

Esses são métodos úteis para encontrar valores máximos ou mínimos. Ou para encontrar seus locais de índice usando argmin ou argmax

In [64]:
ranarr

array([10, 12, 41, 17, 49,  2, 46,  3, 19, 39])

In [61]:
ranarr.max()

49

In [62]:
ranarr.argmax()

4

In [63]:
ranarr.min()

2

In [60]:
ranarr.argmin()

5

## Shape

Shape é um atributo que os arrays possuem (não é um método):

In [65]:
# Vector
arr.shape

(25,)

Vamos trasnformar esse Array em um matriz com uma linha e 25 linhas

In [66]:
# Notice the two sets of brackets
arr.reshape(1,25)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
        17, 18, 19, 20, 21, 22, 23, 24]])

In [69]:
arr.reshape(1,25).shape

(1, 25)

E agora 25 linhas e uma coluna

In [16]:
display(arr.reshape(25,1))

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24]])

In [76]:
arr.reshape(25,1).shape

(25, 1)

### dtype

Você também pode pegar o tipo de dados de um array:

In [75]:
arr.dtype

dtype('int64')

# Otimo Trabalho!
