Arrays são um tipo de estrutura que contém apenas números, em sequência.  
Podemos pensar em arrays como sendo vetores ou matrizes.
Arrays são importantes porque trabalhar com eles é muito mais rápido do que trabalhar com listas. Além disso, vários pacotes de Data Science, trabalham com arrays. Não com listas.

Para trabalharmos com arrays, precisamos importar o pacote `numpy`, normalmente abreviado por `np`

In [1]:
import numpy as np

### Definindo um array

In [None]:
#a partir de uma lista
x = np.array([1,2,3,4,5,6,7,8,9, 10, 11, 12])
x

In [None]:
#a partir de um dataframe
import pandas as pd
flores = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
flores = flores.select_dtypes(include='float')
flores.head()

In [None]:
flores.to_numpy()

In [None]:
#criando um array com números aleatórios
z = np.random.random(10)
z

In [None]:
#Criando um array com uma sequência de números
np.arange(10)

In [None]:
np.arange(5,10,2)

In [None]:
np.arange(0, 1, 0.1)

### Dimensões de um array

In [None]:
#Relembrar x
x

In [None]:
#O método shape
x.shape

In [None]:
#O método reshape
x = x.reshape(3,4)
x

In [None]:
x.shape

In [None]:
#O método reshape com -1
x = x.reshape(2,-1)
x

In [None]:
x.shape

### Operações com um array

In [None]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(2,-1)
A

In [None]:
#Transposição
A.T

In [None]:
A.T.shape

In [None]:
#Multiplicação elemento a elemento
A * A

In [None]:
#Multiplicação matricial
A.T @ A

### Operações de Álgebra Linear

O módulo `linalg` dá acesso a funções de álgebra linear:

In [None]:
#Define um vetor para exemplo
# (1, 1)
u = np.ones(2)


#Define uma matriz quadrada para exemplo
# 2    1 #
# 1    2 #
B = np.array([[2,1],[1,2]])

In [None]:
#módulo de um vetor
np.linalg.norm(u)

In [None]:
#determinante
np.linalg.det(B)

In [None]:
#rank
np.linalg.matrix_rank(B)

In [None]:
#inverso
C = np.linalg.inv(B)
C

In [None]:
B @ C

In [None]:
#Autovalores e autovetores
np.linalg.eig(B)

In [None]:
#Decomposição QR
np.linalg.qr(B)

In [None]:
#Decomposição em valores singulares
np.linalg.svd(B)

### Operações ao longo dos eixos de um array

In [None]:
A

#### Soma

Podemos obter a soma das colunas de um array:

In [None]:
A.sum(axis = 0)

Podemos obter a soma das linhas de um array:

In [None]:
A.sum(axis = 1)

Podemos simplesmente somar todos os números de um array:

In [None]:
A.sum()

#### Média

A mesma coisa vale para média:

In [None]:
A.mean(axis = 0)

In [None]:
A.mean(axis = 1)

In [None]:
A.mean()

Várias funções seguem a mesma lógica que soma e média:
* `max`, `min`
* `std`, `var`  
e mais!

### Produto escalar

$$
\vec{u} \cdot \vec{v} = \sum_{i=1}^{n} u_iv_i
$$

In [None]:
u = np.array([1,2,3]) #preços
v = np.array([3,2,1]) #quantidades

In [None]:
u.dot(v) #valor total

### Vetorização

Operações se tornam muito mais rápidas se escritas na forma de uma operação entre vetores e matrizes.

#### Exemplo 1 : Calcular o dobro de todos os números de 0 a 10 milhões

In [21]:
N = 10**7
u = np.arange(N)

In [None]:
%%timeit
v = np.empty(N)
for i in range(N):
    v[i] = 2 * u[i]

In [22]:
%%timeit
v = 2 * u

30.2 ms ± 2.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Exemplo 2: Produto escalar de dois vetores com 10 milhões de elementos

In [None]:
N = 10**7
u = np.repeat(1, N)
v = np.repeat(1, N)

In [None]:
%%timeit
s = 0
for i in range(N):
    s += v[i] * u[i]

In [None]:
%%timeit
u.dot(v)

> __Sempre que possível, trabalhe com vetores e matrizes.   
> É muito mais rápido do que trabalhar com os elementos desses vetores ou matrizes individualmente.  
> Chamamos isso de *vetorizaçãoo*__


### Numba

Em casos em que não é possível vetorizar, ainda assim é possível acelerar um código em numpy usando-se o pacote `numba`.

Vamos avaliar uma mesma função escrita de 4 formas diferentes:
* sem numba
* com numba
* com vetorização
* com vetorização e numba

In [14]:
#Sem numba

def soma_dobro_sem_numba(N):
    u = np.arange(N)
    v = np.empty(N)
    for i in range(N):
        v[i] = 2 * u[i]
    return(v)

In [15]:
#Com numba
from numba import njit

@njit
def soma_dobro_com_numba(N):
    u = np.arange(N)
    v = np.empty(N)
    for i in range(N):
        v[i] = 2 * u[i]
    return(v)

In [23]:
#Com vetorizaçao
def soma_dobro_com_vetorizacao(N):
    u = np.arange(N)
    v = 2 * u
    return(v)

In [26]:
#Com vetorizaçao e numba
@njit
def soma_dobro_com_vetorizacao_e_numba(N):
    u = np.arange(N)
    v = 2 * u
    return(v)

In [24]:
N = 10**7

In [18]:
%timeit soma_dobro_sem_numba(N)

9.56 s ± 384 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [19]:
%timeit soma_dobro_com_numba(N)

88.6 ms ± 3.15 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [25]:
%timeit soma_dobro_com_vetorizacao(N)

69.6 ms ± 16.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [27]:
%timeit soma_dobro_com_vetorizacao_e_numba(N)

87.4 ms ± 7.51 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


> __Numba é um jeito muito simples de acelerar muito um código. Mas vetorizar ainda é mais eficiente.__ 

Obs.: `numba` funciona com `numpy`, `scipy` e python nativo, mas (salvo algumas exceções) _não funciona com `pandas`_.

### Filtrando um array

Arrays se filtram que nem DataFrames usando o método `.iloc`:

In [None]:
z = np.random.random(25).reshape(5,5)
z

In [None]:
#Um índice filtra a linha
z[0]

In [None]:
#Dois filtram linha e coluna
z[0, 2]

In [None]:
#O ":" representa um intervalo que inclui o primeiro elemento mas não inclui o segundo
z[0:2, 3:]

In [None]:
#np.where
x = np.array([10,20,30,40,50,40,30,20,10])
np.where(x == x.max())

In [None]:
np.where(x == x.max())[0]

### Arrays aleatórios

O módulo `numpy.random` permite gerar arrays com números aleatórios.  
A função `random` gera um array com números aleatórios entre 0 e 1.

In [None]:
import numpy.random as npr

In [None]:
npr.random(10)

Se quisermos números aleatórios em outro intervalo, podemos usar a função `uniform`:

In [None]:
npr.uniform(low = 50, high=100, size = 3)

Se quisermos reproduzir sempre os mesmos resultados, podemos definir uma semente de números aleatórios:

In [None]:
npr.seed(0)
npr.random(10)

In [None]:
npr.seed(0)
npr.random(10)

Existem várias outras funções para a geração de números aleatórios. Você vai aprender mais sobre isso em Estatística. 

### Numpy não é só arrays...

In [None]:
np.inf

In [None]:
np.nan

A função `isclose` também é útil para lidar com problemas que surgem por arredondamentos devido à forma como computadores processam números reais. Observe:

In [None]:
0.1 + 0.1 + 0.1 == 0.3

In [None]:
np.isclose(0.1 + 0.1 + 0.1, 0.3)

Discutir o porquê que coisas assim acontecem está além do escopo do nosso curso. Mas vale a pena saber que a função `isclose` existe e pode ser útil em casos como esses.