Arrays são um tipo de estrutura que contém apenas números, em sequência.  
Podemos pensar em arrays como sendo vetores ou matrizes.
Arrays são importantes porque trabalhar com eles é muito mais rápido do que trabalhar com listas. Além disso, vários pacotes de Data Science, trabalham com arrays. Não com listas.

Para trabalharmos com arrays, precisamos importar o pacote `numpy`, normalmente abreviado por `np`

In [2]:
import numpy as np

### Definindo um array

In [3]:
#a partir de uma lista
x = np.array([1,2,3,4,5,6,7,8,9, 10, 11, 12])
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [4]:
#a partir de um dataframe
import pandas as pd
flores = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
flores = flores.select_dtypes(include='float')
flores.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [4]:
flores.to_numpy()

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [12]:
#criando um array com números aleatórios
z = np.random.random(10)
z

array([0.31141036, 0.08122162, 0.52827158, 0.07439316, 0.30442258,
       0.8664287 , 0.92260412, 0.53872883, 0.47173143, 0.55072312])

In [13]:
#Criando um array com uma sequência de números
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.arange(5,10,2)

array([5, 7, 9])

In [15]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

### Dimensões de um array

In [16]:
#Relembrar x
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [17]:
#O método shape
x.shape

(12,)

In [18]:
#O método reshape
x = x.reshape(3,4)
x

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [19]:
x.shape

(3, 4)

In [20]:
#O método reshape com -1
x = x.reshape(2,-1)
x

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [21]:
x.shape

(2, 6)

### Vetorização (1)

Ao aplicarmos uma função a um array, essa função é aplicada a cada elemento desse array.
Se tentarmos fazer isso com uma lista, recebemos um erro:

In [22]:
def quadrado(x):
    return(x**2)

In [23]:
array = np.array([1,2,3,4,5])
lista = [1,2,3,4,5]

In [24]:
quadrado(array)

array([ 1,  4,  9, 16, 25], dtype=int32)

In [25]:
quadrado(lista)

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Para aplicarmos uma função a todos os elementos de uma lista, precisamos usar um _for loop_.
Usar um array é muito mais rápido!

In [26]:
%timeit [quadrado(x) for x in lista]

2.19 µs ± 25 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [27]:
%timeit quadrado(array)

642 ns ± 4.62 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


### Operações com um array

In [37]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(2,-1)
A

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [38]:
#Transposição
A.T

array([[ 1,  7],
       [ 2,  8],
       [ 3,  9],
       [ 4, 10],
       [ 5, 11],
       [ 6, 12]])

In [39]:
A.T.shape

(6, 2)

In [40]:
#Multiplicação elemento a elemento
A * A

array([[  1,   4,   9,  16,  25,  36],
       [ 49,  64,  81, 100, 121, 144]])

In [41]:
#Multiplicação matricial
A.T @ A

array([[ 50,  58,  66,  74,  82,  90],
       [ 58,  68,  78,  88,  98, 108],
       [ 66,  78,  90, 102, 114, 126],
       [ 74,  88, 102, 116, 130, 144],
       [ 82,  98, 114, 130, 146, 162],
       [ 90, 108, 126, 144, 162, 180]])

### Operações ao longo dos eixos de um array

In [42]:
A

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

#### Soma

Podemos obter a soma das colunas de um array:

In [43]:
A.sum(axis = 0)

array([ 8, 10, 12, 14, 16, 18])

Podemos obter a soma das linhas de um array:

In [44]:
A.sum(axis = 1)

array([21, 57])

Podemos simplesmente somar todos os números de um array:

In [45]:
A.sum()

78

#### Média

A mesma coisa vale para média:

In [46]:
A.mean(axis = 0)

array([4., 5., 6., 7., 8., 9.])

In [47]:
A.mean(axis = 1)

array([3.5, 9.5])

In [48]:
A.mean()

6.5

Várias funções seguem a mesma lógica que soma e média:
* `max`, `min`
* `std`, `var`  
e mais!

Operações usando numpy e arrays tendem a ser muito mais rápidas do que as mesmas operações usando listas, loops etc.

In [122]:
N = 10**4

In [123]:
%%time
sum(list(range(N + 1)))

Wall time: 0 ns


50005000

In [124]:
%%time
np.arange(N + 1).sum()

Wall time: 0 ns


50005000

### Produto escalar

$$
\vec{u} \cdot \vec{v} = \sum_{i=1}^{n} u_iv_i
$$

In [125]:
u = np.array([1,2,3]) #preços
v = np.array([3,2,1]) #quantidades

In [126]:
u.dot(v) #valor total

10

## Vetorização (2)

Operações se tornam muito mais rápidas se escritas na forma de uma operação entre vetores e matrizes.

In [127]:
N = 10**7
u = list([1 for i in range(N)])
v = list([1 for i in range(N)])

In [128]:
%%time
sum([u[i] * v[i] for i in range(N)])

Wall time: 1.61 s


10000000

In [129]:
u = np.repeat(1, N)
v = np.repeat(1, N)

In [130]:
%%time
u.dot(v)

Wall time: 8.98 ms


10000000

### Filtrando um array

Arrays se filtram que nem DataFrames usando o método `.iloc`:

In [131]:
z = np.random.random(25).reshape(5,5)
z

array([[5.52002698e-01, 2.74724016e-01, 5.27551424e-01, 8.30290034e-01,
        2.94661890e-02],
       [3.44534617e-01, 9.66819784e-01, 8.05304838e-01, 9.14116486e-01,
        6.34696252e-01],
       [8.65326209e-01, 8.80392507e-01, 5.31966366e-01, 9.40594100e-01,
        7.28287486e-01],
       [2.47700884e-01, 4.22076782e-01, 5.12127436e-05, 8.55389623e-01,
        9.45713065e-02],
       [5.63428698e-01, 2.55088249e-01, 5.00580653e-01, 2.75173703e-01,
        6.52279439e-01]])

In [132]:
#Um índice filtra a linha
z[0]

array([0.5520027 , 0.27472402, 0.52755142, 0.83029003, 0.02946619])

In [133]:
#Dois filtram linha e coluna
z[0, 2]

0.5275514243404295

In [134]:
#O ":" representa um intervalo que inclui o primeiro elemento mas não inclui o segundo
z[0:2, 3:]

array([[0.83029003, 0.02946619],
       [0.91411649, 0.63469625]])

In [155]:
#np.where
x = np.array([10,20,30,40,50,40,30,20,10])
np.where(x == x.max())

(array([4], dtype=int64),)

In [156]:
np.where(x == x.max())[0]

array([4], dtype=int64)

### Arrays aleatórios

O módulo `numpy.random` permite gerar arrays com números aleatórios.  
A função `random` gera um array com números aleatórios entre 0 e 1.

In [135]:
import numpy.random as npr

In [136]:
npr.random(10)

array([0.11992036, 0.33896408, 0.24047424, 0.75298743, 0.30738725,
       0.32886718, 0.64096761, 0.31936584, 0.35882513, 0.29392785])

Se quisermos números aleatórios em outro intervalo, podemos usar a função `uniform`:

In [137]:
npr.uniform(low = 50, high=100, size = 3)

array([51.93777676, 96.66610856, 90.49695795])

Se quisermos reproduzir sempre os mesmos resultados, podemos definir uma semente de números aleatórios:

In [138]:
npr.seed(0)
npr.random(10)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [139]:
npr.seed(0)
npr.random(10)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

Existem várias outras funções para a geração de números aleatórios. Você vai aprender mais sobre isso em Estatística. 

### Numpy não é só arrays...

In [140]:
np.inf

inf

In [141]:
np.nan

nan

A função `isclose` também é útil para lidar com problemas que surgem por arredondamentos devido à forma como computadores processam números reais. Observe:

In [142]:
0.1 + 0.1 + 0.1 == 0.3

False

In [143]:
np.isclose(0.1 + 0.1 + 0.1, 0.3)

True

Discutir o porquê que coisas assim acontecem está além do escopo do nosso curso. Mas vale a pena saber que a função `isclose` existe e pode ser útil em casos como esses.