Arrays são um tipo de estrutura que contém apenas números, em sequência.  
Podemos pensar em arrays como sendo vetores ou matrizes.
Arrays são importantes porque trabalhar com eles é muito mais rápido do que trabalhar com listas. Além disso, vários pacotes de Data Science, trabalham com arrays. Não com listas.

Para trabalharmos com arrays, precisamos importar o pacote `numpy`, normalmente abreviado por `np`

In [4]:
import numpy as np

### Definindo um array

In [5]:
#a partir de uma lista
x = np.array([1,2,3,4,5,6,7,8,9, 10, 11, 12])
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [6]:
#a partir de um dataframe
import pandas as pd
flores = pd.read_csv('https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/0e7a9b0a5d22642a06d3d5b9bcbad9890c8ee534/iris.csv')
flores = flores.select_dtypes(include='float')
flores.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [7]:
flores.to_numpy()

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [8]:
#criando um array com números aleatórios
z = np.random.random(100).reshape(10,10)
z

array([[0.18239656, 0.0551732 , 0.2418297 , 0.80921346, 0.20194759,
        0.65065085, 0.89427103, 0.45324073, 0.01269527, 0.04485379],
       [0.56796967, 0.79407629, 0.79121757, 0.32542957, 0.38501791,
        0.81786087, 0.99017127, 0.59781867, 0.52475123, 0.18511727],
       [0.45401626, 0.79471358, 0.10980619, 0.82999488, 0.84929593,
        0.12948887, 0.18984823, 0.51936067, 0.48527162, 0.25940692],
       [0.93343081, 0.42022649, 0.46233568, 0.03563578, 0.52910791,
        0.99402239, 0.51633687, 0.99480803, 0.73439314, 0.76782843],
       [0.58471188, 0.49383944, 0.09305464, 0.43487623, 0.27189648,
        0.22110784, 0.47565654, 0.54036317, 0.46808645, 0.15927195],
       [0.79591775, 0.47832902, 0.84002901, 0.06955331, 0.17729682,
        0.60725632, 0.79812553, 0.30496114, 0.74207462, 0.62726152],
       [0.65774021, 0.84598069, 0.77944024, 0.91453744, 0.45598903,
        0.62984952, 0.89202028, 0.36873407, 0.40775741, 0.92882318],
       [0.77534656, 0.30045384, 0.6064103

### Dimensões de um array

In [9]:
#Relembrar x
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [10]:
#O método shape
x.shape

(12,)

In [11]:
#O método reshape
x = x.reshape(3,4)
x

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [12]:
x.shape

(3, 4)

In [13]:
#O método reshape com -1
x = x.reshape(2,-1)
x

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [14]:
x.shape

(2, 6)

### Vetorização

Ao aplicarmos uma função a um array, essa função é aplicada a cada elemento desse array.
Se tentarmos fazer isso com uma lista, recebemos um erro:

In [15]:
def quadrado(x):
    return(x**2)

In [16]:
array = np.array([1,2,3,4,5])
lista = [1,2,3,4,5]

In [17]:
quadrado(array)

array([ 1,  4,  9, 16, 25], dtype=int32)

In [18]:
quadrado(lista)

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Para aplicarmos uma função a todos os elementos de uma lista, precisamos usar um _for loop_.
Usar um array é muito mais rápido!

In [None]:
%timeit [quadrado(x) for x in lista]

In [None]:
%timeit quadrado(array)

### Operações com um array

In [None]:
A = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]).reshape(2,-1)
A

In [None]:
#Transposição
A.T

In [None]:
A.T.shape

In [None]:
#Multiplicação elemento a elemento
A * A

In [None]:
#Multiplicação matricial
A.T @ A

### Operações ao longo dos eixos de um array

In [None]:
A

#### Soma

Podemos obter a soma das colunas de um array:

In [None]:
A.sum(axis = 0)

Podemos obter a soma das linhas de um array:

In [None]:
A.sum(axis = 1)

Podemos simplesmente somar todos os números de um array:

In [None]:
A.sum()

#### Média

A mesma coisa vale para média:

In [None]:
A.mean(axis = 0)

In [None]:
A.mean(axis = 1)

In [None]:
A.mean()

Várias funções seguem a mesma lógica que soma e média:
* `max`, `min`
* `std`, `var`  
e mais!

### Produto escalar

$$
\vec{u} \cdot \vec{v} = \sum_{i=1}^{n} u_iv_i
$$

In [None]:
u = np.array([1,2,3]) #preços
v = np.array([3,2,1]) #quantidades

In [None]:
u.dot(v) #valor total

## Filtrando um array

Arrays se filtram que nem DataFrames usando o método `.iloc`:

In [None]:
z = np.random.random(25).reshape(5,5)
z

In [None]:
#Um índice filtra a linha
z[0]

In [None]:
#Dois filtram linha e coluna
z[0, 2]

In [None]:
#O ":" representa um intervalo que inclui o primeiro elemento mas não inclui o segundo
z[0:2, 3:]

### Arrays aleatórios

O módulo `numpy.random` permite gerar arrays com números aleatórios.  
A função `random` gera um array com números aleatórios entre 0 e 1.

In [36]:
import numpy.random as npr

In [37]:
npr.random(10)

array([0.41466194, 0.26455561, 0.77423369, 0.45615033, 0.56843395,
       0.0187898 , 0.6176355 , 0.61209572, 0.616934  , 0.94374808])

Se quisermos números aleatórios em outro intervalo, podemos usar a função `uniform`:

In [41]:
npr.uniform(low = 50, high=100, size = 3)

array([54.35646499, 51.01091987, 91.63099228])

Se quisermos reproduzir sempre os mesmos resultados, podemos definir uma semente de números aleatórios:

In [44]:
npr.seed(0)
npr.random(10)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [45]:
npr.seed(0)
npr.random(10)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ,
       0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

Existem várias outras funções para a geração de números aleatórios. Você vai aprender mais sobre isso em Estatística. 

### Aplicação: Análise de investimento com incerteza (Simulação de Monte Carlo)

Valor futuro de um investimento:

$$
VF = VP \cdot (1 + i)^n
$$

O retorno ($i$) é incerto, mas acredita-se que estará entre $-5\%$ e $10\%$ ao ano.  
Consideremos um investimento de $10.000$.  
Quanto ele estará valendo depois de 5 anos?

In [136]:
#Parametros
VP = 10000
n = 5

In [137]:
def VF(i, VP = VP, n = n):
    return(VP * (1 + i)**n)

In [138]:
#Numero de simulacoes
NSim = 10**6

In [139]:
npr.seed(0)
i = npr.uniform(low=-0.05, high=0.10, size = NSim)

In [140]:
#Simular NSim cenários
VF_simulados = VF(i)

In [141]:
#Valor esperado do investimento
np.mean(VF_simulados)

11519.580827121608

In [142]:
#Valor mediano do investimento
np.median(VF_simulados)

11320.773008578744

In [143]:
#Probabilidade de perder dinheiro
sum(VF_simulados < VP)/len(VF_simulados)

0.332802

In [144]:
#Var 5%
np.quantile(VF_simulados, q = 0.05)

8050.673707347896

### Aplicação: Cálculo de $\pi$ pelo método de Monte Carlo

![pi](https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Pi_30K.gif/330px-Pi_30K.gif)

Jogamos pontos aleatoriamente no quadrado de lado $1$.

O número de pontos dentro do círculo é proporcional à área do círculo.  
O número de pontos dentro do quadrad é proporcional à área do quadrad.

A área do quadrado é 1.  
A área do círculo é $\frac{1}{4}\pi$

Assim, 

$$
\frac{N_c}{N_q} = \frac{\pi}{4}
$$

e portanto

$$
\pi = 4 \cdot \frac{N_c}{N_q}
$$

Vamos jogar pontos no quadrado:

In [151]:
Nq = 10**6
x = npr.random(Nq)
y = npr.random(Nq)

Quantos pontos cairam dentro do círculo?

In [152]:
Nc = sum(x**2 + y**2 < 1)
Nc

785720

Isso nos dá um valor de $\pi$ igual a...

In [153]:
4 * Nc / Nq

3.14288