### Numpy: Numerical Python 
Muitos pacotes computacionais que fornecem **funcionalidades científicas usam os objetos de
array do NumPy como uma das línguas francas padrão das interfaces para a
troca de dados.** Grande parte das informações sobre o NumPy que abordarei
também podem ser aplicadas ao pandas.

#### <span style="color:green"> Eficiência no trabalho com grandes arrays de dados. </span>
O NumPy é mais rápido do que o código Python
comum porque **seus algoritmos baseados em C evitam a sobrecarga
presente no código interpretado comum do Python**.

In [2]:
import numpy as np

my_arr = np.arange(1_000_000)

my_list = list(range(1_000_000))

t1 = %timeit my_arr2 = my_arr * 2
t2 = %timeit my_list2 = [x * 2 for x in my_list]


3.18 ms ± 241 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)
106 ms ± 14.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### ndarray do NumPy: um objeto de array multidimensional

Um dos principais recursos do NumPy é seu **objeto de array n-dimensional,
ou ndarray**, que é um contêiner rápido e flexível para grandes conjuntos de
dados em Python.

In [3]:
import numpy as np

data = np.array([[1.5, -0.1, 3],[0, -3, 6.5]])

data

array([[ 1.5, -0.1,  3. ],
       [ 0. , -3. ,  6.5]])

In [4]:
data * 10

array([[ 15.,  -1.,  30.],
       [  0., -30.,  65.]])

In [5]:
data + data

array([[ 3. , -0.2,  6. ],
       [ 0. , -6. , 13. ]])

**Um ndarray é um contêiner multidimensional genérico para dados
homogêneos;** isto é, todos os elementos devem ser do mesmo tipo. Todo
array tem uma forma (shape), uma tupla que indica o tamanho de cada
dimensão, e um dtype, um objeto que descreve o tipo de dado do array:

In [6]:
print(f"Shape: {data.shape}\ndtype: {data.dtype}")

Shape: (2, 3)
dtype: float64


#### Criação de ndarrays
A maneira mais fácil de **criar um array é usando a função array**. Ela **aceita
qualquer objeto de tipo sequência (inclusive outros arrays) e produz um novo
array NumPy contendo os dados passados**. Por exemplo, uma lista é uma boa
candidata à conversão:

In [7]:
import numpy as np

data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [8]:
np.ones_like(arr1)

array([1., 1., 1., 1., 1.])

In [9]:
# Sequências aninhadas, como uma lista de listas de mesmo tamanho, serão
# convertidas em um array multidimensional:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [10]:
arr2.ndim

2

In [11]:
arr2.shape

(2, 4)

In [12]:
print(f"Tipo de dado arr1: {arr1.dtype}\nTipo de dado arr2: {arr2.dtype}")

Tipo de dado arr1: float64
Tipo de dado arr2: int64


In [13]:
# Como exemplos, numpy.zeros e numpy.ones criam arrays de 0s ou 1s
arrzeros = np.zeros(10)
arrzeros

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [14]:
np.ones((3, 6))

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

In [15]:
# numpy.empty cria um array sem inicializá-lo com nenhum valor específico. Pode conter lixos
np.empty((2, 3, 2))

array([[[1.14666863e-313, 0.00000000e+000],
        [0.00000000e+000, 0.00000000e+000],
        [4.69661328e-310, 8.24423421e-071]],

       [[5.29170376e+174, 1.38028719e-071],
        [5.74113735e+174, 1.51957240e-047],
        [7.87249355e-067, 8.69541422e-043]]])

In [16]:
# numpy.arange é uma versão da função interna Python range cujo valor é um array:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [17]:
np.identity(5)
# or np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### Tipos de dados para ndarrays
O tipo de dado ou dtype é um objeto especial contendo as informações (ou
metadados, dados sobre dados) das quais o ndarray precisará para interpretar
uma parte da memória como um tipo de dado específico:

In [18]:
import numpy as np

arr1 = np.array([1, 2, 3], dtype=np.float64)

arr2 = np.array([1, 2, 3], dtype=np.int32)

In [19]:
arr1.dtype

dtype('float64')

In [20]:
arr2.dtype

dtype('int32')

In [21]:
# Casting de um array
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int64')

In [22]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

#### Aritmética com Arrays Numpy
**Os arrays são importantes porque permitem expressar operações em lote com
os dados sem ser preciso escrever nenhum loop for**. Os usuários do NumPy
chamam isso de <span style="color: red"> vetorização</span>. Qualquer operação aritmética entre arrays de
mesmo tamanho é aplicada a todos os elementos:

In [23]:
import numpy as np

arr = np.array([[1., 2., 3.], [4., 5., 6.]])

arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [24]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [25]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

As operações aritméticas com escalares propagam o argumento escalar para
cada elemento do array:

In [26]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [27]:
arr ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

**As comparações entre arrays de mesmo tamanho geram arrays booleanos:**

In [28]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [29]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

#### Indexação e fatiamento básicos
A indexação de arrays NumPy é um tópico extenso, já que existem muitas
maneiras de selecionar um subconjunto dos dados ou elementos individuais.
Os arrays unidimensionais são simples; superficialmente eles se comportam
de modo semelhante às listas Python:

In [30]:
import numpy as np

arr = np.arange(10)

arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
arr[5]

np.int64(5)

In [32]:
arr[5:8]

array([5, 6, 7])

In [33]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Como você pode ver, se atribuirmos um valor escalar a uma fatia, como em
arr[5:8] = 12, ele **será propagado (ou, como usarei de agora em diante, será feito
o seu broadcast) para toda a seleção.**

In [34]:
# CUIDADO
arr_slice = arr[5:8]

arr_slice

array([12, 12, 12])

In [35]:
arr_slice[1] = 12345

arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

A fatia “vazia” [:] faz a atribuição a todos os valores em um array:

In [36]:
arr_slice[:] = 64

In [37]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

<span style="color: red">**Se quiser a cópia de uma fatia de um ndarray em vez de uma
visualização, você precisará copiar o array explicitamente – por
exemplo, arr[5:8].copy().** Como veremos, o pandas também funciona assim. </span>

In [38]:
arr_slice2 = arr[5:8].copy()
arr_slice2[:] = 1

arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [39]:
arr_slice2

array([1, 1, 1])

Com arrays de mais dimensões temos uma variedade maior de opções. **Em
um array bidimensional, os elementos de cada índice não são mais escalares e
sim arrays unidimensionais**:

In [40]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [41]:
arr2d[2]

array([7, 8, 9])

In [42]:
# Formas de acessar o elemento individualmente:
arr2d[0][2]

np.int64(3)

In [43]:
arr2d[0, 2]

np.int64(3)

![image.png](attachment:781681a5-b7db-4f27-8628-ae29afaeeb30.png)

Em arrays multidimensionais, se você omitir os índices finais, o objeto
retornado será um ndarray de menos dimensões composto de todos os dados
nas dimensões mais altas.

In [44]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [45]:
arr3d[0] # é um array 2x3

array([[1, 2, 3],
       [4, 5, 6]])

Tanto valores escalares quanto arrays podem ser atribuídos a arr3d[0]:

In [48]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [49]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

Da mesma forma, arr3d[1, 0] fornece todos os valores cujos índices comecem
com (1, 0), formando um array unidimensional:

In [50]:
arr3d[1, 0]

array([7, 8, 9])

In [51]:
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [52]:
x[0]

array([7, 8, 9])

#### Indexação com fatias

In [53]:
import numpy as np

arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [68]:
arr2d.shape

(3, 3)

In [54]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

Como você pode ver, ele foi fatiado ao longo do eixo 0, que é o primeiroeixo. Uma fatia, portanto, seleciona um intervalo de elementos ao longo de
um eixo. Ler a expressão arr2d[:2] como “selecione as duas primeiras linhas de
arr2d” pode ajudar.

In [59]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [61]:
lower_dim_slice = arr2d[1, :2]
lower_dim_slice

array([4, 5])

In [62]:
lower_dim_slice.shape

(2,)

In [69]:
arrx = np.array([[1], [2], [3]])
arrx.shape

(3, 1)

In [70]:
arr2d[:2, 2]

array([3, 6])

In [71]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

É claro que fazer uma atribuição para uma expressão de fatia faz a atribuição
para toda a seleção:


In [72]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

![image.png](attachment:feb193cf-a3b4-4873-892d-1aa6bda5e7c2.png)

#### Indexação Booleana

Consideraremos um exemplo no qual temos alguns dados em um array e um
array de nomes com duplicidades:

In [74]:
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])
data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12, -4], [3, 4]])

names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [75]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

Suponhamos que cada nome correspondesse a uma linha do array data e
quiséssemos selecionar todas as linhas cujo nome correspondente fosse "Bob".
Como as operações aritméticas, as comparações (como com ==) com arrays
também são vetorizadas. Logo, comparar names com a string "Bob" gera um
aray booleano:

In [76]:
names == "Bob"

array([ True, False, False,  True, False, False, False])

Esse array booleano pode ser passado quando o array for indexado:

In [78]:
data[names == "Bob"]

array([[4, 7],
       [0, 0]])

In [79]:
data[names == "Bob", 1:]

array([[7],
       [0]])

In [80]:
data[names == "Bob", 1]

array([7, 0])

In [82]:
names != "Bob"

array([False,  True,  True, False,  True,  True,  True])

~(names == "Bob")

In [84]:
data[~(names == "Bob")]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

O operador ~ pode ser útil quando você quiser inverter um array booleano
referenciado por uma variável:

In [85]:
cond = names == "Bob"
data[~cond]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

Para selecionar dois dos três nomes e combinar várias condições booleanas,
use operadores aritméticos booleanos como & (and) e | (or):

In [87]:
mask = (names == "Bob") | (names == "Will")
mask

array([ True, False,  True,  True,  True, False, False])

In [88]:
data[mask]

array([[ 4,  7],
       [-5,  6],
       [ 0,  0],
       [ 1,  2]])

A definição de valores com arrays booleanos funciona pela transferência do
valor ou dos valores que estiverem no lado direito para os locais em que os
valores do array booleano forem True. Para configurar todos os valoresnegativos de data com 0, só precisamos fazer o seguinte:

In [90]:
data[data < 0] = 0
data

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

Você também pode definir linhas ou colunas inteiras usando um array
booleano unidimensional:

In [93]:
data[names != "Joe"] = 7
data

array([[7, 7],
       [0, 2],
       [7, 7],
       [7, 7],
       [7, 7],
       [0, 0],
       [3, 4]])

#### <span style="color: red"> Indexação Sofisticada </span>
**Indexação sofisticada (fancy indexing) é um termo adotado pelo NumPy para
descrever a indexação com o uso de arrays de inteiros.** Suponhamos que
tivéssemos um array 8 × 4:

In [2]:
import numpy as np

arr = np.zeros((8, 4))
arr

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

Para selecionar um subconjunto das linhas em uma ordem específica, basta
passar uma lista ou um ndarray de inteiros especificando a ordem desejada:

In [4]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

Usar índices negativos seleciona as linhas a partir do final:

In [5]:
arr[[-3, -5, -7, -8]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.],
       [0., 0., 0., 0.]])

In [6]:
# Agora
arr2 = np.arange(32).reshape((8, 4))
arr2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [9]:
# Anteriormente você passarsa só a ordem da linha, mas
arr2[[1, 5, 7, 2],[0, 3, 1, 2]] # [linha] e [coluna]

array([ 4, 23, 29, 10])

In [15]:
# Subconjunto
arr2[[1, 5, 7, 2]][:] # ORDENADO

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

In [16]:
arr2[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # ORDENADO EM 0, 3, 1, 2

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

**Lembre-se de que a indexação sofisticada, ao contrário do fatiamento, sempre
copia os dados em um novo array ao atribuir o resultado a uma nova variável.**
Se você atribuir valores com a indexação sofisticada, os valores indexados
serão modificados:

In [17]:
arr2[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [21]:
arr2[[1, 5, 7, 2], [0, 3, 1, 2]] = 0

In [22]:
arr2

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

#### Transposição de arrays e troca de eixos
A transposição é uma forma especial de reformatação que também retornauma visualização dos dados subjacentes, sem fazer nenhuma cópia. Os arrays têm o **método transpose e o atributo especial T:**

In [24]:
import numpy as np

arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

arr.T

Ao fazer cálculos com matrizes, talvez você use esse recurso com alguma
frequência – por exemplo, ao calcular **o produto da matriz interna** usando
numpy.dot:

O produto interno de matrizes, ou produto escalar de matrizes, é um valor escalar (um número real) obtido a partir de duas matrizes de mesma dimensão. Ele é calculado multiplicando-se a transposta de uma matriz pela outra, e então extraindo o traço (a soma dos elementos da diagonal principal) da matriz resultante. 

In [26]:
arr2 = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])

arr2

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [28]:
np.dot(arr2.T, arr2)

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

O operador infixo @ é outra maneira para fazermos a multiplicação de
matrizes:

In [31]:
arr2.T @ arr2

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

A transposição simples com .T é um caso especial de troca de eixos. O
ndarray tem o método swapaxes, que recebe um par de números de eixos e troca
os eixos indicados para reorganizar os dados:

In [33]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [34]:
arr.swapaxes(0, 1)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

swapaxes também retorna uma visualização dos dados sem fazer cópia.