# NumPy 

#### Nessa aula vamos aprender um pouco sobre como trabalhar com a biblioteca [Numpy](https://numpy.org/). Um pacote para a linguagem Python que suporta arranjos e matrizes multidimensionais, contendo uma coleção de funções matemáticas para trabalhar com estas estruturas.

### Carregar e checar a versão de [`NumPy`](https://realpython.com/tutorials/numpy/).

#### Como o NumPy não é nativo do Python nós precisamos fazer uma importação da biblioteca. E para checar sua versão com a ajuda do atributo [`.__version__`](https://www.python.org/dev/peps/pep-0396/).

In [1]:
#s!pip install numpy
import numpy as np

#vamos verificar a versão instalada
np.__version__

'1.18.5'

#### O [`Numpy`](https://towardsdatascience.com/the-ultimate-beginners-guide-to-numpy-f5a2f99aef54#:~:text=NumPy%20can%20be%20used%20to,on%20these%20arrays%20and%20matrices.) é uma biblioteca com ferramentas para o trabalho com arranjos N-dimensionais. Vamos usar o método [`.arrange()`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html), que retorna valores com espaçamento uniforme em um determinado intervalo.

In [4]:
x = np.arange(10)
print(x)
#type(x)

[0 1 2 3 4 5 6 7 8 9]


### Começaremos exercitando as listas.

#### Será criada uma lista de $0$ à $1000000$ e em seguida uma segunda lista, cujos elementos  são o quadrado de cada elemento da primeira lista.

In [6]:
%%time

z = list(range(1000000))
z2 = []
for i in range(0, len(z)):
    z2.append(z[i] ** 2)

CPU times: user 448 ms, sys: 38.1 ms, total: 486 ms
Wall time: 489 ms


#### Agora vamos ver como é a performance do array comparada com a lista. Observe que para isso usamos o [comando mágico](https://ipython.org/ipython-doc/3/interactive/magics.html) [`%%time`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit).

In [9]:
%%time

y = np.arange(1000000)
y = y ** 2

CPU times: user 4.83 ms, sys: 0 ns, total: 4.83 ms
Wall time: 8.05 ms


#### A uma lista podemos adicionar vários tipos diferentes de variáveis. 

In [10]:
animal = ['Dog', 'Mammal', 45, 7]
print(animal)

['Dog', 'Mammal', 45, 7]


#### Com um [arranjo Numpy](https://towardsdatascience.com/numpy-array-all-you-want-to-know-d3f8503a2f8f) isso não acontece, todas as variáveis serão do mesmo tipo. 

Nesse caso ele tranforma os nossos números em strings

In [11]:
np.array(animal)

array(['Dog', 'Mammal', '45', '7'], dtype='<U6')

#### Um [arranjo Numpy](https://machinelearningmastery.com/gentle-introduction-n-dimensional-arrays-python-numpy/) pode ter [quantas dimensões](https://numpy.org/doc/stable/reference/arrays.ndarray.html) desejarmos, porém é comum termos arranjos de $1$, $2$ e $3$ dimensões. Como será um arranjo de $3$ dimensões? O método [`.arange()`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html) retorna valores com espaçamento uniforme em um determinado intervalo e o método [`.reshape()`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) dá uma nova forma a uma matriz sem alterar seus dados.

Obs: Repare que o produto dos argumentos passados em `.reshape()` precisa ser mesmo valor de elementos em nosso array.

In [13]:
ndim = np.arange(27).reshape(3, 3, 3)
print(ndim)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]


#### Um array de quatro dimensões.

In [None]:
twos = np.arange(16).reshape(2, 2, 2, 2)
print(twos)

[[[[ 0  1]
   [ 2  3]]

  [[ 4  5]
   [ 6  7]]]


 [[[ 8  9]
   [10 11]]

  [[12 13]
   [14 15]]]]


#### Talvez você deseje utilizar um arranjo para salvar dados e precise fazer uma declaração de variável inicialmente para "guardar" memória para salvar futuros dados. Há algumas maneiras de se fazer isso, observe as os métodos:
- [`.ones()`](https://numpy.org/doc/stable/reference/generated/numpy.ones.html), retorne uma nova matriz de forma e tipo fornecidos, preenchida com uns.
- [`.zeros()`](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html), retorne uma nova matriz de forma e tipo fornecidos, preenchida com zeros.
- [`.eye()`](https://numpy.org/doc/stable/reference/generated/numpy.eye.html), retorne uma matriz 2-D com uns na diagonal e zeros em outros lugares.

In [14]:
print(np.ones((3, 5)), end = '\n\n')
print(np.zeros((3, 5)), end = '\n\n')
print(np.eye(3, 3))

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


#### Como acessar dados dentro do arranjo? Vamos criar um arranjo de maneira randômica de tamanho (número de elementos) $15$ com o método [`.randint()`](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.random.randint.html), que retorne inteiros aleatoriamente.

Obs: O parâmetro `low` passado sem o parâmetro `high` retorna somente valores abaixo do valor passado. Nesse caso, somente valores abaixo de 10.

In [15]:
data = np.random.randint(low = 10, size = 15)
print(data)

[5 5 7 2 0 0 5 3 8 6 5 9 9 2 4]


#### Fazemos uma [slice](https://towardsdatascience.com/working-with-numpy-arrays-slicing-4453ec757ff0) dos dados.

In [16]:
data[4: 8]

array([0, 0, 5, 3])

#### E alteramos sua [forma](https://towardsdatascience.com/reshaping-numpy-arrays-in-python-a-step-by-step-pictorial-tutorial-aed5f471cf0b).

In [17]:
data = data.reshape(3, 5)
data

array([[5, 5, 7, 2, 0],
       [0, 5, 3, 8, 6],
       [5, 9, 9, 2, 4]])

In [29]:
#data[2, 4]
data[:, 0:1]

array([[5],
       [0],
       [5]])

####  <span style = "color:blue">Prática Independente.</span>

Coloque a lista seguinte em ordem crescente:

1. lista_exercico = [8, 5, 2, 4, 9]

In [31]:
lista_exercico = [8, 5, 2, 4, 9]
lista_exercico.sort()
lista_exercico

[2, 4, 5, 8, 9]

####  <span style = "color:red">Código original.</span>
<!--- 
x = np.array([8, 5, 2, 4, 9])
print(np.argsort(x))
#print(x[x.argsort()])
#print(x)
-->

#### o método [`.argsort()`](https://numpy.org/doc/stable/reference/generated/numpy.argsort.html) retorna os índices que ordenariam um arranjo.

In [33]:
x = np.array([8, 5, 2, 4, 9])
#type(x)

#índices de ordenação do arranjo
print(np.argsort(x))

#Arranjo ordenado
print(x[x.argsort()])

#Arranjo original não modifica somente com a aplicação da função .argsort()
print(x)

[2 3 1 0 4]
[2 4 5 8 9]
[8 5 2 4 9]


#### Podemos usar o seqüênciamento de índices de um arranjo em um outro.

In [37]:
grade = np.array([3, 5, 1, 6, 2, 7])
ages = np.array([8, 10, 6, 11, 7, 12])

In [38]:
sort_index = np.argsort(ages)
sort_index

array([2, 4, 0, 1, 3, 5])

In [39]:
print(grade[sort_index])
print(ages[sort_index])

[1 2 3 5 6 7]
[ 6  7  8 10 11 12]


#### Em ordem decrescente. 

In [40]:
#print(ages[sort_index])
#print(list(ages[sort_index]))
print(list(ages[sort_index])[::-1])


[12, 11, 10, 8, 7, 6]


### Vamos manipular algum array

O parâmetro `low` passado junto com o `high` retorna somente valores dentro do intervalor entre os dois de caráter semi aberto.

Nesse caso ele retornará somente valores no intervalo entre -10 (inclusivo) e 10 (exclusivo, então vai só até o 9)

In [51]:
import numpy.random as npr

x = npr.randint(low= -10, high= 10, size = 100)
print(x)

[ -1   4  -5  -6   5   7   1  -8   8  -3   1  -9  -9   7   5   9   6   6
 -10   1   9   0   3   6   9 -10   0   6   1   0   9   6   8 -10  -2  -2
   0   9  -6  -7   2   8  -4 -10   3  -2  -3  -5   4   5  -3   9  -8   1
  -5   8   0  -7  -5  -5   5  -9  -9  -1  -5   0   9  -5  -9   4   1   8
  -5   3  -7   7  -6   0  -2   6  -6   0   3  -2  -6   9   5  -9  -2   2
   8   3  -7   2   7   1   8  -6  -1   6]


####  <span style = "color:blue">Prática independente.</span>

1. No array acima, substitua os valores menores que $-1$ por $-1$, e valores maiores que $5$ por $5$.

In [50]:
#x[x < -1] = -1
#x[x > 5] = 5
#x

#### Uma forma de fácil com uma única operação é fazer uso do método [`.clip()`](https://numpy.org/doc/stable/reference/generated/numpy.clip.html), que recorta as bordas de um dado intervalo, criando um subespaço.

In [52]:
#z = x.clip(-1, 5) 
#print(z)
print(x.clip(-1, 5))

[-1  4 -1 -1  5  5  1 -1  5 -1  1 -1 -1  5  5  5  5  5 -1  1  5  0  3  5
  5 -1  0  5  1  0  5  5  5 -1 -1 -1  0  5 -1 -1  2  5 -1 -1  3 -1 -1 -1
  4  5 -1  5 -1  1 -1  5  0 -1 -1 -1  5 -1 -1 -1 -1  0  5 -1 -1  4  1  5
 -1  3 -1  5 -1  0 -1  5 -1  0  3 -1 -1  5  5 -1 -1  2  5  3 -1  2  5  1
  5 -1 -1  5]


Se somente aplcarmos a função no array ele permanece com os valores originais

In [53]:
print(x)

[ -1   4  -5  -6   5   7   1  -8   8  -3   1  -9  -9   7   5   9   6   6
 -10   1   9   0   3   6   9 -10   0   6   1   0   9   6   8 -10  -2  -2
   0   9  -6  -7   2   8  -4 -10   3  -2  -3  -5   4   5  -3   9  -8   1
  -5   8   0  -7  -5  -5   5  -9  -9  -1  -5   0   9  -5  -9   4   1   8
  -5   3  -7   7  -6   0  -2   6  -6   0   3  -2  -6   9   5  -9  -2   2
   8   3  -7   2   7   1   8  -6  -1   6]


#### Suponha que você precisa realizar uma escolha aleatória de um número determinado de elementos de `x`, como podemos fazer isso? 

#### É possível aplicar o método [`.choice()`](https://docs.scipy.org/doc//numpy-1.10.4/reference/generated/numpy.random.choice.html), gera uma amostra aleatória de uma determinada matriz unidimensional.

Obs: o parâmetro `replace` é pra dizermos se queremos gerar essas amostra com números repetidos ou não. Nesse caso não queremos, então lhe damos o booleano `False`.

In [61]:
y = npr.choice(x, 10, replace = False)
y

array([ 0,  1, -2,  6,  9, -3,  0, -8,  8,  6])

#### É possível, com a ajuda do parâmetro `p`, associar valores de probabilidades a cada entrada em `y` e realizar uma escolha não tão aleatória assim. Para o caso de `p` não ser fornecido, a amostra assume uma distribuição uniforme sobre todas as entradas em um. 

In [66]:
y = npr.choice(y, size= 10, p = [.05, .15, .15, .15, .05, .1, 0.10, .07, .08, 0.1])
y

array([ 6,  1,  1,  6,  6, -8,  6,  9,  6,  9])

####  <span style = "color:blue">Prática independente.</span>

1. Encontre os elementos unicos do array a seguir.
2. O retorno deve ser o elemento e seu index.
3. A quantidade observada de cada elemento.

In [67]:
symbols = np.array(['BCD', 
                    'ACD', 
                    'ACD', 
                    'ACD', 
                    'ABD', 
                    'ABC', 
                    'ABC', 
                    'ABD', 
                    'ABD',
                    'BCD', 
                    'BCD', 
                    'ABC', 
                    'ABC', 
                    'BCD', 
                    'ACD']
                  )

In [71]:
#Elementos únicos
print(np.unique(symbols))

#Elementos e índices: um array com os elementos e outro com seus respectivos índices
print(np.unique(symbols, return_index= True))

#Elementos e contagem: um array com os elementos e outro com suas respectivas frequências
print(np.unique(symbols, return_counts= True))

['ABC' 'ABD' 'ACD' 'BCD']
(array(['ABC', 'ABD', 'ACD', 'BCD'], dtype='<U3'), array([5, 4, 1, 0]))
(array(['ABC', 'ABD', 'ACD', 'BCD'], dtype='<U3'), array([4, 3, 4, 4]))


#### O método [`.unique()`](https://numpy.org/doc/stable/reference/generated/numpy.unique.html), que encontra os elementos exclusivos de uma matriz e seus elementos exclusivos classificados.

- `return_index`, para casos `True`, retorna os índices do arranjo que resultam na matriz exclusiva.
- `return_counts`, para casos `True`, retorna o número de vezes que cada item exclusivo aparece em ar.

#### Existem três saídas opcionais, além dos elementos exclusivos:

In [77]:
a, b, c = np.unique(symbols, 
                    return_index = True,
                    return_counts = True                  
                   )

#### Os valores da matriz de entrada que fornecem os valores únicos.

In [78]:
a

array(['ABC', 'ABD', 'ACD', 'BCD'], dtype='<U3')

#### Os índices da matriz única que reconstrói a matriz de entrada.

In [80]:
b

array([5, 4, 1, 0])

#### O número de vezes que cada valor único aparece na matriz de entrada.

In [79]:
c

array([4, 3, 4, 4])

#### A forma do arranjo `a` pode ser encontrada com o atributo [`.shape`](https://numpy.org/devdocs/reference/generated/numpy.shape.html), que retorna uma tupla com as dimensões do arranjo correspondente.

In [81]:
a.shape

(4,)

#### Podemos operar com diferentes arranjos e uma das formas é através da [`concatenação`](https://cmdlinetips.com/2018/04/how-to-concatenate-arrays-in-numpy/#:~:text=17%20%2C%2018%20%5D%5D) dos mesmos. A função [`.concatenate()`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) une a uma sequência de matrizes ao longo de um eixo existente.

In [83]:
array_1 = [[1, 2],
           [3, 4]
          ]

array_2 = [[5, 6],
           [7, 8]
          ]


#[a00 a01]
#[a10 a11]

In [84]:
np.concatenate((array_1, 
                array_2), 
               axis = 0
              )

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

#### O parâmetro `axis` identifica o eixo ao longo do qual as matrizes serão unidas. Se o eixo for `NONE`, as matrizes serão [niveladas](https://www.w3resource.com/numpy/manipulation/ndarray-flatten.php#:~:text=ndarray.-,flatten()%20function,array%20collapsed%20into%20one%20dimension.&text='C'%20means%20to%20flatten%20in,(Fortran%2D%20style)%20order.) antes do uso. O padrão é $0$.

In [85]:
np.concatenate((array_1, 
                array_2)
               , axis = 1
              )

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

#### Um arranjo colapsado ([flatten Array](https://towardsdatascience.com/numpy-array-manipulation-5d2b42354688)) retorna uma cópia da matriz original.

In [86]:
arr = np.arange(27).reshape(3, 3, 3)
arr

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

#### O método [`.flatten()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.flatten.html) retorna uma cópia da matriz colapsada em uma dimensão.

In [87]:
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26])

#### O método [`.randit()`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.random.randint.html) retorna inteiros aleatórios da distribuição “uniforme discreta” do tipo `d` especificado no intervalo “meio aberto” [baixo, alto). Se alto for Nenhum (o padrão), os resultados serão de [0, baixo).

In [89]:
x = npr.randint(low= -10, high= 10, size = 100)
x

array([  6,   0, -10,   8,   8,   0,  -5,  -3,  -2,   3,  -3,   8,   8,
        -4,   1,  -9,   2,   6,   8,  -7,  -5,   4,  -8,  -3,   5,  -3,
        -1,  -8,   7,   0,  -3,  -1,   5,   8,  -3,   7,   4,   5,  -6,
        -9,   5,  -1,  -1,  -1,   0,   2,  -7,   9,   8,  -2,  -1,   3,
        -9,   6,  -4,   8,   8,  -2,   3,  -6, -10,   8,   7, -10,   7,
        -7,   0,   4,  -4,  -2, -10,  -7,   4,  -7,  -9,   2, -10,  -4,
        -7,   7, -10,   4,  -9,  -4,   3,  -4,   2,  -7,  -6,  -7,   6,
         3,   0,   4,   4,  -3,   9,  -6,   2,   4])

#### O método [`where()`](https://numpy.org/doc/stable/reference/generated/numpy.where.html) retorna elementos escolhidos de `x` ou `y` dependendo da condição.

In [96]:
positive = np.where(x > 0, 200, x)
print(positive)

[200   0 -10 200 200   0  -5  -3  -2 200  -3 200 200  -4 200  -9 200 200
 200  -7  -5 200  -8  -3 200  -3  -1  -8 200   0  -3  -1 200 200  -3 200
 200 200  -6  -9 200  -1  -1  -1   0 200  -7 200 200  -2  -1 200  -9 200
  -4 200 200  -2 200  -6 -10 200 200 -10 200  -7   0 200  -4  -2 -10  -7
 200  -7  -9 200 -10  -4  -7 200 -10 200  -9  -4 200  -4 200  -7  -6  -7
 200 200   0 200 200  -3 200  -6 200 200]


In [97]:
positive.shape

(100,)