## NumPy em 50 células de Notebook
por Numan Yilmaz, 10 de maio 2017, modificado por Wendell Diniz, 10 de abril, 2019
Original [aqui][1]

Este caderno contém uma introdução sobre a biblioteca NumPy, contendo conceitos iniciais, funções e operações comuns. Os conceitos são apresentados e seguidos com um exemplo.

Este tutorial está dividido nas seguintes partes:

 - O que é o NumPy?
 - Como criar NumPy arrays
 - Indexação e indexação avançada
 - Slicing
 - Funções universais (Ufuncs)
 - Broadcasting
 - Máscaras, ordenação e comparação
 - Links para estudos
 
[1]:https://datascientistnotebook.com/2017/04/01/numpy-in-50-cells-of-notebook/

### 1- O que é o NumPy e o NumPy array?

NumPy é um pacote de operações em matrizes e serve como base para vários outros pacotes do Python, tais como o Pandas. O que faz o NumPy tão incrível é a estrutura de dados em que ele se baseia, a **ndarray**. O ndarray significa arranjo n-dimensional e basicamente, se parece com uma lista normal do Python. Entretanto, é muito mais eficiente do que a lista regular. Uma lista regular pode conter vários tipos de dados, tais como inteiros, strings, booleanos e até mesmos outras listas. Já um NumPy array contém apenas um tipo de dados, dessa forma dispensando a checagem do tipo para cada elemento, necessária para a lista quando acontece alguma computação sobre eles. Esta característica faz o NumPy uma ótima ferramenta para pesquisas e projetos em Ciência dos Dados.

Antes de começar, vamos checar a versão no NumPy e do Python.

In [1]:
# import numpy
import numpy as np

# sys was imported to check the python version
import sys 

# check the version of python and numpy
print('NumPy version:', np.__version__)
print('Python version', sys.version)

NumPy version: 1.15.4
Python version 3.7.1 (default, Dec 10 2018, 22:54:23) [MSC v.1915 64 bit (AMD64)]


### 2- Como criar NumPy arrays

Há muitas maneiras de se criar uma NumPy array. Vamos checar algumas delas:

In [2]:
# Cria um array unidimensional. Pense em um plano cartesiano onde só existe um eixo.
np.array([1, 2, 3])

array([1, 2, 3])

In [4]:
# Criando um array unidimensional onde 
# todos os elementos são iniciados com o valor 0
# Array de inteiros np.zeros(3, dtype='int')
np.zeros(3)

array([0., 0., 0.])

In [5]:
# Agora, um array de 1s
np.ones(3)

array([1., 1., 1.])

In [6]:
# Um array contendo 3 elementos aleatórios entre 1 e 10
np.random.randint(1,10, 3)

array([3, 8, 1])

In [9]:
# Criar um array linear uniformemente espaçado com 5 elementos de 0 a 10 
np.linspace(0, 10, 5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [7]:
# Agora, como criar um array bidimensional. Agora temos dois eixos.
np.array([[1,2,3],
         [4,5,6],
         [7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
# Criando uma matriz 3x4 com elementos aleatórios com valor entre 0 de 1
np.random.random((3,4))

array([[0.93090923, 0.26965228, 0.40359404, 0.72783444],
       [0.41901513, 0.70217886, 0.15135356, 0.78402338],
       [0.46473644, 0.70384872, 0.95781353, 0.38960893]])

In [38]:
# Criando um array 1D a e um array 2D b
a = np.array([1,2,3])
b = np.random.randint(0,10,(3,3))

print(a)
print(b)

[1 2 3]
[[9 5 0]
 [2 4 0]
 [9 6 4]]


In [39]:
# Adicionando valores a um array 
a = np.append(a, 4)
a

array([1, 2, 3, 4])

In [40]:
# Imprimindo a forma e a dimensão de a e b
print("Forma de a:", np.shape(a))
print("Forma de b:", np.shape(b))

print('Dimensão de a:', np.ndim(a))
print('Dimensão de b:', np.ndim(b))

Forma de a: (4,)
Forma de b: (3, 3)
Dimensão de a: 1
Dimensão de b: 2


In [41]:
#  Imprimindo o número de elementos de a e b
print('Número de elementos em a:', np.size(a))
print('Número de elementos em b:', np.size(b))

Número de elementos em a: 4
Número de elementos em b: 9


Agora é sua vez! Tente criar os arrays conforme pedido.

<a id='Ex1'></a>
#### 1 - Crie um array unidimensional com 10 elementos aleatórios com valor entre 1 e 100.

In [25]:
c = np.random.randint(1,100,[10])
c

array([25, 67,  3, 30, 27,  1, 51, 95, 44,  7])

<a id='Ex2'></a>
#### 2 - Agora, crie um array bidimensional, 4x4, com números aleatórios entre 0 e 1

In [35]:
d = np.random.randint(0,2,(4,4))
d

array([[0, 0, 0, 1],
       [0, 1, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 0, 0]])

### 3- Indexação e indexação avançada

In [None]:
# a é o array 1D que criamos antes
a

In [None]:
# b é o array 2D que criamos antes também
b

In [42]:
# Acessando o primeiro elemento de a 
# Podemos acessar a partir do começo, ou do fim
print(a[0])
print(a[-4])

1
1


In [43]:
# Mostrando o último elemento de a 
# Note que o resultado é o mesmo
print(a[-1])
print(a[3])

4
4


In [44]:
# Mostrando a primeira linha de b
# Note que o resultado também é o mesmo
print(b[0]) 
print(b[0,:])

[9 5 0]
[9 5 0]


In [45]:
# Agora, exibindo a segunda coluna de b
b[:,1]

array([5, 4, 6])

In [46]:
# Vamos entender melhor a indexação avançada. Criando 2 novos arrays
x = np.array(['a', 'b', 'c'])
y = np.array([['d','e','f'], 
              ['g', 'h', 'k']])

print(x)
print(y)

['a' 'b' 'c']
[['d' 'e' 'f']
 ['g' 'h' 'k']]


In [47]:
# Indexando um array com uma lista
# Pegando o valor de c do array x
ind = [2]
x[ind]

array(['c'], dtype='<U1')

In [48]:
# Indexação avançada em um array 2D
# Pegando os valores e,h no array y
ind2 = ([0,1],[1])
y[ind2]

array(['e', 'h'], dtype='<U1')

#### 1 - Faça um slice no array criado no [Exerício 2.1](#Ex1) mostrando os 5 primeiros elementos

In [63]:
c[:5]

array([25, 67,  3, 30, 27])

#### 2 - Agora, mostre os 5 últimos elementos.

In [65]:
c[5:10]

array([ 1, 51, 95, 44,  7])

#### 3 - Mostre os elementos dos índices 2 a 7.

In [66]:
c[2:7]

array([ 3, 30, 27,  1, 51])

#### 4 - Agora, use a indexação avançada para recuperar os elemenos da segunda linha e primeira coluna e da terceira linha e quarta coluna do array criado no [Exercício 2.2](#Ex2)

In [69]:
d2 = ([1,1],[2,3])
d[d2]

array([0, 0])

### 4- Slicing

O NumPy oferece uma forma bastante prática de obter subconjuntos de seus arrays. Para isso, usamos a operação de slicing (fatiamento).

Usamos o operado : (dois pontos) para isto. Desta forma, conseguimos recuperar "fatias" de um array.

In [49]:
# Criando um array de números inteiros de um a 1 to 10
# Note o uso do método arange e a especificação do tipo
X = np.arange(1, 11, dtype=int)
X

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [50]:
# Acessando os dois primeiros elementos
X[:2]

array([1, 2])

In [51]:
# Acessando uma fatia entre os índices 2 e 5, inclusive
X[2:5]

array([3, 4, 5])

In [52]:
# Mostrando apenas os números pares 
X[::2]

array([1, 3, 5, 7, 9])

In [70]:
# Agora, os ímpares
X[1::2]

array([ 2,  4,  6,  8, 10])

In [71]:
# Criando um array 2D
# Note o uso do método reshape
Y= np.arange(1,10).reshape(3,3)
Y

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [72]:
# Pegando a primeira e segunda linhas
Y[:2,:]

array([[1, 2, 3],
       [4, 5, 6]])

In [73]:
# Agora, a segunda e terceira colunas
Y[:, 1:]

array([[2, 3],
       [5, 6],
       [8, 9]])

In [74]:
# Uma fatia da segunda linha
Y[1,1:]

array([5, 6])

#### 1 - Crie um novo array unidimensional de 10 elementos aleatórios entre 1 e 10.

In [86]:
e = np.random.randint(1,10,[10])
e

array([1, 3, 9, 6, 4, 5, 6, 1, 7, 1])

#### 2 - Faça um slice mostrando os elementos de 3 a 5.

In [87]:
e[3:5]

array([6, 4])

#### 3 - Faça agora um slice mostrando 4 elementos a partir do primeiro.

In [88]:
e[1:5]

array([3, 9, 6, 4])

#### 4 - Agora, mostre 4 elementos a partir do último.

In [153]:
e[-1:5:-1]

array([1, 7, 1, 6])

### 5- Funções universais (unfuncs)


##### pressione TAB depois de np. para ver uma lista com as ufuncs disponíveis. np.{TAB}

As funções universais são operações comuns que aplicamos em arrays. Devido a serem já embutidas no pacote, elas conseguem lidar com as dimensões dos arrays. Dessa forma, a função é aplicada automaticamente a todos os elementos do array. Repare que as operações retornam uma nova instância com o resultado, ou seja, o array original permanece inalterado.

In [78]:
# Recuperando X
X

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [79]:
# Maior elemento de X
np.max(X)

10

In [80]:
# Média aritmética de X
np.mean(X)

5.5

In [81]:
# 4ª potência de todos os elemento 
np.power(X, 4)

array([    1,    16,    81,   256,   625,  1296,  2401,  4096,  6561,
       10000], dtype=int32)

In [82]:
# Funções trigonométricas
print(np.sin(X))
print(np.tan(X))

[ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427 -0.2794155
  0.6569866   0.98935825  0.41211849 -0.54402111]
[ 1.55740772 -2.18503986 -0.14254654  1.15782128 -3.38051501 -0.29100619
  0.87144798 -6.79971146 -0.45231566  0.64836083]


In [None]:
# sin²(x) + cos²(x) = 1
np.square(np.sin(X)) + np.square(np.cos(X))

In [83]:
# O mesmo se aplica para arrays com mais dimensões
Y

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [84]:
np.multiply(Y, 2)

array([[ 2,  4,  6],
       [ 8, 10, 12],
       [14, 16, 18]])

In [85]:
# Separar Y em 3 subarrays
np.split(Y, 3)

[array([[1, 2, 3]]), array([[4, 5, 6]]), array([[7, 8, 9]])]

#### 1 - Crie um array unidimensional com 100 elementos uniformemente espaçados entre 0 e 1 e calcule o seno de $2\times \pi \times W$, onde W é o array que você acabou de criar.

In [108]:
# Criar um array linear uniformemente espaçado com 5 elementos de 0 a 10 
W = np.linspace(1, 100, 100)
np.square(np.sin(W))

array([7.08073418e-01, 8.26821810e-01, 1.99148567e-02, 5.72750017e-01,
       9.19535765e-01, 7.80730206e-02, 4.31631391e-01, 9.78829740e-01,
       1.69841646e-01, 2.95958969e-01, 9.99980413e-01, 2.87910496e-01,
       1.76540339e-01, 9.81302933e-01, 4.22874275e-01, 8.28883197e-02,
       9.24285137e-01, 5.63981845e-01, 2.24631780e-02, 8.33469031e-01,
       6.99992657e-01, 7.83456762e-05, 7.16088972e-01, 8.20072170e-01,
       1.75169858e-02, 5.81495390e-01, 9.14654916e-01, 7.33899461e-02,
       4.40409932e-01, 9.76206490e-01, 1.63246419e-01, 3.04071385e-01,
       9.99823728e-01, 2.79928489e-01, 1.83340398e-01, 9.83625294e-01,
       4.14141329e-01, 8.78343344e-02, 9.28901547e-01, 5.55193622e-01,
       2.51611511e-02, 8.40011748e-01, 6.91849222e-01, 3.13358152e-04,
       7.24036808e-01, 8.13222224e-01, 1.52703167e-02, 5.90215225e-01,
       9.09644123e-01, 6.88405639e-02, 4.49207148e-01, 9.73434005e-01,
       1.56756725e-01, 3.12245201e-01, 9.99510407e-01, 2.72015448e-01,
      

#### 2 - Crie um novo array A com 100 elementos aleatórios entre 0 e 1 e ache $(W + A)^2$, colocando o resultado em um novo array B.

In [155]:
A = np.random.random([100])
B = np.square((W+A)**2)

In [156]:
A

array([0.21204659, 0.91907163, 0.1076376 , 0.21101201, 0.09274776,
       0.92889016, 0.56695275, 0.94249824, 0.1827197 , 0.99302209,
       0.93426567, 0.26547874, 0.62562563, 0.65621138, 0.93973027,
       0.40057543, 0.05531671, 0.92666114, 0.41094854, 0.12351891,
       0.23812094, 0.36397959, 0.43428584, 0.80284441, 0.87272848,
       0.70971792, 0.64100743, 0.79372849, 0.14805927, 0.38525467,
       0.63839452, 0.73778197, 0.65742475, 0.62779398, 0.05841049,
       0.95578424, 0.82103824, 0.9955791 , 0.95843142, 0.73361098,
       0.62003086, 0.7759403 , 0.37003464, 0.85828915, 0.97213186,
       0.77833824, 0.39647331, 0.60799897, 0.60294479, 0.80612655,
       0.49368679, 0.11499738, 0.19587352, 0.4258515 , 0.174675  ,
       0.99055968, 0.54733625, 0.79825536, 0.82911167, 0.64530629,
       0.76649576, 0.51473024, 0.29974079, 0.80176684, 0.05487761,
       0.90661834, 0.00566259, 0.46136547, 0.52119544, 0.88694433,
       0.96664166, 0.08825259, 0.14386303, 0.20839577, 0.75290

In [157]:
B

array([2.15812827e+00, 7.26070866e+01, 9.32655956e+01, 3.14445888e+02,
       6.72680233e+02, 2.30491390e+03, 3.27856718e+03, 6.39492498e+03,
       7.11025720e+03, 1.46038850e+04, 2.02853641e+04, 2.26327860e+04,
       3.44687718e+04, 4.61409869e+04, 6.45541062e+04, 7.23496349e+04,
       8.46134014e+04, 1.28320495e+05, 1.41966878e+05, 1.63989373e+05,
       2.03453122e+05, 2.50147605e+05, 3.01583024e+05, 3.78447775e+05,
       4.48093788e+05, 5.08952446e+05, 5.83734646e+05, 6.87371657e+05,
       7.21836063e+05, 8.52415862e+05, 1.00197699e+06, 1.14867457e+06,
       1.28328623e+06, 1.43780272e+06, 1.51066750e+06, 1.86521840e+06,
       2.04613266e+06, 2.31239220e+06, 2.54937502e+06, 2.75303445e+06,
       3.00061027e+06, 3.34809876e+06, 3.53801016e+06, 4.04921488e+06,
       4.46661556e+06, 4.78827582e+06, 5.04642835e+06, 5.58252880e+06,
       6.05382469e+06, 6.66291607e+06, 7.03098139e+06, 7.37650907e+06,
       8.00777347e+06, 8.77447073e+06, 9.26742617e+06, 1.05490096e+07,
      

#### 3 - Separe o array B em 2 subarrays.

In [158]:
np.split(B, 2)

[array([2.15812827e+00, 7.26070866e+01, 9.32655956e+01, 3.14445888e+02,
        6.72680233e+02, 2.30491390e+03, 3.27856718e+03, 6.39492498e+03,
        7.11025720e+03, 1.46038850e+04, 2.02853641e+04, 2.26327860e+04,
        3.44687718e+04, 4.61409869e+04, 6.45541062e+04, 7.23496349e+04,
        8.46134014e+04, 1.28320495e+05, 1.41966878e+05, 1.63989373e+05,
        2.03453122e+05, 2.50147605e+05, 3.01583024e+05, 3.78447775e+05,
        4.48093788e+05, 5.08952446e+05, 5.83734646e+05, 6.87371657e+05,
        7.21836063e+05, 8.52415862e+05, 1.00197699e+06, 1.14867457e+06,
        1.28328623e+06, 1.43780272e+06, 1.51066750e+06, 1.86521840e+06,
        2.04613266e+06, 2.31239220e+06, 2.54937502e+06, 2.75303445e+06,
        3.00061027e+06, 3.34809876e+06, 3.53801016e+06, 4.04921488e+06,
        4.46661556e+06, 4.78827582e+06, 5.04642835e+06, 5.58252880e+06,
        6.05382469e+06, 6.66291607e+06]),
 array([7.03098139e+06, 7.37650907e+06, 8.00777347e+06, 8.77447073e+06,
        9.26742617e+06

### 6- Broadcasting

 Broadcasting é a capacidade de usar funções em diferentes tamanhos de matriz. O Broadcasting funciona tanto com unfuncs quanto com alguns operadores.

In [109]:
X

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
# Somar 5 a cada elemento
X + 5

In [None]:
# ou
np.add(X, 5)

In [None]:
# Criando um novo array Z 
Z = np.arange(3)[:, np.newaxis]
Z

In [None]:
# Multiplicando Y and Z
np.multiply(Y, Z)

#### 1 - Recalcula a matriz B como sendo a soma de W e A.

In [159]:
B1 = np.square((W+A))
B1

array([1.46905693e+00, 8.52097921e+00, 9.65741143e+00, 1.77326222e+01,
       2.59360798e+01, 4.80095189e+01, 5.72587739e+01, 7.99682748e+01,
       8.43223411e+01, 1.20846535e+02, 1.42426697e+02, 1.50441969e+02,
       1.85657674e+02, 2.14804532e+02, 2.54075001e+02, 2.68978875e+02,
       2.90883828e+02, 3.58218502e+02, 3.76784923e+02, 4.04956013e+02,
       4.51057781e+02, 5.00147583e+02, 5.49165753e+02, 6.15181091e+02,
       6.69398079e+02, 7.13409032e+02, 7.64025292e+02, 8.29078800e+02,
       8.49609359e+02, 9.23263701e+02, 1.00098801e+03, 1.07176237e+03,
       1.13282224e+03, 1.19908412e+03, 1.22909215e+03, 1.36572999e+03,
       1.43043093e+03, 1.52065519e+03, 1.59667624e+03, 1.65922706e+03,
       1.73222697e+03, 1.82978107e+03, 1.88095990e+03, 2.01226611e+03,
       2.11343691e+03, 2.18821293e+03, 2.24642568e+03, 2.36273756e+03,
       2.46045213e+03, 2.58126250e+03, 2.65159978e+03, 2.71597295e+03,
       2.82980096e+03, 2.96217331e+03, 3.04424476e+03, 3.24792389e+03,
      

### 7- Ordenação, Comparação e Máscaras

In [139]:
# Criando um array com 10 elementos aleatórios entre 1 e 5
x = np.random.randint(1,5, 10)
x

array([3, 4, 2, 1, 1, 4, 4, 3, 2, 1])

In [141]:
# Criando um array 3x3 com elementos aleatórios entre 1 e 5
y = np.random.randint(1,5, (3,3))
y

array([[4, 1, 4],
       [4, 4, 1],
       [2, 2, 1]])

In [140]:
# Ordenando os elementos no array x
np.sort(x)

array([1, 1, 1, 2, 2, 3, 3, 4, 4, 4])

In [142]:
# Ordenando os valores na direção das colunas
np.sort(y, axis=0)

array([[2, 1, 1],
       [4, 2, 1],
       [4, 4, 4]])

In [143]:
# Ordenando os valores na direção das linhas
np.sort(y, axis=1)

array([[1, 4, 4],
       [1, 4, 4],
       [1, 2, 2]])

In [144]:
# Operações de comparação == , !=, < , >, >=, <=
# A operação retorna um booleano
x > 3

array([False,  True, False, False, False,  True,  True, False, False,
       False])

In [145]:
# Para recuperar os valores que satisfazem a comparação, usamos a operação conhecida como máscara
x[x>3]

array([4, 4, 4])

In [146]:
# Outro exemplo
x[(x <= 3) & (x>1)]

array([3, 2, 3, 2])

# Links importante

[Lista de Notebooks sobre NumPy](https://datascientistnotebook.com/numpy/)