# Numpy - Aplicações
**Nesta aula**:
1. Entendendo o Numpy
2. Objetivo da biblioteca Numpy
3. Vantagens
4. Utilidades
5. Curiosidades

In [1]:
pip list

Package                       Version
----------------------------- --------------------
alabaster                     0.7.12
anaconda-client               1.11.0
anaconda-navigator            2.3.1
anaconda-project              0.11.1
anyio                         3.5.0
appdirs                       1.4.4
argon2-cffi                   21.3.0
argon2-cffi-bindings          21.2.0
arrow                         1.2.2
astroid                       2.11.7
astropy                       5.1
asttokens                     2.2.1
atomicwrites                  1.4.0
attrs                         21.4.0
Automat                       20.2.0
autopep8                      1.6.0
Babel                         2.9.1
backcall                      0.2.0
backports.functools-lru-cache 1.6.4
backports.tempfile            1.0
backports.weakref             1.0.post1
bcrypt                        3.2.0
beautifulsoup4                4.11.1
binaryornot                   0.4.4
bitarray                      2.5.1
bk

In [2]:
# Instalando o numpy
## pip install numpy
# ou
## !pip install numpy

In [3]:
import numpy as np

### Arrays

In [4]:
# Arrays multidimensionais
arr_str = np.array(['Minas Gerais', 'São Paulo', 'Rio de Janeiro', 'Espírito Santo'])
print(arr_str)

arr_float = np.array([3.14, 25.4, -32.5, 0.3333, 99.9])
print(arr_float)

arr_int = np.array([0, 1, 2, 3, 4, 5])
print(arr_int)

arr_bol = np.array([True, False, False, True, True, False])
print(arr_bol)

['Minas Gerais' 'São Paulo' 'Rio de Janeiro' 'Espírito Santo']
[  3.14    25.4    -32.5      0.3333  99.9   ]
[0 1 2 3 4 5]
[ True False False  True  True False]


In [5]:
# Verificar estrutura dos arrays
print(type(arr_str))
print(type(arr_float))
print(type(arr_int))
print(type(arr_bol))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [6]:
# Array com diferentes tipos de dados
arr_tipos = np.array(['Sete Lagoas', 25, 12.7, False])
print(arr_tipos)
print(type(arr_tipos))

['Sete Lagoas' '25' '12.7' 'False']
<class 'numpy.ndarray'>


In [7]:
# Operações matemáticas: homogêneas - é possível realizar tais operações
arr_int += 1
arr_int

array([1, 2, 3, 4, 5, 6])

In [8]:
# Operações matemáticas: heterogêneas - não é possível realizar tais operações
arr_tipos += 1
arr_tipos

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('<U32'), dtype('int32')) -> None

### Arrays x Listas
Similaridades: Ambos armazenam dados, são mutáveis, podem ser indexados e divididos.

Diferenças: **Listas** armazenam dados heterogêneos e é built-in (embutida) enquanto **Array** é homogêneo e instalado por via externa.

**Vantagens de usar arrays**:
- Maior flexibilidade nos cálculos matemáticos
- Mais velocidade
- Menor armazenamento

In [9]:
# Exemplo: Média Ponderada
## Notas e Pesos para calcular média ponderada
notas = [3.0, 5.0, 7.0, 6.0, 9.0]
pesos = [2, 1, 2, 5, 5]

In [10]:
# Utilizando listas - Não é possível visto que listas são incapazes de fazer operações matemáticas simples
(notas * pesos )/sum(pesos)

TypeError: can't multiply sequence by non-int of type 'list'

In [11]:
# Ao invés de somar notas e pesos, a operação realizada é concatenação
notas + pesos

[3.0, 5.0, 7.0, 6.0, 9.0, 2, 1, 2, 5, 5]

In [12]:
# Utilizando list comprehension - É um método que pode ser usado para operações matemáticas
nota_final = sum(nota * peso for nota, peso in zip(notas, pesos)) / sum(pesos)

print(nota_final)

6.666666666666667


In [13]:
# Utilizando arrays (numpy)
notas_array = np.array(notas)
pesos_array = np.array(pesos)

print(notas_array, pesos_array)

[3. 5. 7. 6. 9.] [2 1 2 5 5]


In [14]:
(sum(notas_array*pesos_array)) / sum(pesos_array)

6.666666666666667

In [15]:
# arrays podem realizar operações matemáticas simples
print(notas_array + 1)
print(notas_array - 1)

[ 4.  6.  8.  7. 10.]
[2. 4. 6. 5. 8.]


### Métodos e Funções úteis de Arrays

In [16]:
# Arrays preenchidos com 0
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [17]:
# Arrays preenchidos com 1
np.ones(5)

array([1., 1., 1., 1., 1.])

In [18]:
# Array aleatório
np.empty(3)

array([9.16704793e-312, 0.00000000e+000, 1.60219306e-306])

In [19]:
# Array com sequência
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
# Array com sequência e intervalos
np.arange(10, 120, 10)

array([ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100, 110])

In [21]:
# Array com valores espaçados em um intervalo especificado
np.linspace(0, 24, num= 5)

array([ 0.,  6., 12., 18., 24.])

In [22]:
# Array com valores aleatórios (entre 0 e 1) - O que é definido como argumento na sintaxe são as linhas e colunas
np.random.random((2, 3)) # 2 Linhas e 3 Colunas

array([[0.00885391, 0.63084183, 0.22310433],
       [0.04976489, 0.44047902, 0.65033396]])

In [23]:
# Matriz identidade -  matriz quadrada em que todos os elementos da diagonal principal são iguais a 1
# e todos os outros elementos são iguais a 0
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### Manipular Numpy Arrays

In [24]:
a = np.array([5, 3, 1, 4, 2])
b = np.array([7, 9, 10, 8, 6])

In [25]:
# numpy.concatenate() - Concatenar arrays
c = np.concatenate((a, b))
c

array([ 5,  3,  1,  4,  2,  7,  9, 10,  8,  6])

In [26]:
# numpy.sort() - Ordenar arrays de forma crescente
c_asc = np.sort(c)
c_asc

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [27]:
# Filtrar elementos divisíveis por 2
c_asc[c_asc % 2 == 0]

array([ 2,  4,  6,  8, 10])

In [28]:
# Filtrar elementos divisíveis por 2 e 5
c_asc[(c_asc % 2 == 0) & (c_asc % 5 == 0)]

array([10])

In [29]:
# Substituir os números onde não são divisíveis de 3 por 0
np.where(c_asc % 3 == 0, c_asc, 0)

array([0, 0, 3, 0, 0, 6, 0, 0, 9, 0])

### Operações com Numpy Arrays

In [30]:
import time

In [31]:
# Criar um array aleatório com 1 bilhão de elementos entre 0 e 1000
start_time = time.time()

elementos_array = np.random.randint(0, 1001, size= 1_000_000_000)

end_time = time.time()
print(f"Resultado calculado em {(end_time - start_time)//60} minutos e {(end_time - start_time)%60} segundos")

Resultado calculado em 0.0 minutos e 4.680701732635498 segundos


In [32]:
# len() - Verificar quantidade de elementos no array criado
len(elementos_array)

1000000000

In [33]:
# shape() - Verificar quantidade de elementos no array criado
elementos_array.shape

(1000000000,)

In [34]:
# min() - Valor mínimo do array
elementos_array.min()

0

In [35]:
# max() - Valor máximo do array
elementos_array.max()

1000

In [36]:
# sum() - Soma dos elementos do array
elementos_array.sum()

1786351065

In [37]:
# Formatação
soma = elementos_array.sum()
print(f"R$ {soma:,.2f}")

R$ 1,786,351,065.00


In [38]:
# mean() - Média dos elementos do array
elementos_array.mean()

500.002557401

### Compatibilidade entre Arrays
Os arrays precisam ter pelo menos o mesmo número de colunas.

In [39]:
# Arrays compatíveis
a = np.array([[1, 2, 3, 4, 5],[6, 7, 8, 9, 10]])
b = np.array([[10, 20, 30, 40, 50]])

print(a.shape, b.shape)

(2, 5) (1, 5)


In [40]:
# É possível realizar operações com arrays compatíveis
a + b

array([[11, 22, 33, 44, 55],
       [16, 27, 38, 49, 60]])

In [41]:
# cumsum() - Soma calculada dos arrays
(a + b).cumsum()

array([ 11,  33,  66, 110, 165, 181, 208, 246, 295, 355], dtype=int32)

In [42]:
# cumprod() - Produto acumulado dos arrays
(a + b).cumprod()

array([        11,        242,       7986,     351384,   19326120,
        309217920, -241050752, -569993984, 2135065856, -745067520],
      dtype=int32)

In [43]:
# var() - Variância
(a + b).var()

248.25

In [44]:
# std() - Desvio padrão
(a + b).std()

15.75595125658873

In [45]:
# Arrays incompatíveis - (3, 5) (3, 3)
c = np.array([[0, 5, 10, 15, 20], [0, 10, 20, 30, 40], [0, 100, 200, 300, 400]])
d = np.array([[1, 5, 10], [2, 7, 9], [3, 4, 5]])

print(c.shape, d.shape)

(3, 5) (3, 3)


In [46]:
# Não é possível realizar operações com arrays incompatíveis
c - d

ValueError: operands could not be broadcast together with shapes (3,5) (3,3) 

In [None]:
# Arrays incompatíveis - (2, 1) (1, 2)
e = np.array([[8], [16]])
f = np.array([[8, 16]])

print(e.shape, f.shape)

### Dimensões de Numpy Arrays

In [47]:
g = np.array([[1, 6], [25, 13], [49, 77], [69, 91], [5, 45]])
print(g, g.shape)

[[ 1  6]
 [25 13]
 [49 77]
 [69 91]
 [ 5 45]] (5, 2)


In [48]:
# flatten() - Recolhe todos os elementos para uma única dimensão
g_recolhido = g.flatten()

print(g_recolhido, g_recolhido.shape)

[ 1  6 25 13 49 77 69 91  5 45] (10,)


In [49]:
# reshape() - Atribui uma nova dimensão para um array sem modificar seus elementos
g_remodelado = g.reshape(2, 5)

print(g_remodelado, g_remodelado.shape)

[[ 1  6 25 13 49]
 [77 69 91  5 45]] (2, 5)


In [50]:
# Corrigindo arrays incompatíveis
e = np.array([[8], [16]]) # (2, 1)
f = np.array([[8, 16]]) # (1, 2)

In [55]:
# reshape() no array 'e'
e.reshape(1, 2) * f

array([[ 64, 256]])

In [56]:
# reshape() no array 'f'
e * f.reshape(2, 1)

array([[ 64],
       [256]])

### Geradores Pseudoaleatórios

In [57]:
# Utilizando a biblioteca random
import random

# Gerar 100 números aleatórios seguindo uma distribuição normal com média 0 e desvio padrão 1
numeros = [random.gauss(0, 1) for _ in range(100)]
print(numeros)

[0.2214006766766036, -0.7669346802854863, 0.20015923362797278, -0.7645451291035489, -0.26017835115444926, 1.1313513068228198, -0.48370579054951274, 1.025751881602581, 1.2530169890438814, 0.7644027310148962, 0.9675370063579353, 0.38266068421856597, 0.27609675841985404, -1.956214052426342, -0.03324466300961707, -0.16050920556402176, -0.39650604531127126, 0.5150289103313408, 1.6354731760541776, 0.8538772267577911, -2.0029058918058253, -1.5911696843205354, 0.7666051059907667, -0.07622014757597903, -1.4472940464821844, 0.3596747910318166, 1.3505656022987584, 0.28637688780958453, 2.090736987187286, -0.38486346871979643, -0.48670013092697295, -1.8862489426987061, 0.145865403923247, 1.3003322732748173, -0.4060409958989335, 0.7860430481649193, -0.9909989757993897, 0.4549948757497476, -2.2596729090591925, -1.8530843071430212, -0.4441543682158928, -0.14481626909803727, -0.9556462126295479, 1.8527965534137063, 0.04425569036558545, 1.8970001806922734, -2.457859900320319, -0.19891879737059548, 0.573

In [58]:
# Utilizando a biblioteca numpy (maior eficiência)
numeros = np.random.normal(size= 100)
print(numeros)

[ 0.08633053 -1.84992476  0.56799777  0.97350934 -1.07074982 -0.7058703
 -0.06252435 -0.69839224  0.54645891 -0.57549494 -1.49341465  2.13579089
 -0.04667536 -0.05720618  0.03319964  0.49611444 -0.54748066 -0.07732737
  0.52029386 -0.95589333 -0.49305814 -0.7736713   0.56124216  0.04641435
 -0.04425057  0.53674627  1.06041555  0.14322962 -2.5085667  -1.44293781
 -0.53223322 -0.36802249 -0.48944173  0.63410526 -0.18719721 -0.259648
  0.75270014  0.15573903  1.60033881 -0.65682644 -0.29251138  0.63805582
  1.02202959 -0.85813191  0.84645646  0.6729323   0.02498956  0.23290365
 -0.76213023  2.27973611 -1.56064075 -0.73693603 -1.30354207 -2.04135473
 -0.39560798  1.31999692  0.51574798 -0.75772313  0.4366312   1.12993487
 -1.10621059  0.52435075  0.39259866  1.49430187  0.76282922  1.40371963
 -0.01861313 -0.90390489  1.28752692  0.78915815  0.04644562 -1.41709081
  0.15315361 -1.04542041 -0.87789455 -0.22438434 -0.21420318 -0.19568292
 -0.19209561  1.09346688  2.34777412  0.41843184 -0.85

In [59]:
nomes = ['Luis', 'Flavia', 'Carlos', 'Pedro', 'Larissa', 'Felipe', 'Marcos']

In [60]:
# Utilizando a biblioteca random para escolher 3 nomes aleatórios da lista de nomes
random.sample(nomes, 3)

['Pedro', 'Larissa', 'Luis']

In [61]:
# Utilizando a biblioteca random para escolher 3 nomes aleatórios da lista de nomes
np.random.choice(nomes, size= 3)

array(['Larissa', 'Flavia', 'Felipe'], dtype='<U7')