# Conhecendo o Numpy

#### Numpy é a breviação de Numerical Python. Ele é um pacote poderoso e uito importante, utilizado para processamento numérico em Python.

#### Alguns dos destaques desse poderoso pacote são:

#### **> Objeto array multidimensional muito poderoso e performático**
#### **> Funções matemáticas para operações com arrays sem a necessidade de utilizar o laço** *for* 
#### **> Recursos de algebra linear para gerar números aleatórios**
#### **> Também pode ser aplicado com computação quântica, aplicação de modelos estatísticos, processamento de imagens e muitas outras funcionalidades**

# **Documentação:** https://numpy.org/

# Importando o Numpy

#### Para importar o pacote numpy, ou qualquer pacote que já esteja disponível em seu notebook, basta utiliar o *import* e em seguida o nome do pacote.

In [1]:
# Por questões de boas práticas, a comunidade faz o uso de alguns apelidos para alguns pacotes. 
# No caso do numpy utilizamos o "np"
# para associar o apelido ao pacote, pasta utilizar o "as" para realizar a associação

import numpy as np

# Criando uma array Numpy

In [None]:
# Para criar um array a partir de valores de sua preferência, basta utilizar o "np.array".
# Vamos utilizar a sequência de números a seguir no exemplo: 1000, 2365, 2300, 5500

np.array([1000, 2365, 2300, 5500])

# Você pode assiciar o array a uma variável. Vamos pensar esses valores são quilometragens.

km = np.array([1000, 2365, 2300, 5500])

# Agora, ao chamar a variável km, podemos acessar o nosso array

km

array([1000, 2365, 2300, 5500])

# Método *arange*

#### > O método arange serve para criar um array numpy. Com esse método, basta passar um valor por parâmetro ele criará um array com uma sequêcnia de valores correspondes ao número que foi fornecido.

#### Veja abaixo um exemplo de aplicação.

#### Para mais detalhes, acesse: https://numpy.org/doc/stable/reference/generated/numpy.arange.html

In [None]:
# Aqui podemos ver que ele criou um array com 10 elementos de 0 até 9.

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Utilizando o *loadtxt* para utilizar um dado externo

#### Para mais detalhes, acesse: https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html

In [None]:
# Para importar um arquivo para o google colaboratory, vamos utilizar o método 'files'
# Este método está presente no pacote do google.colab

#from google.colab import files

#files.upload()

In [None]:
# fname > Parâmetro que indica qual arquivo eu quero carregar.
# dtype > informa o tipo da variável que queremos. 
# É importante definir o tipo. Por padrão, o numpay define o valor como float

km = np.loadtxt(fname='carros-km.txt', dtype= int)
km

array([ 44410,   5712,  37123,      0,  25757,  10728,      0,  77599,
        99197,  37978,  12859,   8052,  89773,      0,  41457, 115607,
        46449,      0,  37086,  15173, 101193,      0,  98079, 102959,
            0,      0,   5795,      0,  58848,  94381,  30163,  53332,
        17720,  33808,  90684,  43975,      0,      0,   5526,      0,
        93415,  40762,      0,  86302,      0,   9755,  69945,   2395,
            0,  80349,  85554,  50496,  67716,  93947,  35345,  81007,
       119513,      0,      0,      0,      0,      0, 118895,  48509,
       100912,  95649,      0,  90495,      0,  29132,  23802,  84992,
        54395,  26731,  44329, 118236, 113808,    610,      0,      0,
        12887,  79607,  90924,  42733,      0,      0, 117714, 113885,
            0,  30511,  74867, 119760,   8356,  64247,  88661,   4539,
       110116,  33215,  92001,      0,  81708,  70641,      0,  91277,
        26544,  52596,  47503,  89056,  28834, 110564,  56638,  17357,
      

# Comparando desempenho

## numpy array   X   python list



In [None]:
# Criando um array numpy com 1 milhão de elementos

numpy_array = np.arange(1000000)

In [None]:
# Criando uma lista do python com 1 milhão de elementos

python_list = list(range(1000000))

In [None]:
# %time Calcula o tempode execução da linha de código

%time for _ in range(100): numpy_array *= 2

CPU times: user 71.7 ms, sys: 0 ns, total: 71.7 ms
Wall time: 75.3 ms


In [None]:
%time for _ in range(100): python_list = [x * 2 for x in python_list]

CPU times: user 9.34 s, sys: 1.94 s, total: 11.3 s
Wall time: 11.4 s


# Podemos ver que para trablhar com grandes quantidades de valores, o array do numpy é muito mais performático do que a lista do Python

#### Para mais informações sobre arrays do numpy, acesse a documentação no link abaixo: https://numpy.org/devdocs/user/basics.creation.html

# Operações com arrays

In [None]:
# Abaixo temos duas listas. Uma possui valores de KM e o outro corresponde ao ano de fabricação de um veículo.

km = [55511, 6813, 48234, 0, 36868]
anos = [2004, 1992, 1991, 2019, 2008]

In [None]:
# Vamos descobrir a aidade de cada veículo.

# uma das formas de encontrar a idade de cada veículo utilizando uma lista do Python, é utilizando o for. 

for i in range(len(anos)):
  print(f'A idade do veículo em 2021 é: {2021 - anos[i]} anos')

A idade do veículo em 2021 é: 17 anos
A idade do veículo em 2021 é: 29 anos
A idade do veículo em 2021 é: 30 anos
A idade do veículo em 2021 é: 2 anos
A idade do veículo em 2021 é: 13 anos


In [None]:
# Agora vamos descobrir a idade dos veículos utilizando o array do numpy.

km = np.array([55511, 6813, 48234, 15, 36868])
anos = np.array([2004, 1992, 1991, 2019, 2008])

In [None]:
# Com o array do Numpy, a operação fica muito mais simples. Veja no exemplo.

idade_do_veiculo = 2021 - anos
idade_do_veiculo

# Como podemos ver acima, a lista do Python não suporta, por exemplo, operações entre um inteiro e uma lista. 
# Por outro lado, o array do Numpy possui suporte para esse tipo de operação, facilitado e simplificado o código.

array([17, 29, 30,  2, 13])

In [None]:
# Também é possível realizar operações entre os arrays do Numpy. Vamos descobrir a KM média dos veículos.

km_media = (km / idade_do_veiculo).round(2)
km_media

array([3265.35,  234.93, 1607.8 ,    7.5 , 2836.  ])

In [None]:
# Para alcançar o mesmo resultado com a lista do Python, temos que pegar um caminho mais complexo.

km_M = []
idade_V = []

for i in range(len(anos)):
  idade_V.append(2021 - anos[i])
for i in range(len(idade_V)):
  print(f'{(km[i] / idade_V[i]):.2f}')


3265.35
234.93
1607.80
7.50
2836.00


# Arrays de duas dimensões

In [None]:
# Podemos criar facilmente um array com uma ou mais listas em seu interior.

dados = np.array([km, anos])
dados

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008]])

In [None]:
# Para realizar o acesso aos elementos do array, basta passar o índice.

dados[0] # Nesse caso acessamos a lista correspondente à quilometragem

array([55511,  6813, 48234,    15, 36868])

In [None]:
# Podemos realizar operações de forma fácil, mesmo que as listas estejam dentro de um array.
# Vamos calcular novamente a média.

km_media = (dados[0] / (2021 - dados[1])).round(2)
km_media

array([3265.35,  234.93, 1607.8 ,    7.5 , 2836.  ])

# Acessando valores dentro do array numpy

In [None]:
# Para acessar valores dentro do array, basta passar o índice, como foi mostrado anteriormente.

dados[1] # Aqui temos acesso à lista de anos

array([2004, 1992, 1991, 2019, 2008])

In [None]:
# Para acessar um valor dentro que está dento dessa lista, podemos fazer fazer de duas formas:

# nomeDoArray[linha][coluna] ou nomeDoArray[linha, coluna]

# Vamos acessar o ano de 2019
dados[1][3]

2019

In [None]:
# Agora vamos acessar o ano de 1991 com a outra metodologia
dados[1,2]

1991

# Fatiamento

In [None]:
# Criando um array com 10 valores

contador = np.arange(10)
contador

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# Para realizar oa fatiamento, você deve selecionar o indice que deve iniciar e o indice que deve terminar. 
# O último valor não entrará na contagem.

# No exemplo abaixo eu fatiei do índice 1 até o índice 4, mas o valor presente no índice 4 não entra na contagem.

contador[1:4]

array([1, 2, 3])

In [None]:
# No exemplo abaixo, além do fatiamento, temos o passo.
# O passo é o intervalo entre cada elemento.

# Ele fará a contagem com base no passo que for definido. Caso não seja, por padrão o passo será 1.

contador[1:8:2] # passo 2. 

array([1, 3, 5, 7])

In [None]:
# vamos pegar somente os número pares da nossa sequência:

# No exemplo abaixo foi definido um ínidice de início, no caso o 0.
# Não foi definido um valor final, então ele passará por todo o array.
# Foi definido o passo 2, então ele mostrará o valores com intervalos de 2 em 2.

contador[0::2] 

array([0, 2, 4, 6, 8])

In [None]:
# Agora vamos pegar os valore ímpares do nosso array.

# O princípio foi o mesmo, mas dessa vez eu comecei pelo índice 1.

contador[1::2]

array([1, 3, 5, 7, 9])

In [None]:
dados

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008]])

In [None]:
# Agora vamos utilizar o fatiamento para manipular alguns dados específicos da nossa base.
# Vamos calcular a média de KM dos veículos com ano de 1992, 1991 e 2019

(dados[0][1:4] / (2021 - dados[1][1:4])).round(2)


array([ 234.93, 1607.8 ,    7.5 ])

# Numpy array - Atributos.

#### Para mais informações, acesse à documentação: https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html

# *shape*


In [None]:
# O shape retorna uma tupla com as dimensões do array

dados.shape

(2, 5)

# *ndim*

In [None]:
# O ndim retorna o número de dimensões do array. No exemplo abaixo, o array possui duas dimensões.

dados.ndim

2

# size

In [None]:
# Retona o número de elementos do array. No exemplo abaixo temos 2 linhas e 5 colunas, logo ele terá um total de 10 elementos

dados.size

10

# T

In [None]:
# o "T" transforma linhas em colunas e colunas em linhas

dados.T

array([[55511,  2004],
       [ 6813,  1992],
       [48234,  1991],
       [    0,  2019],
       [36868,  2008]])

In [None]:
# O T é equivalente ao transpose()

dados.transpose()

array([[55511,  2004],
       [ 6813,  1992],
       [48234,  1991],
       [    0,  2019],
       [36868,  2008]])

# tolist

In [None]:
# O tolist transforma um array numpy em uma lista do python

dados.tolist()

[[55511, 6813, 48234, 0, 36868], [2004, 1992, 1991, 2019, 2008]]

# reshape

In [None]:
# O reshape modifica o formato do array.

cont = np.arange(10)
cont.reshape((2,5)) # Aqui podemos ver que o formato atual é de 2 linhas e 5 colunas

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [None]:
cont.reshape((5,2)) # Agora, mantendo a mesma proporção da quantidade de elementos, eu alterei o formato para 5 linhas e 2 colunas

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
# por padrão, o reshape utiliza a indexação da linguagem "C" (Abaixo eu passei o order para melhor ilustração)

cont.reshape((5,2), order='C')

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
# Também é possível utilizar a indexação da linguagem Fortran, passando o "F" para o order.

cont.reshape((5,2), order='F')

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

In [None]:
info = km + anos
np.array(info).reshape((5,2), order='F')

array([[55511,  2004],
       [ 6813,  1992],
       [48234,  1991],
       [    0,  2019],
       [36868,  2008]])

# resize

In [None]:
# resize altera o tamanho do array, permitindo adicionar mais linhas ou coluunas

dados

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008]])

In [None]:
dados_2 = dados.copy()
dados_2.resize((3,5))
dados_2

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008],
       [    0,     0,     0,     0,     0]])

In [None]:
# OBS: mesmo utilizando o "copy" ainda existe uma referência ao dado original, e durante o resize pode apresentar um erro.

dados.resize((3,5))

ValueError: ignored

In [None]:
# A mensagem de erro já nos da uma dica sobre o que fazer. 
# Nesse caso devemos passar o "refcheck=False" para que ele ignore essa referência.

dados.resize((3,5), refcheck=False)
dados

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008],
       [    0,     0,     0,     0,     0]])

In [None]:
# Para preencher as linhas/colunas que foram criados basta indicar o índice que vai receber os valores.
# No exemplo abaixo eu vou preencher a linha com a média de KM/ano.

dados_2[2] = dados_2[0] / (2021 - dados_2[1])
dados_2

array([[55511,  6813, 48234,     0, 36868],
       [ 2004,  1992,  1991,  2019,  2008],
       [ 3265,   234,  1607,     0,  2836]])

# Estatística com arrays numpy

#### Mathematical documentation: https://numpy.org/doc/stable/reference/routines.math.html

#### Numpy Statistics: https://numpy.org/doc/stable/reference/routines.statistics.html

#### Numpy Calculation: https://numpy.org/doc/stable/reference/arrays.ndarray.html#calculation

In [4]:
# Carregando os arquivos

km = np.loadtxt('carros-km.txt', dtype=int)
anos = np.loadtxt('carros-anos.txt')
valor = np.loadtxt('carros-valor.txt')

In [8]:
# vamos utilizar o column_stack transformar um array unidimensional em colunas de um array de duas dimensões

new_Data = np.column_stack((km, anos, valor))
new_Data # Podemos ver que ele transformou os valores inteiros em float.

array([[4.4410000e+04, 2.0030000e+03, 8.8078640e+04],
       [5.7120000e+03, 1.9910000e+03, 1.0616194e+05],
       [3.7123000e+04, 1.9900000e+03, 7.2832160e+04],
       [0.0000000e+00, 2.0190000e+03, 1.2454907e+05],
       [2.5757000e+04, 2.0060000e+03, 9.2612100e+04],
       [1.0728000e+04, 2.0120000e+03, 9.7497730e+04],
       [0.0000000e+00, 2.0190000e+03, 5.6445200e+04],
       [7.7599000e+04, 2.0090000e+03, 1.1231044e+05],
       [9.9197000e+04, 2.0100000e+03, 1.2071627e+05],
       [3.7978000e+04, 2.0110000e+03, 7.6566490e+04],
       [1.2859000e+04, 2.0020000e+03, 7.1647590e+04],
       [8.0520000e+03, 2.0070000e+03, 7.3919530e+04],
       [8.9773000e+04, 2.0010000e+03, 1.1273299e+05],
       [0.0000000e+00, 2.0190000e+03, 5.3183380e+04],
       [4.1457000e+04, 2.0090000e+03, 1.2748842e+05],
       [1.1560700e+05, 2.0160000e+03, 5.9910400e+04],
       [4.6449000e+04, 2.0120000e+03, 6.1118590e+04],
       [0.0000000e+00, 2.0190000e+03, 8.8552390e+04],
       [3.7086000e+04, 2.016

In [12]:
new_Data.dtype

dtype('float64')

In [13]:
new_Data.shape

(258, 3)

# mean

In [15]:
# Vamos calcular a média da coluna km e da coluna valor

np.mean(new_Data[:, 0]) # Pegamos todas as linhas e selecionamos a primeira coluna -> km

44499.41472868217

In [16]:
np.mean(new_Data[:, 2]) # Pegamos todas as linhas e selecionamos a terceira coluna -> valor

98960.51310077519

# std

In [18]:
# Vamos descobrir o desvio padrão

np.std(new_Data[:, 0]) # Desvio padrão da coluna KM

39859.82699005149

In [19]:
np.std(new_Data[:, 2]) # Desvio padrão da coluna valor

29754.101150388564

# sum

In [25]:
# Podemos utilizar o 'sum' com arrays e elementos individuais

# No caso de arrays, ele retorna a soma dos elementos com base no eixo que for selecionado

# axis = 0 => Coluna
# axis = 1 => Linha

new_Data.sum(axis=0) # Somatório das 3 colunas

array([11480849.        ,   517938.        , 25531812.37999999])

In [28]:
new_Data.sum(axis=0).shape

(3,)

In [29]:
new_Data.sum(axis=1) # somatório das 258 linhas
new_Data.sum(axis=1).shape

(258,)

In [31]:
# fazendo o somatório por coluna

np.sum(new_Data[:, 0])

11480849.0

In [34]:
np.sum(new_Data[:, 1])

517938.0

# Descobrindo o tipo de dado.

#### utilizando o *type* podemos descobrir com qual tipo de dados estamos trabalhando

In [None]:
type(km)

numpy.ndarray

In [None]:
v = 5
type(v)

int

In [None]:
v1 = 2.5
type(v1)

float

In [None]:
v3 = True
type(v3)

bool

In [None]:
v4 = 'olá'
type(v4)

str

In [None]:
# Para visualizar qual o tipo de dado armazenado dentro de um array numpy, utilizamos o 'dtype'

# Lembrando que em uma lista do python podemos ter tipos variados (int, float, string...), mas no array do numpy isso não é possível.
# O array do numpy armazena apenas um tipo de dado. 

km.dtype

dtype('int64')

#### Para mais informações sobre Tipos de dados, acesse a documentação no link: https://numpy.org/devdocs/user/basics.types.html