# Data Science Academy

## Capítulo 9 - Matemática e Manipulação de Matrizes com NumPy</font>

In [25]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.12.4


## NumPy (Numerical Python)
O NumPy é uma biblioteca de código aberto do Python que permite realizar cálculos matemáticos e numéricos em grande escala. É uma ferramenta fundamental para a computação científica, análise de dados e aprendizado de máquina.

https://numpy.org/

In [26]:
# Importando o NumPy
import numpy as dsa

In [27]:
dsa.__version__

'1.26.4'

In [28]:
# Instrução para instalar uma versão exata do pacote em Python
# !pip install numpy==1.22.2

### Criando Arrays NumPy

In [29]:
# Array criado a partir de uma lista Python
arr1 = dsa.array([10, 21, 32, 43, 48, 15, 76, 57, 89])

In [30]:
print(arr1)

[10 21 32 43 48 15 76 57 89]


In [31]:
# Um objeto do tipo ndarray é um recipiente multidimensional de itens do mesmo tipo e tamanho
type(arr1)

numpy.ndarray

In [32]:
# Verificando o formato do array
arr1.shape

(9,)

#### O que é um array NumPy?

Um array NumPy é uma estrutura de dados multidimensional usada em computação científica e análise de dados. O NumPy fornece um objeto de matriz N-dimensional (ou ndarray), que é uma grade homogênea de elementos, geralmente números, que podem ser indexados por um conjunto de inteiros.

#### Por que usar os arrays NumPy?

Os arrays NumPy são mais eficientes do que as listas Python para armazenar e manipular grandes quantidades de dados, pois são implementados em Linguagem C e fornecem várias otimizações de desempenho. Além disso, o NumPy permite a fácil leitura e escrita de arquivos de dados, integração com outras bibliotecas Python e suporte a operações em paralelo usando várias CPUs ou GPUs.

![DSA](imagens/formatos.png)

### Indexação em Arrays NumPy

In [33]:
print(arr1)

[10 21 32 43 48 15 76 57 89]


In [34]:
# Imprimindo um elemento específico no array
arr1[4] 

48

In [35]:
# Indexação
arr1[1:4] 

array([21, 32, 43])

In [36]:
# Indexação
arr1[1:4+1] 

array([21, 32, 43, 48])

#### Exemplo 1: Imprimindo os elementos no array na ordem que queremos

In [37]:
# Cria uma lista de índices
indices = [1, 2, 5, 6]

In [38]:
# Imprimindo os elementos do arr1 na lista de índices ordenados do jeito que queremos
arr1[indices] 

array([21, 32, 15, 76])

#### Exemplo 2: Criando uma Máscara (padrão)

In [39]:
# Cria uma máscara booleana para os elementos pares
mask = (arr1 % 2 == 0)

In [40]:
mask

array([ True, False,  True, False,  True, False,  True, False, False])

In [41]:
arr1[mask]

array([10, 32, 48, 76])

#### Exemplo 3: Alterando um elemento do array

In [42]:
# Alterando um elemento do array
arr1[0] = 100

In [43]:
print(arr1)

[100  21  32  43  48  15  76  57  89]


`Observação:` Não é possível incluir um elemento de outro tipo.

In [44]:
# Não é possível incluir elemento de outro tipo
try:
    arr1[0] = 'Novo elemento'
except:
    print("Operação não permitida!")

Operação não permitida!


## Funções NumPy

#### 1. `array( )`

In [45]:
# A função array() cria um array NumPy
arr2 = dsa.array([1, 2, 3, 4, 5])

In [46]:
print(arr2)

[1 2 3 4 5]


In [47]:
# Verificando o tipo do objeto
type(arr2)

numpy.ndarray

`Observação:` Você sempre pode digitar `.` e pressionar a tecla Tab no seu teclado para visualizar os métodos disponíveis em __objetos__ NumPy.

In [48]:
# Pressione a tecla Tab no seu teclado para visualizar os métodos disponíveis em objetos NumPy
arr2.

SyntaxError: invalid syntax (3696980330.py, line 2)

In [None]:
# Pressione a tecla Tab no seu teclado para visualizar as funções para manipular objetos NumPy
dsa.

#### 2. `cumsum( )` - soma acumulada

In [None]:
# Usando métodos do array NumPy
arr2.cumsum()

#### 3. `cumprod( )` - produto acumulado

In [None]:
arr2.cumprod()

#### 4. `arange(start, stop, step)`

In [None]:
# A função arange cria um array NumPy contendo uma progressão aritmética a partir de um intervalo - start, stop, step
arr3 = dsa.arange(0, 50, 5)

In [None]:
print(arr3)

In [None]:
# Verificando o tipo do objeto
type(arr3)

#### 5. `shape( )`

In [None]:
# Formato do array - 10 linhas 
dsa.shape(arr3)

In [None]:
print(arr3.dtype)

#### 6. `zeros( )`

In [None]:
# Cria um array preenchido com zeros
arr4 = dsa.zeros(10)

In [None]:
print(arr4)

#### 7. `eye( )`

In [None]:
# Retorna 1 nas posições em diagonal e 0 no restante
arr5 = dsa.eye(3)

In [None]:
print(arr5)

#### 8. `diag( )`

In [None]:
# Os valores passados como parâmetro, formam uma diagonal
arr6 = dsa.diag(dsa.array([1, 2, 3, 4]))

In [None]:
print(arr6)

#### Array de valores booleanos

In [None]:
arr7 = dsa.array([True, False, False, True])

In [None]:
print(arr7)

#### Array de strings

In [None]:
arr8 = dsa.array(['Linguagem Python', 'Linguagem R', 'Linguagem Julia'])

In [None]:
print(arr8)

#### 9. `linspace( )`

A função `linspace()` do NumPy é usada para criar uma sequência de números igualmente espaçados dentro de um intervalo especificado. Essa função é amplamente utilizada em programação científica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações.

O método linspace (linearly spaced vector) retorna um número de valores igualmente distribuídos no intervalo especificado. 

In [None]:
print(dsa.linspace(0, 10))

In [None]:
print(dsa.linspace(0, 10, 15))

#### 10. `logspace()` 

A função `logspace()` do NumPy é usada para criar uma sequência de números igualmente espaçados em escala logarítmica dentro de um intervalo especificado. Essa função é amplamente utilizada em programação científica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações.

In [None]:
print(dsa.logspace(0, 5, 10))

### Manipulando Matrizes

#### Criando um array 2D

In [None]:
# Criando uma matriz
arr9 = dsa.array( [ [1,2,3] , [4,5,6] ] ) 

In [None]:
type(arr9)

In [None]:
print(arr9)

In [None]:
print(arr9.shape)

#### Criando uma matriz 2x3 apenas com números "1"

In [None]:
arr10 = dsa.ones((2,3))

In [None]:
print(arr10)

#### Criando uma matriz através de uma lista de listas

In [None]:
# Lista de listas
lista = [[13,81,22], [0, 34, 59], [21, 48, 94]]

In [None]:
# A função matrix cria uma matriz a partir de uma lista de listas
arr11 = dsa.matrix(lista)

In [None]:
type(arr11)

In [None]:
print(arr11)

In [None]:
# Formato da matriz
dsa.shape(arr11)

In [None]:
# Tamanho da matriz
arr11.size

In [None]:
print(arr11.dtype)

In [None]:
print(arr11)

#### Obtendo um elemento da matriz

In [None]:
# Indexação da matriz
arr11[2,1]

#### Obtendo os elementos da coluna 2 pertencentes a linha 0 até 1 (pois o 2 é exclusivo).

In [None]:
# Indexação da matriz
arr11[0:2,2]

#### Obtendo os elementos de uma linha

In [None]:
# Indexação da matriz
arr11[1,]

#### Alterando um elemento da matriz

In [None]:
arr11[1,0] = 100

In [None]:
print(arr11)

#### Determinando ou não o type do array

In [None]:
x = dsa.array([1, 2])  # NumPy decide o tipo dos dado
y = dsa.array([1.0, 2.0])  # NumPy decide o tipo dos dado
z = dsa.array([1, 2], dtype = dsa.float64)  # Forçamos um tipo de dado em particular

In [None]:
print(x.dtype, y.dtype, z.dtype)

In [None]:
arr12 = dsa.array([[24, 76, 92, 14], [47, 35, 89, 2]], dtype = float)

In [None]:
print(arr12)

### `itemsize`

O itemsize de um array numpy é um atributo que retorna o tamanho em bytes de cada elemento do array. Em outras palavras, o itemsize representa o número de bytes necessários para armazenar cada valor do array numpy.

In [None]:
arr12.itemsize

In [None]:
arr12.nbytes

In [None]:
arr12.ndim

### Manipulando Objetos de 3 e 4 Dimensões com NumPy

#### Array 3D

In [None]:
# Cria um array numpy de 3 dimensões
arr_3d = dsa.array([
    [
        [1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12]
    ],
    [
        [13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]
    ]
])

In [None]:
print(arr_3d)

In [None]:
arr_3d.ndim

In [None]:
arr_3d.shape

In [None]:
arr_3d[0, 2, 1]

#### Array 4D

In [None]:
# Cria um array numpy de 4 dimensões
arr_4d = dsa.array([
    [
        [
            [1, 2, 3, 4, 5],
            [6, 7, 8, 9, 10],
            [11, 12, 13, 14, 15],
            [16, 17, 18, 19, 20]
        ],
        [
            [21, 22, 23, 24, 25],
            [26, 27, 28, 29, 30],
            [31, 32, 33, 34, 35],
            [36, 37, 38, 39, 40]
        ],
        [
            [41, 42, 43, 44, 45],
            [46, 47, 48, 49, 50],
            [51, 52, 53, 54, 55],
            [56, 57, 58, 59, 60]
        ]
    ],
    [
        [
            [61, 62, 63, 64, 65],
            [66, 67, 68, 69, 70],
            [71, 72, 73, 74, 75],
            [76, 77, 78, 79, 80]
        ],
        [
            [81, 82, 83, 84, 85],
            [86, 87, 88, 89, 90],
            [91, 92, 93, 94, 95],
            [96, 97, 98, 99, 100]
        ],
        [
            [101, 102, 103, 104, 105],
            [106, 107, 108, 109, 110],
            [111, 112, 113, 114, 115],
            [116, 117, 118, 119, 120]
        ]
    ]
])

In [None]:
print(arr_4d)

#### `Dica:` O número de colchetes no início da lista indica a dimensão do array

In [None]:
arr_4d.ndim

In [None]:
arr_4d.shape

In [None]:
arr_4d[0, 2, 1]

In [None]:
arr_4d[0, 2, 1, 4]

### Manipulando Arquivos com NumPy

In [None]:
import os
filename = os.path.join('dataset.csv')

In [None]:
# No Windows use !more dataset.csv. Mac ou Linux use !head dataset.csv
#!head dataset.csv
!more dataset.csv

In [None]:
# Carregando um dataset para dentro de um array
arr13 = dsa.loadtxt(filename, delimiter = ',', usecols = (0,1,2,3), skiprows = 1)

In [None]:
print(arr13)

In [None]:
type(arr13)

In [None]:
# Carregando apenas duas variáveis (colunas) do arquivo
var1, var2 = dsa.loadtxt(filename, delimiter = ',', usecols = (0,1), skiprows = 1, unpack = True)

In [None]:
# Gerando um plot a partir de um arquivo usando o NumPy
import matplotlib.pyplot as plt
plt.show(plt.plot(var1, var2, 'o', markersize = 6, color = 'red'))

### Análise Estatística Básica com NumPy

In [None]:
# Criando um array
arr14 = dsa.array([15, 23, 63, 94, 75])

#### Média
Em Estatística, a média é uma medida de tendência central que representa o valor central de um conjunto de dados. É calculada somando-se todos os valores do conjunto de dados e dividindo-se pelo número de observações.

In [None]:
# Média
dsa.mean(arr14)

#### Desvio Padrão
O desvio padrão é uma medida estatística de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média. Ele é calculado como a raiz quadrada da variância, que é a média dos quadrados das diferenças entre cada valor e a média.

__O desvio padrão__ é uma medida útil porque __permite avaliar a variabilidade dos dados em torno da média__. 

__Se os valores estiverem próximos da média, o desvio padrão será baixo, indicando que os dados têm pouca variabilidade. Por outro lado, se os valores estiverem muito distantes da média, o desvio padrão será alto, indicando que os dados têm alta variabilidade.__

O desvio padrão é amplamente utilizado em Análise e Ciência de Dados, para avaliar a consistência dos dados e comparar conjuntos de dados diferentes. É importante notar que o desvio padrão pode ser influenciado por valores extremos (outliers) e pode ser afetado por diferentes distribuições de dados.

In [None]:
# Desvio Padrão (Standard Deviation)
dsa.std(arr14)

#### Variância

A variância é uma medida estatística que __quantifica a dispersão dos valores em um conjunto de dados em relação à média__. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média.

A fórmula para o cálculo da variância é:

var = 1/n * Σ(xi - x̄)^2

Onde:

- var é a variância
- n é o número de observações
- Σ é o somatório
- xi é o i-ésimo valor no conjunto de dados
- x̄ é a média dos valores

A variância é uma medida útil para avaliar a variabilidade dos dados em torno da média. Se a variância for baixa, isso indica que os valores estão próximos da média e têm pouca variabilidade. Por outro lado, se a variância for alta, isso indica que os valores estão distantes da média e têm alta variabilidade.

In [None]:
# Variância
dsa.var(arr14)

#### `Observação:` 920.8 não representa uma unidade de medida, diferentemente do desvio padrão

### Quando usar variância e desvio padrão para análise de dados

A variância é uma medida quadrática e pode ser útil para calcular outras estatísticas, como o desvio padrão. No entanto, como a variância é uma medida quadrática, seus valores são geralmente maiores do que os valores dos próprios dados, o que pode dificultar a interpretação.  

__O desvio padrão é a raiz quadrada da variância e fornece uma medida de dispersão que tem a mesma unidade de medida que os próprios dados, facilitando a interpretação e a comparação com outros valores.__  

Em geral, o desvio padrão é mais comumente usado do que a variância, principalmente porque é mais fácil de interpretar. No entanto, a escolha entre o uso da variância ou do desvio padrão depende do contexto e do objetivo da análise.   

Em alguns casos, __a variância pode ser uma medida  mais  apropriada,  como  quando  se  pretende  calcular  outras  estatísticas__,  como  a covariância ou o coeficiente de correlação. Em outros casos, o desvio padrão pode ser uma medida mais apropriada, como quando se pretende avaliar a consistência dos dados em relação à média e comparar diferentes conjuntos de dados.

### Operações Matemáticas com Arrays NumPy

#### • `arange`:

In [None]:
arr15 = dsa.arange(1, 10)

In [None]:
print(arr15)

#### • `sum`:

In [None]:
# Soma dos elementos do array
dsa.sum(arr15)

#### • `prod`:

In [None]:
# Retorna o produto dos elementos
dsa.prod(arr15)

#### • `cumsum`:

In [None]:
# Soma acumulada dos elementos
dsa.cumsum(arr15)

#### • `add`:

In [None]:
# Cria 2 arrays
arr16 = dsa.array([3, 2, 1])
arr17 = dsa.array([1, 2, 3])

In [None]:
# Soma dos arrays
arr18 = dsa.add(arr16, arr17)  

In [None]:
print(arr18)  

#### Multiplicação de Matrizes `dot()`ou `@`

Para multiplicar duas matrizes NumPy, podemos usar a função `dot()` ou o `operador @`. Ambos os métodos executam a __multiplicação matricial__. É importante lembrar que, para que a multiplicação de matrizes possa ser executada, __o número de colunas da primeira matriz deve ser igual ao número de linhas da segunda matriz.__

Há várias formas de multiplicar elementos de matrizes NumPy. A função dot() é um método bastante utilizado.

In [None]:
# Cria duas matrizes
arr19 = dsa.array([[1, 2], [3, 4]])
arr20 = dsa.array([[5, 6], [0, 7]])

In [None]:
arr19.shape

In [None]:
arr20.shape

In [None]:
print(arr19)

In [None]:
print(arr20)

#### Usando o `dot()`

In [None]:
# Multiplicar as duas matrizes
arr21 = dsa.dot(arr19, arr20)

In [None]:
print(arr21)  

`Observação:` A multiplicação ocorre linha com coluna 

![DSA](imagens/dot.png)

#### Usando o `@`

In [None]:
# Multiplicar as duas matrizes
arr21 = arr19 @ arr20

In [None]:
print(arr21)  

#### Usando o `tensordot`

In [None]:
# Multiplicar as duas matrizes
arr21 = dsa.tensordot(arr19, arr20, axes = ((1),(0)))

In [None]:
print(arr21)  

### Slicing (Fatiamento) de Arrays NumPy

In [None]:
# Cria um array
arr22 = dsa.diag(dsa.arange(3))

In [None]:
print(arr22)

#### Retornando um elemento do array

In [None]:
arr22[1, 1]

#### Retornando uma linha inteira

In [None]:
arr22[1]

#### Retornando os elementos da coluna 2

In [None]:
arr22[:,2]

#### Criar um array usando o método arange com elementos de 0 - 9

In [None]:
arr23 = dsa.arange(10)

In [None]:
print(arr23)

In [None]:
# [start:end:step]
arr23[2:9:3] 

#### Comparando os arrays (item a item)

In [None]:
# Cria 2 arrays
a = dsa.array([1, 2, 3, 4])
b = dsa.array([4, 2, 2, 4])

In [None]:
# Comparação item a item
a == b

#### Comparando os arrays (comparação global)

In [None]:
# Comparação global
dsa.array_equal(arr22, arr23)

#### Obtendo o valor mínimo

In [None]:
arr23.min()

#### Obtendo o valor máximo

In [None]:
arr23.max()

#### Somando um valor a cada elemento do array

In [None]:
dsa.array([1, 2, 3]) + 1.5

#### Arredondando os valores do array

In [None]:
# Cria um array
arr24 = dsa.array([1.2, 1.5, 1.6, 2.5, 3.5, 4.5])

In [None]:
print(arr24)

In [None]:
# Usando o método around
arr25 = dsa.around(arr24)

In [None]:
print(arr25)

#### Usando o método `flatten()`

In [None]:
# Criando um array
arr26 = dsa.array([[1, 2, 3, 4], [5, 6, 7, 8]])

In [None]:
print(arr26)

O método `flatten()` com NumPy __é usado para criar uma cópia unidimensional (ou "achatada") de um array multidimensional.__ Isso significa que o método cria um novo array unidimensional, que contém todos os elementos do array multidimensional original, mas que está organizado em uma única linha. A ordem dos elementos no novo array unidimensional segue a ordem dos elementos no array multidimensional original.

In [None]:
# "Achatando" a matriz
arr27 = arr26.flatten()

In [None]:
print(arr27)

#### Repetindo os elementos de um array

In [None]:
# Criando um array
arr28 = dsa.array([1, 2, 3])

In [None]:
print(arr28)

##### ● `repeat()`

In [None]:
# Repetindo os elementos de um array
dsa.repeat(arr28, 3)

##### ● `tile()`

In [None]:
# Repetindo os elementos de um array
dsa.tile(arr28, 3)

In [None]:
# Criando um array
arr29 = dsa.array([5, 6])

##### ● `copy()`

In [None]:
# Criando cópia do array
arr30 = dsa.copy(arr29)

In [None]:
print(arr30)

O NumPy é estudado em detalhes em diversos cursos e Formações aqui na DSA, através de exercícios, laboratórios, estudos de caso, mini-projetos e projetos.