# <font color='blue'>Data Science Academy</font>

## <font color='blue'>Fundamentos de Linguagem Python Para Análise de Dados e Data Science</font>

## <font color='blue'>Matemática e Manipulação de Matrizes com NumPy</font>

![DSA](imagens/dsa_cap09.png)

In [4]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.13.2


## NumPy

https://numpy.org/

In [5]:
# Importando o NumPy
import numpy as dsa

In [6]:
dsa.__version__

'2.2.4'

In [7]:
# Instrução para instalar uma versão exata do pacote em Python
# !pip install numpy==1.22.2

### Criando Arrays NumPy

In [8]:
# Array criado a partir de uma lista Python
arr1 = dsa.array([10, 21, 32, 43, 48, 15, 76, 57, 89])

In [9]:
print(arr1)

[10 21 32 43 48 15 76 57 89]


In [10]:
# Um objeto do tipo ndarray é um recipiente multidimensional de itens do mesmo tipo e tamanho
type(arr1)

numpy.ndarray

In [11]:
# Verificando o formato do array
arr1.shape

(9,)

Um array NumPy é uma estrutura de dados multidimensional usada em computação científica e análise de dados. O NumPy fornece um objeto de matriz N-dimensional (ou ndarray), que é uma grade homogênea de elementos, geralmente números, que podem ser indexados por um conjunto de inteiros.

Os arrays NumPy são mais eficientes do que as listas Python para armazenar e manipular grandes quantidades de dados, pois são implementados em Linguagem C e fornecem várias otimizações de desempenho. Além disso, o NumPy permite a fácil leitura e escrita de arquivos de dados, integração com outras bibliotecas Python e suporte a operações em paralelo usando várias CPUs ou GPUs.

![DSA](imagens/formatos.png)

### Indexação em Arrays NumPy

In [12]:
print(arr1)

[10 21 32 43 48 15 76 57 89]


In [13]:
# Imprimindo um elemento específico no array
arr1[4] 

np.int64(48)

In [14]:
# Indexação
arr1[1:4] 

array([21, 32, 43])

In [15]:
# Indexação
arr1[1:4+1] 

array([21, 32, 43, 48])

In [16]:
# Cria uma lista de índices
indices = [1, 2, 5, 6]

In [17]:
# Imprimindo os elementos dos índices
arr1[indices] 

array([21, 32, 15, 76])

In [18]:
# Cria uma máscara booleana para os elementos pares
mask = (arr1 % 2 == 0)

In [19]:
mask

array([ True, False,  True, False,  True, False,  True, False, False])

In [20]:
arr1[mask]

array([10, 32, 48, 76])

In [21]:
# Alterando um elemento do array
arr1[0] = 100

In [22]:
print(arr1)

[100  21  32  43  48  15  76  57  89]


In [23]:
# Não é possível incluir elemento de outro tipo
try:
    arr1[0] = 'Novo elemento'
except:
    print("Operação não permitida!")

Operação não permitida!


### Funções NumPy

In [24]:
# A função array() cria um array NumPy
arr2 = dsa.array([1, 2, 3, 4, 5])

In [25]:
print(arr2)

[1 2 3 4 5]


In [26]:
# Verificando o tipo do objeto
type(arr2)

numpy.ndarray

In [27]:
# Digite . e pressione a tecla Tab no seu teclado para visualizar os métodos disponíveis em objetos NumPy
arr2

array([1, 2, 3, 4, 5])

In [28]:
# Usando métodos do array NumPy
arr2.cumsum()

array([ 1,  3,  6, 10, 15])

In [29]:
arr2.cumprod()

array([  1,   2,   6,  24, 120])

In [30]:
# Digite . e pressione a tecla Tab no seu teclado para visualizar as funções para manipular objetos NumPy
dsa

<module 'numpy' from 'C:\\Users\\Lucas\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.13_qbz5n2kfra8p0\\LocalCache\\local-packages\\Python313\\site-packages\\numpy\\__init__.py'>

In [31]:
# A função arange cria um array NumPy contendo uma progressão aritmética a partir de um intervalo - start, stop, step
arr3 = dsa.arange(0, 50, 5)

In [32]:
print(arr3)

[ 0  5 10 15 20 25 30 35 40 45]


In [33]:
# Verificando o tipo do objeto
type(arr3)

numpy.ndarray

In [34]:
# Formato do array
dsa.shape(arr3)

(10,)

In [35]:
print(arr3.dtype)

int64


In [36]:
# Cria um array preenchido com zeros
arr4 = dsa.zeros(10)

In [37]:
print(arr4)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [38]:
# Retorna 1 nas posições em diagonal e 0 no restante
arr5 = dsa.eye(3)

In [39]:
print(arr5)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [40]:
# Os valores passados como parâmetro, formam uma diagonal
arr6 = dsa.diag(dsa.array([1, 2, 3, 4]))

In [41]:
print(arr6)

[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


In [42]:
# Array de valores booleanos
arr7 = dsa.array([True, False, False, True])

In [43]:
print(arr7)

[ True False False  True]


In [44]:
# Array de strings
arr8 = dsa.array(['Linguagem Python', 'Linguagem R', 'Linguagem Julia'])

In [45]:
print(arr8)

['Linguagem Python' 'Linguagem R' 'Linguagem Julia']


A função linspace() do NumPy é usada para criar uma sequência de números igualmente espaçados dentro de um intervalo especificado. Essa função é amplamente utilizada em programação científica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações.

O método linspace (linearly spaced vector) retorna um número de valores igualmente distribuídos no intervalo especificado. 

In [46]:
print(dsa.linspace(0, 10))

[ 0.          0.20408163  0.40816327  0.6122449   0.81632653  1.02040816
  1.2244898   1.42857143  1.63265306  1.83673469  2.04081633  2.24489796
  2.44897959  2.65306122  2.85714286  3.06122449  3.26530612  3.46938776
  3.67346939  3.87755102  4.08163265  4.28571429  4.48979592  4.69387755
  4.89795918  5.10204082  5.30612245  5.51020408  5.71428571  5.91836735
  6.12244898  6.32653061  6.53061224  6.73469388  6.93877551  7.14285714
  7.34693878  7.55102041  7.75510204  7.95918367  8.16326531  8.36734694
  8.57142857  8.7755102   8.97959184  9.18367347  9.3877551   9.59183673
  9.79591837 10.        ]


In [47]:
print(dsa.linspace(0, 10, 15))

[ 0.          0.71428571  1.42857143  2.14285714  2.85714286  3.57142857
  4.28571429  5.          5.71428571  6.42857143  7.14285714  7.85714286
  8.57142857  9.28571429 10.        ]


A função logspace() do NumPy é usada para criar uma sequência de números igualmente espaçados em escala logarítmica dentro de um intervalo especificado. Essa função é amplamente utilizada em programação científica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações.

In [48]:
print(dsa.logspace(0, 5, 10))

[1.00000000e+00 3.59381366e+00 1.29154967e+01 4.64158883e+01
 1.66810054e+02 5.99484250e+02 2.15443469e+03 7.74263683e+03
 2.78255940e+04 1.00000000e+05]


### Manipulando Matrizes

In [49]:
# Criando uma matriz
arr9 = dsa.array( [ [1,2,3] , [4,5,6] ] ) 

In [50]:
type(arr9)

numpy.ndarray

In [51]:
print(arr9)

[[1 2 3]
 [4 5 6]]


In [52]:
print(arr9.shape)

(2, 3)


In [53]:
# Criando uma matriz 2x3 apenas com números "1"
arr10 = dsa.ones((2,3))

In [54]:
print(arr10)

[[1. 1. 1.]
 [1. 1. 1.]]


In [55]:
# Lista de listas
lista = [[13,81,22], [0, 34, 59], [21, 48, 94]]

In [56]:
# A função matrix cria uma matriz a partir de uma lista de listas
arr11 = dsa.matrix(lista)

In [57]:
type(arr11)

numpy.matrix

In [58]:
print(arr11)

[[13 81 22]
 [ 0 34 59]
 [21 48 94]]


In [59]:
# Formato da matriz
dsa.shape(arr11)

(3, 3)

In [60]:
# Tamanho da matriz
arr11.size

9

In [61]:
print(arr11.dtype)

int64


In [62]:
print(arr11)

[[13 81 22]
 [ 0 34 59]
 [21 48 94]]


In [63]:
# Indexação da matriz
arr11[2,1]

np.int64(48)

In [64]:
# Indexação da matriz
arr11[0:2,2]

matrix([[22],
        [59]])

In [65]:
# Indexação da matriz
arr11[1,]

matrix([[ 0, 34, 59]])

In [66]:
# Alterando um elemento da matriz
arr11[1,0] = 100

In [67]:
print(arr11)

[[ 13  81  22]
 [100  34  59]
 [ 21  48  94]]


In [68]:
x = dsa.array([1, 2])  # NumPy decide o tipo dos dado
y = dsa.array([1.0, 2.0])  # NumPy decide o tipo dos dado
z = dsa.array([1, 2], dtype = dsa.float64)  # Forçamos um tipo de dado em particular

In [69]:
print(x.dtype, y.dtype, z.dtype)

int64 float64 float64


In [70]:
arr12 = dsa.array([[24, 76, 92, 14], [47, 35, 89, 2]], dtype = float)

In [71]:
print(arr12)

[[24. 76. 92. 14.]
 [47. 35. 89.  2.]]


O itemsize de um array numpy é um atributo que retorna o tamanho em bytes de cada elemento do array. Em outras palavras, o itemsize representa o número de bytes necessários para armazenar cada valor do array numpy.

In [72]:
arr12.itemsize

8

In [73]:
arr12.nbytes

64

In [74]:
arr12.ndim

2

### Manipulando Objetos de 3 e 4 Dimensões com NumPy

In [75]:
# Cria um array numpy de 3 dimensões
arr_3d = dsa.array([
    [
        [1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12]
    ],
    [
        [13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]
    ]
])

In [76]:
print(arr_3d)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]


In [77]:
arr_3d.ndim

3

In [78]:
arr_3d.shape

(2, 3, 4)

In [79]:
arr_3d[0, 2, 1]

np.int64(10)

In [80]:
# Cria um array numpy de 4 dimensões
arr_4d = dsa.array([
    [
        [
            [1, 2, 3, 4, 5],
            [6, 7, 8, 9, 10],
            [11, 12, 13, 14, 15],
            [16, 17, 18, 19, 20]
        ],
        [
            [21, 22, 23, 24, 25],
            [26, 27, 28, 29, 30],
            [31, 32, 33, 34, 35],
            [36, 37, 38, 39, 40]
        ],
        [
            [41, 42, 43, 44, 45],
            [46, 47, 48, 49, 50],
            [51, 52, 53, 54, 55],
            [56, 57, 58, 59, 60]
        ]
    ],
    [
        [
            [61, 62, 63, 64, 65],
            [66, 67, 68, 69, 70],
            [71, 72, 73, 74, 75],
            [76, 77, 78, 79, 80]
        ],
        [
            [81, 82, 83, 84, 85],
            [86, 87, 88, 89, 90],
            [91, 92, 93, 94, 95],
            [96, 97, 98, 99, 100]
        ],
        [
            [101, 102, 103, 104, 105],
            [106, 107, 108, 109, 110],
            [111, 112, 113, 114, 115],
            [116, 117, 118, 119, 120]
        ]
    ]
])

In [81]:
print(arr_4d)

[[[[  1   2   3   4   5]
   [  6   7   8   9  10]
   [ 11  12  13  14  15]
   [ 16  17  18  19  20]]

  [[ 21  22  23  24  25]
   [ 26  27  28  29  30]
   [ 31  32  33  34  35]
   [ 36  37  38  39  40]]

  [[ 41  42  43  44  45]
   [ 46  47  48  49  50]
   [ 51  52  53  54  55]
   [ 56  57  58  59  60]]]


 [[[ 61  62  63  64  65]
   [ 66  67  68  69  70]
   [ 71  72  73  74  75]
   [ 76  77  78  79  80]]

  [[ 81  82  83  84  85]
   [ 86  87  88  89  90]
   [ 91  92  93  94  95]
   [ 96  97  98  99 100]]

  [[101 102 103 104 105]
   [106 107 108 109 110]
   [111 112 113 114 115]
   [116 117 118 119 120]]]]


In [82]:
arr_4d.ndim

4

In [83]:
arr_4d.shape

(2, 3, 4, 5)

In [84]:
arr_4d[0, 2, 1]

array([46, 47, 48, 49, 50])

In [85]:
arr_4d[0, 2, 1, 4]

np.int64(50)

### Manipulando Arquivos com NumPy

In [86]:
import os
filename = os.path.join('dataset.csv')

In [87]:
# No Windows use !more dataset.csv. Mac ou Linux use !head dataset.csv
!head dataset.csv
#!more dataset.csv

'head' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


In [88]:
# Carregando um dataset para dentro de um array
arr13 = dsa.loadtxt(filename, delimiter = ',', usecols = (0,1,2,3), skiprows = 1)

In [89]:
print(arr13)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [90]:
type(arr13)

numpy.ndarray

In [91]:
# Carregando apenas duas variáveis (colunas) do arquivo
var1, var2 = dsa.loadtxt(filename, delimiter = ',', usecols = (0,1), skiprows = 1, unpack = True)

In [92]:
# Gerando um plot a partir de um arquivo usando o NumPy
import matplotlib.pyplot as plt
plt.show(plt.plot(var1, var2, 'o', markersize = 6, color = 'red'))

ModuleNotFoundError: No module named 'matplotlib'

### Análise Estatística Básica com NumPy

In [None]:
# Criando um array
arr14 = dsa.array([15, 23, 63, 94, 75])

Em Estatística, a média é uma medida de tendência central que representa o valor central de um conjunto de dados. É calculada somando-se todos os valores do conjunto de dados e dividindo-se pelo número de observações.

In [None]:
# Média
dsa.mean(arr14)

O desvio padrão é uma medida estatística de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média. Ele é calculado como a raiz quadrada da variância, que é a média dos quadrados das diferenças entre cada valor e a média.

O desvio padrão é uma medida útil porque permite avaliar a variabilidade dos dados em torno da média. Se os valores estiverem próximos da média, o desvio padrão será baixo, indicando que os dados têm pouca variabilidade. Por outro lado, se os valores estiverem muito distantes da média, o desvio padrão será alto, indicando que os dados têm alta variabilidade.

O desvio padrão é amplamente utilizado em Análise e Ciência de Dados, para avaliar a consistência dos dados e comparar conjuntos de dados diferentes. É importante notar que o desvio padrão pode ser influenciado por valores extremos (outliers) e pode ser afetado por diferentes distribuições de dados.

In [None]:
# Desvio Padrão (Standard Deviation)
dsa.std(arr14)

A variância é uma medida estatística que quantifica a dispersão dos valores em um conjunto de dados em relação à média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média.

A fórmula para o cálculo da variância é:

var = 1/n * Σ(xi - x̄)^2

Onde:

- var é a variância
- n é o número de observações
- Σ é o somatório
- xi é o i-ésimo valor no conjunto de dados
- x̄ é a média dos valores

A variância é uma medida útil para avaliar a variabilidade dos dados em torno da média. Se a variância for baixa, isso indica que os valores estão próximos da média e têm pouca variabilidade. Por outro lado, se a variância for alta, isso indica que os valores estão distantes da média e têm alta variabilidade.

In [None]:
# Variância
dsa.var(arr14)

Leia o manual em pdf no Capítulo 9 sobre quando usar variância e desvio padrão para análise de dados.

### Operações Matemáticas com Arrays NumPy

In [None]:
arr15 = dsa.arange(1, 10)

In [None]:
print(arr15)

In [None]:
# Soma dos elementos do array
dsa.sum(arr15)

In [None]:
# Retorna o produto dos elementos
dsa.prod(arr15)

In [None]:
# Soma acumulada dos elementos
dsa.cumsum(arr15)

In [None]:
# Cria 2 arrays
arr16 = dsa.array([3, 2, 1])
arr17 = dsa.array([1, 2, 3])

In [None]:
# Soma dos arrays
arr18 = dsa.add(arr16, arr17)  

In [None]:
print(arr18)  

Para multiplicar duas matrizes NumPy, podemos usar a função dot() ou o operador @. Ambos os métodos executam a multiplicação matricial. É importante lembrar que, para que a multiplicação de matrizes possa ser executada, o número de colunas da primeira matriz deve ser igual ao número de linhas da segunda matriz.

Há várias formas de multiplicar elementos de matrizes NumPy. A função dot() é um método bastante utilizado.

In [None]:
# Cria duas matrizes
arr19 = dsa.array([[1, 2], [3, 4]])
arr20 = dsa.array([[5, 6], [0, 7]])

In [None]:
arr19.shape

In [None]:
arr20.shape

In [None]:
print(arr19)

In [None]:
print(arr20)

In [None]:
# Multiplicar as duas matrizes
arr21 = dsa.dot(arr19, arr20)

In [None]:
print(arr21)  

![DSA](imagens/dot.png)

In [None]:
# Multiplicar as duas matrizes
arr21 = arr19 @ arr20

In [None]:
print(arr21)  

In [None]:
# Multiplicar as duas matrizes
arr21 = dsa.tensordot(arr19, arr20, axes = ((1),(0)))

In [None]:
print(arr21)  

### Slicing (Fatiamento) de Arrays NumPy

In [None]:
# Cria um array
arr22 = dsa.diag(dsa.arange(3))

In [None]:
print(arr22)

In [None]:
arr22[1, 1]

In [None]:
arr22[1]

In [None]:
arr22[:,2]

In [None]:
arr23 = dsa.arange(10)

In [None]:
print(arr23)

In [None]:
# [start:end:step]
arr23[2:9:3] 

In [None]:
# Cria 2 arrays
a = dsa.array([1, 2, 3, 4])
b = dsa.array([4, 2, 2, 4])

In [None]:
# Comparação item a item
a == b

In [None]:
# Comparação global
dsa.array_equal(arr22, arr23)

In [None]:
arr23.min()

In [None]:
arr23.max()

In [None]:
# Somando um valor a cada elemento do array
dsa.array([1, 2, 3]) + 1.5

In [None]:
# Cria um array
arr24 = dsa.array([1.2, 1.5, 1.6, 2.5, 3.5, 4.5])

In [None]:
print(arr24)

In [None]:
# Usando o método around
arr25 = dsa.around(arr24)

In [None]:
print(arr25)

In [None]:
# Criando um array
arr26 = dsa.array([[1, 2, 3, 4], [5, 6, 7, 8]])

In [None]:
print(arr26)

O método flatten() com NumPy é usado para criar uma cópia unidimensional (ou "achatada") de um array multidimensional. Isso significa que o método cria um novo array unidimensional, que contém todos os elementos do array multidimensional original, mas que está organizado em uma única linha. A ordem dos elementos no novo array unidimensional segue a ordem dos elementos no array multidimensional original.

In [None]:
# "Achatando" a matriz
arr27 = arr26.flatten()

In [None]:
print(arr27)

In [None]:
# Criando um array
arr28 = dsa.array([1, 2, 3])

In [None]:
print(arr28)

In [None]:
# Repetindo os elementos de um array
dsa.repeat(arr28, 3)

In [None]:
# Repetindo os elementos de um array
dsa.tile(arr28, 3)

In [None]:
# Criando um array
arr29 = dsa.array([5, 6])

In [None]:
# Criando cópia do array
arr30 = dsa.copy(arr29)

In [None]:
print(arr30)

O NumPy é estudado em detalhes em diversos cursos e Formações aqui na DSA, através de exercícios, laboratórios, estudos de caso, mini-projetos e projetos.

# Fim


### Obrigado

### Visite o Blog da Data Science Academy - <a href="http://blog.dsacademy.com.br">Blog DSA</a>
