O NumPy (Numerical Python) é uma biblioteca de código aberto para a linguagem de programação Python que é usada principalmente para trabalhar com arrays multidimensionais e matrizes numéricas. Ele fornece funções matemáticas e de álgebra linear para operar em dados numéricos, tornando-o uma ferramenta popular para cientistas de dados, pesquisadores acadêmicos e engenheiros.

O NumPy permite a manipulação eficiente de grandes conjuntos de dados numéricos, com capacidades de indexação, slicing, broadcasting, operações matemáticas e muito mais. Ele também inclui funções para processamento de sinais, estatísticas e transformações de Fourier.

O NumPy é amplamente utilizado em conjunto com outras bibliotecas populares de Python, como Pandas, Matplotlib e SciPy, para realizar análises de dados, visualização e modelagem matemática. Além disso, muitas bibliotecas de aprendizado de máquina e inteligência artificial, como TensorFlow e PyTorch, dependem do NumPy como base para a manipulação de dados.

In [2]:
import numpy as np

In [3]:
# criando arrays no numpy

array = np.array([1,2,3,4,5,6])


In [4]:
array

array([1, 2, 3, 4, 5, 6])

In [5]:
array.shape

(6,)

In [6]:
# No numpy a indexação segue a mesma lógica

array[1]

2

In [7]:
array[3:4+1]

array([4, 5])

In [8]:
# criando uma lista de indices e imprimindo os elementos da lista

indices = [1,2,3]

print(array[indices])

[2 3 4]


In [9]:
# criando uma máscara para impressão de elementos utilizando lógica booleana

mask = (array % 2 == 0) # máscara de numeros pares

In [10]:
mask

array([False,  True, False,  True, False,  True])

In [11]:
array[mask]

array([2, 4, 6])

In [12]:
# alterando elementos
array[1] = 22

In [13]:
array

array([ 1, 22,  3,  4,  5,  6])

In [14]:
array[mask]

array([22,  4,  6])

In [15]:
# No numpy não é possível guardar elementos de tipos diferentes.

try:
  array[1] = "Vinícius"
except:
  print("Operação não foi realizada")

Operação não foi realizada


In [16]:
type(array)

numpy.ndarray

In [17]:
array.cumsum() # método de soma acumulada

array([ 1, 23, 26, 30, 35, 41])

In [18]:
array.cumprod() # método de produto acumulado

array([   1,   22,   66,  264, 1320, 7920])

In [19]:
# podemos também usaar o arange, definimos o start, stop e step.

array = np.arange(0,100,5) # de 0 até 99 pulando de 5 em 5

In [20]:
array

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [21]:
# preenchendo array com zeros

array = np.zeros(15)

In [22]:
array

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [23]:
# às vezes, em machine learning, é interessante começar com um array de zeros.

In [24]:
array = np.eye(10) # preenche a diagonal com 1's, sendo o parâmetro o tamanho da matriz quadrada.

In [25]:
array

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [26]:
array = np.diag(np.array([1,2,3,4,5,6,7,8,9,10])) # modificando os valores da diagonal

In [27]:
array

array([[ 1,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  2,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  3,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  4,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  5,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  6,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  7,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0,  8,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  9,  0],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0, 10]])

In [28]:
# E se eu quiser um array com valores lógicos?

array = np.array([True, True, False, False, True, False, True, False, False, False, True])

In [29]:
array

array([ True,  True, False, False,  True, False,  True, False, False,
       False,  True])

LinSpace é uma função da biblioteca NumPy em Python que cria um array unidimensional com valores igualmente espaçados em um intervalo específico.

Os parâmetros da função são:

start: O valor inicial do intervalo.
stop: O valor final do intervalo.
num: O número de valores igualmente espaçados que você deseja gerar. O valor padrão é 50.
endpoint: Se True, o valor final do intervalo é incluído na saída. Caso contrário, o valor final é excluído. O valor padrão é True.
retstep: Se True, a função retorna uma tupla com dois elementos, o array gerado e o espaçamento entre os valores. O valor padrão é False.
dtype: O tipo de dado do array de saída. O valor padrão é None, o que significa que o tipo será inferido automaticamente.
Por exemplo, para criar um array com 10 valores igualmente espaçados entre 0 e 1, você pode usar o seguinte código:

In [30]:
lin = np.linspace(0,10)

In [31]:
lin

array([ 0.        ,  0.20408163,  0.40816327,  0.6122449 ,  0.81632653,
        1.02040816,  1.2244898 ,  1.42857143,  1.63265306,  1.83673469,
        2.04081633,  2.24489796,  2.44897959,  2.65306122,  2.85714286,
        3.06122449,  3.26530612,  3.46938776,  3.67346939,  3.87755102,
        4.08163265,  4.28571429,  4.48979592,  4.69387755,  4.89795918,
        5.10204082,  5.30612245,  5.51020408,  5.71428571,  5.91836735,
        6.12244898,  6.32653061,  6.53061224,  6.73469388,  6.93877551,
        7.14285714,  7.34693878,  7.55102041,  7.75510204,  7.95918367,
        8.16326531,  8.36734694,  8.57142857,  8.7755102 ,  8.97959184,
        9.18367347,  9.3877551 ,  9.59183673,  9.79591837, 10.        ])

In [32]:
# também podemos criar em escala logarítimica

linLog = np.logspace(0,10)

In [33]:
linLog

array([1.00000000e+00, 1.59985872e+00, 2.55954792e+00, 4.09491506e+00,
       6.55128557e+00, 1.04811313e+01, 1.67683294e+01, 2.68269580e+01,
       4.29193426e+01, 6.86648845e+01, 1.09854114e+02, 1.75751062e+02,
       2.81176870e+02, 4.49843267e+02, 7.19685673e+02, 1.15139540e+03,
       1.84206997e+03, 2.94705170e+03, 4.71486636e+03, 7.54312006e+03,
       1.20679264e+04, 1.93069773e+04, 3.08884360e+04, 4.94171336e+04,
       7.90604321e+04, 1.26485522e+05, 2.02358965e+05, 3.23745754e+05,
       5.17947468e+05, 8.28642773e+05, 1.32571137e+06, 2.12095089e+06,
       3.39322177e+06, 5.42867544e+06, 8.68511374e+06, 1.38949549e+07,
       2.22299648e+07, 3.55648031e+07, 5.68986603e+07, 9.10298178e+07,
       1.45634848e+08, 2.32995181e+08, 3.72759372e+08, 5.96362332e+08,
       9.54095476e+08, 1.52641797e+09, 2.44205309e+09, 3.90693994e+09,
       6.25055193e+09, 1.00000000e+10])

Manipulando matrizes com Numpy.

In [34]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [35]:
matrix

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [36]:
matrix.shape # matrix 3x3

(3, 3)

In [37]:
# Se caso eu tenha uma lista e queira transformar em um objeto matrix do numpy, também posso

lista_de_listas = [[1, 5, 6], [9, 8, 7], [3, 5, 4]]

In [38]:
matrix_lista = np.matrix(lista_de_listas)

In [39]:
matrix_lista

matrix([[1, 5, 6],
        [9, 8, 7],
        [3, 5, 4]])

In [40]:
type(matrix_lista)

numpy.matrix

In [41]:
matrix_lista.size

9

In [44]:
# quando criamos um array numpy, ele mesmo decide o tipo de dado. E se quisermos escolher o tipo?


teste_1 = np.array([1, 2, 3, 4]) # aqui o numpy define o tipo
teste_1.dtype

dtype('int64')

In [47]:
teste_1 = np.array([1, 2, 3, 4, 5], dtype = float) # passando o tipo como parâmetro.
teste_1.dtype

dtype('float64')

In [48]:
# temos também 3 métodos para os objetos nparray.

print(teste_1.itemsize) # numeros de bytes necessários para armazenar cada valor do array
print(teste_1.nbytes) # números de bytes totais
print(teste_1.ndim) # número de dimensões do array


8
40
1


No NumPy, objetos de 3 dimensões ou mais são chamados de arrays multidimensionais ou tensores. O NumPy é capaz de trabalhar com esses objetos de maneira eficiente e flexível.

Para criar um array multidimensional em NumPy, podemos utilizar a função numpy.array(). Podemos especificar as dimensões do array passando uma lista de listas, onde cada lista interna representa uma dimensão. 

In [49]:
# criando array MD = 3

array = np.array([
                  
            [         
                
                [1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]
            ],
             
            [
                [13, 14, 15, 16],
                [17, 18, 19, 20],
                [21, 22, 23, 24]
            ],
          
            [
                [25, 26, 27, 28],
                [29, 30, 31, 32],
                [33, 34, 35, 36]
          
            ]
          
         ])



In [50]:
print(array)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]

 [[25 26 27 28]
  [29 30 31 32]
  [33 34 35 36]]]


In [51]:
array.ndim

3

In [52]:
# o índice em python começa por 0, porém devemos lembrar que a lógica é a mesma de listas, então são vários listas com seus índices e subíndices

# aplicando outro valor

array[0, 0, 1] # array de dimensão 1(posiçaõ 0), linha 0(primeira linha), valor de indice 0(primeiro valor)

2

Manipulando arquivos

In [54]:
import os
ds = os.path.join("iris.csv")

In [55]:
!more iris.csv

sepal_length,sepal_width,petal_length,petal_width,species
5.1,3.5,1.4,0.2,setosa
4.9,3,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa
5.4,3.7,1.5,0.2,setosa
4.8,3.4,1.6,0.2,setosa
4.8,3,1.4,0.1,setosa
4.3,3,1.1,0.1,setosa
5.8,4,1.2,0.2,setosa
5.7,4.4,1.5,0.4,setosa
5.4,3.9,1.3,0.4,setosa
5.1,3.5,1.4,0.3,setosa
5.7,3.8,1.7,0.3,setosa
5.1,3.8,1.5,0.3,setosa
5.4,3.4,1.7,0.2,setosa
5.1,3.7,1.5,0.4,setosa
[K

In [58]:
# e se quisermos jogar o dataset para dentro do array numpy?

IRIS = np.loadtxt(ds, delimiter = ",", usecols = (0, 1, 2, 3), skiprows = 1) # não pegando as strings, apenas os valores


In [59]:
print(IRIS)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [61]:
# verificando o tipo do objeto e do dado

print(type(IRIS))
print(IRIS.dtype)

<class 'numpy.ndarray'>
float64


Analisando dados de maneira estatística

In [62]:
array = np.array([1, 5, 6, 6, 7, 7, 9, 10, 11, 6, 5, 3, 2, 2, 1, 34, 56, 2, 6, 7, 8])

In [65]:
print("Média: ", np.mean(array))
print("Mediana: ", np.median(array))
print("Desvio padrão: ", np.std(array))
print("Variância: ", np.var(array))

Média:  9.238095238095237
Mediana:  6.0
Desvio padrão:  12.401631082835
Variância:  153.80045351473922


Essas são medidas estatísticas comuns usadas para analisar e resumir um conjunto de dados.

Média: é a soma de todos os valores em um conjunto de dados, dividido pelo número de elementos no conjunto. É uma medida de tendência central que representa o valor médio de um conjunto de dados.

Mediana: é o valor que separa o conjunto de dados em duas partes iguais quando ordenados em ordem crescente ou decrescente. É uma medida de tendência central que não é influenciada por valores extremos (outliers).

Variância: é uma medida de dispersão que indica a extensão em que os valores em um conjunto de dados diferem da média. É calculada pela soma dos quadrados das diferenças entre cada valor e a média, dividido pelo número de elementos no conjunto.

Desvio padrão: é a raiz quadrada da variância e representa a medida de dispersão mais comumente usada. É calculado como a raiz quadrada da soma dos quadrados das diferenças entre cada valor e a média, dividido pelo número de elementos no conjunto. Ele indica o quão longe os valores estão da média, em média.

Operações matemáticas com arrays NP

In [66]:
# também podemos criar um array através de um range

array = np.arange(0, 10)

In [67]:
print(array)

[0 1 2 3 4 5 6 7 8 9]


In [70]:
print("Soma dos elementos: ", np.sum(array))
print("Produto dos elementos: ", np.prod(array))
print("Soma acumulada dos elementos: ", np.cumsum(array))

Soma dos elementos:  45
Produto dos elementos:  0
Soma acumulada dos elementos:  [ 0  1  3  6 10 15 21 28 36 45]


In [71]:
array_2 = array

In [72]:
array_SOMADO = np.add(array, array_2)

In [75]:
print(array_SOMADO)

[ 0  2  4  6  8 10 12 14 16 18]


In [76]:
# e para multiplicar duas matrizes??


array_MULT = np.dot(array, array_2)

In [77]:
print(array_MULT) # foi retornado um valor pq eles são de 1 dimensão

285


In [78]:
# fatiamento de array

array_SOMADO = array_SOMADO[0:3]

In [82]:
print(array_SOMADO[0:3:1]) # printe da posição 0 até a 3, pulando de um em um

[0 2 4]


In [84]:
from numpy.core.arrayprint import array2string
# comparando dois arrays

array == array_2 # os dois são iguais

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [89]:
# somando valor a cada elemento em específico do array

array = np.array(array) + 4.5

In [90]:
print(array) # somou a cada elemento do array

[ 5.5  6.5  7.5  8.5  9.5 10.5 11.5 12.5 13.5 14.5]


Embora o NumPy seja uma biblioteca para Python, não para R, ele pode ser útil em muitos contextos diferentes, especialmente para trabalhar com matrizes multidimensionais e operações numéricas. Ele permite que os usuários realizem cálculos matemáticos complexos de maneira rápida e eficiente em grandes conjuntos de dados.

A documentação oficial do NumPy é uma fonte valiosa de informações, contendo exemplos de código, descrições de funções e informações sobre a sintaxe. Além disso, o site do NumPy possui uma comunidade ativa e fóruns de discussão onde os usuários podem fazer perguntas e obter ajuda de outros usuários e desenvolvedores experientes.

É importante lembrar que o NumPy é apenas uma das muitas bibliotecas disponíveis para Python e que diferentes bibliotecas podem ser mais apropriadas para diferentes tarefas. No entanto, para quem está trabalhando com matrizes numéricas e precisa de alta performance, o NumPy pode ser uma excelente escolha.

O NumPy pode ser encontrado no site oficial:

https://numpy.org/

Lá é possível encontrar documentação detalhada, tutoriais, exemplos de código, instalação e outras informações importantes sobre a biblioteca.