# **Biblioteca NumPy**

A biblioteca NumPy (acrônimo para Numeric Python) é usada principalmente para realizar cálculos númericos em Arrays Multidimensionais. Esses tipos de cálculos numéricos são amplamente utilizados em: Modelos de Machine Learning, Processamento de Imagem e Computação Gráfica, e Tarefas Matemáticas.

## **Trabalhando com Arrays**

In [1]:
# Importando a biblioteca NumPy e colocando o apelido 'np'
import numpy as np

Em arrays NumPy, a dimensionalidade se refere ao número de eixos necessários para indexá-lo, não a dimensionalidade de algum espaço geométrico. Por exemplo:

```[1, 2, 3]``` 

O array de acima tem um eixo (uma linha) e 3 elementos (ou um comprimiento de 3).


```[[1, 2, 3]
   [4, 5, 6]]``` 
   
O array anterior tem 2 eixos , o primeiro eixo tem um comprimento de 2, sendo essas as linhas, e o segundo eixo tem um comprimento de 3, sendo essas as colunas.

In [2]:
# Criando um array de 1 dimensão
array_1d = np.array([1, 2, 3, 4])
array_1d

array([1, 2, 3, 4])

In [3]:
# Objeto do tipo array do NumPy
type(array_1d)

numpy.ndarray

In [4]:
# Atributo ndim: Retorna o número de dimensões do array 
array_1d.ndim

1

In [5]:
# Criando um array de 2 dimensões
array_2d = np.array([(1, 2, 3), (4, 5, 6)])
array_2d

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
array_2d.ndim

2

In [7]:
# Criando um array de 3 dimensões
array_3d = np.array([((1, 2, 3), (4, 5, 6)), ((7, 8, 9), (10, 11, 12))])
array_3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [8]:
array_3d.ndim

3

In [9]:
# Método np.random.random: Retorna um array de floats aleatórios no intervalo semiaberto [0.0, 1.0).
# Parâmetro size: Forma da saída.

# Array de elementos aleatórios, de 1 dimensão, com 5 elementos
a = np.random.random(5)
print("a =", a)

# Array de elementos aleatórios, de 2 dimensões, com 5 linhas e 2 colunas
b = np.random.random((5, 2))
print("b =", b)

# Array de elementos aleatórios, de 3 dimensões
c = np.random.random(size = (2, 5, 3))
print("c =", c)

a = [0.71499243 0.05243191 0.55174232 0.34736423 0.57073462]
b = [[0.46470649 0.99167933]
 [0.72484089 0.89329849]
 [0.05533188 0.84450566]
 [0.97397176 0.65445948]
 [0.83761538 0.5740652 ]]
c = [[[0.09225516 0.12681228 0.24345852]
  [0.13284366 0.74121714 0.01135935]
  [0.90969356 0.82240265 0.01087346]
  [0.36392422 0.08030747 0.39621901]
  [0.37236075 0.46031784 0.14443988]]

 [[0.44375045 0.35891544 0.31852336]
  [0.72304576 0.56764634 0.67774192]
  [0.14742046 0.43457686 0.7197129 ]
  [0.60764048 0.16736645 0.26227385]
  [0.71654521 0.61578802 0.85683429]]]


In [10]:
# Método np.arange: Cria um array de valores com espaçamento uniforme dentro do intervalo semiaberto [start, stop).
# Parâmetro start (opcional): Início do intervalo. Por padrão é 0.
# Parâmetro stop: Fim do intervalo. O array não considera esse último valor.
# Parâmetro step (opcional): Espaçamento entre valores. Por padrão é 1.

a = np.arange(7.0)
print("a =", a)

b = np.arange(7, 9)
print("b =", b)

c = np.arange(0, 10, 2)
print("c =", c)

a = [0. 1. 2. 3. 4. 5. 6.]
b = [7 8]
c = [0 2 4 6 8]


In [11]:
# Método np.linspace: Cria um array com 'num' amostras uniformemente espaçadas, calculadas sobre o intervalo 
# [start, stop].
# Parâmetro start: Valor inicial da sequência.
# Parâmetro stop: Valor final da sequência.
# Parâmetro num (Opcional): Número de amostras a serem geradas. Por padrão é 50.
# Parâmetro endpoint (Opcional): Se True, 'stop' é a última amostra. Por padrão é True.

a = np.linspace(0, 2, 5)
print("a =", a)

b = np.linspace(0, 2, 5, endpoint = False)
print("b =", b)

a = [0.  0.5 1.  1.5 2. ]
b = [0.  0.4 0.8 1.2 1.6]


In [12]:
# Método np.zeros: Cria um array de shape e type fornecidos, com valores de zero.
# Parâmetro shape: Forma do array.
# Parâmetro dtype (Opcional): Tipo de dados desejado para o array, por exemplo, np.int8. Por padrão é np.float64.

# Array de zeros, de 1 linhas com 3 elementos
a = np.zeros(3, dtype = int)
print("a =", a)

# Array de zeros, de 3 linhas e 4 colunas
b = np.zeros((3, 4))
print("b =", b)

# Array de zeros, de 3 dimensões
c = np.zeros((3, 5, 2))
print("c =", c)

a = [0 0 0]
b = [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
c = [[[0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]
  [0. 0.]]]


Isto é útil, por exemplo, em alguns algoritmos de Machine Learning que iniciam com pesos zerados.

## **Diferenças entre Arrays e Listas**

1.   Arrays NumPy fornecem uma maior flexibilidade do que as listas em Python quando se trabalha com valores numéricos envolvendo cálculos. Nos arrays essas operações são realizadas de forma rápida em tanto que para realizar operações em todos os elementos de uma lista é preciso iterar sobre a mesma, o que não é performático.

In [13]:
# Criando uma lista em Python
lista = [1, 2, 3]
print("lista =", lista)

# O símbolo da multiplicação concatena os elementos da lista
print("lista * 7 =", lista * 7)

# Para multiplicar cada elemento por 7 é preciso criar um laço e multiplicar cada elemento
iterando = [i * 7 for i in lista]
print("iterando =", iterando)

lista = [1, 2, 3]
lista * 7 = [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
iterando = [7, 14, 21]


In [14]:
# Transformando a lista em um array NumPy
array = np.array(lista)
print("array =", array)

# Multiplicando cada elemento por 7
print("array * 7 =", array * 7)

array = [1 2 3]
array * 7 = [ 7 14 21]


O array NumPy identifica que tem valores inteiros e multiplica cada elemento por 7.

In [15]:
# Calculando áreas de triângulos

# Listas de bases e alturas de triângulos
base = [5, 8, 4]
altura = [3, 2, 12]

# Transformando a arrays
base = np.array(base)
altura = np.array(altura)
area = base*altura/2

print("area =", area)

area = [ 7.5  8.  24. ]


2.   Listas em Python armazenam diferentes tipos de objetos. Em arrays NumPy pode-se armazenar diferentes tipos de valores, porém todos eles serão identificados como do tipo string. Essa é uma limitação dos arrays NumPy.

In [16]:
# Array NumPy que armazena elementos como strings
a = np.array([1, 2, 'Verde', True])
a

array(['1', '2', 'Verde', 'True'], dtype='<U21')

O NumPy criou um objeto do tipo array e colocou todos os elementos do array como do tipo string, porque identificou que tem um objeto que não é inteiro, float nem booleano.

In [17]:
# Portanto, o seguinte comando daria erro
#a * 7

## **Métodos e Atributos de Arrays**

Para visualizar os atributos e métodos disponíveis do objeto digite o nome do objeto, "." e pressione tab:

```array_2d.(tab)```

In [18]:
# Atributo shape: Retorna a forma do array
print(array_1d.shape)
print(array_2d.shape)
print(array_3d.shape)

(4,)
(2, 3)
(2, 2, 3)


In [19]:
# Atributo ndim: Retorna o número de dimensões do array
array_2d.ndim

2

In [20]:
# Atributo dtype: Retorna o tipo de dados dos elementos do array
array_2d.dtype

dtype('int64')

In [21]:
# Atributo size: Retorna o número de elementos no array
array_2d.size

6

In [22]:
# Para array de uma dimensão funciona igual que o método len
print(array_1d.size)
print(len(array_1d))

4
4


In [23]:
# Atributo itemsize: Retorna o tamanho de cada elemento do array em bytes
array_2d.itemsize

8

In [24]:
# Método max: Retorna o valor máximo de um array ou máximo ao longo de um eixo.
# Parâmetro axis (Opcional): Eixo ao longo do qual operar. Por padrão, a entrada plana é usada.

print("array_2d =", array_2d)
print("Máximo do array plano =", array_2d.max())
print("Máximo ao longo do primeiro eixo =", array_2d.max(axis = 0))
print("Máximo ao longo do segundo eixo =", array_2d.max(axis = 1))

array_2d = [[1 2 3]
 [4 5 6]]
Máximo do array plano = 6
Máximo ao longo do primeiro eixo = [4 5 6]
Máximo ao longo do segundo eixo = [3 6]


In [25]:
# Método min: Retorna o valor mínimo de um array ou mínimo ao longo de um eixo.
# Parâmetro axis (Opcional): Eixo ao longo do qual operar. Por padrão, a entrada plana é usada.

print("array_2d =", array_2d)
print("Mínimo do array plano =", array_2d.min())
print("Mínimo ao longo do primeiro eixo =", array_2d.min(axis = 0))
print("Mínimo ao longo do segundo eixo =", array_2d.min(axis = 1))

array_2d = [[1 2 3]
 [4 5 6]]
Mínimo do array plano = 1
Mínimo ao longo do primeiro eixo = [1 2 3]
Mínimo ao longo do segundo eixo = [1 4]


In [26]:
# Método mean: Retorna a média dos elementos do array ou ao longo de um eixo.
# Parâmetro axis (Opcional): Eixo ao longo do qual as médias são calculadas. O padrão é calcular a média do array 
# plano.

print("array_2d =", array_2d)
print("Média do array plano =", array_2d.mean())
print("Médias ao longo do eixo 0 =", array_2d.mean(axis = 0))
print("Médias ao longo do eixo 1 =", array_2d.mean(axis = 1))

array_2d = [[1 2 3]
 [4 5 6]]
Média do array plano = 3.5
Médias ao longo do eixo 0 = [2.5 3.5 4.5]
Médias ao longo do eixo 1 = [2. 5.]


In [27]:
# Método std: Retorna o desvio padrão dos elementos do array ou ao longo de um eixo.
# Parâmetro axis (Opcional): Eixo ao longo do qual os desvios padrões são calculados. O padrão é calcular o desvio
# padrão do array plano.

print("array_2d =", array_2d)
print("Desvio padrão do array plano =", array_2d.std())
print("Desvios padrões ao longo do eixo 0 =", array_2d.std(axis = 0))
print("Desvios padrões ao longo do eixo 1 =", array_2d.std(axis = 1))

array_2d = [[1 2 3]
 [4 5 6]]
Desvio padrão do array plano = 1.707825127659933
Desvios padrões ao longo do eixo 0 = [1.5 1.5 1.5]
Desvios padrões ao longo do eixo 1 = [0.81649658 0.81649658]


In [28]:
# Método sum: Retorna a soma dos elementos do array ou ao longo de um eixo.
# Parâmetro axis (Opcional): Eixo ao longo do qual as somas são realizadas. Por padrão, somará todos os elementos 
# do array.

print("array_2d =", array_2d)
print("Soma do array plano =", array_2d.sum())
print("Somas ao longo do eixo 0 =", array_2d.sum(axis = 0))
print("Somas ao longo do eixo 1 =", array_2d.sum(axis = 1))

array_2d = [[1 2 3]
 [4 5 6]]
Soma do array plano = 21
Somas ao longo do eixo 0 = [5 7 9]
Somas ao longo do eixo 1 = [ 6 15]


## **Transformando Arrays**

In [29]:
print("array_2d =", array_2d)

array_2d = [[1 2 3]
 [4 5 6]]


In [30]:
# Atributo T: Gera a transposta de uma matriz (troca de linhas por colunas)
array_2d.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [31]:
# Método reshape: Dá uma nova forma a um array sem alterar seus dados.
# Parâmetro newshape: A nova forma deve ser compatível com a forma original. Se for um número inteiro, o resultado
# será um array de 1D desse comprimento. Se for colocado -1, o valor é inferido.

a = array_2d.reshape(6)
print("a =", a)

# O valor não especificado é inferido como 6
b = array_2d.reshape(-1)
print("b =", b)

c = array_2d.reshape(3, 2)
print("c =", c)

# O valor não especificado é inferido como 2
d = array_2d.reshape(3, -1)
print("d =", d)

a = [1 2 3 4 5 6]
b = [1 2 3 4 5 6]
c = [[1 2]
 [3 4]
 [5 6]]
d = [[1 2]
 [3 4]
 [5 6]]


É muito comum realizar esta manipulação quando se trabalha com bibliotecas do scikit-learn e keras (bibliotecas utilizadas em projetos de Machine Learning).

In [32]:
# Método insert: Insere elementos a um array ao longo de um eixo.
# Parâmetro arr: Array.
# Parâmetro obj: Índice ou índices antes dos quais os 'values' são inseridos.
# Parâmetro values: Valores para inserir em 'arr'.
# Parâmetro axis (Opcional): Eixo ao longo do qual inserir 'values'. Se axis for None, 'arr' é flattened primeiro.

# Inserindo 10 na posição 2 no array flattened
a = np.insert(array_2d, 2, 10)
print("a =", a)

# Inserindo 10 na posição 2 ao longo do eixo 0
b = np.insert(array_2d, 2, 10, axis = 0)
print("b =", b)

# Inserindo 10 na posição 2 ao longo do eixo 1
c = np.insert(array_2d, 2, 10, axis = 1)
print("c =", c)

a = [ 1  2 10  3  4  5  6]
b = [[ 1  2  3]
 [ 4  5  6]
 [10 10 10]]
c = [[ 1  2 10  3]
 [ 4  5 10  6]]


In [33]:
# Método delete: Apaga elementos de um array.
# Parâmetro arr: Array de entrada.
# Parâmetro obj: Indica os índices para remover ao longo do eixo especificado.
# Parâmetro axis (Opcional): Eixo ao longo do qual operar. Se for None, 'obj' é aplicado ao array flattened.

# Apagando o elemento da primeira posição no array flattened
a = np.delete(array_2d, 0)
print("a =", a)

# Apagando a posição 1 ao longo do eixo 0
b = np.delete(array_2d, 1, 0)
print("b =", b)

# Apagando a posição 1 ao longo do eixo 1
c = np.delete(array_2d, 1, 1)
print("c =", c)

# Apagando 3 elementos no array flattened
d = np.delete(array_2d, [1, 3, 5], None)
print("d =", d)

a = [2 3 4 5 6]
b = [[1 2 3]]
c = [[1 3]
 [4 6]]
d = [1 3 5]


## **Escrevendo Arquivos no SO**

In [34]:
# Método savetxt: Salva um array em um arquivo de texto.
# Parâmetro fname: Nome do arquivo.
# Parâmetro X: Array 1D ou 2D. Dados a serem salvos.
# Parâmetro fmt (Opcional): Formato das colunas.
# Parâmetro delimiter (Opcional): String usado para separar valores. O padrão é o espaço em branco.
# Parâmetro header (Opcional): String que será escrito no início do arquivo.
# Parâmetro footer (Opcional): String que será escrito no final do arquivo.

np.savetxt('data.txt', array_2d, fmt = ['%.2e', '%d', '%7.3f'], header = 'NumPy')

## Acessando Dimensões em Arrays

É similar a acessar elementos de listas aninhadas.

In [35]:
# Array aleatório de 7 linhas e 2 colunas
array = np.random.random((7, 2))
array

array([[0.31180944, 0.02611661],
       [0.65078375, 0.20285513],
       [0.58380577, 0.21565807],
       [0.36927046, 0.48133582],
       [0.69683934, 0.48539011],
       [0.7666889 , 0.79843481],
       [0.81006188, 0.31138842]])

In [36]:
# Primeiro elemento do array (primeira linha)
array[0]

array([0.31180944, 0.02611661])

In [37]:
# Primeiro elemento da primeira coluna
array[0][0]

0.3118094364320628

In [38]:
# Primeiro elemento da segunda coluna
array[0][1]

0.02611660794461712

In [39]:
# Segundo elemento da segunda coluna
array[1][1]

0.20285513366175978

In [40]:
# Outra notação. O primeiro valor especifica a linha e o segundo valor especifica a coluna:
array[1, 1]

0.20285513366175978

In [41]:
# Os 3 primeiros valores da segunda coluna
array[:3, 1]

array([0.02611661, 0.20285513, 0.21565807])

In [42]:
# Todas as linhas da segunda coluna multiplicas por 2
array[:, 1] * 2

array([0.05223322, 0.40571027, 0.43131615, 0.96267163, 0.97078022,
       1.59686962, 0.62277685])

In [43]:
# Comparação. Retorna booleanos nos índices do array
array > 0.5

array([[False, False],
       [ True, False],
       [ True, False],
       [False, False],
       [ True, False],
       [ True,  True],
       [ True, False]])

In [44]:
# Acessando valores que satisfaçam uma condição
array[array > 0.5]

array([0.65078375, 0.58380577, 0.69683934, 0.7666889 , 0.79843481,
       0.81006188])

## **Carregando Arrays NumPy a partir de Arquivos de Texto**

### **Arquivos de Texto sem missing values**

O arquivo ```data.txt``` consiste de um comentário e colunas de valores numéricos:

```
# NumPy
1.00e+00 2   3.000
4.00e+00 5   6.000
```

In [45]:
# Método loadtxt: Carrega dados de um arquivo de texto. Cada fila no arquivo de texto deve ter o mesmo número de
# valores.
# Parâmetro fname: Nome do arquivo.
# Parâmetro dtype (Opcional): Tipo de dados do array resultante. Por padrão é float!
# Parâmetro delimiter (Opcional): String usado para separar valores. O padrão é o espaço em branco.
# Parâmetro skiprows (Opcional): Omite as primeiras 'skiprows' linhas. Valor padrão é 0.
# Parâmetro usecols (Opcional): Define que colunas ler. Por padrão, None, lê todas as colunas. Quando uma única 
# coluna tem que ser lida é possível usar um inteiro ao invés de tupla. Exemplo: usecols = 2 ao invés de 
# usecols = (2,).
# Parâmetro unpack (Opcional): Se for True, o array retornado é transposto, de forma que os argumentos podem ser 
# descompactados usando x, y, z = loadtxt(...). O padrão é False.

# Lendo o arquivo gerando um único array, omitindo a primeira linha e a primeira coluna
data = np.loadtxt('data.txt', skiprows = 1, usecols = (1, 2))
data

array([[2., 3.],
       [5., 6.]])

Embora nesse caso não foi necessário colocar ```skiprows = 1```, porque os comentários (linhas começando com "#") não são considerados na leitura do arquivo.

In [46]:
# Lendo o arquivo colocando as colunas do mesmo em diferentes arrays
x, y, z = np.loadtxt('data.txt', unpack = True)

print("Array 'x' =", x)
print("Array 'y' =", y)
print("Array 'z' =", z)

Array 'x' = [1. 4.]
Array 'y' = [2. 5.]
Array 'z' = [3. 6.]


O seguinte arquivo ```data_with_strings.txt``` é formado por um header e colunas de diferentes tipos:

```
Tabela
A B C D
1 1.3 None s1
2 7.2 5.0 s2
3 0.0 NaN s3
```

In [47]:
# Lendo a primeira coluna de valores numéricos do arquivo, omitindo as duas primeiras linhas
x = np.loadtxt('data_with_strings.txt', skiprows = 2, usecols = 0)
x

array([1., 2., 3.])

In [48]:
# Lendo a quarta coluna de strings do arquivo, omitindo as duas primeiras linhas
x = np.loadtxt('data_with_strings.txt', skiprows = 2, usecols = 3, dtype = str)
x

array(['s1', 's2', 's3'], dtype='<U2')

### **Arquivos de Texto com missing values**

O método ```np.genfromtxt``` fornece algumas opções como os parâmetros ```missing_values``` e ```filling_values``` para tratar com arquivos incompletos.

O seguinte arquivo ```data_with_strings_and_missing_values.csv```, tem o formato:

```
1,2,,,5
6,ab,8,,
11,oi,NaN,,
```

In [49]:
# Método genfromtxt: Carrega dados de um arquivo de texto, com os missing values e strings tratados conforme 
# especificado.
# Parâmetro fname: Nome do arquivo.
# Parâmetro dtype (Opcional): Tipo de dados do array resultante. Se None, os dtypes serão determinados pelo 
# conteúdo de cada coluna, individualmente.
# Parâmetro delimiter (Opcional): String usado para separar valores. O padrão é o espaço em branco.
# Parâmetro skiprows (Opcional): 'skiprows' foi removido, use 'skip_header' em seu lugar.
# Parâmetro skip_header (Opcional): Número de linhas a pular no início do arquivo.
# Parâmetro skip_footer (Opcional): Número de linhas a pular no final do arquivo.
# Parâmetro missing_values (Opcional): O conjunto de strings correspondente aos dados ausentes.
# Parâmetro filling_values (Opcional): O conjunto de valores a ser usado como padrão quando os dados estão 
# ausentes.
# Parâmetro usecols (Opcional): Define que colunas ler.
# Parâmetro unpack (Opcional): Se for True, o array retornado é transposto, de forma que os argumentos podem ser 
# descompactados usando x, y, z = loadtxt(...).

# Leitura do arquivo, colocando os missing values e também os strings à 0.
data = np.genfromtxt('data_with_strings_and_missing_values.csv', delimiter = ',', filling_values = 0)
data

array([[ 1.,  2.,  0.,  0.,  5.],
       [ 6.,  0.,  8.,  0.,  0.],
       [11.,  0., nan,  0.,  0.]])

In [50]:
# Colocando as linhas do arquivo em arrays
x, y, z = np.genfromtxt('data_with_strings_and_missing_values.csv', delimiter = ',', filling_values = 0)
print("Array 'x' =", x)
print("Array 'y' =", y)
print("Array 'z' =", z)

Array 'x' = [1. 2. 0. 0. 5.]
Array 'y' = [6. 0. 8. 0. 0.]
Array 'z' = [11.  0. nan  0.  0.]


In [51]:
# Leitura do arquivo, colocando valores aos missing values e strings segundo a coluna em que se encontram.

# Valores numéricos para preencher cada coluna.
filling_values = (1, 2, 0, 4, 5.2)
data = np.genfromtxt('data_with_strings_and_missing_values.csv', delimiter = ',', filling_values = filling_values)
data

array([[ 1. ,  2. ,  0. ,  4. ,  5. ],
       [ 6. ,  2. ,  8. ,  4. ,  5.2],
       [11. ,  2. ,  nan,  4. ,  5.2]])