# NumPy

## O que é o NumPy?

O NumPy é uma poderosa biblioteca Python usada principalmente para realizar cálculos em Arrays Multidimensionais. O NumPy fornece um grande conjunto de funções e operações prontas que ajudam os programadores a executar facilmente cálculos numéricos. Esses tipos de cálculos numéricos são amplamente utilizados em tarefas como:

* `Tarefas matemáticas`: NumPy é bastante útil para executar várias tarefas matemáticas como integração numérica, diferenciação, interpolação, extrapolação e muitas outras. O NumPy possui também funções incorporadas para álgebra linear e geração de números aleatórios. É uma biblioteca que pode ser usada em conjuto do <a href='https://github.com/scipy/scipy'>SciPy</a> e Matplotlib, substituindo o MATLAB quando se trata de tarefas matemáticas.

* `Processamento de Imagem e Computação Gráfica`: Imagens no computador são representadas como Arrays Multidimensionais de números. NumPy torna-se a escolha mais natural para o mesmo. O NumPy, na verdade, fornece algumas excelentes funções para rápida manipulação de imagens. Alguns exemplos são o espelhamento de uma imagem, a rotação de uma imagem por um determinado ângulo etc.

* `Modelos de Machine Learning`: Ao escrever algoritmos de Machine Learning, supõe-se que se realize vários cálculos numéricos em Array. Por exemplo, multiplicação de Arrays, transposição, adição, etc. O NumPy fornece uma excelente biblioteca para cálculos fáceis (em termos de escrita de código) e rápidos (em termos de velocidade). Os Arrays NumPy são usados para armazenar os dados de treinamento, bem como os parâmetros dos modelos de Machine Learning.


## Instalando

Existem diversas formas de instalar o numpy. A mais simples é instalar o pacote Anaconda (https://www.anaconda.com/distribution/) que já vem com o Python e diversas bibliotecas científicas e ciência de dados instaladas.

Outra forma, caso você já tenha o python instalado mas não o numpy, é o utilizar o gerenciador e pacotes pip, através do comando no seu **terminal**:

`$ pip install numpy`

ou dentro do jupyter

`!pip install numpy`

## Explorando a API do NumPy
### Importando numpy com o alias np

`np` é uma abreviação amplamente utilizada na comunidade python para o numpy.

In [2]:
import numpy as np

### 1D arrays

Array unidimensional, também chamado de vetor ou até mesmo matriz de 1 dimensão:


In [3]:
a = np.array([1, 2, 3, 4, 5])
print(a)

[1 2 3 4 5]


Checando o tipo da variável a:

In [4]:
print(type(a))

<class 'numpy.ndarray'>


o ndarray significa n-dimensional array


### Checando o tipo de dados do array

Diversos tipos de dados são possíveis em um array numpy, os mais comuns são os numéricos:

    int32
    int64
    float32
    float64


In [5]:
a.dtype

dtype('int32')

### Substituindo elementos
Se trocarmos o elemento na posição 0 para o valor 10, dará certo:

In [6]:
a

array([1, 2, 3, 4, 5])

In [7]:
a[0] = 10

Mas, se trocarmos para ponto flutuante, por exemplo 1.2, o numpy irá truncar a parte decimal, dado que o array que criamos é de inteiros.

In [8]:
a[0] = 1.2

In [9]:
a

array([1, 2, 3, 4, 5])

E se quisermos um dos elementos sendo um texto como fazíamos com as listas?

In [10]:
lista = [1, 2, 'LC', 4]
array = np.array([1, 2, 'LC', 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 'LC', 4]
Esse é o array:  ['1' '2' 'LC' '4']


In [11]:
array.dtype

dtype('<U11')

O array converte todos os elementos para string. O numpy não aceita dados com tipos diferentes. Ter um tipo único, permite o numpy ser muito mais rápido.

### Porque usar numpy e não listas?
#### Numpy x Lists

    Tamanho - Numpy necessita de menos espaço
    Performance - escrito para ter alta performance
    Funcionalidade - SciPy e NumPy possuem operações de algebra linear built in.

<a href="https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference" target="_blank">Referência</a> 

#### Tempo de processamento

In [12]:
"""
Código comparando performance entre numpy e listas em uma soma de arrays
"""

import time
import numpy as np

size_of_vec = 100000

def pure_python_version():
    t1 = time.time()
    X = range(size_of_vec)
    Y = range(size_of_vec)
    Z = [X[i] + Y[i] for i in range(len(X)) ]
    return time.time() - t1

def numpy_version():
    t1 = time.time()
    X = np.arange(size_of_vec)
    Y = np.arange(size_of_vec)
    Z = X + Y
    return time.time() - t1


t1 = pure_python_version()
t2 = numpy_version()
print(t1, t2)
print("Numpy is in this example " + str(t1/t2) + " faster!")

0.0719594955444336 0.0009999275207519531
Numpy is in this example 71.96471149260849 faster!


#### Diferença visual

In [13]:
lista = [1, 2, 3, 4]
array = np.array([1, 2, 3, 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 3, 4]
Esse é o array:  [1 2 3 4]


Repare que no array não temos a separação por vírgulas.
<br>



### 2D arrays

Matrizes podem ser consideradas um array de 2 dimensões.
_________________________________________________________________________________

Observação:

O NumPy possui também uma estrutura, `np.matriz`, mas não é recomendado utilizá-la pela própria documentação oficial e poderá ser removida no futuro.
_________________________________________________________________________________


Para criar uma matriz, 
$$\begin{bmatrix} 9.0 & 8.0 & 7.0 \\ 6.0 & 5.0 & 4.0 \end{bmatrix}$$ <br>
basta aninhar múltiplas listas dentro de uma lista, como o exemplo a seguir:


In [14]:
b = np.array([[9.0, 8.0, 7.0],
              [6.0, 5.0, 4.0]])
print(b)

[[9. 8. 7.]
 [6. 5. 4.]]


____________
____________
**Exercício:** Crie em numpy a seguinte matriz:
$$\begin{bmatrix} 1 & 2 & 1 \\ 3 & 0 & 1 \\ 0 & 2 & 4 \end{bmatrix}$$

In [15]:
# Resposta
d = np.array([[1, 2, 1],
              [3, 0, 1],
              [0, 2, 4]])
print(d)

[[1 2 1]
 [3 0 1]
 [0 2 4]]


In [16]:
d[2]

array([0, 2, 4])

_______________
_______________

### 3D arrays

Nesse caso, teremos um tensor tridimensional que visualmente pode ser interpretado das seguintes formas:


<img src="tensor_3-2-5.png"  style="width: 500px" />

In [17]:
c = np.array([[[0,   1,  2,  3,  4], [ 5,  6,  7,  8,  9]], 
              [[10, 11, 12, 13, 14], [15, 16, 17, 18, 19]],
              [[20, 21, 22, 23, 24], [25, 26, 27, 28, 29]]])
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

### Propriedades
#### Dimensão e formato

Três conceitos importantes, já mencionados acima, são os de dimensão, formato e tamanho.

Para descobrir essas informações, basta acessar os atributos `ndim`, `shape` e `size`

In [18]:
print(a.ndim)
print(a.shape)
print(a.size)

1
(5,)
5


In [19]:
print(b.ndim)
print(b.shape)
print(b.size)

2
(2, 3)
6


In [20]:
print(c.ndim)
print(c.shape)
print(c.size)

3
(3, 2, 5)
30


### Acessando e modificando elementos (Indexing & Slicing)

Dada a matriz a abaixo:

In [21]:
a = np.array([[1, 2, 3, 4, 5, 6, 7], 
              [8, 9, 10, 11, 12, 13, 14],
            [15, 16, 17, 18, 19, 20, 21]])
print(a)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14]
 [15 16 17 18 19 20 21]]



Podemos acessar um elemento específico do vetor de forma similar a lista. A diferença é que podemos escolher um elemento específico passando os índices de linha e coluna: <br> <br>
**array[Indice_Linha, Indice_Coluna]**
<br><br>

Para uma array 2D, a sintaxe fica:


In [22]:
a[2, 4]

19

Podemos também fazer da forma **array[Indice_Linha][Indice_Coluna]** (menos comum):

In [23]:
a[2][4]

19

No caso acima, primeiro selecionamos toda a linha para depois selecionar a coluna de interesse.
<br><br><br>
Assim como nas listas, **números negativos** trazem de trás pra frente a indexação:


In [24]:
a[2, -2]

20

Para selecionar todos os dados de uma coluna específica utilizamos o `:` na posição das linhas.

Leia-se: todas as linhas, coluna 2


In [25]:
a[:, 2]

array([ 3, 10, 17])

O operador `:` também conhecido como slicing, aceita o parâmetro:

    start
    end
    step

No formato

$ [ startindex : endindex : stepsize ] $ 

O stepsize basicamente é quantos elementos deve ser pular. Podemos pegar do elemento 1 ao 6 pulando de 2 em 2 por exemplo da linha 0.


In [26]:
a[1, 0:6:2]

array([ 8, 10, 12])

Funciona com negativo também:


In [27]:
# negativo na coluna
a[0, 1:-1:2]

array([2, 4, 6])

In [28]:
# negativo no step
a[0, -1:1:-2]

array([7, 5, 3])

Para mudar um elemento específico, basta usar o operador `=`

In [29]:
a[0,2] = 99
print(a)

[[ 1  2 99  4  5  6  7]
 [ 8  9 10 11 12 13 14]
 [15 16 17 18 19 20 21]]


Mudando uma coluna inteira para ser 5:


In [30]:
a[:, 4] = 50
print(a)

[[ 1  2 99  4 50  6  7]
 [ 8  9 10 11 50 13 14]
 [15 16 17 18 50 20 21]]


Isso mostra uma característica fundamental do array do NumPy:

  *Ao alterar o pedaço da matriz recortada, você altera a matriz original enquanto slicing em listas geram cópias!*

### Cópias do array

Um dos detalhes do numpy é que se você faz um slice do array você não obtém um vetor totalmente novo. A saída é uma "view" do array original.

Esse é o mesmo conceito de que as variáveis são apenas ponteiros e que variáveis distintas podem apontar para o mesmo objeto. (<a href="https://www.practicaldatascience.org/html/exercises/%5B../python_v_r.ipynb%5D">Python v. R / Variables as Pointers tutorial</a>). No caso de slices, as duas variáveis acessam o mesmo dado, mas apresentam ele de form distinta. Por exemplo:


In [31]:
my_array = np.array([1, 2, 3, 4])
my_array

array([1, 2, 3, 4])

In [32]:
my_slice = my_array[1:3]
my_slice

array([2, 3])

Uma vez que tanto my_array quanto my_slice apontam para o mesmo dado, mudanças que fizermos em um será propagada para o outro. Se modificarmos a entrada 2 no my_slice, essa mudança irá aparecer no my_array:

In [33]:
my_slice[0] = -1
my_slice

array([-1,  3])

In [34]:
my_array

array([ 1, -1,  3,  4])

Apesar de o my_array e o my_slice estarem acessando o mesmo dado eles estão indexados diferentes. Nós mudamos o índice 0 no my_slice e a mudança no my_array foi no índice 1. <br>
O mesmo não acontece com as listas

In [35]:
x = [1, 2, 3]
y = x[0:2]
y[0] = "a change"
y

['a change', 2]

In [36]:
x

[1, 2, 3]

Caso você não queira uma view você pode fazer o slice utilizando uma lista:

In [37]:
my_array = np.array([1, 2, 3])
my_slice = my_array[[1,2]]
my_slice[0] = -1
my_array

array([1, 2, 3])

Ou utilizar uma cópia

In [38]:
my_array = np.array([1, 2, 3])
my_slice = my_array[0:2].copy()
my_slice[0] = -1
my_array
my_slice

array([-1,  2])

Esse último caso é o mais utilizado, inclusive com dataframes do pandas.

## Matemática


### Operação com escalares

In [39]:
a = np.array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

#### 1. Soma

In [40]:
a + 2

array([3, 4, 5, 6])

#### 2. Subtração:


In [41]:
a - 2

array([-1,  0,  1,  2])

#### 3. Multiplicação
______________
______________
**Exercício:**
Sabendo que a operação de multiplicação é feita por __*__ , multiplique o vetor *a* por 2.

In [42]:
a * 2

array([2, 4, 6, 8])

#### 4. Divisão
**Exercício:**
Sabendo que a operação de divisão é feita por __/__ , divida o vetor *a* por 2.

In [43]:
a / 2

array([0.5, 1. , 1.5, 2. ])

#### 5. Potência
**Exercício:**
Sabendo que a operação de potenciação é feita por __**__ , calcule o quadrado dos elementos do vetor *a*.

In [44]:
a ** 2

array([ 1,  4,  9, 16], dtype=int32)

_______________________
_______________________

#### 6. Incrementar +=

In [45]:
a += a
print(a)

[2 4 6 8]


### Operação entre arrays

Tudo que você consegue fazer com escalar, você consegue fazer com arrays elemento-a-elemento desde que os arrays tenham exatamente o mesmo tamanho, por exemplo, para soma:


In [46]:
a = np.array([1, 2, 3, 4])
b = np.array([1, 0, 1, 0])

# Exemplo de soma
a + b

array([2, 2, 4, 4])

In [47]:
# Exemplo de multiplicação
a * b

array([1, 0, 3, 0])

In [48]:
# Exemplo de potenciação
a ** b

array([1, 1, 3, 1], dtype=int32)

### Estatística

O numpy vem com várias funções básicas de estatística como mínimo, máximo, média, desvio padrão, etc.


In [49]:
stats = np.array([[1, 2, 3], [4, 5, 6]])
stats

array([[1, 2, 3],
       [4, 5, 6]])

Mínimo e máximo valor da matriz:

In [50]:
np.min(stats)

1

In [51]:
stats.min()

1

In [52]:
np.max(stats)

6

In [53]:
stats.max()

6

________________
________________
**Exercício:** encontre a média e o desvio padrão da matriz, sabendo que os métodos são representados por `np.mean()` e `np.std()`, respectivamente.

In [54]:
# média dos valores de stats
np.mean(stats)

3.5

In [55]:
stats.mean()

3.5

In [56]:
# desvio padrão dos valores de stats
np.std(stats)

1.707825127659933

In [57]:
stats.std()

1.707825127659933

In [58]:
np.median(stats)

3.5

_____________
_____________

Todas as vezes que tivermos mais de um eixo, poderemos especificar o argumento `axis`. Para `axis=0` a operação é feita **verticalmente para baixo ao longo das linhas**. Para `axis=1` a operação é realizada **horizontalmente entre as colunas**.

<img src="axis.jpg"  style="width: 300px" />

Mínimo para axis=0:


In [59]:
stats

array([[1, 2, 3],
       [4, 5, 6]])

In [60]:
np.min(stats, axis=0) 

array([1, 2, 3])

A operação será realizada ao longo dos índices.

Mínimo para axis=1:


In [61]:
np.min(stats, axis=1) 

array([1, 4])

A operação será realizada através das colunas.

_________________
_________________
**Exercício:** Realize a soma para cada linha e para cada coluna:

In [62]:
# linha
np.sum(stats, axis=1)

array([ 6, 15])

In [63]:
# coluna
np.sum(stats, axis=0)

array([5, 7, 9])

___________
___________


### Máscara Booleana e Seleção Avançada

Conceito super importante no numpy e no pandas é o de máscara booleana.

Ao utilizar qualquer operador booleano

    >
    <
    <=
    >=
    ==

o numpy retorna um array de True e False no qual ele aplicou elemento a elemento aquele operador.

Suponha a matriz abaixo:


In [64]:
mat = np.array([1, 10, 20, 30]).reshape(2, 2)
mat

array([[ 1, 10],
       [20, 30]])

Eu quero saber todos os elementos maiores que 10, eu posso aplicar:


In [65]:
mat[mat > 10]

array([20, 30])

In [66]:
mat_2 = mat > 10
mat*mat_2

array([[ 0,  0],
       [20, 30]])

O retorno é uma matriz de formato (2, 2) com True na posição dos elementos que são maiores que 10.

Os tensores booleanos podem ser usados para filtrar valores em um tensor, por exemplo:

E será retornado um array com os elementos 20 e 30 como esperado.

### Operador AND

Similar ao `and` do python, podemos usar múltiplas condições para filtrar dados da nossa matriz com o operador `&`.


In [67]:
mat

array([[ 1, 10],
       [20, 30]])

In [68]:
filt = (mat > 10) & (mat <= 25)
mat[filt]

array([20])

Observação: note que os colchetes além de melhorarem a legibilidade, são necessárias devido a ordem de precedência dos operadores python. Se não colocarmos os colchetes, dará um erro.


### Operador OR
Similar ao `or`, só que devemos utilizar `|`. <br><br>
**Exercício:** Seleciona os valores que são iguais a 1 ou maiores do que 20


In [69]:
filt = (mat == 1) | (mat > 20)
mat[filt]

array([ 1, 30])

### Operador NOT

Similar ao `not`, mas devemos utilizar um til `~`.


In [70]:
filt = (mat > 10) & (mat <= 25)
mat[~filt]

array([ 1, 10, 30])

### Atribuir valores em determinadas condições
E podemos também atribuir um valor específico aos elementos de um vetor que satisfazem uma certa condições, por exemplo zerar todos os valores negativos:


In [71]:
u = np.array([-1,  2, -3])
print("u =", u)
print()

u = [-1  2 -3]



In [72]:
u[u<0] = 0
u

array([0, 2, 0])

Também podemos usar o método `np.where(se condição, recebe valor, se não)`

In [73]:
np.where(u<0, 0, u)

array([0, 2, 0])

### Nans
Os **not a number** são representados por `np.nan`

In [74]:
a = np.array([[1, 2, 3, np.nan, 5], [np.nan, 7, 8, 9,10]])

Podemos identificar os nans com o método `np.isnan(a)`

In [75]:
np.isnan(a)

array([[False, False, False,  True, False],
       [ True, False, False, False, False]])

E para saber o total de nans podemos aplicar `np.isnan(a).sum()`

In [76]:
np.isnan(a).sum()

2

## Material de Aprofundamento

### Seleção passando listas

Podemos selecionar elementos específicos de um array passando uma lista de posições:


In [77]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

a[[1, 2, 5, 8]]

array([2, 3, 6, 9])

### Comparando arrays

In [78]:
u = np.arange(4).reshape(2,2)
v = 2*np.ones((2,2))

In [79]:
u

array([[0, 1],
       [2, 3]])

In [80]:
v

array([[2., 2.],
       [2., 2.]])

In [81]:
w = u > v
print(w)

[[False False]
 [False  True]]


In [82]:
u[u > v]

array([3])

### Reorganizar Array

Muitas vezes você quer mudar o formato de array, por exemplo, de 4 elementos pra uma matriz 2x2, ou situações similares.

Para isso, você pode utilizar a função `reshape`.


In [83]:
before = np.array([[1,2,3,4],[5,6,7,8]])
print(before.shape)
before

(2, 4)


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [84]:
after = before.reshape((4, 2)) # tem que possuir a mesma quantidade no size!
after

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [85]:
before.reshape((-1, 2)) # o -1 representa quantas linhas for preciso para ter 2 colunas

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [86]:
before.reshape(2, 2, 2)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

### Métodos .any() e .all()
Podemos fazer operações linha a linha ou coluna a coluna através de métodos auxiliares como any ou all:

    any: se qualquer elemento da linha for True, retorna True
    all: todos os elementos tem que ser True para retornar True

Exemplos:

Por coluna:


In [87]:
mat

array([[ 1, 10],
       [20, 30]])

In [88]:
np.any(mat > 10, axis=0)

array([ True,  True])

Por linha:

In [89]:
np.any(mat > 10, axis=1)

array([False,  True])

Geral:

In [90]:
np.any(mat > 10)

True

### Apendar os vetores
#### Verticalmente

In [91]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])

np.vstack([v1, v2])

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

#### Horizontalmente

De forma similar ao anterior:


In [92]:
# para arrays 1D
np.hstack((v1,v2))

array([1, 2, 3, 4, 5, 6, 7, 8])

#### para arrays 2D

In [93]:
h1 = np.ones((2, 4))
print(h1)
print()

h2 = np.zeros((2, 2))
print(h2)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[0. 0.]
 [0. 0.]]


In [94]:
np.hstack((h1, h2))

array([[1., 1., 1., 1., 0., 0.],
       [1., 1., 1., 1., 0., 0.]])

### Números aleatórios
#### Números decimais aleatórios

O numpy tem um sub-módulo chamado random, que pode ser acessando via `np.random`. Embora o Python possua uma biblioteca padrão também chamada `random`, a biblioteca do *NumPy tem mais funcionalidades e gera diretamente vetores aleatórios*.

Cria um vetor segundo uma distribuição uniforme no intervalo [0,1):


In [95]:
np.random.rand(4, 2)

array([[0.20435567, 0.53963573],
       [0.67646948, 0.24990504],
       [0.85280421, 0.60067942],
       [0.0895933 , 0.26383574]])

Cria um vetor em que cada elemento segue uma distribuição normal com $\mu=10.0$ e $\sigma=1.0$

In [96]:
v = np.random.normal(10, 1, (4,4))
print(v)


[[ 8.90177044  8.38611841  9.46656756 10.73143069]
 [10.87370328 11.17128129  8.10831009 10.55326922]
 [10.62045607  9.99338477 10.90592135  9.56675042]
 [10.47265633 10.64008953  9.02551241 10.48323005]]


#### Números aleatórios inteiros:


Os argumentos principais são low, high e size, exemplo: criando uma matriz de 0 a 99 de 100 elementos:


In [97]:
np.random.randint(low=0, high=100, size=100)


array([75, 28, 47, 16, 12, 28, 95, 61, 12, 92, 24, 22, 99, 48, 34, 48, 83,
       37, 94, 36, 80, 64, 35, 36, 17, 65, 61, 83, 86, 73, 42, 46, 63, 56,
        8, 31, 81, 82,  4, 83, 75,  7, 54, 72, 79, 52, 73, 12, 94, 49, 79,
       14, 89, 79, 28,  5, 62, 38, 76, 45, 97,  1,  9, 24, 74, 74, 62, 99,
       68, 37, 61, 51, 66, 22, 79, 11, 24, 93, 45, 41, 32, 16, 25, 25, 59,
       39, 85, 58, 45,  0, 61, 27, 92, 99, 42, 58, 78, 53,  2, 46])

Para incluir o 100, basta trocar o high por 101

In [98]:
np.random.randint(7, size=(3, 3))

array([[5, 1, 0],
       [0, 4, 0],
       [2, 1, 3]])

Note que toda vez que rodarmos o código, os tensores terão valores diferentes. Podemos evitar esse comportamento, de forma que toda vez que o código é executado o tensor aleatório tenha o mesmo valor por meio da função seed, cujo argumento é a semente para o gerador de números aleatórios do Python:

In [99]:
np.random.seed(1000)
v = np.random.rand(4)
print(v)

np.random.seed(1000)
v = np.random.rand(4)
print(v)


[0.65358959 0.11500694 0.95028286 0.4821914 ]
[0.65358959 0.11500694 0.95028286 0.4821914 ]


### Inicializando arrays usando métodos internos

O NumPy já possui diversos métodos built-in para gerar arrays dos mais diversos tipos
array apenas com zeros

In [100]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

É possível gerar um array de qualquer formato, basta apenasr passar o formato como uma sequência (lista, tupla geralmente) como argumento


In [101]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [102]:
np.zeros((2, 2, 3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

array apenas com 1

In [103]:
np.ones((4, 2, 2), dtype='int32')

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]])

Um coisa muito comum é usar o np.ones para criar uma matriz de qualquer número fazendo a operação, exemplo:

In [104]:
np.ones((2, 2)) * 10

array([[10., 10.],
       [10., 10.]])

Mas o numpy já tem uma opção mais elegante, o full:


In [105]:
np.full((2, 2), 99)

array([[99, 99],
       [99, 99]])

Qualquer outro número copiando o formato de uma matriz existente


In [106]:
np.full_like(c, 4)

array([[[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]]])

### Criar ranges

#### arange

Método que retorna elementos igualmente espaçados num step (por padrão, 1) dentro de um certo intervalo.


In [107]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Step diferente de 1:


In [108]:
np.arange(0, 5, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

#### linspace

Parecido com o arange, mas você diz quantos pontos você quer e o intervalo e ele define o espaçamento linear


In [109]:
np.linspace(0, 100, num=10, retstep=True)


(array([  0.        ,  11.11111111,  22.22222222,  33.33333333,
         44.44444444,  55.55555556,  66.66666667,  77.77777778,
         88.88888889, 100.        ]),
 11.11111111111111)

#### logspace
Retorna números espaçados igualmente na escala log.


In [110]:
np.logspace(0, 100, num=10, base=2.0)

array([1.00000000e+00, 2.21196235e+03, 4.89277742e+06, 1.08226394e+10,
       2.39392709e+13, 5.29527657e+16, 1.17129524e+20, 2.59086096e+23,
       5.73088689e+26, 1.26765060e+30])

### Funções matemáticas
O NumPy oferece diversas funções matemáticas clássicas, como exponencial, logaritmo, seno, cosseno etc. Essas funções são aplicadas a todos os elementos do array
##### Função seno:

In [111]:
np.sin(a)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427,
       -0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849])

##### Função cosseno

In [112]:
np.cos(a)

array([ 0.54030231, -0.41614684, -0.9899925 , -0.65364362,  0.28366219,
        0.96017029,  0.75390225, -0.14550003, -0.91113026])

#### Exponencial

In [113]:
np.exp(a)

array([2.71828183e+00, 7.38905610e+00, 2.00855369e+01, 5.45981500e+01,
       1.48413159e+02, 4.03428793e+02, 1.09663316e+03, 2.98095799e+03,
       8.10308393e+03])

#### Log

In [114]:
np.log(a)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791,
       1.79175947, 1.94591015, 2.07944154, 2.19722458])

### Funcionalidades extras
#### Carregar dados de um arquivo

Vamos supor que temos um arquivo data.txt com o seguinte conteúdo:

1,13,21,11,196,75,4,3,34,6,7,8,0,1,2,3,4,5 <br>
3,42,12,33,766,75,4,55,6,4,3,4,5,6,7,0,11,12 <br>
1,22,33,11,999,11,2,1,78,0,1,2,9,8,7,1,76,88 <br>

Podemos gerar uma matriz a partir desse arquivo da seguinte forma:


In [115]:
filedata = np.genfromtxt('data.txt', delimiter=',')
filedata

array([[  1.,  13.,  21.,  11., 196.,  75.,   4.,   3.,  34.,   6.,   7.,
          8.,   0.,   1.,   2.,   3.,   4.,   5.],
       [  3.,  42.,  12.,  33., 766.,  75.,   4.,  55.,   6.,   4.,   3.,
          4.,   5.,   6.,   7.,   0.,  11.,  12.],
       [  1.,  22.,  33.,  11., 999.,  11.,   2.,   1.,  78.,   0.,   1.,
          2.,   9.,   8.,   7.,   1.,  76.,  88.]])

O primeiro argumento é o nome do arquivo.

No segundo argumento, delimiter, você especifica o que separa cada número individualmente no arquivo. Nesse caso é a vírgula, mas podería ser ;, espaços, ou tabs.

Podemos notar também que o numpy converteu para float nossos números, apesar de todos serem inteiros. Ele faz isso como uma medida preventiva dado que ele não sabe ao ler o arquivo qual tipo de dado que é.

Podemos importar os dados com um formato especificado usando o argumento `dtype='int'` ou podemos converter manualmente para inteiro usando a função astype:

In [116]:
filedata.astype('int32')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]])

Também podemos avisar o numpy quais são nossas colunas de interesse com o argumento `usecols`

In [117]:
np.genfromtxt('data.txt', delimiter=',', usecols=[0,1,2,3], dtype='int')

array([[ 1, 13, 21, 11],
       [ 3, 42, 12, 33],
       [ 1, 22, 33, 11]])

Podemos também salvar uma matriz de uma forma mais otimizada não textual (binária) para uso futuro.

Isso gera um arquivo binário que inclusive salva o tipo de dado, nesse caso, int32.

Quando lido, vai converter corretamente o tipo daquele dado.



In [118]:
np.save('data_saved', filedata.astype('int32'))


Para ler os dados que acabamos de salvar, basta usar o `np.load`:


In [119]:
np.load('data_saved.npy')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]])

### Álgebra Linear

Da definição do Wikipédia:

    Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares, sejam elas algébricas ou diferenciais. A álgebra linear utiliza alguns conceitos e estruturas fundamentais da matemática como vetores, espaços vetoriais, transformações lineares, sistemas de equações lineares e matrizes.

O numpy nos permite executar diversas diversas operações de álgebra linear, mostradas a seguir:


In [120]:
a = np.ones((2, 3))
print(a)
print()

b = np.full((3, 2), 2)
print(b)
print()

c = np.identity(5)
print(c)

[[1. 1. 1.]
 [1. 1. 1.]]

[[2 2]
 [2 2]
 [2 2]]

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


##### Transposição

<img src="transposicao.png"  style="width: 400px" />

A operação de transposição pode ser feita da seguinte forma:

In [121]:
np.transpose(a)

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Ou acessando o atributo T:

In [122]:
a.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

#### Multiplicação de matrizes

A tradicional multiplicação de matrizes, como mostra a imagem abaixo:

<img src="multiplicacao.gif"  style="width: 400px" />

pode ser feita no numpy simplesmente chamando `matmul`


In [123]:
np.matmul(a, b)

array([[6., 6.],
       [6., 6.]])

Operador `@` executa a função anterior:


In [124]:
a @ b

array([[6., 6.],
       [6., 6.]])

Se utilizarmos o símbolo * teremos a múltiplicação elemento à elemento e precisaremos de matrizes de mesmo tamanho

In [125]:
a = np.array([[1, 2], [3, 2]])
b = np.array([[4, 5], [2, 1]])
print(a)
print()
print(b)
a * b

[[1 2]
 [3 2]]

[[4 5]
 [2 1]]


array([[ 4, 10],
       [ 6,  2]])

Outras funcções de Álgebra Linear: https://docs.scipy.org/doc/numpy/reference/routines.linalg.html

    Trace
    Decomposição de vetores
    Autovalor/autovetor
    Norma da Matriz
    Inversa
    Etc...


Referências   <br>
<a href="https://github.com/numpy/numpy" target="_blank">NumPy GitHub</a>  <br>
<a href="https://docs.scipy.org/doc/numpy/reference/" target="_blank">Documentação oficial</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.math.html" target="_blank">Funções matemáticas</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.linalg.html" target="_blank">Funções de Álgebra Linear</a>   <br>
<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Outros</a> 
    

## Outros tópicos
* Broadcasting: operações com vetores de dimensões distintas

<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Referência</a> 

## Exercícios

1 - Selecione todos os valores ímpares do seguinte array:  <br>
array = [1, 2, 3, 4, 5, 6, 7, 8, 9] <br>


In [126]:
import numpy as np
array = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
array[array % 2 == 1]

array([1, 3, 5, 7, 9])

2 - Substitua os valores ímpares do seguinte array por 0:  <br>
array = [1, 2, 3, 4, 5, 6, 7, 8, 9] <br>


In [127]:
import numpy as np
array = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
np.where(array % 2 == 1, 0, array)


array([0, 2, 0, 4, 0, 6, 0, 8, 0])

3 - Considere o dataset da iris disponível em: 
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'<br> 
Nesse dataset temos as seguintes informações:<br> 
   * Coluna 1. sepal length em cm<br> 
   * Coluna 2. sepal width em cm<br> 
   * Coluna 3. petal length em cm<br> 
   * Coluna 4. petal width em cm<br> 
   * Coluna 5. classe: 
                -- Iris Setosa 
                -- Iris Versicolour 
                -- Iris Virginica 
                
Utilizando o método `np.genfromtxt()`, importe as 4 primeiras colunas do dataset do íris e print as 10 primeiras linhas <br>

In [139]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

iris[0:10, :]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

4 - Calcule a média, mediana e desvio padrão da coluna sepallenght

In [142]:
iris[:, 0].mean()

5.843333333333334

In [144]:
np.median(iris[:, 0])

5.8

In [145]:
iris[:, 0].std()

0.8253012917851409

5 - Filtre a matriz para conter apenas dados nos quais petallength (3ª coluna) > 1.5 e sepallength (1ª coluna) < 5.0

In [150]:
filt = (iris[:, 2] > 1.5) & (iris[:, 0] < 5)
iris[filt]

array([[4.8, 3.4, 1.6, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 2.4, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7]])

6 - Esse dataset possui nans?

In [152]:
np.isnan(iris).sum()

0

7 - Crie uma coluna de volume sabendo que ele pode ser calculado por (pi x petallength x sepal_length^2)/3

In [175]:
np.set_printoptions(precision=2, suppress= True )
a = (np.pi * iris[:, 2] * (iris[:, 0] ** 2))/3
a = np.reshape(a, (150, 1))
iris = np.hstack((iris, a))
print(iris)



[[  5.1    3.5    1.4    0.2   38.13  38.13]
 [  4.9    3.     1.4    0.2   35.2   35.2 ]
 [  4.7    3.2    1.3    0.2   30.07  30.07]
 [  4.6    3.1    1.5    0.2   33.24  33.24]
 [  5.     3.6    1.4    0.2   36.65  36.65]
 [  5.4    3.9    1.7    0.4   51.91  51.91]
 [  4.6    3.4    1.4    0.3   31.02  31.02]
 [  5.     3.4    1.5    0.2   39.27  39.27]
 [  4.4    2.9    1.4    0.2   28.38  28.38]
 [  4.9    3.1    1.5    0.1   37.71  37.71]
 [  5.4    3.7    1.5    0.2   45.8   45.8 ]
 [  4.8    3.4    1.6    0.2   38.6   38.6 ]
 [  4.8    3.     1.4    0.1   33.78  33.78]
 [  4.3    3.     1.1    0.1   21.3   21.3 ]
 [  5.8    4.     1.2    0.2   42.27  42.27]
 [  5.7    4.4    1.5    0.4   51.04  51.04]
 [  5.4    3.9    1.3    0.4   39.7   39.7 ]
 [  5.1    3.5    1.4    0.3   38.13  38.13]
 [  5.7    3.8    1.7    0.3   57.84  57.84]
 [  5.1    3.8    1.5    0.3   40.86  40.86]
 [  5.4    3.4    1.7    0.2   51.91  51.91]
 [  5.1    3.7    1.5    0.4   40.86  40.86]
 [  4.6   

## Mais coisas interessantes...


#### Tipo de dado e tamanho

Na sessão Checando o tipo de dados do array já foi dito dos tipos de dados, mas agora falaremos da diferença de tamanhos que isso ocupa na memória.

Então, temos as variáveis a e b criadas anteriormente com os seguintes tipos:


In [129]:
a.dtype

dtype('int32')

In [130]:
b.dtype

dtype('int32')


Por padrão, se o python instalado é 64 bits, ele irá criar tipos int ou float de 64 bits. Caso seu python fosse 32 bits, seria int32 e float32.

Vamos criar uma outra array, a16, com o tipo inteiro de 16 bits.


In [131]:
a16 = np.array([1, 2, 3], dtype=np.int16)
a16


array([1, 2, 3], dtype=int16)

Note que por ser um tipo diferente do padrão, ele ressalta ao imprimir.

Para descobrir quanto cada elemento individualmente ocupa na memória, podemos acessar o atributo itemsize:


In [132]:
a.itemsize

4


Ele retorna 8 e não 64! Isso é porque ele já converteu os bits para bytes. Bytes é o conjunto de 8 bits.

Logo:

$ 64/8=8 $

Já nosso array int16, temos:


In [133]:
a16.itemsize

2

Uma vez que:

$ 16/8 = 2 $

In [134]:
# quantidade de elementos total
a.size

4

Quantidade de elementos vezes o tamanho de cada elemento nos dará o tamanho total de bytes que o array inteiro ocupa:


In [135]:
a.size * a.itemsize

16


Mas ao invés de calcular isso, podemos simplesmente acessar o atributo `nbytes`, que já é o tamanho total de bytes ocupado pelo array:


In [136]:
a.nbytes

16

**Observação**

Geralmente não é necessário reduzir o número de bits a não ser que você tenha certeza que um tamanho reduzido vai atender sua necessidade e você quer ser extremamente eficiente.
