# NumPy

Esse notebook contém um resuo de todo o material já estudado sobre a biblioteca NumPy. <br>
Documentação oficial em https://numpy.org/doc/


## Definição: o que é NumPy?
> NumPy é uma biblioteca para manipulação de vetores e matrizes, possuindo várias funções para lidar com esses dados. A biblioteca é muito eficiente e é usada como base para diversar outras bibliotecas de ciência de dados em Python. 


Numpy é a abreviação de Numerical Python e é um dos pacotes mais importantes para processamento numérico em Python. O pacote Numpy possui um poderoso objeto array multidimensional, que nos permite realizar um conjunto bastante amplo de operações numéricas, sem a necessidade de utilização de laços for, por exemplo.

Esses tipos de cálculos numéricos são amplamente utilizados em tarefas como:

* `Tarefas matemáticas`: NumPy é bastante útil para executar várias tarefas matemáticas como integração numérica, diferenciação, interpolação, extrapolação e muitas outras. O NumPy possui também funções incorporadas para álgebra linear e geração de números aleatórios. É uma biblioteca que pode ser usada em conjuto do <a href='https://github.com/scipy/scipy'>SciPy</a> e Matplotlib, substituindo o MATLAB quando se trata de tarefas matemáticas.

* `Processamento de Imagem e Computação Gráfica`: Imagens no computador são representadas como Arrays Multidimensionais de números. NumPy torna-se a escolha mais natural para o mesmo. O NumPy, na verdade, fornece algumas excelentes funções de biblioteca para rápida manipulação de imagens. Alguns exemplos são o espelhamento de uma imagem, a rotação de uma imagem por um determinado ângulo etc.

* `Modelos de Machine Learning`: Ao escrever algoritmos de Machine Learning, supõe-se que se realize vários cálculos numéricos em Array. Por exemplo, multiplicação de Arrays, transposição, adição, etc. O NumPy fornece uma excelente biblioteca para cálculos fáceis (em termos de escrita de código) e rápidos (em termos de velocidade). Os Arrays NumPy são usados para armazenar os dados de treinamento, bem como os parâmetros dos modelos de Machine Learning.

<br>

Uma curiosidade é que essa biblioteca foi feita em C++, o que faz com que ela  faz com que ela seja muito eficiente.




## Instalando


Em geral a biblioteca NumPy pode ser instalada utilizando o comando pip, que é o gerenciador de pacotes do Python, no terminal de comando do ambiente de programação desejado, por meio da execução: <br>

> `pip install numpy`
<br>

**OBS:** Alguns ambientes de programação, como o Anaconda, ao serem instalados já instalam automaticamente alguns pacotes que considerem populares entre os desenvolvedores, como é o caso do NumPy.


Após a instalação do biblioteca, é necessário importar o pacote, utilizando o comando *import* :



In [1]:
# É comum importar o numpy como np, sendo np um "apelido", para facilitar na hora de chamar o pacote
import numpy as np

# Arrays

Arrays são a generalização de vetores e matrizes com qualquer número de dimensões. O `np.array` é o elemento central do NumPy, e é com eles que precisamos saber trabalhar.
<br> <br>

>**Atenção: Diferente das listas do Python, que podem conter tipos variados em uma mesma sequência, arrays Numpy suportam somente um tipo de dado por vez.**

<br>

Um array numpy pode ter qualquer número de dimenções: <br>
![image](https://user-images.githubusercontent.com/71708626/140618946-1b11f657-be9b-4961-9345-18957d920972.png)


Os arrays tem uma dimensão e uma tamanho em cada uma dessas dimenções. Cada dimensão é identificada por um eixo (*axis*) como podemos ver na imagem.

E uma das formas que podemos pensar nesses arrays, é que são um conjuntos de lista dentro de lista, dependendo da dimensão da array.

![](https://i2.wp.com/indianaiproduction.com/wp-content/uploads/2019/06/Python-NumPy-Tutorial.png?resize=768%2C432&ssl=1)

Sendo que no caso temos:
- 1D: uma única linha (vetor).

- 2D: listas de uma lista (matriz).

- 3D: uma listas de listas de uma lista (tensor).

## 1D arrays

Array unidimensional, também chamado de vetor ou até mesmo matriz de 1 dimensão, porque um vetor é uma matriz com uma única dimensão (não há diferença entre os vetores linha e coluna),


![image](https://user-images.githubusercontent.com/71708626/140643100-eee082a8-c3e5-49aa-8cb1-55471274ad82.png)

In [None]:
a = np.array([2, 3, 5, 7, 11])
a

array([ 2,  3,  5,  7, 11])

In [None]:
# O atributo ndim do array guarda seu número de dimenções
a.ndim

1

In [None]:
# O shape (formato) do array é um atributo ainda mais importante
a.shape

(5,)

In [None]:
# Podemos acessar um entrada do array como fizemos com listas
a[2]

5


## 2D arrays

Matrizes podem ser consideradas um array de 2 dimensões.

Para criar uma matriz, basta alinhar múltiplas listas dentro de uma lista.

![image](https://user-images.githubusercontent.com/71708626/141093648-d573ba18-a7b3-46e1-bd7e-3ba3d78da7c6.png)


> Nota: O NumPy possui também uma estrutura, matriz, mas não é recomendado utilizá-la pela própria documentação oficial e poderá ser removida no futuro.



In [None]:
b1 = np.array([[9, 8, 7],
              [6, 5, 4]])
b1

array([[9, 8, 7],
       [6, 5, 4]])

In [None]:
# Criando uma matriz
b2 = np.array([[10, 20], 
              [30, 40], 
              [50, 60]])
b2

array([[10, 20],
       [30, 40],
       [50, 60]])

In [None]:
b3 = np.array([["AA", "a"], 
              ["BB", "b"], 
              ["CC", "c"]])

b3

array([['AA', 'a'],
       ['BB', 'b'],
       ['CC', 'c']], dtype='<U2')

In [None]:
# Visualizando número de dimensões e shape
print(b1.ndim)
print(b1.shape)
print ()
print(b2.ndim)
print(b2.shape)
print ()
print(b3.ndim)
print(b3.shape)

2
(2, 3)

2
(3, 2)

2
(3, 2)


In [None]:
# Agora precisamos informar a posição em cada eixo para acessar elementos
b2[2, 1]

60

## 3D arry

![image](https://user-images.githubusercontent.com/71708626/140619619-0f716c45-f959-4e0c-b65d-f7d979919b35.png)

In [None]:
c = np.array([[[0,   1,  2,  3,  4], [ 5,  6,  7,  8,  9]], 
              [[10, 11, 12, 13, 14], [15, 16, 17, 18, 19]],
              [[20, 21, 22, 23, 24], [25, 26, 27, 28, 29]]])
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

In [None]:
print(c.ndim)
print(c.shape)


3
(3, 2, 5)




---


**Qual o shape de uma imagem em tons de cinza de tamanho 200x200? E de uma imagem RGB do mesmo tamanho?**

![image](https://user-images.githubusercontent.com/71708626/140719837-e1c7d45f-94a2-4b88-8065-f411c52b454f.png)

 Tons de cinza  shape (200, 200) -> 2D
 
 Colorido shape (200, 200, 3) -> 3D


Exemplo de array de uma imagem branca e preta ( ou escala de cinza)

![](https://i0.wp.com/indianaiproduction.com/wp-content/uploads/2019/06/Python-NumPy-Tutorial-for-machine-learning-data-science-1.png?w=589&ssl=1)



---



## Propriedades
Dois conceitos importantes já mencionados acima é o de dimensão, formato e tamanho.

Para descobrir essas informações, basta acessar os atributos `ndim`, `shape` e `size`

In [None]:
# Visualizando número de dimensões e shape
print(b1.ndim)
print(b1.shape)
print ()
print(b2.ndim)
print(b2.shape)
print ()
print(b3.ndim)
print(b3.shape)

In [None]:
a.size

Outra propriedade muito importante é  verificar o tipo do array e do dado da array

In [None]:
# para ter certeza que é uma arry podemos utilizar o type
type(a)

numpy.ndarray

- o nd significa n-dimensional


Já para verificar o tipo do dado que e stá em uma array podemos utilizar o método .dtype

Sendo que diversos tipos de dados são possíveis em um array numpy, os mais comuns são os numéricos:

    int32
    int64
    float32
    float64


In [None]:
a.dtype

dtype('int64')

Outros atributo importante é das arrays é a transposição

In [None]:
# Retorna o array transposto, isto é, converte linhas em colunas e vice versa.
a.T

In [None]:
# equivalente ao .T
a.transpose()

 Transformar array em lista 

In [None]:
#Retorna o array como uma lista Python.
a.tolist()

## Gerando arrays
Apesar de podemos criar array passando lista  para a função, o NumPy possui funções convenientes para criar novos arrays

Sintax:<br>
`numpy.array(object, dtype=None, copy=True, order=’K’, subok=False, ndmin=0)`

<br>
O NumPy já possui diversos métodos built-in para gerar arrays dos mais diversos tipos
array, como:<br>

- .zeros()
- .ones()
- .radom()
- .randint()
- .arange()
- .linspace()
- .full()
- .full_like

Exemplo: 

- vetor 

![image](https://user-images.githubusercontent.com/71708626/140766483-c86725df-866e-4dfa-9316-8c2a25b66c29.png)

- matriz

![image](https://user-images.githubusercontent.com/71708626/140766614-d7724a54-b164-4672-bcf4-fd4fa6531fa7.png)


In [None]:
# Cria um array só com zeros com shape (2,2)
np.zeros((2,2))

In [None]:
# Cria um array só com uns com shape (2,2)
np.ones((2,2))

In [None]:
#  uma opção mais elegante, o full:
np.full((2, 2), 99)

array([[99, 99],
       [99, 99]])

In [None]:
#Qualquer outro número copiando o formato de uma matriz existente
np.full_like(c, 4)

array([[[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]]])

### Números aleatórios

**Números decimais aleatórios**

O numpy tem um sub-módulo chamado random, que pode ser acessando via `np.random`. Embora o Python possua uma biblioteca padrão também chamada `random`, a biblioteca do *NumPy tem mais funcionalidades e gera diretamente vetores aleatórios*.

Cria um vetor segundo uma distribuição uniforme no intervalo [0,1):


In [None]:
# Cria um array de shape (3,2) com valores aleatórios
np.random.random((3,2))

In [None]:
np.random.rand(4, 2)

array([[0.8661448 , 0.96840966],
       [0.79147379, 0.94636278],
       [0.30136096, 0.97361588],
       [0.81137742, 0.05973048]])

Cria um vetor em que cada elemento segue uma distribuição normal com $\mu=10.0$ e $\sigma=1.0$

In [None]:
np.random.normal(10, 1, (4,4))

[[11.01987533  9.07737589 10.98417556  8.90244707]
 [11.66602814  9.44655461  9.8162007   8.45112522]
 [ 9.83955995  9.50453607 10.6776809   6.69545515]
 [ 9.63018306 10.44877752 10.94868592 11.17725156]]


**Números aleatórios inteiros**


Os argumentos principais são low, high e size, exemplo: criando uma matriz de 0 a 99 de 100 elementos:


In [None]:
np.random.randint(low=0, high=101, size=100)


array([ 90,  87,  41,  41, 100,  31,  95,   2,   5,  57,   5,  17,  52,
         2,  71,  29,  51,   9,   1,  16,  72,  37,  89,  82,  58,  82,
        70,  76,  39,  15,  65,  25,   2,  86,   2,  82,  45, 100,  92,
        11,  99,  31,  53,  44,  53,  20,  99,  50,  47,  45,  79,  79,
         9,  79,   8,  18,  75,  53,  75,   7,  59,  52,   6,  84,  89,
        79,  66,  46,  42,  57,  46,  70,  20,  46,  70,  86,  45,   0,
        52,  62,  11, 100,  91,  57,  38,  51,  41,  69,  16,  40,  82,
        11,  38,  29,  20,  31,  42,   6,   0,  64])

Para incluir o 100, basta trocar o high por 101

In [None]:
# Cria um array com valores aleatorios inteiros (20 é o valor maxímo)
np.random.randint(20, size=(3,2))

In [None]:
np.random.randint(7, size=(3, 3))

array([[0, 2, 5],
       [0, 3, 5],
       [6, 6, 1]])

Note que toda vez que rodarmos o código, os tensores terão valores diferentes. Podemos evitar esse comportamento, de forma que toda vez que o código é executado o tensor aleatório tenha o mesmo valor por meio da função seed, cujo argumento é a semente para o gerador de números aleatórios do Python:

In [None]:
np.random.seed(1000)
v = np.random.rand(4)
print(v)

np.random.seed(1000)
v = np.random.rand(4)
print(v)


[0.65358959 0.11500694 0.95028286 0.4821914 ]
[0.65358959 0.11500694 0.95028286 0.4821914 ]


### Ranges

#### arange

Método que retorna elementos igualmente espaçados num step (por padrão, 1) dentro de um certo intervalo.


In [None]:
# Cria um vetor de 0 a 4
np.arange(5)

In [None]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Step diferente de 1:


In [None]:
np.arange(0, 5, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

**linspace**

Parecido com o arange, mas você diz quantos pontos você quer e o intervalo e ele define o espaçamento linear


In [2]:
#para criar uma matriz com valores que são espaçados linearmente em um intervalo especificado
np.linspace(0, 10, num=5)

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [18]:
np.linspace(0, 100, num=6).reshape(3,2)

array([[  0.,  20.],
       [ 40.,  60.],
       [ 80., 100.]])

In [None]:
np.linspace(0, 100, num=10, retstep=True)

(array([  0.        ,  11.11111111,  22.22222222,  33.33333333,
         44.44444444,  55.55555556,  66.66666667,  77.77777778,
         88.88888889, 100.        ]),
 11.11111111111111)

**logspace ** 
Parecido com o linespace, o logspace retorna números espaçados igualmente em uma escala log.

In [None]:
np.logspace(0, 100, num=10, base=2.0)

array([1.00000000e+00, 2.21196235e+03, 4.89277742e+06, 1.08226394e+10,
       2.39392709e+13, 5.29527657e+16, 1.17129524e+20, 2.59086096e+23,
       5.73088689e+26, 1.26765060e+30])

### A partir de dados externos
Par fazer i import de dados externos tenho duas funções pra fazer isso  a `np.loadtxt()` e a `np.genfromtxt()`
<br>

`np.loadtxt` e `np.genfromtxt` são funções equivamentes, sendo que a numpy.loadtxt é para quando não quando nenhum dado está faltando. <br>
EX: se eu tiver um arquivo csv com uma coluna em branco entre duas colunas contendo dados, eu não deve `np.loadtxt`


O uso de `np.genfromtxt `oferece algumas opções, como os parâmetros missing_values, fill_values, que podem a lidar com um csv incompleto. Exemplo:

1,2 ,,, 5






**np.loadtxt()**

sintax: 
`np.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None)`

In [None]:
km = np.loadtxt(fname = 'carros-km.txt', dtype = int)

**np.genfromtxt()**


sintax:`np.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes', *, like=None)`

In [None]:
filedata = np.genfromtxt('data.txt', delimiter=',')

### A partir de dados existentes

Pode-se facilmente criar um novo array a partir de uma seção de um array existente.

In [None]:
a = np.array([1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Podemos criar uma nova matriz a partir de uma seção de sua matriz a qualquer momento, especificando onde deseja dividir a matriz.

In [None]:
# seção de sua matriz da posição de índice 3 até a posição de índice 8. - PROPRIEDADE DE SLICE
arr1 = a[3:8]
arra1

**Apendar os vetores**
Também podemos empilhar duas matrizes existentes, tanto vertical quanto horizontalmente, para criar uma nova array


In [None]:
a1 = np.array([[1, 1], [2, 2]])

a2 = np.array([[3, 3], [4, 4]])

In [None]:
# Você pode empilhá-los verticalmente com vstack:
b =np.vstack((a1, a2))
b

array([[1, 1],
       [2, 2],
       [3, 3],
       [4, 4]])

In [None]:
# Ou empilhá-los horizontalmente com hstack:
c = np.hstack((a1, a2))
c

array([[1, 1, 3, 3],
       [2, 2, 4, 4]])

É possivel dividir um array em vários arrays menores usando `hsplit`. 
Basta especificar o número de matrizes de formato igual a serem retornadas ou as colunas após as quais a divisão deve ocorrer.

In [None]:
x = np.arange(1, 25).reshape(2, 12)
x

In [None]:
#Se você quisesse dividir essa matriz em três matrizes de formato igual, você executaria:
np.hsplit(x, 3)

In [None]:
#Se você quiser dividir sua matriz após a terceira e a quarta colunas, execute:
np.hsplit(x, (3, 4))

## Indexing & Slicing

Podemos acessar um elemento específico de forma similar a lista, utilzando a sintaxe de colchetes, com a diferença de que podemos separar cada posição com vírgulas: <br>
`array[IndiceLinha, IndiceColuna]`





In [None]:
a =np.array([[1, 2], [3, 4], [5, 6]])

![image](https://user-images.githubusercontent.com/71708626/140764782-82d03b85-98f6-4775-854d-d1fa86b39e05.png)

In [None]:
a[0,1]

2

Usar números negativos funciona de trás pra frente a indexação:


In [None]:
a[1, -1]

4

Para pegar uma linha específica, podemos utilizar a sintaxe  `:` que pode ser lida como "todos" daquela dimensão (colunas).

Podemos ler então como: linha um, todas as colunas


In [None]:
a[1:2]

array([[3, 4]])

In [None]:
a[1:2, :]

array([[3, 4]])

Também podemos fazer assim simplesmente:


In [None]:
a[1]

array([ 8,  9, 10, 11, 12, 13, 14])

Porém, para coluna específica não tem jeito, precisamos usar `:`.

Leia-se: todas as linhas, coluna 2


In [None]:
a

array([1, 2, 3, 4])

In [None]:
a[:, 2]

O operador `:` aceita o parâmetro:

    start
    end
    step

No formato

`[ startindex : endindex : stepsize ]`

O stepsize basicamente é quantos elementos deve ser pular. Podemos pegar do elemento 1 ao 6 pulando de 2 em 2 por exemplo da linha 0.


In [None]:
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [None]:
a[0, 1:6:2]

array([2, 4, 6])

Funciona com negativo também:


In [None]:
# negativo na coluna
a[0, 1:-1:2]

array([2, 4, 6])

In [None]:
# negativo no step
a[0, -1:1:-2]

array([7, 5, 3])

## Modificando elementos

Para mudar um elemento específico, basta usar o operador `=`

In [None]:
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [None]:
a[1,5] = 20
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 20, 14],
       [15, 16, 17, 18, 19, 20, 21]])

Mas, se trocarmos para ponto flutuante, o numpy irá truncar a parte decimal, dado que o array que criamos é inteiro.

In [None]:
a[0] = 1.2
print(a)

E se quisermos um dos elementos sendo um texto como fazíamos com as listas?

In [None]:
lista = [1, 2, 'LC', 4]
array = np.array([1, 2, 'LC', 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 'LC', 4]
Esse é o array:  ['1' '2' 'LC' '4']


In [None]:
np.array([[1,2,1.4,4], [2,'lc',4,5]])

array([['1', '2', '1.4', '4'],
       ['2', 'lc', '4', '5']], dtype='<U32')

O array converte todos os elementos para string. O numpy não aceita dados com tipos diferentes. Ter um tipo único, permite o numpy ser muito mais rápido.

Mudando uma coluna inteira para ser 5:


In [None]:
a[:, 2] = 555
print(a)

[[  1   2 555   4   5   6   7]
 [  8   9 555  11  12  20  14]
 [ 15  16 555  18  19  20  21]]


In [None]:
a[0]

array([  1,   2, 555,   4,   5,   6,   7])

Isso mostra uma característica fundamental do array do NumPy:

Ao alterar o pedaço da matriz recortada, você altera a matriz original enquanto slicing em listas geram cópias!

In [None]:
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [None]:
matriz = np.array([[1, 2,3, 4, 5, 6, 7], 
              [8, 9, 10],
            [15, 16, 17, 18, 19, 20, 21]], dtype=object)

In [None]:
matriz

array([list([1, 2, 3, 4, 5, 6, 7]), list([8, 9, 10]),
       list([15, 16, 17, 18, 19, 20, 21])], dtype=object)

## Reorganizar Array

Muitas vezes é necessário mudar o formato de array, por exemplo, de 4 elementos pra uma matriz 2x2, ou situações similares.

Para isso, você pode utilizar a função `reshape`.


In [None]:
before = np.array([[1,2,3,4],[5,6,7,8]])
print(before.shape)
before

(2, 4)


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
after = before.reshape((4, 2)) # tem que possuir a mesma quantidade no size!
after

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
before.reshape((-1, 2)) # o -1 representa quantas linhas for preciso para ter 2 colunas

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
before.reshape(2, 2, -1)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

Posso também utilizar algumas configurações para o reshape "C" e "F"

In [None]:
before.reshape((4, 2), order = "C")

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
before.reshape((4, 2), order = "F")

array([[1, 3],
       [5, 7],
       [2, 4],
       [6, 8]])

## Cópias do array

Um dos detalhes do numpy que pode facilmente levar à problemas é que se você faz um slice do array você não obtém um vetor totalmente novo. Ele é uma **view** do array original o que significa que eles compartilham dos mesmos dados (uma cópia superficial).

>Esse é o mesmo conceito de que as variáveis são apenas ponteiros e que variáveis distintas podem apontar para o mesmo objeto.

As funções NumPy, bem como operações como indexação e divisão, retornarão visualizações sempre que possível. Isso economiza memória e é mais rápido (nenhuma cópia dos dados precisa ser feita). No entanto, é importante estar ciente disso - modificar dados em uma visualização também modifica a matriz original!

Digamos que você crie esta matriz:


No caso de slices as duas variáveis acessam o mesmo dado mas apresentam ele de foram distinta. Por exemplo:


Digamos que você crie esta matriz:

In [None]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

Agora criamos uma matriz b1cortando ae modificando o primeiro elemento de b1. Isso também modificará o elemento correspondente em a!

In [None]:
b1 = a[0, :]
b1

array([1, 2, 3, 4])

In [None]:
b1[0] = 99
b1

array([99,  2,  3,  4])

In [None]:
a

array([[99,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Uma vez que tanto `a` quanto `b1` apontam para o mesmo dado, mudanças que fizermos em um será propagada para o outro.

Porém tem outro detalhe:

In [None]:
my_array = np.array([1, 2, 3, 4])
my_array

array([1, 2, 3, 4])

In [None]:
my_slice = my_array[1:3]
my_slice

array([2, 3])

In [None]:
my_slice[0] = -1
my_slice

array([-1,  3])

In [None]:
my_array

array([ 1, -1,  3,  4])

Apesar de o my_array e o my_slice estarem acessando o mesmo dado eles estão indexados diferentes. Nós mudamos o índice 0 no my_slice e a mudança no my_array foi no índice 1. <br>
O mesmo não acontece com as listas

In [None]:
x = [1, 2, 3]
y = x[0:2]
y[0] = "a change"
y

In [None]:
x

Caso você não queira uma view você pode fazer o slice utilizando uma lista:

In [None]:
my_array = np.array([1, 2, 3])
my_slice = my_array[[1,2]]
my_slice[0] = -1
my_array

array([1, 2, 3])

Ou utilizar uma cópia

In [None]:
my_array = np.array([1, 2, 3])
my_slice = np.copy(my_array[[1,2]])
my_slice[0] = -1
my_array

array([1, 2, 3])

In [None]:
dict1 = {'a':1, 'b':2, 'c':3}
dict2 = dict1.copy()
dict2['c']=10
dict1

{'a': 1, 'b': 2, 'c': 3}

## Matemática

### Operações matemáticas entre arrays

Até agora pode não ter ficado muito claro o motivo de usar um arrays do NumPy ao invés de usar simplesmente listas nativas do Python. A vantagem está justamente nas várias operações suportadas por arrays. 

Depois de criar seus arrays, você pode começar a trabalhar com eles. Digamos, por exemplo, que você criou duas matrizes, uma chamada "dados" e outra chamada "uns"

![image](https://user-images.githubusercontent.com/71708626/140752997-33cfd00b-5806-48cb-b8cf-cb16bba8bfd2.png)

In [None]:
data = np.array([1, 2])
ones = np.ones(2, dtype=int)
data + ones

array([2, 3])

Claro podemos fazer outras operação matemáticas entre arrays.



![image](https://user-images.githubusercontent.com/71708626/140753240-0f9997ad-d857-4e8b-bc14-e5cdc0dd6cf6.png)


In [None]:
print (data - ones)
print (data * data)
print (data / data)

[0 1]
[1 4]
[1. 1.]


In [None]:
# Também temos operações como o produto escalar entre os vetores
np.dot(a, b)

Você pode fazer essas operações aritméticas em matrizes de tamanhos diferentes, mas apenas se uma matriz tiver apenas uma coluna ou uma linha. Nesse caso, o NumPy usará suas regras de **Broadcasting** para a operação


![image](https://user-images.githubusercontent.com/71708626/140766076-2e81755b-c245-49ea-9157-bec764312497.png)


Esteja ciente de que quando NumPy imprime matrizes N-dimensionais, o último eixo é executado em loop sobre o mais rápido, enquanto o primeiro eixo é o mais lento.

In [None]:
data = np.array([[1, 2], [3, 4], [5, 6]])
ones_row = np.array([[1, 1]])
data + ones_row

array([[2, 3],
       [4, 5],
       [6, 7]])

### Broadcasting


Há ocasiões precisamos realizar uma operação entre uma matriz e um único número (também chamada de operação entre um vetor e um escalar ) ou entre matrizes de dois tamanhos diferentes. 

Por exemplo, o array pode conter informações sobre a distância em milhas, mas você deseja converter as informações em quilômetros. Você pode realizar esta operação com:


![image](https://user-images.githubusercontent.com/71708626/140761352-d614e747-a9ce-4bbd-90b1-174e4d0a46dc.png)



In [None]:
# criando um vetor aleatorio 
a = np.random.randint(10, size=(5,))
a

array([1, 2, 3, 6, 2])

In [None]:
# Podemos realizar varias operaçoes

print(a + 10) # Soma

print(a - 4) # Subtração

print(a * 3) # Multiplicação

print(a / 2) # Divisão

print(a ** 2) # Exponenciação

print(a < 5) # Comparação

[11 12 13 16 12]
[-3 -2 -1  2 -2]
[ 3  6  9 18  6]
[0.5 1.  1.5 3.  1. ]
[ 1  4  9 36  4]
[ True  True  True False  True]


Tudo isso também vale para matrizes

In [None]:

a = np.random.randint(10, size=(3,4))
b = np.random.randint(10, size=(3,4))

print(a)
print('-----')
print(b)

[[1 1 9 3]
 [2 5 9 1]
 [9 8 0 7]]
-----
[[9 1 0 8]
 [9 4 6 8]
 [3 1 9 2]]


In [None]:
print (np.multiply(b,a))

[[ 9  1  0 24]
 [18 20 54  8]
 [27  8  0 14]]


In [None]:
# Operações com escalares
print(a + 100)
print('-----')
print(a * 3)

In [None]:
# Somando matrizes elemento a elemento
print(a + b)

In [None]:
# Podemos transpor uma matriz
print(b.T)

In [None]:
# Podemos multiplicar matrizes
# (com np.dot, np.multiply é multiplicação elemento a elemento)
c = np.random.randint(10, size=(4, 2))
print('Shapes:', a.shape, b.shape, c.shape)
print(np.dot(a, c), '\n')

print (np.multiply(b,a))


Shapes: (3, 4) (3, 4) (4, 2)
[[ 87  75]
 [104  99]
 [ 91 142]] 

[[ 9  1  0 24]
 [18 20 54  8]
 [27  8  0 14]]


Podemos fazer operações entre vetores e matrizes. De forma geral isso é chamado de *broadcasting*, mas vamos nos limitar a um caso simples

In [None]:
# Criando nosso vetor e nossa matriz
a = np.random.randint(10, size=(4,))
b = np.random.randint(20, size=(3,4))

print(a)
print() # Imprime linha em branco entre eles
print(b)

[6 1 0 7]

[[ 1 10 16 16]
 [15  3  6  9]
 [10  6 13  4]]


In [None]:
# Isso tem o efeito de subtrair cada linha da matriz pelo vetor
b - a

In [None]:
print (10 % 2 + 3 // 10)

print (5 * (2 + 3) / 2)

print (2 ** 3 * 4)

0
12.5
32


Podemos encontrar a soma dos elementos em uma matriz, você deve usar `sum()`. 

In [None]:
a = np.array([1, 2, 3, 4])

a.sum()

10

### Funções matemáticas
O NumPy oferece diversas funções matemáticas clássicas, como exponencial, logaritmo, seno, cosseno etc. Essas funções são aplicadas a todos os elementos do array

In [None]:
# Função seno:
np.sin(a)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [ 0.90929743,  0.14112001, -0.7568025 , -0.95892427]])

In [None]:
# Função Cosceno
np.cos(a)

array([[ 0.54030231, -0.41614684, -0.9899925 , -0.65364362],
       [-0.41614684, -0.9899925 , -0.65364362,  0.28366219]])

In [None]:
# Exponencial
np.exp(a)

array([[  2.71828183,   7.3890561 ,  20.08553692,  54.59815003],
       [  7.3890561 ,  20.08553692,  54.59815003, 148.4131591 ]])

In [None]:
# log
np.log(a)


array([[0.        , 0.69314718, 1.09861229, 1.38629436],
       [0.69314718, 1.09861229, 1.38629436, 1.60943791]])

### Estatística

O numpy vem com várias funções básicas de estatística como mínimo, máximo, média, mediana, etc.
Todos esses métodos aceitam o argumento `axis`. Para `axis=1` a conta é feita considerando-se as **linhas**. Para `axis=0` a conta é feita considerando-se as **colunas**.

EX: 

- vetor

![image](https://user-images.githubusercontent.com/71708626/140763858-e5bc5b7a-ee3b-4031-b88f-7c0d2faaa1b9.png)

- em toda a matriz

![image](https://user-images.githubusercontent.com/71708626/140765313-04ea9557-12f5-4570-a4a1-d4e42eef174b.png)

- em uma linha ou coluna da matriz

![image](https://user-images.githubusercontent.com/71708626/140765433-37bdb6b8-7859-4ea0-bf5c-f7396bbf422a.png)


In [None]:
stats = np.array([[3, 4, 7], [1, 5, 10]])
stats

array([[ 3,  4,  7],
       [ 1,  5, 10]])

In [None]:
np.min(stats)

1

In [None]:
stats.max()

6

In [None]:
stats.sum()

30

In [None]:
#local do maior valor
stats.argmax()

5

In [None]:
#local do menor valor
stats.argmin()

0

Mínimo por linha:


In [None]:
stats

array([[ 3,  4,  7],
       [ 1,  5, 10]])

In [None]:
np.min(stats, axis=1) 

array([3, 1])

Máximo por coluna:

In [None]:
stats.max(axis=0)

array([ 3,  5, 10])

Soma por coluna:

In [None]:
np.sum(stats, axis=0)

array([ 4,  9, 17])

In [None]:
stats.sum(axis=0)

Média:


In [None]:
np.mean(stats)

5.0

Desvio padrão

In [None]:
stats.std()

2.886751345948129

## Máscara Booleana e Seleção Avançada

Conceito super importante no numpy e no pandas é o de máscara booleana.

Ao utilizar qualquer operador booleano

    >
    <
    <=
    >=
    ==
    in

o numpy retorna um array de True e False no qual ele aplicou elemento a elemento aquele operador.

Suponha a matriz abaixo:


In [None]:
mat = np.array([1, 10, 20, 30]).reshape(2, 2)
mat

array([[ 1, 10],
       [20, 30]])

Eu quero saber todos os elementos maiores que 10, eu posso aplicar:


In [None]:
mat > 10

array([[False, False],
       [ True,  True]])

É retornado uma matriz de formato (2, 2) com True na posição dos elementos que são maiores que 10.

Os tensores booleanos podem ser usados para filtrar valores em um tensor, por exemplo:


In [None]:
mat[mat > 10]

array([20, 30])

In [None]:
mat_tf = np.array([[True, True], [False, False]])
mat_tf

array([[ True,  True],
       [False, False]])

In [None]:
mat[mat_tf]

array([ 1, 10])

E será retornado um array com os elementos 20 e 30 como esperado.

Podemos fazer operações linha a linha ou coluna a coluna através de métodos auxiliares como any ou all:

    any: se qualquer elemento da linha for True, retorna True
    all: todos os elementos tem que ser True para retornar True

Exemplos:

Por coluna:


In [None]:
np.all(mat > 10, axis=0)

array([False, False])

Por linha:

In [None]:
np.all(mat > 10, axis=1)

array([False,  True])

Geral:

In [None]:
np.all(mat > 10)

False

Comparando arrays

In [None]:
u = np.arange(4).reshape(2,2)
v = 2*np.ones((2,2))

In [None]:
u

array([[0, 1],
       [2, 3]])

In [None]:
v

array([[2., 2.],
       [2., 2.]])

In [None]:
w = u > v
print(w)

[[False False]
 [False  True]]


In [None]:
u[u > v]

array([3])

In [None]:
u[w]

array([3])

### Operador AND

Similar ao `and` do python, podemos usar múltiplas condições para filtrar dados da nossa matriz com o operador `&`.


In [None]:
mat

array([[ 1, 10],
       [20, 30]])

In [None]:
filt = (mat > 10) & (mat <= 20)
filt

In [None]:
mat[filt]


array([20])

Observação: note que os colchetes além de melhorarem a legibilidade, são necessárias devido a ordem de precedência dos operadores python. Se não colocarmos os colchetes, dará um erro.


### Operador OR

Similar ao `or`, só que devemos utilizar `|`:


In [None]:
filt = (mat == 1) | (mat >= 20)
mat[filt]

array([ 1, 20, 30])

### Operador NOT

Similar ao `not`, mas devemos utilizar um til `~`.


In [None]:
filt = (mat == 1)
mat[~filt]

array([10, 20, 30])

### Atribuir valores em determinadas condições
E podemos também atribuir um valor específico aos elementos de um vetor que satisfazem uma certa condições, por exemplo zerar todos os valores negativos:


In [None]:
u = np.array([-1,  2, -3])
print("u =", u)
print()


u = [-1  2 -3]



In [None]:
u[u < 0]=0

In [None]:
u

array([0, 2, 0])

Usando **np.where(se condição, recebe valor, se não)**

In [None]:
u = np.array([-1,  2, -3])
np.where(u<0, 0, u)

array([0, 2, 0])

### Nans

In [None]:
a = np.array([[1, 2, 3, 4, 5], [np.nan, 7, 8, 9,10]])
a

array([[ 1.,  2.,  3.,  4.,  5.],
       [nan,  7.,  8.,  9., 10.]])

In [None]:
None

In [None]:
np.isnan(a)

array([[False, False, False, False, False],
       [ True, False, False, False, False]])

In [None]:
np.isnan(a)

array([[False, False, False, False, False],
       [ True, False, False, False, False]])

Checar nan em linhas

In [None]:
np.isnan(a).any(axis=1) 

array([False,  True])

In [None]:
np.isnan(a).sum()

1

# Porque usar numpy e não listas?


## Numpy x Lists

    Tamanho - Numpy necessita de menos espaço
    Performance - escrito para ter alta performance
    Funcionalidade - SciPy e NumPy possuem operações de algebra linear built in.

<a href="https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference" target="_blank">Referência</a> 

## Tempo de processamento

In [None]:
"""
Código comparando performance entre numpy e listas em uma soma de arrays
"""

import time
import numpy as np

size_of_vec = 1000

def pure_python_version():
    t1 = time.time()
    X = range(size_of_vec)
    Y = range(size_of_vec)
    Z = [X[i] + Y[i] for i in range(len(X)) ]
    return time.time() - t1

def numpy_version():
    t1 = time.time()
    X = np.arange(size_of_vec)
    Y = np.arange(size_of_vec)
    Z = X + Y
    return time.time() - t1


t1 = pure_python_version()
t2 = numpy_version()
print(t1, t2)
print("Numpy is in this example " + str(t1/t2) + " faster!")

0.0007350444793701172 5.245208740234375e-05
Numpy is in this example 14.013636363636364 faster!


## Diferença visual

In [None]:
lista = [1, 2, 3, 4]
array = np.array([1, 2, 3, 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 3, 4]
Esse é o array:  [1 2 3 4]


Repare que no array não temos a separação por vírgulas.
<br>


-------------


# Ref

https://numpy.org/doc/stable/user/absolute_beginners.html