In [58]:
import gc
gc.collect()

483

# NumPy

## O que é o NumPy?

O NumPy é uma poderosa biblioteca Python usada principalmente para **realizar cálculos em Arrays Multidimensionais**. O NumPy fornece um grande **conjunto de funções e operações prontas** que ajudam os programadores a executar facilmente cálculos numéricos. Esses tipos de cálculos numéricos são amplamente utilizados em tarefas como:

* `Tarefas matemáticas`: NumPy é bastante útil para executar várias tarefas matemáticas como integração numérica, diferenciação, interpolação, extrapolação e muitas outras. O NumPy possui também funções incorporadas para álgebra linear e geração de números aleatórios. É uma biblioteca que pode ser usada em conjuto do <a href='https://github.com/scipy/scipy'>SciPy</a> e Matplotlib, substituindo o MATLAB quando se trata de tarefas matemáticas.

* `Processamento de Imagem e Computação Gráfica`: Imagens no computador são representadas como Arrays Multidimensionais de números. NumPy torna-se a escolha mais natural para o mesmo. O NumPy, na verdade, fornece algumas excelentes funções para rápida manipulação de imagens. Alguns exemplos são o espelhamento de uma imagem, a rotação de uma imagem por um determinado ângulo etc.

* `Modelos de Machine Learning`: Ao escrever algoritmos de Machine Learning, supõe-se que se realize vários cálculos numéricos em Array. Por exemplo, multiplicação de Arrays, transposição, adição, etc. O NumPy fornece uma excelente biblioteca para cálculos fáceis (em termos de escrita de código) e rápidos (em termos de velocidade). Os Arrays NumPy são usados para armazenar os dados de treinamento, bem como os parâmetros dos modelos de Machine Learning.


## Instalando

Existem diversas formas de instalar o numpy. A mais simples é instalar o pacote Anaconda (https://www.anaconda.com/distribution/) que já vem com o Python e diversas bibliotecas científicas e ciência de dados instaladas.

Outra forma, caso você já tenha o python instalado mas não o numpy, é o utilizar o gerenciador e pacotes pip, através do comando no seu **terminal**:

`$ pip install numpy`

ou dentro do jupyter

`!pip install numpy`

## Explorando a API do NumPy
### Importando numpy com o alias np

`np` é uma abreviação amplamente utilizada na comunidade python para o numpy.

In [59]:
import numpy as np

### 1D arrays

Array unidimensional, também chamado de vetor ou até mesmo matriz de 1 dimensão:


In [60]:
a = np.array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

Checando o tipo da variável a:

In [61]:
type(a)

numpy.ndarray

o ndarray significa n-dimensional array


### Checando o tipo de dados dentro do array

Diversos tipos de dados são possíveis em um array numpy, os mais comuns são os numéricos:

    int32
    int64
    float32
    float64


In [62]:
a.dtype

dtype('int64')

In [63]:
b = np.array([1.0, 2, 3, 4])
b.dtype

dtype('float64')

In [64]:
b

array([1., 2., 3., 4.])

In [65]:
c = np.array([1, 2, 3, '4'])
c.dtype

dtype('<U21')

In [66]:
c

array(['1', '2', '3', '4'], dtype='<U21')

O U32 indica que o tipo de dado é uma string Unicode com um comprimento máximo de 32 caracteres.

### Substituindo elementos
Assim como nas listas, podemos substituir elementos especificando o index. 

Vamos trocar o elemento na posição 0 para o valor 10:

In [67]:
a

array([1, 2, 3, 4])

In [68]:
a[0] = 1000
a

array([1000,    2,    3,    4])

Mas, se trocarmos para ponto flutuante, por exemplo 1.2, o numpy irá truncar a parte decimal, dado que o array que criamos é de inteiros.

In [69]:
a[0] = 1000.46728939393
a

array([1000,    2,    3,    4])

Para converter todo a array para um tipo específico, utilizamos o método `.astype()` e especificamos o novo formato do dado dentro dos parênteses:

In [70]:
a = a.astype(float)
a

array([1000.,    2.,    3.,    4.])

In [71]:
a[0] = 1000.46728939393
a


array([1000.46728939,    2.        ,    3.        ,    4.        ])

E se quisermos um dos elementos sendo um texto como fazíamos com as listas?

In [72]:
lista = [1, 2, 'Ada', 4]
array = np.array([1, 2, 'Ada', 4.0])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 'Ada', 4]
Esse é o array:  ['1' '2' 'Ada' '4.0']


O array converte todos os elementos para string. O **numpy não aceita dados com tipos diferentes**. **Ter um tipo único permite o numpy ser muito mais rápido.**

### Porque usar numpy e não listas?

Se para criar um array eu passo uma lista, porque não utilizar ela direto?

#### Tempo de processamento

In [115]:
import numpy as np
import time

# Usando listas Python para criar uma lista com 10 milhões de elementos
lista = list(range(1, 10**7 + 1))

# Usando NumPy
array = np.array(lista)

# Multiplicação de todos os elementos por 2 usando listas
start_time = time.time()
lista_resultado = [x * 2 for x in lista]
end_time = time.time()
tempo_listas = end_time - start_time

# Multiplicação de todos os elementos por 2 usando NumPy
start_time = time.time()
array_resultado = array * 2
end_time = time.time()
tempo_numpy = end_time - start_time

print("Tempo usando listas Python:", tempo_listas)
print("Tempo usando NumPy:", tempo_numpy)


Tempo usando listas Python: 0.4263138771057129
Tempo usando NumPy: 0.012817144393920898


Nesse exemplo, estamos criando uma lista com 10 milhões de elementos e um array NumPy a partir dessa lista. Em seguida, multiplicamos todos os elementos por 2, tanto na lista quanto no array, e medimos o tempo necessário para realizar essa operação. O tempo de execução usando o NumPy é significativamente menor do que usando listas Python. Isso ocorre porque o NumPy aproveita a vetorização de operações e a implementação em C para executar a multiplicação de forma mais eficiente.

Quando você realiza a operação de multiplicação por 2 em uma lista Python, a iteração manual pelos elementos é necessária. Por outro lado, o NumPy executa a multiplicação e a soma como operações vetorizadas. Isso significa que as operações são aplicadas a todos os elementos do array de uma só vez, sem a necessidade de iteração explícita. 

O numpy também permite a paralelização das operações, tornando-se essencial em Big Data.

#### Diferença visual

In [116]:
lista = [1, 2, 3, 4]
array = np.array([1, 2, 3, 4])

print("Essa é a lista: ", lista)
print("Esse é o array: ", array)

Essa é a lista:  [1, 2, 3, 4]
Esse é o array:  [1 2 3 4]


Repare que no array não temos a separação por vírgulas.
<br>


#### Numpy x Lists

<div class="alert alert-block alert-info"> <b>Vantagens: </b> 
<br>

* Tamanho - em geral, Numpy necessita de menos espaço

* Performance - escrito para ter alta performance

* Funcionalidade - SciPy e NumPy possuem operações de algebra linear built in.
</div>

<a href="https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference" target="_blank">Referência</a> 


### 2D arrays

Matrizes podem ser consideradas um array de 2 dimensões.

<div class="alert alert-block alert-info"> <b>Observação: </b> 
<br>

O NumPy possui também uma estrutura própria para matrizes, `np.matriz`, mas a própria documentação oficial recomenda não utilizá-la pois poderá ser removida no futuro.
</div>


Para criar uma matriz, 

$$\begin{bmatrix} 9.0 & 8.0 & 7.0 \\ 6.0 & 5.0 & 4.0 \end{bmatrix}$$

 <br>

basta aninhar múltiplas listas dentro de uma lista como no exemplo a seguir:


In [117]:
matriz_2d = np.array([[9,8,7], 
                      [6,5,4]  ])
matriz_2d

array([[9, 8, 7],
       [6, 5, 4]])

____________
____________
**Exercício:** Crie em numpy a seguinte matriz:
$$\begin{bmatrix} 1 & 2 & 1 \\ 3 & 0 & 1 \\ 0 & 2 & 4 \end{bmatrix}$$

In [76]:
np.array([
    [1,2,1],
    [3,0,1],
    [0,2,4]])

array([[1, 2, 1],
       [3, 0, 1],
       [0, 2, 4]])

In [77]:
aa = np.array([[1, 2, 1],[3,0,1],[0,2,4]])
print(aa)

[[1 2 1]
 [3 0 1]
 [0 2 4]]


_______________
_______________

### 3D arrays

Nesse caso, teremos um tensor tridimensional que visualmente pode ser interpretado das seguintes formas:


<img src="tensor_3-2-5.png"  style="width: 500px" />

In [78]:
c = np.array([[[0,   1,  2,  3,  4], [ 5,  6,  7,  8,  9]], 
              [[10, 11, 12, 13, 14], [15, 16, 17, 18, 19]],
              [[20, 21, 22, 23, 24], [25, 26, 27, 28, 29]]])
c

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]]])

Repare que o numpy utiliza-se da primeira representação da figura, na qual o primeiro valor do `.shape` representa a quantidade de elementos, o segundo valor a quantidade de linhas e, por fim, a quantidade de colunas.

In [118]:
c.shape

(3, 2, 5)

In [80]:
a.shape

(4,)

In [119]:
matriz_2d.shape

(2, 3)

In [120]:
matriz_2d

array([[9, 8, 7],
       [6, 5, 4]])

### Propriedades
#### Dimensão e formato

Três conceitos importantes são os de:

- dimensão: se o tensor é 1D, 2D ... nD
- formato: como os números estão distribuídos
- tamanho: total de valores que temos no tensor

Para descobrir essas informações, basta acessar os atributos `ndim`, `shape` e `size`, respectivamente.

In [121]:
print(f"Dimensão: {a.ndim}")
print(f"Formato: {a.shape}")
print(f"Quantidade de elementos: {a.size}")

Dimensão: 2
Formato: (3, 7)
Quantidade de elementos: 21


In [122]:
b

array([1., 2., 3., 4.])

In [123]:
print(f"Dimensão: {matriz_2d.ndim}")
print(f"Formato: {matriz_2d.shape}")
print(f"Quantidade de elementos: {matriz_2d.size}")

Dimensão: 2
Formato: (2, 3)
Quantidade de elementos: 6


In [86]:
print(f"Dimensão: {c.ndim}")
print(f"Formato: {c.shape}")
print(f"Quantidade de elementos: {c.size}")

Dimensão: 3
Formato: (3, 2, 5)
Quantidade de elementos: 30


### Acessando e modificando elementos (Indexing & Slicing)

Dada a matriz a abaixo:

In [124]:
lista

[1, 2, 3, 4]

In [125]:
lista[3]

4

In [126]:
a = np.array([[1, 2, 3, 4, 5, 6, 7], 
              [8, 9, 10, 11, 12, 13, 14],
              [15, 16, 17, 18, 19, 20, 21]])
print(a)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14]
 [15 16 17 18 19 20 21]]



Podemos acessar um elemento específico do vetor de forma similar a lista. A diferença é que podemos escolher um elemento específico passando os índices de linha e coluna: <br> <br>
**array[Indice_Linha, Indice_Coluna]**
<br><br>

Para uma array 2D, a sintaxe fica:


In [90]:
a[0, 2]

3

Podemos também fazer da forma **array[Indice_Linha][Indice_Coluna]** (menos comum):

In [91]:
a[0][2]

3

No caso acima, primeiro selecionamos toda a linha para depois selecionar a coluna de interesse.
<br><br><br>
Assim como nas listas, **números negativos** trazem de trás pra frente a indexação:


In [92]:
a[0,-2]

6

Para selecionar todos os dados de uma coluna específica utilizamos o `:` na posição das linhas.

Leia-se: todas as linhas, coluna 2


In [127]:
a[2,:]

array([15, 16, 17, 18, 19, 20, 21])

In [93]:
a[:,  3]

array([ 4, 11, 18])

In [94]:
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [95]:
a[0:2, 3]

array([ 4, 11])

O operador `:` também conhecido como slicing, aceita os parâmetros: `start`, `end` e `stepsize` no formato

$ [ start : end : stepsize ] $ 

O stepsize basicamente é quantos elementos deve-se pular. Podemos pegar na linha 0 do elemento da coluna 1 ao 6 pulando de 2 em 2 por exemplo.


In [96]:
a[0, 1:6:2]

array([2, 4, 6])

Também posso passar uma lista de índices:

In [97]:
a

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 20, 21]])

In [98]:
lista_de_indices = [0, 2, 4]
a[:, lista_de_indices]

array([[ 1,  3,  5],
       [ 8, 10, 12],
       [15, 17, 19]])

In [99]:
lista_de_indices = [0, 2]
a[lista_de_indices]

array([[ 1,  2,  3,  4,  5,  6,  7],
       [15, 16, 17, 18, 19, 20, 21]])

Para mudar um elemento específico, basta usar o operador `=`

In [100]:
a[1,3] = 5555555

In [101]:
a

array([[      1,       2,       3,       4,       5,       6,       7],
       [      8,       9,      10, 5555555,      12,      13,      14],
       [     15,      16,      17,      18,      19,      20,      21]])

Mudando uma coluna inteira para ser 5:


In [102]:
a[:, 1] = 777
a

array([[      1,     777,       3,       4,       5,       6,       7],
       [      8,     777,      10, 5555555,      12,      13,      14],
       [     15,     777,      17,      18,      19,      20,      21]])

### Cópias do array

Um dos detalhes do numpy é que se você faz um slice do array você não obtém um vetor totalmente novo. A saída é uma "view" do array original.

Esse é o mesmo conceito de que as variáveis são apenas ponteiros e que variáveis distintas podem apontar para o mesmo objeto. (<a href="https://www.practicaldatascience.org/html/exercises/%5B../python_v_r.ipynb%5D">Python v. R / Variables as Pointers tutorial</a>). No caso de slices, as duas variáveis acessam o mesmo dado, mas apresentam ele de form distinta. Por exemplo:


In [103]:
my_array = np.array([1, 2, 3, 4])
my_array

array([1, 2, 3, 4])

In [104]:
my_slice = my_array[1:3]
my_slice

array([2, 3])

Ao criarmos `my_slice` do `my_array` temos a impressão de estarmos criando um objeto completamente novo e independente. Mas o que acontece se alterarmos o my_slice?

In [105]:
my_slice[0] = -55555
my_slice

array([-55555,      3])

In [106]:
my_array

array([     1, -55555,      3,      4])

Isso acontece porque tanto `my_array` quanto `my_slice` apontam para o mesmo dado na memória. Então as mudanças que fizermos em um serão propagadas para o outro. 

Apesar de o my_array e o my_slice estarem acessando o mesmo dado eles estão indexados diferentes. Nós mudamos o índice 0 no my_slice e a mudança no my_array foi no índice 1.

In [107]:
my_array[2] = -6666
my_slice

array([-55555,  -6666])

O mesmo não acontece com as listas

In [108]:
x = [1, 2, 3]
y = x[0:2]
y

[1, 2]

In [109]:
y[0] = "a change"
y

['a change', 2]

In [110]:
x

[1, 2, 3]

Como faço para contornar essa questão?

Caso você não queira uma view você pode fazer o slice utilizando uma lista:

In [111]:
my_array = np.array([1, 2, 3])
my_slice = my_array[[1,2]]
my_slice[0] = -1
my_array

array([1, 2, 3])

Ou utilizar uma cópia

In [112]:
my_array = np.array([1, 2, 3])
my_array[1:3]
my_slice = my_array[1:3].copy()
my_slice[0] = -1
print(my_array, my_slice)

[1 2 3] [-1  3]


In [113]:
my_slice

array([-1,  3])

In [114]:
# outra forma de fazer cópia
from copy import deepcopy
array_copy = deepcopy(array_src)

NameError: name 'array_src' is not defined

Esse último caso é o mais utilizado, inclusive com dataframes do pandas.

### Copy vs DeepCopy em python:

Para objetos compostos objetos que contém outros objetos como listas, instancias de classes, etc),  o copy cria uma cópia,  mas a cópia é referencia para o objeto original. então se mudar o original, muda a cópia.
 
```python
lista = [1, 2, [3,4]]
copia = lista.copy()
print(lista, copia)
lista[2][0] = 10
print(lista, copia)
```
O deepcopy cria de fato um objeto novo
```python
lista = [1, 2, [3,4]]
from copy import deepcopy
copia = deepcopy(lista)
lista[2][0] = 10
print(lista, copia)
```
https://docs.python.org/3/library/copy.html#:~:text=A%20shallow%20copy%20constructs%20a,objects%20found%20in%20the%20original.


No Numpy o `.copy()` de fato cria outro objeto na memória.

In [None]:
array = np.array([1, 2, 3, 4])
copia = array.copy()
print(array, copia)
array[2] = 10
print(array, copia)

[1 2 3 4] [1 2 3 4]
[ 1  2 10  4] [1 2 3 4]


In [None]:
array = np.array([1, 2,[3, 4]])
copia = array.copy()
print(array, copia)
array[2][0] = 10
print(array, copia)

[1 2 list([3, 4])] [1 2 list([3, 4])]
[1 2 list([10, 4])] [1 2 list([10, 4])]


  array = np.array([1, 2,[3, 4]])


Citando a documentação do Numpy: "np.copy is a shallow copy and will not copy object elements within arrays"

## Matemática


### Operação com escalares

In [None]:
a = np.array([1, 2, 3, 4])
a

array([1, 2, 3, 4])

#### 1. Soma

In [None]:
a + 199


array([200, 201, 202, 203])

#### 2. Subtração:


In [None]:
a - 10

array([-9, -8, -7, -6])

______________
______________

#### 3. Multiplicação

**Exercício:**
Sabendo que a operação de multiplicação é feita por __*__ , multiplique o vetor *a* por 2.

In [None]:
a*2

array([2, 4, 6, 8])

#### 4. Divisão
**Exercício:**
Sabendo que a operação de divisão é feita por __/__ , divida o vetor *a* por 2.

In [None]:
a/2

array([0.5, 1. , 1.5, 2. ])

#### 5. Potência
**Exercício:**
Sabendo que a operação de potenciação é feita por __**__ , calcule o quadrado dos elementos do vetor *a*.

In [None]:
a**2

array([ 1,  4,  9, 16])

#### 6. Incrementar +=
**Exercício:**
Sabendo que a operação de incremento é feita por __+=__ , some 2 em todos os valores.

In [None]:
a

array([1, 2, 3, 4])

In [None]:
a**=2

In [None]:
a = a.astype(float)
a

array([ 1.,  4.,  9., 16.])

In [None]:
a//2 #  // é pra divisão sem decimais

array([0., 2., 4., 8.])

In [None]:
a*=0.5

In [None]:
a

array([0.5, 2. , 4.5, 8. ])

_______________________
_______________________

### Operação entre arrays

Tudo que você consegue fazer com escalar, você consegue fazer com arrays **elemento-a-elemento** desde que os **arrays tenham exatamente o mesmo tamanho**, por exemplo, para soma:


In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([1, 0, 1, 0])

# Exemplo de soma
a + b

array([2, 2, 4, 4])

In [None]:
# Exemplo de multiplicação
a*b

array([1, 0, 3, 0])

In [None]:
# Exemplo de potenciação
a**b

array([1, 1, 3, 1])

### Estatística

O numpy vem com várias funções básicas de estatística como mínimo, máximo, média, desvio padrão, etc.


In [None]:
stats = np.array([[1, 5, 3], [4, 5, 0]])
stats

array([[1, 5, 3],
       [4, 5, 0]])

E para quase todos eles podemos aplicar o método de duas formas:

In [None]:
np.mean(stats)

3.0

In [None]:
stats.mean()

3.0

________________
________________
**Exercício:** encontre a média, o desvio padrão da matriz e a mediana, sabendo que os métodos são representados por `np.mean()`, `np.std()` e `np.median()`, respectivamente.

In [None]:
# média dos valores de stats
# Média
print(np.mean(stats))
print(stats.mean())

# Desvio padrão:
print(np.std(stats))
print(stats.std())

# Mediana:
print(np.median(stats))
print(stats.median())

3.0
3.0
1.9148542155126762
1.9148542155126762
3.5


AttributeError: 'numpy.ndarray' object has no attribute 'median'

_____________
_____________

Todas as vezes que tivermos mais de um eixo, ou seja, matriz 2D ou mais, poderemos especificar o argumento `axis`. Para `axis=0` a operação é feita **verticalmente para baixo ao longo das linhas**. Para `axis=1` a operação é realizada **horizontalmente entre as colunas**.

<img src="axis.jpg"  style="width: 400px" />

Mínimo para axis=0:


In [None]:
stats

array([[1, 5, 3],
       [4, 5, 0]])

In [None]:
stats.min(axis=0)

array([1, 5, 0])

A operação será realizada ao longo das linhas.

Mínimo para axis=1:


In [None]:
stats.min(axis=1)

array([1, 0])

A operação será realizada através das colunas.

_________________
_________________
**Exercício:** Realize a soma em cada uma das linhas e em cada uma das colunas:

In [None]:
stats

array([[1, 5, 3],
       [4, 5, 0]])

In [None]:
stats.sum(axis=0)


array([ 5, 10,  3])

In [None]:
stats.sum(axis=1)

array([9, 9])

___________
___________


### Máscara Booleana e Seleção Avançada

Conceito super importante no numpy e no pandas é o de máscara booleana.

Ao utilizar qualquer operador booleano

    >
    <
    <=
    >=
    ==

o numpy retorna um array de True e False no qual ele aplicou elemento a elemento aquele operador.

Suponha a matriz abaixo:


In [None]:
mat = np.array([1, 20, 10, 30]).reshape(2, 2)
mat

array([[ 1, 20],
       [10, 30]])

Eu quero saber todos os elementos maiores que 10, eu posso aplicar:


In [None]:
mask = mat > 10
mask

array([[False,  True],
       [False,  True]])

O retorno é uma matriz de formato (2, 2) com True na posição dos elementos que são maiores que 10 a qual denominamos **máscara booleana**.

As máscaras booleanas podem ser usadas para filtrar valores em um tensor, por exemplo:

In [None]:
mat[mask]

array([20, 30])

In [None]:
mat[mat > 10]

array([20, 30])

E será retornado um array com os elementos 20 e 30 como esperado.

### Operador AND

Similar ao `and` do python, podemos usar múltiplas condições para filtrar dados da nossa matriz com o operador `&`.


In [None]:
mat

array([[ 1, 20],
       [10, 30]])

In [None]:
mask = (mat > 10) & (mat <=25)
mask

array([[False,  True],
       [False, False]])

In [None]:
mat[mask]

array([20])

In [None]:
mat[(mat > 10) & (mat <=25)]

array([20])

In [None]:
# não aceita com "and"
mat[(mat > 10) and (mat <=25)]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

**Observação: note que os parênteses além de melhorarem a legibilidade, são necessárias devido a ordem de precedência dos operadores python. Se não colocarmos os parênteses teremos um erro.**

### Operador OR
Similar ao `or`, só que devemos utilizar `|`. <br><br>
**Exercício:** Selecione os valores que são iguais a 1 ou maiores do que 20


In [None]:
filt = (mat == 1) | (mat > 20)
mat[filt]

array([ 1, 30])

### Operador NOT

Similar ao `not`, mas devemos utilizar um til `~` antes da máscara booleana.


In [None]:
mat[~((mat > 10) & (mat <=25))]

array([ 1, 10, 30])

### Atribuir valores em determinadas condições
E podemos também atribuir um valor específico aos elementos de um vetor que satisfazem uma certa condições, por exemplo zerar todos os valores negativos:


In [None]:
u = np.array([-1,  2, -3])
print("u =", u)
print()

u = [-1  2 -3]



In [None]:
u[u < 0] = 0
u

array([0, 2, 0])

Também podemos usar o método `np.where(se condição, recebe valor, se não)`

In [None]:
u = np.array([-1,  2, -3])
u = np.where(u<0, 0, u)
u

array([0, 2, 0])

### Nans
Os **not a number** são representados por `np.nan`

In [None]:
a = np.array([[1, 2, 3, np.nan, 5], [np.nan, 7, 8, 9,10]])
a

array([[ 1.,  2.,  3., nan,  5.],
       [nan,  7.,  8.,  9., 10.]])

Podemos identificar os nans com o método `np.isnan(a)`

In [None]:
np.isnan(a)

array([[False, False, False,  True, False],
       [ True, False, False, False, False]])

E para saber o total de nans podemos aplicar `np.isnan(a).sum()`

In [None]:
np.isnan(a).sum()

2

### Outros métodos do numpy

In [None]:
[i for i in dir(np) if not i.startswith('_')]

['ALLOW_THREADS',
 'AxisError',
 'BUFSIZE',
 'CLIP',
 'DataSource',
 'ERR_CALL',
 'ERR_DEFAULT',
 'ERR_IGNORE',
 'ERR_LOG',
 'ERR_PRINT',
 'ERR_RAISE',
 'ERR_WARN',
 'FLOATING_POINT_SUPPORT',
 'FPE_DIVIDEBYZERO',
 'FPE_INVALID',
 'FPE_OVERFLOW',
 'FPE_UNDERFLOW',
 'False_',
 'Inf',
 'Infinity',
 'MAXDIMS',
 'MAY_SHARE_BOUNDS',
 'MAY_SHARE_EXACT',
 'NAN',
 'NINF',
 'NZERO',
 'NaN',
 'PINF',
 'PZERO',
 'RAISE',
 'SHIFT_DIVIDEBYZERO',
 'SHIFT_INVALID',
 'SHIFT_OVERFLOW',
 'SHIFT_UNDERFLOW',
 'ScalarType',
 'Tester',
 'TooHardError',
 'True_',
 'UFUNC_BUFSIZE_DEFAULT',
 'UFUNC_PYVALS_NAME',
 'WRAP',
 'abs',
 'absolute',
 'add',
 'add_docstring',
 'add_newdoc',
 'add_newdoc_ufunc',
 'all',
 'allclose',
 'alltrue',
 'amax',
 'amin',
 'angle',
 'any',
 'append',
 'apply_along_axis',
 'apply_over_axes',
 'arange',
 'arccos',
 'arccosh',
 'arcsin',
 'arcsinh',
 'arctan',
 'arctan2',
 'arctanh',
 'argmax',
 'argmin',
 'argpartition',
 'argsort',
 'argwhere',
 'around',
 'array',
 'array2string',

In [None]:
import numpy as np

array1 = np.array([1, np.nan, np.NaN])
np.isnan(array1)


# já tive tanto problema no pandas com NaN, None, "nan" 

array([False,  True,  True])

In [None]:
array1

array([ 1., nan, nan])

In [None]:
np.NAN

nan

## Material de Aprofundamento

### Carregar dados de um arquivo

Vamos supor que temos um arquivo data.txt com o seguinte conteúdo:

1,13,21,11,196,75,4,3,34,6,7,8,0,1,2,3,4,5 <br>
3,42,12,33,766,75,4,55,6,4,3,4,5,6,7,0,11,12 <br>
1,22,33,11,999,11,2,1,78,0,1,2,9,8,7,1,76,88 <br>

Podemos gerar uma matriz a partir desse arquivo da seguinte forma:


In [None]:
filedata = np.genfromtxt('data.txt', delimiter=',')
filedata

array([[  1.,  13.,  21.,  11., 196.,  75.,   4.,   3.,  34.,   6.,   7.,
          8.,   0.,   1.,   2.,   3.,   4.,   5.],
       [  3.,  42.,  12.,  33., 766.,  75.,   4.,  55.,   6.,   4.,   3.,
          4.,   5.,   6.,   7.,   0.,  11.,  12.],
       [  1.,  22.,  33.,  11., 999.,  11.,   2.,   1.,  78.,   0.,   1.,
          2.,   9.,   8.,   7.,   1.,  76.,  88.]])

O primeiro argumento é o nome do arquivo.

No segundo argumento, delimiter, você especifica o que separa cada número individualmente no arquivo. Nesse caso é a vírgula, mas podería ser ;, espaços, ou tabs.

Podemos notar também que o numpy converteu para float nossos números, apesar de todos serem inteiros. Ele faz isso como uma medida preventiva dado que ele não sabe ao ler o arquivo qual tipo de dado que é.

Podemos importar os dados com um formato especificado usando o argumento `dtype='int'` ou podemos converter manualmente para inteiro usando a função astype:

In [None]:
filedata.astype('int32')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]], dtype=int32)

Também podemos avisar o numpy quais são nossas colunas de interesse com o argumento `usecols`

In [None]:
np.genfromtxt('data.txt', delimiter=',', usecols=[0,1,2,3], dtype='int')

array([[ 1, 13, 21, 11],
       [ 3, 42, 12, 33],
       [ 1, 22, 33, 11]])

Podemos também salvar uma matriz de uma forma mais otimizada não textual (binária) para uso futuro.

Isso gera um arquivo binário que inclusive salva o tipo de dado, nesse caso, int32.

Quando lido, vai converter corretamente o tipo daquele dado.



In [None]:
np.save('data_saved', filedata.astype('int32'))


Para ler os dados que acabamos de salvar, basta usar o `np.load`:


In [None]:
np.load('data_saved.npy')

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]], dtype=int32)

### Comparando arrays

In [None]:
u = np.arange(4).reshape(2,2)
v = 2*np.ones((2,2))

In [None]:
u

array([[0, 1],
       [2, 3]])

In [None]:
v

array([[2., 2.],
       [2., 2.]])

In [None]:
w = u > v
print(w)

[[False False]
 [False  True]]


In [None]:
u[u > v]

array([3])

### Reorganizar Array

Muitas vezes você quer mudar o formato de array, por exemplo, de 4 elementos pra uma matriz 2x2, ou situações similares.

Para isso, você pode utilizar a função `reshape`.


In [None]:
before = np.array([[1,2,3,4],[5,6,7,8]])
print(before.shape)
before

(2, 4)


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
after = before.reshape((4, 2)) # tem que possuir a mesma quantidade no size!
after

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
before.reshape((-1, 2)) # o -1 representa quantas linhas for preciso para ter 2 colunas

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [None]:
before.reshape(2, 2, 2)

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

### Métodos .any() e .all()
Podemos fazer operações linha a linha ou coluna a coluna através de métodos auxiliares como any ou all:

    any: se qualquer elemento do axis for True, retorna True
    all: todos os elementos tem que ser True para retornar True

Exemplos:

Ao longo das linhas por cada coluna:


In [None]:
mat = np.array([[ 1, 10],
       [20, 30]])
mat

array([[ 1, 10],
       [20, 30]])

In [None]:
np.any(mat > 10, axis=0)

array([ True,  True])

Ao longo das colunas por cada linha:

In [None]:
np.any(mat > 10, axis=1)

array([False,  True])

Geral:

In [None]:
np.any(mat > 10)

True

In [None]:
np.all(mat > 10)

False

### Apendar os vetores

<img src=join_arrays.png width=500 text="https://betterprogramming.pub/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d">


#### Verticalmente

Os vetores tem que, obrigatoriamente, ter a mesma quantidade de colunas.

In [None]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])

np.vstack([v1, v2])

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

#### Horizontalmente

De forma similar ao anterior, mas agora os vetores tem que, obrigatoriamente, ter a mesma quantidade de linhas:


In [None]:
# para arrays 1D
np.hstack((v1,v2))

array([1, 2, 3, 4, 5, 6, 7, 8])

##### para arrays 2D

In [None]:
h1 = np.ones((2, 4))
print(h1)
print()

h2 = np.zeros((2, 2))
print(h2)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[0. 0.]
 [0. 0.]]


In [None]:
np.hstack((h1, h2))

array([[1., 1., 1., 1., 0., 0.],
       [1., 1., 1., 1., 0., 0.]])

### Números aleatórios
#### Números decimais aleatórios

O numpy tem um sub-módulo chamado random, que pode ser acessando via `np.random`. Embora o Python possua uma biblioteca padrão também chamada `random`, a biblioteca do *NumPy tem mais funcionalidades e gera diretamente vetores aleatórios*.

Cria um vetor segundo uma distribuição uniforme no intervalo [0,1):


In [None]:
np.random.rand(4, 2)

array([[0.89790675, 0.74623562],
       [0.06037634, 0.25589202],
       [0.61432684, 0.56967231],
       [0.97809033, 0.56163718]])

Cria um vetor em que cada elemento segue uma distribuição normal com $\mu=10.0$ e $\sigma=1.0$

In [None]:
v = np.random.normal(10, 1, (4,4))
print(v)

[[10.47512193 10.09946138  9.6665602   9.41130715]
 [10.79360566 10.76879409  8.68585822  9.36380812]
 [ 9.89754044 10.06293669 11.11177992  8.36491632]
 [10.14701748  9.06663162 10.33754359  9.25556784]]


#### Números aleatórios inteiros:


Os argumentos principais são low, high e size, exemplo: criando uma matriz de 0 a 99 de 100 elementos:


In [None]:
np.random.randint(low=0, high=100, size=100)


array([36, 31, 30, 61, 52, 59, 33, 61, 52, 75, 11, 69, 62, 32, 85, 13, 29,
       64, 82, 88, 13, 72,  1, 18,  2, 20, 49, 43,  1, 96, 41, 60,  4, 89,
       10, 60, 33, 36, 89, 82, 37, 81, 67, 22, 41, 72, 44, 32, 12, 92, 44,
       37, 22, 96,  3,  4, 81, 61, 90, 68, 39, 45, 17, 39, 95, 56, 83, 16,
       92, 11, 44, 36, 50, 52, 49, 25, 92, 14, 93, 66, 78, 58, 28, 37, 46,
       16, 82, 27, 59, 68, 64, 90, 86, 23, 32, 79, 77, 72, 12, 30])

Para incluir o 100, basta trocar o high por 101

In [None]:
np.random.randint(7, size=(3, 3))

array([[3, 3, 6],
       [6, 2, 0],
       [5, 0, 6]])

Note que toda vez que rodarmos o código, os tensores terão valores diferentes. Podemos evitar esse comportamento, de forma que toda vez que o código é executado o tensor aleatório tenha o mesmo valor por meio da função seed, cujo argumento é a semente para o gerador de números aleatórios do Python:

In [None]:
np.random.seed(1000)
v = np.random.rand(4)
print(v)

np.random.seed(1000)
v = np.random.rand(4)
print(v)


[0.65358959 0.11500694 0.95028286 0.4821914 ]
[0.65358959 0.11500694 0.95028286 0.4821914 ]


### Inicializando arrays usando métodos internos

O NumPy já possui diversos métodos built-in para gerar arrays dos mais diversos tipos
array apenas com zeros

In [None]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

É possível gerar um array de qualquer formato, basta apenasr passar o formato como uma sequência (lista, tupla geralmente) como argumento


In [None]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np.zeros((2, 2, 3))

array([[[0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.]]])

array apenas com 1

In [None]:
np.ones((4, 2, 2), dtype='int32')

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]], dtype=int32)

Um coisa muito comum é usar o np.ones para criar uma matriz de qualquer número fazendo a operação, exemplo:

In [None]:
np.ones((2, 2)) * 10

array([[10., 10.],
       [10., 10.]])

Mas o numpy já tem uma opção mais elegante, o full:


In [None]:
np.full((2, 2), 99)

array([[99, 99],
       [99, 99]])

Qualquer outro número copiando o formato de uma matriz existente


In [None]:
np.full_like(c, 4)

array([[[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]],

       [[4, 4, 4, 4, 4],
        [4, 4, 4, 4, 4]]])

### Criar ranges

#### arange

Método que retorna elementos igualmente espaçados num step (por padrão, 1) dentro de um certo intervalo.


In [None]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Step diferente de 1:


In [None]:
np.arange(0, 5, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9])

#### linspace

Parecido com o arange, mas você diz quantos pontos você quer e o intervalo e ele define o espaçamento linear


In [None]:
np.linspace(0, 100, num=10, retstep=True)


(array([  0.        ,  11.11111111,  22.22222222,  33.33333333,
         44.44444444,  55.55555556,  66.66666667,  77.77777778,
         88.88888889, 100.        ]),
 11.11111111111111)

#### logspace
Retorna números espaçados igualmente na escala log.


In [None]:
np.logspace(0, 100, num=10, base=2.0)

array([1.00000000e+00, 2.21196235e+03, 4.89277742e+06, 1.08226394e+10,
       2.39392709e+13, 5.29527657e+16, 1.17129524e+20, 2.59086096e+23,
       5.73088689e+26, 1.26765060e+30])

### Funções matemáticas
O NumPy oferece diversas funções matemáticas clássicas, como exponencial, logaritmo, seno, cosseno etc. Essas funções são aplicadas a todos os elementos do array
##### Função seno:

In [None]:
np.sin(a)

array([[ 0.84147098,  0.90929743,  0.14112001,         nan, -0.95892427],
       [        nan,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111]])

##### Função cosseno

In [None]:
np.cos(a)

array([[ 0.54030231, -0.41614684, -0.9899925 ,         nan,  0.28366219],
       [        nan,  0.75390225, -0.14550003, -0.91113026, -0.83907153]])

#### Exponencial

In [None]:
np.exp(a)

array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01,            nan,
        1.48413159e+02],
       [           nan, 1.09663316e+03, 2.98095799e+03, 8.10308393e+03,
        2.20264658e+04]])

#### Log

In [None]:
np.log(a)

array([[0.        , 0.69314718, 1.09861229,        nan, 1.60943791],
       [       nan, 1.94591015, 2.07944154, 2.19722458, 2.30258509]])

#### abs

In [None]:
np.abs(a)

array([[ 1.,  2.,  3., nan,  5.],
       [nan,  7.,  8.,  9., 10.]])

### Álgebra Linear

Da definição do Wikipédia:

    Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares, sejam elas algébricas ou diferenciais. A álgebra linear utiliza alguns conceitos e estruturas fundamentais da matemática como vetores, espaços vetoriais, transformações lineares, sistemas de equações lineares e matrizes.

O numpy nos permite executar diversas diversas operações de álgebra linear, mostradas a seguir:


In [None]:
a = np.ones((2, 3))
print(a)
print()

b = np.full((3, 2), 2)
print(b)
print()

c = np.identity(5)
print(c)

[[1. 1. 1.]
 [1. 1. 1.]]

[[2 2]
 [2 2]
 [2 2]]

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


##### Transposição

<img src="transposicao.png"  style="width: 400px" />

A operação de transposição pode ser feita da seguinte forma:

In [None]:
np.transpose(a)

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Ou acessando o atributo T:

In [None]:
a.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

#### Multiplicação de matrizes

A tradicional multiplicação de matrizes, como mostra a imagem abaixo:

<img src="multiplicacao.gif"  style="width: 400px" />

pode ser feita no numpy simplesmente chamando `matmul`


In [None]:
np.matmul(a, b)

array([[6., 6.],
       [6., 6.]])

Operador `@` executa a função anterior:


In [None]:
a @ b

array([[6., 6.],
       [6., 6.]])

Se utilizarmos o símbolo * teremos a múltiplicação elemento à elemento e precisaremos de matrizes de mesmo tamanho

In [None]:
a = np.array([[1, 2], [3, 2]])
b = np.array([[4, 5], [2, 1]])
print(a)
print()
print(b)
a * b

[[1 2]
 [3 2]]

[[4 5]
 [2 1]]


array([[ 4, 10],
       [ 6,  2]])

Outras funcções de Álgebra Linear: https://docs.scipy.org/doc/numpy/reference/routines.linalg.html

    Trace
    Decomposição de vetores
    Autovalor/autovetor
    Norma da Matriz
    Inversa
    Etc...


Referências   <br>
<a href="https://github.com/numpy/numpy" target="_blank">NumPy GitHub</a>  <br>
<a href="https://docs.scipy.org/doc/numpy/reference/" target="_blank">Documentação oficial</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.math.html" target="_blank">Funções matemáticas</a>   <br>
<a href="https://docs.scipy.org/doc/numpy/reference/routines.linalg.html" target="_blank">Funções de Álgebra Linear</a>   <br>
<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Outros</a> 
    

## Outros tópicos
* Broadcasting: operações com vetores de dimensões distintas

<a href="http://www.opl.ufc.br/pt/post/numpy/" target="_blank">Referência</a> 

## Exercícios

1 - Selecione todos os valores ímpares do seguinte array:  <br>
array = [1, 2, 3, 4, 5, 6, 7, 8, 9] <br>


In [None]:
array = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
array

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
mask = array % 2 != 0
mask

array([ True, False,  True, False,  True, False,  True, False,  True])

In [None]:
array[mask]

array([1, 3, 5, 7, 9])

In [None]:
array[array % 2 == 1]

array([1, 3, 5, 7, 9])

2 - Substitua os valores ímpares do seguinte array por 0:  <br>
array = [1, 2, 3, 4, 5, 6, 7, 8, 9] <br>


In [None]:
array[array % 2 == 1] = 0
array

array([0, 2, 0, 4, 0, 6, 0, 8, 0])

In [None]:
np.where(array % 2 == 1, 0, array)

array([0, 2, 0, 4, 0, 6, 0, 8, 0])

In [None]:
np.where(array%2 !=0,0,array)

array([0, 2, 0, 4, 0, 6, 0, 8, 0])

In [None]:
array1 = np.array([1,2,3,4,5,6,7,8,9])
array_impar = np.extract(array1 % 2 != 0, array1)
array_impar

array([1, 3, 5, 7, 9])

3 - Considere o dataset da iris disponível em: 
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'<br> 
Nesse dataset temos as seguintes informações:<br> 
   * Coluna 1. sepal length em cm<br> 
   * Coluna 2. sepal width em cm<br> 
   * Coluna 3. petal length em cm<br> 
   * Coluna 4. petal width em cm<br> 
   * Coluna 5. classe: 
                -- Iris Setosa 
                -- Iris Versicolour 
                -- Iris Virginica 
                
<img src='iris.png' width=300>

Utilizando o método `np.genfromtxt()`, importe as 4 primeiras colunas do dataset do íris e print as 10 primeiras linhas <br>

In [None]:
import numpy as np

# Solution
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
# iris = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3], max_rows=10)
# iris = np.genfromtxt(url, delimiter=',', dtype=str)

names = ('sepallength', 'sepalwidth', 'petallength', 'petalwidth')

# Print the first 3 rows
iris[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [None]:
iris.shape

(150, 4)

4 - Calcule a média, mediana e desvio padrão da coluna sepallenght para todo o dataset (150 linhas)

In [None]:
print(f"Média: {np.mean(iris[:, 0])}")
print(f"Desvio Padrão: {np.std(iris[:, 0])}")
print(f"Medina: {np.median(iris[:, 0])}")

Média: 5.843333333333334
Desvio Padrão: 0.8253012917851409
Medina: 5.8


5 - Filtre a matriz para conter apenas dados nos quais petallength > 1.5 e sepallength < 5.0

In [None]:
mask = (iris[:, 2]>1.5) & (iris[:, 0]<5)
iris[mask]

array([[4.8, 3.4, 1.6, 0.2],
       [4.8, 3.4, 1.9, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [4.9, 2.4, 3.3, 1. ],
       [4.9, 2.5, 4.5, 1.7]])

6 - Esse dataset possui nans?

In [None]:
np.isnan(iris).sum()

0

In [None]:
iris[np.isnan(iris)]

array([], dtype=float64)

In [None]:
quantidade_de_nans = np.count_nonzero(np.isnan(iris))
print(f"\n O dataset possui {quantidade_de_nans} nans")


 O dataset possui 0 nans


In [None]:
len(iris[np.isnan(iris)])

True

In [None]:
tem_nan = np.any(np.isnan(iris))
print(tem_nan)

False


7 - Calcule o volume de cada uma das pétalas sabendo que sua fórmula é dada por (pi x petallength x sepal_length^2)/3

In [None]:
np.pi

3.141592653589793

In [None]:
import math
math.pi

3.141592653589793

In [None]:
petal_length = iris[:, 2].copy()
sepal_length = iris[:, 0].copy()

volume = (np.pi * petal_length * sepal_length**2)/3
volume

array([ 38.13265163,  35.20049849,  30.07237208,  33.23805027,
        36.65191429,  51.91167701,  31.02218026,  39.26990817,
        28.38324243,  37.71481981,  45.80442089,  38.60389053,
        33.77840421,  21.29895099,  42.27327075,  51.03517266,
        39.69716477,  38.13265163,  57.83986235,  40.85641246,
        51.91167701,  40.85641246,  22.15870018,  46.30393412,
        45.84212   ,  41.88790205,  41.88790205,  42.47433268,
        39.6427105 ,  37.01215025,  38.60389053,  45.80442089,
        42.47433268,  44.34881629,  37.71481981,  31.41592654,
        41.1810437 ,  37.71481981,  26.35586797,  40.85641246,
        34.03392041,  27.56747554,  26.35586797,  41.88790205,
        51.75145578,  33.77840421,  43.58017329,  31.02218026,
        44.12366882,  36.65191429, 241.16959604, 193.01945264,
       244.29966952, 126.71090369, 203.52284408, 153.10551797,
       195.34737279,  82.97260357, 209.83325652, 110.43326496,
        91.62978573, 153.10237638, 150.79644737, 183.14

8 - Desafio: calcule a média do volume das pétalas quando a espécie é do tipo 'Iris-versicolor'.

In [None]:
# np.genfromtxt(url, delimiter=',', dtype=str)
iris_nomes = np.genfromtxt(url, delimiter=',', dtype=str, usecols=[4])
iris_nomes

array(['Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-setosa', 'Iris-setosa',
       'Iris-setosa', 'Iris-setosa', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versic

In [None]:
mask = iris_nomes == 'Iris-versicolor'
mask

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

In [None]:
mask.shape

(150,)

In [None]:
volume.shape

(150,)

In [None]:
volume[mask].mean()

160.5600356287936

In [None]:
# filtrando apenas as Iris-versicolor
# espécie fica na coluna 5 (índice 4)
from math import pi

iris_completa = np.genfromtxt(url, delimiter=',', dtype=str)
filto_especie = iris_completa[:,-1] == 'Iris-versicolor'  # -1 = última coluna
apenas_versicolor = iris_completa[filto_especie]
# print(apenas_versicolor)
print(apenas_versicolor.shape)
volume_versicolor = apenas_versicolor[:,2].astype(float) * (apenas_versicolor[:,0].astype(float))**2 * pi / 3
# volume_versicolor = apenas_versicolor[:,2]* (apenas_versicolor[:,0])**2 * pi / 3
print(f"O volume de cada pétala da esécie VERSICOLOR é: {volume_versicolor}")
print(volume_versicolor.shape)

media_vol_versicolor = np.mean(volume_versicolor)
print(f"A média dos volumes das versicolors é: {media_vol_versicolor}")

(50, 5)
O volume de cada pétala da esécie VERSICOLOR é: [241.16959604 193.01945264 244.29966952 126.71090369 203.52284408
 153.10551797 195.34737279  82.97260357 209.83325652 110.43326496
  91.62978573 153.10237638 150.79644737 183.14123814 118.22441474
 206.83827152 147.78051842 144.43367505 181.14423241 128.0764493
 174.97414443 155.86488352 203.66002695 183.14123814 184.4408103
 200.71007145 232.42759088 235.04349037 169.64600329 119.08206953
 120.37535851 117.20758592 137.38812993 192.2654704  137.41326267
 169.64600329 220.94088094 182.87839155 134.64447234 126.71090369
 139.38199406 179.24461605 140.91090249  86.39379797 137.92848386
 142.89848344 142.89848344 173.09337763  81.71282492 139.4961386 ]
(50,)
A média dos volumes das versicolors é: 160.5600356287936


## Mais coisas interessantes...


#### Tipo de dado e tamanho

Na sessão Checando o tipo de dados do array já foi dito dos tipos de dados, mas agora falaremos da diferença de tamanhos que isso ocupa na memória.

Então, temos as variáveis a e b criadas anteriormente com os seguintes tipos:


In [None]:
a.dtype

dtype('int64')

In [None]:
b.dtype

dtype('int64')


Por padrão, se o python instalado é 64 bits, ele irá criar tipos int ou float de 64 bits. Caso seu python fosse 32 bits, seria int32 e float32.

Vamos criar uma outra array, a16, com o tipo inteiro de 16 bits.


In [None]:
a16 = np.array([1, 2, 3], dtype=np.int16)
a16


array([1, 2, 3], dtype=int16)

Note que por ser um tipo diferente do padrão, ele ressalta ao imprimir.

Para descobrir quanto cada elemento individualmente ocupa na memória, podemos acessar o atributo itemsize:


In [None]:
a.itemsize

8


Ele retorna 8 e não 64! Isso é porque ele já converteu os bits para bytes. Bytes é o conjunto de 8 bits.

Logo:

$ 64/8=8 $

Já nosso array int16, temos:


In [None]:
a16.itemsize

2

Uma vez que:

$ 16/8 = 2 $

In [None]:
# quantidade de elementos total
a.size

4

Quantidade de elementos vezes o tamanho de cada elemento nos dará o tamanho total de bytes que o array inteiro ocupa:


In [None]:
a.size * a.itemsize

32


Mas ao invés de calcular isso, podemos simplesmente acessar o atributo `nbytes`, que já é o tamanho total de bytes ocupado pelo array:


In [None]:
a.nbytes

32

**Observação**

Geralmente não é necessário reduzir o número de bits a não ser que você tenha certeza que um tamanho reduzido vai atender sua necessidade e você quer ser extremamente eficiente.


#### Shape: (3,) x Shape: (3,1)

- (3,):

This shape represents a 1-dimensional array with 3 elements. It's often referred to as a "rank-1 array". This array has __no specific distinction between rows and columns__. It's important to note that operations on this type of array might not behave as expected when it comes to linear algebra operations, and it's generally recommended to avoid using rank-1 arrays.

- (3,1):

This shape represents a 2-dimensional array with 3 rows and 1 column. It's essentially a column vector. The __distinction between rows and columns is clear__ in this case, and it's more suitable for linear algebra operations. 

In [None]:
import numpy as np

# Creating arrays
array_1d = np.array([1, 2, 3])    # Shape: (3,)
array_2d = np.array([[1], [2], [3]])  # Shape: (3,1)

# Printing the arrays
print("1D Array:")
print(array_1d)
print(array_1d.shape)
print("\n2D Array:")
print(array_2d)
print(array_2d.shape)

# Transposing the 1D array
transposed_1darray = array_1d.T

print("\nTransposed 1D Array:")
print(transposed_1darray)
print(transposed_1darray.shape)

# Transposing the 2D array
transposed_array = array_2d.T

print("\nTransposed 2D Array:")
print(transposed_array)
print(transposed_array.shape)

1D Array:
[1 2 3]
(3,)

2D Array:
[[1]
 [2]
 [3]]
(3, 1)

Transposed 1D Array:
[1 2 3]
(3,)

Transposed 2D Array:
[[1 2 3]]
(1, 3)


## Qual a diferença entre "None", "nan", "NaN" e "NAN"?
No contexto do pandas e numpy, os termos "None", "nan", "NaN" e "NAN" se referem a valores especiais que são usados para representar a falta de um valor numérico ou a presença de um valor inválido. No entanto, é importante observar que as convenções de capitalização variam entre essas bibliotecas e os termos exatos são sensíveis a maiúsculas e minúsculas.

- **None (Python):**  O objeto None é um valor especial em Python usado para representar a ausência de valor ou um valor nulo. No entanto, em numpy e pandas, o None é frequentemente interpretado como um valor de objeto genérico em vez de um valor numérico. Portanto, não é comumente usado para representar valores ausentes em matrizes numéricas.

- **NaN (numpy):** "NaN" representa "Not a Number". É um valor especial usado em numpy (e em muitas outras linguagens de programação) para indicar que um valor numérico não é válido ou não pode ser representado corretamente. Isso é comum ao realizar cálculos matemáticos que resultam em operações inválidas, como a divisão por zero. O "NaN" é um valor de ponto flutuante e é usado para indicar valores ausentes em arrays numéricos do numpy.

- **NaN (pandas):** O pandas é construído sobre o numpy e herda o conceito de "NaN" para representar valores ausentes em seus DataFrames e Series. Portanto, o "NaN" no pandas tem o mesmo significado que o "NaN" no numpy. É usado quando um valor numérico está faltando ou é inválido.

- **NAN (numpy/pandas):** Algumas versões mais antigas do numpy e pandas podiam reconhecer "NAN" (em letras maiúsculas) como um valor especial para representar valores ausentes, assim como "NaN". No entanto, em versões mais recentes, a convenção correta é "NaN" (em letras minúsculas).

Portanto, ao trabalhar com numpy e pandas, a convenção correta é usar "NaN" (em letras minúsculas) para representar valores ausentes ou inválidos. Evite usar "None" para essa finalidade, pois ele pode levar a comportamentos inesperados em cálculos numéricos.

## [Avaliação anônima](https://forms.gle/tShxhxNYhvi6ZmQm8)