## Técnicas de Programação I - Numpy

Na aula de hoje iremos explorar os seguintes tópicos:

- Numpy


In [None]:
# Importando o módulo numpy
# Por conveniência utilizamos o `as` dando um "apelido" (alias) para o módulo 
# Neste caso sendo `np`
import numpy as np

#### Máscaras e condicionais

Podemos aplicar diversos operadores booleanos como:
- `>` | `>=`
- `<` | `<=`
- `==`
- `in`

In [None]:
mat = np.random.normal(10, 5, (8, 4))
mat

In [None]:
# Qual número da nossa matriz é maior que 8?
mat > 8

In [None]:
# Utilizando o map seria:
mask = lambda x: x > 8
[list(map(mask, line)) for line in list(mat)]

Obtemos uma máscara!

In [None]:
# Filtrando apenas os verdadeiros
mascara = mat > 8
mat[mascara]

In [None]:
# Utilizando a negação com `~` ou seja
# seria igual a mat <= 8
print(mat[~mascara])
print(mat[mat <= 8])

Podemos utilizar as operações `any` e `all`

O `any` retorna verdadeiro se qualquer (`or`) valor for verdadeiro

O `all` retorna verdadeiro se e somente se todos (`and`) os valores sejam verdadeiros

In [None]:
np.any(mat > 8, axis=0)

In [None]:
# Retornando as colunas que possuam pelo menos um valor acima de 15
mat[:, np.any(mat > 15, axis=0)]

In [None]:
np.all(mat >5, axis=1)

In [None]:
# Retornando as linhas cujos todos os valores são superiores a 5
mat[np.all(mat > 5, axis=1), :]

**Múltiplas condições**

Para operações complexas podemos utilizar o operador `&` que representa o `and`, ou seja, ambas as condições precisam ser verdadeiras (`True & True` -> `True`).

Por outro lado, podemos indagar se **pelo menos uma** condição é verdadeira, similar ao `or` que no caso do numpy é representado como `|` (`True | False` -> `True`)

In [None]:
print(mat)

In [None]:
# Criando uma máscara para números maiores que 8
mask_8 = mat > 8
# Criando uma máscara para números menores que 10
mask_10 = mat < 10

mask_full = ((mask_8) & (mask_10))

print('mask_8')
print(mask_8)

print('mask_10')
print(mask_10)

print("mask_full")
print(mask_full)

In [None]:
# Alternativamente podemos escrever em uma linha
# Note os parentêses além de melhorar a legilibilidade do código
# É obrigatório em múltiplas comparações no numpy
mask_full = ((mat > 8) & (mat < 10))

print("mask_full")
print(mask_full)

**Drops**

A partir da matriz `arr` filtre os dados com base nos seguintes critérios:
- Divisivel por 3
- Divisivel por 5
- Divisivel por 3 e 5

In [None]:
arr = np.arange(0, 100)

Uma vantagem das máscaras é substituir valores

In [None]:
mat = np.random.randint(0, 100, (3, 3))
print(mat)
print(mat[mat > 50])
mat_mod = mat.copy()
mat_mod[mat_mod > 50] = -100
print(mat_mod)

**Drops**

A partir da matriz `arr` substitua os valores com base nos seguintes critérios:
- Divisivel por 3 -> fizz
- Divisivel por 5 -> buzz
- Divisivel por 3 e 5 -> fizzbuzz

In [None]:
arr =np.arange(0, 100)


**Podemos utilizar o `where` para realizar operações de `if/else`**

In [None]:
arr = np.arange(0, 100)
np.where(arr%2==0, arr**2, 0)

In [None]:
# O Where funciona para cada elemento da lista!
# Seria como o `filter`
arr = np.random.randint(0, 100, (3,3))
np.where(arr%2==0, arr**2, 0)

In [None]:
%%time
arr = np.arange(0, 10_000)
_ = [x**2 if x%2 == 0 else 0 for x in arr ]

In [None]:
%%time
arr = np.arange(0, 10_000)
_ = np.where(arr%2==0, arr**2, 0)

In [None]:
# Podemos encadear funções where
# Muito parecido com o excel IF(cond2, IF(cond, True, False), False)
arr = np.random.randint(0, 100, 100)

# Números impáres mantidos inalterados
# Números pares acima de 50 trocados por -1000
# Números pares abaixo ou igual a 50 trocados por -10
np.where((arr % 2 == 0),
         np.where(arr > 50, -1000, -10), arr)

#### Operações matemáticas com arrays

A primeira funcionalidade é a capacidade de realizar operações elemento a elemento do array.

In [None]:
arr = np.array([4, 6, 2, 8])
arr2 = np.array([2, 3, 1, 4])

**Soma**

In [None]:
print(arr + arr2)
# Em python puro seria
[ele1 + ele2 for ele1, ele2 in zip(arr, arr2)]

Note que temos um padrão!
Fazemos uma operação com a mesma posição de elementos de arrays diferentes

**Subtração**

In [None]:
print(arr - arr2)
# Em python puro seria
[ele1 - ele2 for ele1, ele2 in zip(arr, arr2)]

**Multiplicação**

In [None]:
print(arr * arr2)
# Em python puro seria
[ele1 * ele2 for ele1, ele2 in zip(arr, arr2)]

**Divisão**

In [None]:
print(arr / arr2)
# Em python puro seria
[ele1 / ele2 for ele1, ele2 in zip(arr, arr2)]

**Procurar no class sobre broadcasting**

Outros materiais:

https://numpy.org/doc/stable/user/basics.broadcasting.html

https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arrays-broadcasting.html

https://www.youtube.com/watch?v=oG1t3qlzq14

#### Matriz identidade

In [None]:
# Matriz identidade
mat_identidade = np.identity(5)
mat_identidade
# Ou
mat_identidade = np.eye(5)
mat_identidade

In [None]:
matriz_quadrada = np.array([[1000, 200], [2, -7]])
inv_matriz_quadrada = np.linalg.inv(matriz_quadrada)
inv_matriz_quadrada

In [None]:
matriz_quadrada = mat

In [None]:
# Achando a determinante
np.linalg.det(matriz_quadrada)

**Produto escalar (dot product)**

https://www.mathsisfun.com/algebra/vectors-dot-product.html

In [None]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([2, 2, 3])

print(arr1 * arr2)

print(arr1.dot(arr2))

print(np.matmul(arr1, arr2))

print(arr1 @ arr2) # Mais comum

**Produto de matriz (matrix multiplication)**

https://www.mathsisfun.com/algebra/matrix-multiplying.html

Ps: note que **dot product** e **matrix multiplication** são duas operações distintas, em termos matemáticos

A primeira é definida entre dois vetores (dot product) a segunda entre duas matrizes (matrix multiplication), são duas operações distintas em dois tipos de objetos distintos!

```
[a, b] @ [e, f]  = [a*e + b*g, a*f + b*h]  
[c, d]   [g, h]    [c*e + d*g, c*f + d*h]  
```

In [None]:
mat1 = np.array([[1000, 200], [2, -7]])
mat2 = np.array([[0,1], [1, 0]])
print(mat1)
print(mat2)
dot = mat1.dot(mat2)
matmul = np.matmul(mat1, mat2)
at = mat1 @ mat2
print('dot')
print(dot)
print('matmul')
print(matmul)
print('@')
print(at) # Mais comum


In [None]:
mat1 = np.random.randint(0, 3, (3, 2))
mat2 = np.random.randint(0, 3, (2, 3))

# Erro
# print(mat1 * mat2)
dot = mat1.dot(mat2)
matmul = np.matmul(mat1, mat2)
at = mat1 @ mat2
print(dot)

print(matmul)

print(at) # Mais comum

print(f'''
mat1: {mat1.shape}
mat2: {mat2.shape}
dot: {dot.shape}
matmul: {matmul.shape}
at: {at.shape}
''')

# O resultado da multiplicação de matrizes é (A, B) x (B, C) -> (A, C)
# O número de colunas na primeira deve ser igual o número de linhas da segunda

In [None]:
# E em matrizes tridimensionais?

mat1 = np.random.randint(0, 3, (3, 4, 2))
mat2 = np.random.randint(0, 3, (3, 2, 4))

prod = mat1 @ mat2

print(prod)
print(f'''
mat1: {mat1.shape}
mat2: {mat2.shape}
prod: {prod.shape}
''')

Nesse caso podemos pensar na matriz tridimensional sendo uma pilha de matrizes bidimensionais!

Ou seja seria o mesmo que realizar o produto de matrizes várias vezes:
```
array(
  mat1[0] @ mat2[0]
  mat1[1] @ mat2[1]
  mat1[2] @ mat2[2]
)
```

Note que há diversos erros na hora de trabalhar com multiplicação de matrizes, principalmente com as dimensões dessas!

In [None]:
mat1 = np.random.random((2, 1))
mat2 = np.random.random((2, 1))

mat1 @ mat2

In [None]:
x = np.linspace(1, 15, 150)

In [None]:
x

In [None]:
funcoes = [
    np.sin(x),
    np.cos(x),
    np.exp(x),
    np.log(x),
]

In [None]:
for funcao in funcoes:
    print(funcao)

In [None]:
import matplotlib.pyplot as plt
titulos = ['Função seno','Função cos', 'Função exp', 'Função log']
plt.figure(figsize=(11, 11))
for index, funcao in enumerate(funcoes):
    plt.subplot(2,2, index+1)
    plt.plot(x, funcao)
    plt.title(titulos[index])

**Distância euclidiana**

A distância entre dois pontos (x1, y1), (x2,y2)!

![a](https://rosalind.info/media/Euclidean_distance.png)

In [None]:
def calcula_distancia_euclidiana(Xa, Xb):
    total_distancia = 0
    for a, b in zip(Xa, Xb):
        distancia = (a - b)**2
        total_distancia += distancia
        
    return np.sqrt(total_distancia)


In [None]:
Xa = np.random.random(size=1_000_000)
Xb = np.random.random(size=1_000_000)

In [None]:
calcula_distancia_euclidiana(Xa, Xb)

In [None]:
def calcula_distancia_euclidiana_vetorizado(Xa, Xb):
    return np.sqrt(np.sum((Xa - Xb) ** 2))

In [None]:
calcula_distancia_euclidiana_vetorizado(Xa, Xb)

In [None]:
%%time
calcula_distancia_euclidiana(Xa, Xb)

In [None]:
%%time
calcula_distancia_euclidiana_vetorizado(Xa, Xb)

## Monte Carlo Calculo de Pi

Imagine que você tenha um quadrado de lado 2. Dentro desse quadrado conseguimos inserir um circulo com raio 1.

Logo a área do quadrado é: $l^2 = (2*r)^2$  
E a área do circulo é: $\pi * r^2$  

Imagine que eu jogue 1000 agulhas aleatoriamente nesse quadrado.  
Quantas agulhas irão cair dentro do circulo?  
Quantas agulhas irão cair fora do circulo?

$P(agulha \ dentro) = ÁreaCirculo / AreaQuadrado$  
$P(agulha \ dentro) = \pi * r^2 / 4r^2$  
$P(agulha \ dentro) = \pi / 4$  
$\pi = (Dentro/Total) * 4$  


Construa um programa que simule o lançamento de $n$ agulhas (1000 por exemplo).  
Qual seria o valor de pi?  
E se fizermos essa simulação (Monte Carlo) muitas vezes(1, 10, 100, 1000, 10000)? Qual o valor de pi (média e desvio padrão)?  

distância <= 1 agulha dentro do círculo

e lembrando que:
$d^2 = x^2 + y^2$ ==> $d =  sqrt(x^2 + y^2)$

In [None]:
%%time
import random

pis = []
n_sim = 10000
agulhas = 1000
for _ in range(n_sim):
    pontos_circulo = 0
    total = 0
    for i in range(agulhas):
        total +=1
        x = random.random()
        y = random.random()
        dist = (x**2 + y**2) ** 0.5
        if dist <= 1:
            pontos_circulo += 1
    pi = 4 * (pontos_circulo / total) 
    pis.append(pi)

In [None]:
import seaborn as sns
sns.kdeplot(pis)