# Prática

## Multiplicação de matrizes

Duas funções úteis em python para trabalhar com matrizes são:

- `np.eye`: retorna uma matriz identidade
- `np.ones`: retorna um vetor de 1s

Pesquise na Internet e help() sobre as funções.

### Exercício

O código abaixo é uma forma tradicional de implementar uma média ponderada

In [3]:
import numpy as np

# Dados de entrada
values = np.array([1, 2, 3, 4, 5])
weights = np.array([0.1, 0.2, 0.3, 0.2, 0.2])

# Solução com laços
weighted_sum_loop = 0
sum_weights = 0
for i in range(len(values)):
    weighted_sum_loop += values[i] * weights[i]
    sum_weights += weights[i]
weighted_average_loop = weighted_sum_loop / sum_weights
weighted_average_loop

3.2

Faça uma versão do código acima utilizando apenas álgebra matricial

In [19]:
# Solução com multiplicação de matrizes
weighted_average_matrix = (values @ weights) / (weights @ np.ones(len(weights)))
weighted_average_matrix

3.2

In [8]:
# Versão ao estilo python
weighted_average_func = np.sum(values * weights) / np.sum(weights)
weighted_average_func

3.2

### Exercício

Estude o código abaixo para compreender as operações realizadas:

In [20]:
import numpy as np

# Dados de entrada
X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# O trecho abaixo realiza a média do quadrado da soma das linhas, ou seja:
# 1 - primeiro, soma-se os elementos de cada linha, resultando em 1 soma por linha (3 elementos)
# 2 - depois, cada elemento é elevado ao quadrado
# 3 - por fim, tira-se a média dos valores
result = 0
for row in X:
    row_sum = 0
    for element in row:
        row_sum += element
    row_squared = row_sum ** 2
    result += row_squared
result /= X.shape[0]

print("Resultado:", result)

Resultado: 279.0


Agora escreva uma versão do mesmo código, mas utilizando apenas a operação de multiplicação de matrizes.

In [40]:
# Preencha as partes faltantes
row_sums = X @ np.ones(len(X)) # Soma das linhas
result = (row_sums @ row_sums) / X.shape[0] # eleve cada elemento ao quadrado e calcule a médi
print(result)

279.0


In [41]:
# Versão ao estilo python (composição de funções sobre dados imutáveis)
#
# Novas linguagens incorporam o estilo de programação funcional, com diversas funções que simplificam a escrita e código. Vale a pena as estudar
result = (X.sum(axis=1) ** 2).mean()

print("Resultado:", result)

Resultado: 279.0


## Embedding vectors

### Similaridade de cosseno e distância euclidiana

Implemente as seguintes funções para analisar similaridade entre vetores: similaridade de cosseno e distância euclidiana

#### Distância euclidiana

In [49]:
def euclidean_distance(vec1, vec2):    
    diff = vec1 - vec2
    quad_diff = diff * diff
    sum_quad = quad_diff @ np.ones(len(quad_diff))
    distancia = np.sqrt(sum_quad)
    # print(vec1)
    # print(vec2)
    # print(diff)
    # print(quad_diff)
    # print(sum_quad)
    # print(distancia)
    return distancia

In [50]:
# testa a função
arrays = np.array(([3, 0], [1, 3]))
assert euclidean_distance( *arrays ) == 13**0.5

#### Similaridade de cosseno

In [81]:
def cosine_similarity(vec1, vec2):
    return (vec1 @ vec2) / (np.sqrt(vec1 @ vec1) * np.sqrt(vec2 @ vec2))

In [65]:
# Testa a função
arrays = np.array(([2, 4, 6], [1, 2, 3]))
assert cosine_similarity( *arrays ) == 1

### Sentence Transformer

No exercício abaixo, utilize o modelo [paraphrase-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/paraphrase-MiniLM-L6-v2). Este é um modelo muito eficiente para comparação de sentenças, pequeno e veloz. Veja uma [comparação](https://www.sbert.net/docs/pretrained_models.html) entre alguns modelos.

Sua tarefa é encontrar quais sentenças são mais semelhantes entre si.

Primeiro carregue o modelo indicado abaixo

In [82]:
from sentence_transformers import SentenceTransformer
# from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import numpy as np

model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L6-v2')

In [83]:
# Utilize as seguintes sentenças
sentences = [
    "My mom",
    "I went to the market to buy fish",
    "I went to the market to buy salmon and tomato",
    "I went to the market to buy tomato and deodorant",
    "I went to the market to buy candies",
    "Poop",
    "I love chocolate",
    "Vegetables",
    "Don't forget your sweater"
]

In [84]:
# Retorna uma lista de embedding vectors, cada um correspondendo a uma das sentenças
sentence_embeddings = model.encode(sentences)
sentence_embeddings.shape

(9, 384)

In [85]:
# Utiliza sua função criada `cosine_similarity` para calcular a similaridade entre os vetores
def similarity_between_lists(list1, list2):
    return np.array([[cosine_similarity(vec1, vec2) for vec2 in list2] for vec1 in list1])

In [86]:
# Verifique a similaridade entre as frases
distances = pd.DataFrame( similarity_between_lists(sentence_embeddings[:], sentence_embeddings[:]) ) # sklearn possui a função: cosine_similarity(sentence_embeddings)
distances

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,1.0,0.255914,0.244027,0.229939,0.242855,0.124054,0.199148,0.167029,0.27876
1,0.255914,1.0,0.864093,0.671755,0.690502,0.125447,0.183078,0.268821,0.10101
2,0.244027,0.864093,1.0,0.759449,0.614653,0.128634,0.153153,0.389119,0.180666
3,0.229939,0.671755,0.759449,1.0,0.625138,0.225643,0.022885,0.361932,0.260928
4,0.242855,0.690502,0.614653,0.625138,1.0,0.105269,0.263978,0.277746,0.100283
5,0.124054,0.125447,0.128634,0.225643,0.105269,1.0,0.095049,0.175825,0.127986
6,0.199148,0.183078,0.153153,0.022885,0.263978,0.095049,1.0,0.038808,0.134812
7,0.167029,0.268821,0.389119,0.361932,0.277746,0.175825,0.038808,1.0,0.091382
8,0.27876,0.10101,0.180666,0.260928,0.100283,0.127986,0.134812,0.091382,1.0


Agora liste quais pares de frases distintas são as mais próximas

In [92]:
# Crie uma matrix identidade da ordem de "distances"
num_rows, num_cols = distances.shape
order = min(num_rows, num_cols)
eye_matrix = np.eye(order)

# retorna as combinações mais próximas
[(sentences[idx], sentences[near]) for idx, near in
    (distances - eye_matrix).idxmax().items()]

[('My mom', "Don't forget your sweater"),
 ('I went to the market to buy fish',
  'I went to the market to buy salmon and tomato'),
 ('I went to the market to buy salmon and tomato',
  'I went to the market to buy fish'),
 ('I went to the market to buy tomato and deodorant',
  'I went to the market to buy salmon and tomato'),
 ('I went to the market to buy candies', 'I went to the market to buy fish'),
 ('Poop', 'I went to the market to buy tomato and deodorant'),
 ('I love chocolate', 'I went to the market to buy candies'),
 ('Vegetables', 'I went to the market to buy salmon and tomato'),
 ("Don't forget your sweater", 'My mom')]

Analise a capacidade do modelo em relacionar a semântica das frases. Para cada frase, analise a correspondente mais próxima.

Resultado:

1. Ao associar a palavra `fish` com `salmon`
1. Ao associar a palavra `poop` com `deodorant`
1. Ao associar a relação de `amar chocolate` e então ir ao mercado `comprar doces`
1. Ao associar a palavra `vegetables` com `tomato`
1. Ao associar a palavra `mom` com frases comum das mães

Qual é a segunda frase que mais se aproxima de `my mom`? Sabe explicar o motivo?

1. Com toda certeza ele conseguiu correlacionar bem peixe com salmão, já que para ambos os casos de comparar A com B o maior resultado foi sempre nos pares fish/salmon.

2. Se for analisar, não existe nada muito próximo de poop, porém ele conseguiu correlacionar na melhor das hipóteses desodorante. E está até que coerente, já que as duas coisas podem ser encontradas no mesmo ambiente, o banheiro.

3. Essa capacidade de relacionar fortemente amar chocolate com comprar doces incrivelmente não foi recíproca, uma vez que comprar doces ficou com uma relação mais forte com ir ao mercado comprar doce. Mas de qualquer forma, a capacidade de relacionar está altíssima.

4. Novamente, ele conseguiu relacionar bem tomate com vegetais, conseguindo relacionar um item com um grupo.

5. Essa última associação foi muito interessante, já que ele conseguiu associar pessoas com frases que possivelmente essas pessoas falariam. Uma vez que é de senso comum, e se repete muito na literatura que mães alertam os filhos sobre pegarem casacos para sair de casa.