# Ponderada Matemática - Similaridade do Cosseno
> Semana 3 - Rafael Techio


Suponha que você esteja trabalhando em um projeto de classificação de documentos e deseja calcular a similaridade de cosseno entre dois documentos com base em seus termos-chave. Cada documento é representado por um vetor de contagem de termos-chave, onde cada elemento do vetor representa a frequência de um termo específico. No entanto, você deseja atribuir pesos diferentes aos termos-chave com base em sua importância relativa na classificação dos documentos. Considere os seguintes documentos e seus vetores de contagem de termos-chave: Documento 1: "O sol está brilhando no céu" Vetor de contagem de termos-chave 1: [1, 0, 1, 1, 1] Documento 2: "A lua está visível durante o dia" Vetor de contagem de termos-chave 2: [1, 1, 0, 1, 1] Para calcular a similaridade de cosseno ponderada entre esses dois documentos, você atribuiu os seguintes pesos para cada termo-chave: Pesos: [0.8, 0.5, 0.3, 0.9, 0.7] Calcule a similaridade de cosseno ponderada entre os documentos 1 e 2, levando em consideração os pesos ponderados para cada termo-chave.


## Função da fórmula de similaridade

In [None]:
import math

def cosine_similarity(a, b):
  numerador = 0
  denominadorA = 0
  denominadorB = 0
  for i in range(len(a)):
    numerador += a[i] * b[i]
    denominadorA += a[i] * a[i]
    denominadorB += b[i] * b[i]

  return numerador / ((math.sqrt(denominadorA)) * (math.sqrt(denominadorB)))

print("Ângulo de 45", cosine_similarity([1, 1], [0, 1]))
print("Ângulo de 90", cosine_similarity([1, 0], [0, 1]))
print("Ângulo de 0", cosine_similarity([1, 1], [1, 1]))

Ângulo de 45 0.7071067811865475
Ângulo de 90 0.0
Ângulo de 0 0.9999999999999998


## Função de multiplicação por peso


In [None]:
def mult_arr(arr, weights):
  for i in range(len(arr)):
    arr[i] = arr[i] * weights[i]

  return arr

print("* 0 ", mult_arr([1,1], [0,0]))
print("* 1 ", mult_arr([1,1], [1,1]))
print("* misc", mult_arr([1,2], [0.5,0.3]))

* 0  [0, 0]
* 1  [1, 1]
* misc [0.5, 0.6]


# Resolução da ponderada

In [None]:
doc1 = [1,0,1,1,1]
doc2 = [1,1,0,1,1]

print('doc1 -> O sol está brilhando no céu', doc1);
print('doc2 -> A lua está visível durante o dia', doc2)

weights = [0.8, 0.5, 0.3, 0.9, 0.7]
doc1WithWeight = mult_arr(doc1, weights)
doc2WithWeight = mult_arr(doc2, weights)

print('Doc1 com pesos', doc1WithWeight)
print('Doc2 com pesos', doc2WithWeight)

print('Cosine Similary:', cosine_similarity(doc1WithWeight, doc2WithWeight))

doc1 -> O sol está brilhando no céu [1, 0, 1, 1, 1]
doc2 -> A lua está visível durante o dia [1, 1, 0, 1, 1]
Doc1 com pesos [0.8, 0.0, 0.3, 0.9, 0.7]
Doc2 com pesos [0.8, 0.5, 0.0, 0.9, 0.7]
Cosine Similary: 0.9200928451719668


# Naive Bayes

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)
print('X', X)
print('y', y)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)
y_pred

X [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 1, 1, 1, 2, 0, 2, 0,
       0, 1, 2, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 2, 1, 2, 1, 0, 2, 1, 1, 1,
       1, 2, 0, 0, 2, 1, 0, 0, 1])