<a href="https://colab.research.google.com/github/sujialagar/youtube-streaming-data/blob/main/Text_Embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [17]:
# Import necessary libraries
!pip install tensorflow-text
import numpy as np
import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_text as text
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from scipy.spatial.distance import jaccard



In [18]:
#Jaccard similarity
sentence_1 = "the oceans is very dense to see"
sentence_2 = "gorgeous to see oceans and the vast expanse of the ocean is mesmerizing to behold"
sentences_3 = "The deep blue sea holds many mysteries waiting to be discovered also it has crystal clear waters make the ocean a beautiful sight."
sentences_4 = "Exploring the underwater world reveals stunning coral reefs when watching the sun rise over the ocean is a serene experience."
sentences_5 = "The ocean's waves create a rhythmic and calming sound also the oceans vastness is both humbling and awe-inspiring."

# Tokenize and create sets of words
set_1 = set(sentence_1.lower().split())
set_2 = set(sentence_2.lower().split())
set_3 = set(sentences_3.lower().split())
set_4 = set(sentences_4.lower().split())
set_5 = set(sentences_5.lower().split())


intersection = set_1.intersection(set_2)
union = set_1.union(set_2)
jaccard_similarity = len(intersection) / len(union)


print(f"Jaccard Similarity: {jaccard_similarity}")


Jaccard Similarity: 0.3333333333333333


In [19]:
#Euclidean distance

import math

# Tokenize sentences
tokens_1 = sentence_1.lower().split()
tokens_2 = sentence_2.lower().split()
tokens_3 = sentences_3.lower().split()
tokens_4 = sentences_4.lower().split()
tokens_5 = sentences_5.lower().split()

# Create a combined vocabulary
vocabulary = list(set(tokens_1) | set(tokens_2))
vocabulary.sort()

# Create BoW vectors
bow_1 = [tokens_1.count(word) for word in vocabulary]
bow_2 = [tokens_2.count(word) for word in vocabulary]
bow_3 = [tokens_3.count(word) for word in vocabulary]
bow_4 = [tokens_4.count(word) for word in vocabulary]
bow_5 = [tokens_5.count(word) for word in vocabulary]


euclidean_distance = math.sqrt(sum((bow_1[i] - bow_2[i]) ** 2 for i in range(len(vocabulary))))


print(f"Euclidean Distance: {euclidean_distance}")



Euclidean Distance: 3.4641016151377544


In [20]:
# BoW vectors for each sentence
print(f"BoW Vector for Sentence 1: {bow_1}")
print(f"BoW Vector for Sentence 2: {bow_2}")
print(f"BoW Vector for Sentence 3: {bow_3}")
print(f"BoW Vector for Sentence 4: {bow_4}")
print(f"BoW Vector for Sentence 5: {bow_5}")




BoW Vector for Sentence 1: [0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1]
BoW Vector for Sentence 2: [1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 0]
BoW Vector for Sentence 3: [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 2, 1, 0, 0]
BoW Vector for Sentence 4: [0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 3, 0, 0, 0]
BoW Vector for Sentence 5: [2, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 2, 0, 0, 0]


In [21]:
# Calculate sentence vectors as the average of word vectors (BoW vectors in this case)
cbow_vector_1 = [sum(bow_1) / len(bow_1)] * len(vocabulary)
cbow_vector_2 = [sum(bow_2) / len(bow_2)] * len(vocabulary)
cbow_vector_3 = [sum(bow_3) / len(bow_3)] * len(vocabulary)
cbow_vector_4 = [sum(bow_4) / len(bow_4)] * len(vocabulary)
cbow_vector_5 = [sum(bow_5) / len(bow_5)] * len(vocabulary)


print(f"CBOW Vector for Sentence 1: {cbow_vector_1}")
print(f"CBOW Vector for Sentence 2: {cbow_vector_2}")
print(f"CBOW Vector for Sentence 3: {cbow_vector_3}")
print(f"CBOW Vector for Sentence 4: {cbow_vector_4}")
print(f"CBOW Vector for Sentence 5: {cbow_vector_5}")



CBOW Vector for Sentence 1: [0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667, 0.4666666666666667]
CBOW Vector for Sentence 2: [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
CBOW Vector for Sentence 3: [0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666, 0.26666666666666666]
CBOW Vector for Sentence 4: [0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.3333333333333333, 0.333333333333

In [22]:
# Calculate dot product
dot_product = sum(bow_1[i] * bow_2[i] for i in range(len(vocabulary)))
print(f"Dot Product: {dot_product}")


# Calculate magnitudes
magnitude_1 = math.sqrt(sum(bow_1[i] ** 2 for i in range(len(vocabulary))))
magnitude_2 = math.sqrt(sum(bow_2[i] ** 2 for i in range(len(vocabulary))))
magnitude_3 = math.sqrt(sum(bow_3[i] ** 2 for i in range(len(vocabulary))))
magnitude_4 = math.sqrt(sum(bow_4[i] ** 2 for i in range(len(vocabulary))))
magnitude_5 = math.sqrt(sum(bow_5[i] ** 2 for i in range(len(vocabulary))))


# Calculate Cosine similarity
cosine_similarity = dot_product / (magnitude_1 * magnitude_2)
cosine_similarity_3 = dot_product / (magnitude_1 * magnitude_3)
cosine_similarity_4 = dot_product / (magnitude_1 * magnitude_4)
cosine_similarity_5 = dot_product / (magnitude_1 * magnitude_5)

print(f"Cosine Similarity: {cosine_similarity}")
print(f"Cosine Similarity: {cosine_similarity_3}")
print(f"Cosine Similarity: {cosine_similarity_4}")
print(f"Cosine Similarity: {cosine_similarity_5}")


Dot Product: 7
Cosine Similarity: 0.6069769786668838
Cosine Similarity: 1.0801234497346432
Cosine Similarity: 0.7977240352174656
Cosine Similarity: 0.8366600265340756
