 Considered some text documents are a set of news articles related to three different news.
 We determine Document Similarity. How similar two or more documents are concerning each other in this document collection.

# File Uploads / Libraries

In [None]:
import numpy as np
import matplotlib as plt
import pandas as pd
import seaborn as sns
from sklearn import preprocessing
import math
import io
import sklearn
import zipfile

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
texts_zip_file = '/content/drive/MyDrive/Datasets/Cosine Similarity for Documents/texts.zip'

In [None]:
with zipfile.ZipFile(texts_zip_file, 'r') as zip_ref:
  file_names = zip_ref.namelist()
  docs = []
  for file_name in file_names:
    if file_name.endswith('.txt'):
      with zip_ref.open(file_name, 'r') as file:
        docs.append(file.read().decode('utf-8'))

# Data Cleaning
*   Removal of stop words. (These are the most common words in any language (like articles, prepositions, pronouns, conjunctions, etc.) and do not add much information to the text.)
*   Removal of numbers and special characters.
*   Convert all the letters in the documents to lowercase letters.



In [None]:
import re

In [None]:
clean_docs = docs.copy()

In [None]:
with open('/content/drive/MyDrive/Datasets/Cosine Similarity for Documents/stop_words.txt', 'r', encoding='utf-8') as file:
  stop_words_list = set(file.read().split())

In [None]:
def clean_text(text, stop_words):
  text = re.sub(r'[\d.,!@#$%^&*:()"”“\-–=/]', ' ', text).lower()
  words = text.split()
  filtered_text = ' '.join(word for word in words if word not in stop_words)
  return filtered_text

In [None]:
for i in range(len(clean_docs)):
  clean_docs[i] = clean_text(clean_docs[i], stop_words_list)

In [None]:
print(clean_docs[0])

sabah misli premyer liqasında mövsümünə yekun vurulacaq millətin səsi az xəbər verir turun azersun arena keçiriləcək araz naxçıvan qarabağ oyunundan sonra qarabağ qızıl medallar çempionluq kuboku təqdim ediləcək qarabağ yaydığı açıqlamada bildirilib klub prezidenti tahir gözel ölkə xaricində təşkil olunan vacib tədbirə qatıldığı mükafatlandırmada iştirak edə bilməyəcək o klubun mətbuat xidmətinə açıqlamasında komandanı azarkeşləri növbəti uğurlu mövsüm münasibətilə təbrik edib möhtəşəm mövsümə şahid olduq azərbaycan xalqı dünya avropada mükəmməl qarabağ izlədi ardıcıl dəfə avrokubokların qrupunda mübarizə aparan komandamız pley offda portuqaliyanın tanınmış braqa klubunu məğlub etdi avropada kimə uduzmayan bayer seriyasını qırmağa yaxın oldu almaniya təmsilçisinin baş məşqçisi futbolçuları komandamızla qarşılaşmaların çətin keçdiyini dəfələrlə vurğuladılar uğurların ardınca qarabağ premyer liqada ardıcıl tarixində çempionluğunu qazandı sabah komandamıza növbəti qızıl medallar təqdim ol

# Cosine Similarity Application

In [None]:
tfidf = TfidfVectorizer()

In [None]:
response = tfidf.fit_transform(clean_docs)

In [None]:
tfidf.get_feature_names_out()

array(['_________________________________', '__cf',
       '__google_lidar_radf_', ..., 'әn', 'әrzindә', 'әһali'],
      dtype=object)

In [None]:
tfidf.vocabulary_

{'sabah': 87914,
 'misli': 59294,
 'premyer': 74606,
 'liqasında': 55317,
 'mövsümünə': 60679,
 'yekun': 116867,
 'vurulacaq': 110319,
 'millətin': 58700,
 'səsi': 98054,
 'az': 7068,
 'xəbər': 113037,
 'verir': 109432,
 'turun': 102466,
 'azersun': 7333,
 'arena': 4281,
 'keçiriləcək': 49554,
 'araz': 4110,
 'naxçıvan': 66525,
 'qarabağ': 77161,
 'oyunundan': 71793,
 'sonra': 92913,
 'qızıl': 83244,
 'medallar': 57670,
 'çempionluq': 122596,
 'kuboku': 52400,
 'təqdim': 105171,
 'ediləcək': 27848,
 'yaydığı': 115654,
 'açıqlamada': 8080,
 'bildirilib': 12195,
 'klub': 50700,
 'prezidenti': 74667,
 'tahir': 98571,
 'gözel': 36322,
 'ölkə': 125083,
 'xaricində': 111885,
 'təşkil': 106363,
 'olunan': 70149,
 'vacib': 108393,
 'tədbirə': 103821,
 'qatıldığı': 78274,
 'mükafatlandırmada': 61373,
 'iştirak': 47849,
 'edə': 27973,
 'bilməyəcək': 12604,
 'klubun': 50722,
 'mətbuat': 65479,
 'xidmətinə': 112344,
 'açıqlamasında': 8116,
 'komandanı': 51029,
 'azarkeşləri': 7257,
 'növbəti': 681

**Cosine Similarity Result**

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
cosine_similarities = cosine_similarity(response)

In [None]:
cosine_similarities

array([[1.        , 0.03988966, 0.02103145, ..., 0.01412431, 0.00987229,
        0.02684606],
       [0.03988966, 1.        , 0.07378404, ..., 0.04616042, 0.01863348,
        0.03646492],
       [0.02103145, 0.07378404, 1.        , ..., 0.01712214, 0.02078744,
        0.03549032],
       ...,
       [0.01412431, 0.04616042, 0.01712214, ..., 1.        , 0.01112066,
        0.01430345],
       [0.00987229, 0.01863348, 0.02078744, ..., 0.01112066, 1.        ,
        0.0285698 ],
       [0.02684606, 0.03646492, 0.03549032, ..., 0.01430345, 0.0285698 ,
        1.        ]])

In [None]:
num_docs = len(clean_docs)
found_similar_pair = False
for i in range(num_docs):
    for j in range(i + 1, num_docs):
        similarity = cosine_similarities[i, j]
        if round(similarity, 2) == 0.95:
            print(f"Documents {i} and {j} are similar with similarity score: {similarity:.2f}")
            found_similar_pair = True
            break
    if found_similar_pair:
        break


Documents 0 and 12232 are similar with similarity score: 0.95


In [None]:
print(clean_docs[i])
print(clean_docs[j])

sabah misli premyer liqasında mövsümünə yekun vurulacaq millətin səsi az xəbər verir turun azersun arena keçiriləcək araz naxçıvan qarabağ oyunundan sonra qarabağ qızıl medallar çempionluq kuboku təqdim ediləcək qarabağ yaydığı açıqlamada bildirilib klub prezidenti tahir gözel ölkə xaricində təşkil olunan vacib tədbirə qatıldığı mükafatlandırmada iştirak edə bilməyəcək o klubun mətbuat xidmətinə açıqlamasında komandanı azarkeşləri növbəti uğurlu mövsüm münasibətilə təbrik edib möhtəşəm mövsümə şahid olduq azərbaycan xalqı dünya avropada mükəmməl qarabağ izlədi ardıcıl dəfə avrokubokların qrupunda mübarizə aparan komandamız pley offda portuqaliyanın tanınmış braqa klubunu məğlub etdi avropada kimə uduzmayan bayer seriyasını qırmağa yaxın oldu almaniya təmsilçisinin baş məşqçisi futbolçuları komandamızla qarşılaşmaların çətin keçdiyini dəfələrlə vurğuladılar uğurların ardınca qarabağ premyer liqada ardıcıl tarixində çempionluğunu qazandı sabah komandamıza növbəti qızıl medallar təqdim ol

# Similarity finder as a function

In [None]:
import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
def clean_text(text):
  text = re.sub(r'[\d.,!@#$%^&*:()"”“\-–=/]', ' ', text).lower()
  return text

def find_similarity(text1, text2):
    tfidf = TfidfVectorizer()
    text1 = clean_text(text1)
    text2 = clean_text(text2)
    tfidf_matrix = tfidf.fit_transform([text1, text2])
    similarity_score = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])[0][0]
    return similarity_score

Example

In [None]:
text1 = "sabah misli premyer liqasında mövsümünə yekun vurulacaq millətin səsi az xəbər verir turun azersun arena keçiriləcək araz naxçıvan qarabağ oyunundan sonra qarabağ qızıl medallar çempionluq kuboku təqdim ediləcək qarabağ yaydığı açıqlamada bildirilib klub prezidenti tahir gözel ölkə xaricində təşkil olunan vacib tədbirə qatıldığı mükafatlandırmada iştirak edə bilməyəcək o klubun mətbuat xidmətinə açıqlamasında komandanı azarkeşləri növbəti uğurlu mövsüm münasibətilə təbrik edib möhtəşəm mövsümə şahid olduq azərbaycan xalqı dünya avropada mükəmməl qarabağ izlədi ardıcıl dəfə avrokubokların qrupunda mübarizə aparan komandamız pley offda portuqaliyanın tanınmış braqa klubunu məğlub etdi avropada kimə uduzmayan bayer seriyasını qırmağa yaxın oldu almaniya təmsilçisinin baş məşqçisi futbolçuları komandamızla qarşılaşmaların çətin keçdiyini dəfələrlə vurğuladılar uğurların ardınca qarabağ premyer liqada ardıcıl tarixində çempionluğunu qazandı sabah komandamıza növbəti qızıl medallar təqdim olunacaq vacib təxirəsalınmaz işlərimlə bağlı komandamızın mükafatlandırma mərasimində iştirak edə bilməyəcəyəm amma ürəyim komandamızın yanında olacaq dəfə qızıl medalları sona tur qalmış təmin etdik yeni rekord oldu hətta avropada dünyada erkən çempionluq tituluna yiyələnən komandalar az olub buna uğur asanlıqla əldə edilmədi komanda bizdən xal almağa çalışır qarabağ avropada tarix yazdıqca azərbaycan çempionatında komandanın bizə motivasiyası artır bizi sevindirir yerli klubların bizə rəqabət yaratmağa çalışması qarabağ ı avropaya yaxşı hazırlayır çempionatın səviyyəsinin qalxmasına təkan verir düşünməsin premyer liqadakı rəqiblərimiz zəifdir əksinə onlar güclüdürlər amma onların qarşısında güclü avropa təcrübəsinə malik qarabağ uğurlar bizim qarabağ yaratdığımız birlik ruhunun nəticəsidir klubun rəhbərliyindən baş məşqçisindən sıravi işçisinə hamının böyük mənəvi birlik rekord sayda çempionluq münasibətilə başda məşqçilər heyəti olmaqla futbolçularımı klubumuzda çalışan kəsi ürəyi qarabağ la döyünən azarkeşlərimizi təbrik edirəm tahir gözəl növbəti hədəflərə toxunub əldə olunan nəticələr qarabağ dünya avropa reytinqlərində yüksəlməsinə əsas verib komandamız beynəlxalq futbol tarixi statistikaları federasiyasının dünya reytinqində yerdədir on minlərlə klub siyahida yer almaq mübarizə aparır çempionluq kubokunu doğma azersun arena aldıqdan sonra bizi kubok uğrunda final qarşılaşması gözləyir həmin oyunda iştirak edəcəyəm görüşü səbirsizliklə həyəcanla gözləyirəm zirə güclü komandadır rəşad sadıqov mükəmməl heyət formalaşdırıb amma biz titul qazanmağa mövsümü qızıl dubl la tamamlanmağa çalışacağıq ardınca isə yeni mövsümə böyük motivasiya böyük ümid inamla hazırlaşacağıq titulumuzu növbəti dəfə qorumaq avropada yeni tarixlər yazmaq mübarizə aparacağıq i̇llərdir qarabağ adını avropada qürurla daşıyırıq artıq müzəffər ali baş komandanımızın rəhbərliyi azərbaycan əsgərinin böyük zəfəri sayəsində azad qarabağı təmsil edirik qarabağ adının klubun azərbaycan mənəvi cəhətdən necə önəm daşıdığını anlayırıq bilirik qarabağ futbol klubu missiyamız bitmir bundan sonra qarabağın adını avropada layiqincə təmsil etməliyik mənim əsas klubumuzun illik uğuru deyil davamlı nəticələrdir komandamıza inamım sonsuzdur qol az"
text2 = "sabah misli premyer liqasında mövsümünə yekun vurulacaq football plus az xəbər verir turun azersun arena keçiriləcək araz naxçıvan qarabağ oyunundan sonra köhlən atlar qızıl medallar çempionluq kuboku təqdim ediləcək ağdam təmsilçisinin prezidenti tahir gözel ölkə xaricində təşkil olunan vacib tədbirə qatıldığı mükafatlandırmada iştirak edə bilməyəcək o klubun mətbuat xidmətinə açıqlamasında komandanı azarkeşləri növbəti uğurlu mövsüm münasibətilə təbrik edib möhtəşəm mövsümə şahid olduq azərbaycan xalqı dünya avropada mükəmməl qarabağ izlədi ardıcıl dəfə avrokubokların qrupunda mübarizə aparan komandamız pley offda portuqaliyanın tanınmış braqa klubunu məğlub etdi avropada kimə uduzmayan bayer seriyasını qırmağa yaxın oldu almaniya təmsilçisinin baş məşqçisi futbolçuları komandamızla qarşılaşmaların çətin keçdiyini dəfələrlə vurğuladılar uğurların ardınca qarabağ premyer liqada ardıcıl tarixində çempionluğunu qazandı sabah komandamıza növbəti qızıl medallar təqdim olunacaq vacib təxirəsalınmaz işlərimlə bağlı komandamızın mükafatlandırma mərasimində iştirak edə bilməyəcəyəm amma ürəyim komandamızın yanında olacaq dəfə qızıl medalları sona tur qalmış təmin etdik yeni rekord oldu hətta avropada dünyada erkən çempionluq tituluna yiyələnən komandalar az olub buna uğur asanlıqla əldə edilmədi komanda bizdən xal almağa çalışır qarabağ avropada tarix yazdıqca azərbaycan çempionatında komandanın bizə motivasiyası artır bizi sevindirir yerli klubların bizə rəqabət yaratmağa çalışması qarabağ ı avropaya yaxşı hazırlayır çempionatın səviyyəsinin qalxmasına təkan verir düşünməsin premyer liqadakı rəqiblərimiz zəifdi əksinə onlar güclüdürlər amma onların qarşısında güclü avropa təcrübəsinə malik qarabağ uğurlar bizim qarabağ yaratdığımız birlik ruhunun nəticəsidi klubun rəhbərliyindən baş məşqçisindən sıravi işçisinə hamının böyük mənəvi birlik rekord sayda çempionluq münasibətilə başda məşqçilər heyəti olmaqla futbolçularımı klubumuzda çalışan kəsi ürəyi qarabağ la döyünən azarkeşlərimizi təbrik edirəm klub prezidenti növbəti hədəflərə toxunub əldə olunan nəticələr qarabağ dünya avropa reytinqlərində yüksəlməsinə əsas verib komandamız beynəlxalq futbol tarixi statistikaları federasiyasının dünya reytinqində yerdədi on minlərlə klub siyahida yer almaq mübarizə aparır çempionluq kubokunu doğma azersun arena aldıqdan sonra bizi kubok uğrunda final qarşılaşması gözləyir həmin oyunda iştirak edəcəyəm görüşü səbirsizliklə həyəcanla gözləyirəm zirə güclü komandadı rəşad sadıqov mükəmməl heyət formalaşdırıb amma biz titul qazanmağa mövsümü qızıl dubl la tamamlanmağa çalışacağıq ardınca isə yeni mövsümə böyük motivasiya böyük ümid inamla hazırlaşacağıq titulumuzu növbəti dəfə qorumaq avropada yeni tarixlər yazmaq mübarizə aparacağıq i̇llərdi qarabağ adını avropada qürurla daşıyırıq artıq müzəffər ali baş komandanımızın rəhbərliyi azərbaycan əsgərinin böyük zəfəri sayəsində azad qarabağı təmsil edirik qarabağ adının klubun azərbaycan mənəvi cəhətdən necə önəm daşıdığını anlayırıq bilirik qarabağ futbol klubu missiyamız bitmir bundan sonra qarabağın adını avropada layiqincə təmsil etməliyik mənim əsas klubumuzun illik uğuru deyil davamlı nəticələrdi komandamıza inamım sonsuzdu"
similarity = find_similarity(text1, text2)
print(f"Cosine Similarity between text1 and text2: {similarity:.2f}")

Cosine Similarity between text1 and text2: 0.96
