In [1]:
import os
import unicodedata
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk

In [2]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to C:\Users\Gowri
[nltk_data]     sri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
telugu_stopwords = set([
    "ఇది", "ఒక", "ఈ", "మరియు", "కాని", "అందుకే", "మీరు", "వారిని", "ఉన్న",
    "ఉంటే", "ఎలా", "ఎందుకు", "కాబట్టి", "ఎప్పుడు", "ఇంకా", "మాత్రమే", "మొత్తం",
    "నేను", "నీకు", "వారు", "ఆది", "మంచి", "తరువాత", "కూడా", "అక్కడ", "మీ", 
    "వెంట", "అంటే", "ఇంకా", "చెప్పారు", "అవి", "మరి", "అందరూ", "అప్పటికీ", 
    "దాని", "అంతా", "ఎవరూ", "లేదా", "ఏది", "ఎప్పుడూ", "ఎక్కడా", "అవును", 
    "కాబట్టి", "అప్పుడు", "అందువల్ల", "విషయం", "ఎందుకంటే", "వద్ద", "చేత", "పైన"
])

In [4]:
def preprocess_text(text):
    text = unicodedata.normalize('NFKC', text)  
    telugu_punctuation = '।॥,!.?।'  
    text = re.sub(f"[{telugu_punctuation}]", "", text)  
    tokens = text.split() 
    tokens = [word for word in tokens if word not in telugu_stopwords] 
    return " ".join(tokens) 

In [5]:
folder_path = 'telugu_text'


In [6]:
preprocess_text('''కుక్కలు మానవ ఆరోగ్యంపై ఎంతో ప్రభావాన్ని చూపగలవు. ప్రత్యేకంగా, కుక్కలు ఎమోషనల్ సపోర్ట్ జంతువులుగా చాలా ముఖ్యమైన పాత్రను పోషిస్తాయి. ఎన్నో మానసిక సమస్యలు, ఒత్తిడులు మరియు నిరాశలను తగ్గించడంలో కుక్కలు సహాయపడతాయి. కొన్ని అధ్యయనాలు కుక్కలు యజమానులకు ఆత్మవిశ్వాసాన్ని పెంచడం, ఒత్తిడి హార్మోన్లను తగ్గించడం వంటి అనేక ఆరోగ్య ప్రయోజనాలను కలిగిస్తాయని సూచిస్తున్నాయి.

ముఖ్యంగా పిల్లల మానసిక ఆరోగ్యంపై కుక్కల ప్రభావం ఎక్కువగా ఉంటుంది. కుక్కల సహవాసం వలన చిన్న పిల్లలు బాధ్యతాయుతంగా ఉండడం నేర్చుకుంటారు. అవి మనుషుల శారీరక ఆరోగ్యానికి కూడా బహుముఖ పాత్ర పోషిస్తాయి, ముఖ్యంగా ఫిజికల్ యాక్టివిటీని ప్రోత్సహించడం ద్వారా హృదయ సంబంధ వ్యాధుల ప్రమాదాన్ని తగ్గించగలవు. కుక్కలతో సహవాసం అనేక ఆధ్యాత్మిక మరియు మానసిక ప్రయోజనాలను కలిగిస్తుంది.
''')

'కుక్కలు మానవ ఆరోగ్యంపై ఎంతో ప్రభావాన్ని చూపగలవు ప్రత్యేకంగా కుక్కలు ఎమోషనల్ సపోర్ట్ జంతువులుగా చాలా ముఖ్యమైన పాత్రను పోషిస్తాయి ఎన్నో మానసిక సమస్యలు ఒత్తిడులు నిరాశలను తగ్గించడంలో కుక్కలు సహాయపడతాయి కొన్ని అధ్యయనాలు కుక్కలు యజమానులకు ఆత్మవిశ్వాసాన్ని పెంచడం ఒత్తిడి హార్మోన్లను తగ్గించడం వంటి అనేక ఆరోగ్య ప్రయోజనాలను కలిగిస్తాయని సూచిస్తున్నాయి ముఖ్యంగా పిల్లల మానసిక ఆరోగ్యంపై కుక్కల ప్రభావం ఎక్కువగా ఉంటుంది కుక్కల సహవాసం వలన చిన్న పిల్లలు బాధ్యతాయుతంగా ఉండడం నేర్చుకుంటారు మనుషుల శారీరక ఆరోగ్యానికి బహుముఖ పాత్ర పోషిస్తాయి ముఖ్యంగా ఫిజికల్ యాక్టివిటీని ప్రోత్సహించడం ద్వారా హృదయ సంబంధ వ్యాధుల ప్రమాదాన్ని తగ్గించగలవు కుక్కలతో సహవాసం అనేక ఆధ్యాత్మిక మానసిక ప్రయోజనాలను కలిగిస్తుంది'

In [7]:
file_texts = []
file_names = []


In [8]:
for filename in os.listdir(folder_path):
    if filename.endswith('.txt'): 
        file_path = os.path.join(folder_path, filename)
        
        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read()

        preprocessed_text = preprocess_text(text)
        
        file_texts.append(preprocessed_text)
        file_names.append(filename)

In [9]:
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(file_texts)

In [10]:
similarity_matrix = cosine_similarity(tfidf_matrix)


In [11]:
for i in range(len(file_names)):
    for j in range(i + 1, len(file_names)):  
        similarity_score = similarity_matrix[i][j]
        if similarity_score > 0.5: 
            print(f"Plagiarism detected between {file_names[i]} and {file_names[j]} with similarity: {similarity_score:.4f}")

Plagiarism detected between 11.txt and 43.txt with similarity: 0.5371
Plagiarism detected between 22.txt and seven.txt with similarity: 0.5476
Plagiarism detected between 34.txt and three.txt with similarity: 0.5703


In [10]:
import os
import unicodedata
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import nltk
nltk.download('stopwords')

telugu_stopwords = set([
    "ఇది", "ఒక", "ఈ", "మరియు", "కాని", "అందుకే", "మీరు", "వారిని", "ఉన్న",
    "ఉంటే", "ఎలా", "ఎందుకు", "కాబట్టి", "ఎప్పుడు", "ఇంకా", "మాత్రమే", "మొత్తం",
    "నేను", "నీకు", "వారు", "ఆది", "మంచి", "తరువాత", "కూడా", "అక్కడ", "మీ", 
    "వెంట", "అంటే", "ఇంకా", "చెప్పారు", "అవి", "మరి", "అందరూ", "అప్పటికీ", 
    "దాని", "అంతా", "ఎవరూ", "లేదా", "ఏది", "ఎప్పుడూ", "ఎక్కడా", "అవును", 
    "కాబట్టి", "అప్పుడు", "అందువల్ల", "విషయం", "ఎందుకంటే", "వద్ద", "చేత", "పైన"
]) 

def preprocess_text(text):
    text = unicodedata.normalize('NFKC', text)
    telugu_punctuation = '।॥,!.?।'
    text = re.sub(f"[{telugu_punctuation}]", "", text)
    tokens = text.split()
    tokens = [word for word in tokens if word not in telugu_stopwords]
    return " ".join(tokens)

def check_similarity_with_input(input_file_path):
    with open(input_file_path, 'r', encoding='utf-8') as file:
        input_text = preprocess_text(file.read())
    
    folder_path = 'telugu_text'
    file_texts = []
    file_names = []
    
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt') and filename != os.path.basename(input_file_path):
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                text = preprocess_text(file.read())
            file_texts.append(text)
            file_names.append(filename)
    
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([input_text] + file_texts)
    
    input_vector = tfidf_matrix[0]
    similarity_scores = cosine_similarity(input_vector, tfidf_matrix[1:])[0]
    
    results = []
    for i, score in enumerate(similarity_scores):
        if score > 0.3:
            results.append((os.path.basename(input_file_path), file_names[i], score))
    
    return results

input_file = 'telugu_text/two.txt'
results = check_similarity_with_input(input_file)
for data in results:
    print(f'{data[0]} vs {data[1]}: Similarity Score: {data[2]:.4f}')


two.txt vs 13.txt: Similarity Score: 0.3100
two.txt vs 15.txt: Similarity Score: 0.3801
two.txt vs 16.txt: Similarity Score: 0.3230
two.txt vs 17.txt: Similarity Score: 0.3211
two.txt vs 19.txt: Similarity Score: 0.3306
two.txt vs 20.txt: Similarity Score: 0.4634
two.txt vs 21.txt: Similarity Score: 0.3212
two.txt vs 24.txt: Similarity Score: 0.3732
two.txt vs 31.txt: Similarity Score: 0.3123
two.txt vs 41.txt: Similarity Score: 0.3517
two.txt vs 50.txt: Similarity Score: 0.3454
two.txt vs eight.txt: Similarity Score: 0.3218
two.txt vs six.txt: Similarity Score: 0.3413
two.txt vs ten.txt: Similarity Score: 0.3935


[nltk_data] Downloading package stopwords to C:\Users\Gowri
[nltk_data]     sri\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
