In [76]:
from youtube_comment_downloader import YoutubeCommentDownloader

def scrap_youtube_comments(video_urls):
    downloader = YoutubeCommentDownloader()

    all_comments = []

    for video_url in video_urls:
        if "youtu.be/" in video_url:
            video_id = video_url.split("youtu.be/")[1].split("?")[0]
        elif "youtube.com/watch?v=" in video_url:
            video_id = video_url.split("v=")[1].split("&")[0]
        else:
            raise ValueError(f"Invalid YouTube URL format: {video_url}")
        
        comments = downloader.get_comments(video_id)
        for comment in comments:
            all_comments.append({
                'Video_ID': video_id,
                'Comment': comment['text']
            })
    
    return all_comments

In [78]:
video_urls = [
    "https://youtu.be/K7PJZv5Johg?si=rRrZsCumvKFwjYsj",
    "https://youtu.be/Uccvf3peELQ?si=MuraPsCjHG--cl3w",
    "https://youtu.be/ubyErpdQAbs?si=GakOEkmMkW9uc2je",
    "https://youtu.be/Eq_okYibcGc?si=Nti7bjFcN8XpKoDs",
    "https://youtu.be/MOiTD_jwYvE?si=qdHOBfrBOzuit3ML"
]
comments = scrap_youtube_comments(video_urls)

In [79]:
len(comments)

42203

In [86]:
comments

[{'Video_ID': 'K7PJZv5Johg', 'Comment': 'ржЕрж╕рж╛ржзрж╛рж░ржг  ржЕрж╕рж╛ржзрж╛рж░ржг тЭд'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Who is watching in 2024...?'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Nic ganтЭд'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'ai ganta amr onnek vlo lageтЭд ar kar kar vlo lage...'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Brando Drive'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'ржХрж╛рж▓ ржкрж░рж┐ржХрзНрж╖рж╛, ржПрж░ ржорж╛ржЭрзЗ рж░рж╛ржд рззрзз.рзлрзм ржорж┐ржирж┐ржЯ рж╣ржарж╛рзО ржпрзЗ ржХрзЗржи ржПржЗ ржЧрж╛ржиржЯрж╛рж░ ржХржерж╛ ржоржирзЗ ржкрзЬрж▓рзЛ?'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Audrey Trace'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': '120'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'ЁЯШКЁЯШКЁЯШКЁЯШК'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'Mon,16 sep.2024.... ржЦрзЛржм ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ ржЧрж╛ржиржЯрж╛тЭдтЭд'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'ржЧрж╛ржиржЯрж╛ ржпржд рж╢рзБржирж┐ рждржд ржнрж╛рж▓рзЛ рж▓рж╛р

In [88]:
import pandas as pd

comment_texts = [comment['Comment'] for comment in comments]
df = pd.DataFrame({'Comment': comment_texts})
df.head()

Unnamed: 0,Comment
0,ржЕрж╕рж╛ржзрж╛рж░ржг ржЕрж╕рж╛ржзрж╛рж░ржг тЭд
1,Who is watching in 2024...?
2,Nic ganтЭд
3,ai ganta amr onnek vlo lageтЭд ar kar kar vlo la...
4,Brando Drive


In [90]:
import re

def is_bangla(comment):
    bangla_regex = re.compile(r'^[\u0980-\u09FF\s]+$')
    return bool(bangla_regex.match(comment))

In [92]:
df = df[df['Comment'].apply(is_bangla)]
df.head()

Unnamed: 0,Comment
12,рзирзжрзирзкржХрзЗ ржХрзЗ рж╢рзБржирзЗржЫрзЗржи рж▓рж╛ржЗржХ ржХрж░ржмрзЗржи
23,рзирзжрззрзо рж╕рж╛рж▓рзЗ ржПржЗ ржЧрж╛ржиржЯрж┐ рж╢рзБржирж┐ ржЖржЬржХрзЗ ржЖржмрж╛рж░ рж╢рзБржирж▓рж╛ржо
40,ржЖржорж┐ ржЖржЫрж┐
44,ржЖржорж┐ ржП ржЧрж╛ржирзЗ ржирж╛ржЪ ржХрж░ржЫрж┐
49,ржПржЗ ржЫржмрж┐рж░ ржирж╛ржо ржХрзА


In [96]:
df.drop_duplicates(inplace=True)

In [102]:
def count_words(comment):
    return len(comment.split())

In [104]:
df = df[df['Comment'].apply(count_words) >= 5]

In [106]:
df.head(50)

Unnamed: 0,Comment
12,рзирзжрзирзкржХрзЗ ржХрзЗ рж╢рзБржирзЗржЫрзЗржи рж▓рж╛ржЗржХ ржХрж░ржмрзЗржи
23,рзирзжрззрзо рж╕рж╛рж▓рзЗ ржПржЗ ржЧрж╛ржиржЯрж┐ рж╢рзБржирж┐ ржЖржЬржХрзЗ ржЖржмрж╛рж░ рж╢рзБржирж▓рж╛ржо
44,ржЖржорж┐ ржП ржЧрж╛ржирзЗ ржирж╛ржЪ ржХрж░ржЫрж┐
66,ржЕржирзЗржХ ржжрж┐ржи ржкрж░ ржЧрж╛ржи ржЯрж╛рж░ ржХржерж╛ ржоржирзЗ ржкрж░рж▓рзЛ рж╕рзБржирждрзЗ ржЖржЗрж▓рж╛ржо ржп...
73,ржЖржЬржХрзЗ рж╕рзГрждрж┐ рж░рзЗржЦрзЗ ржЧрзЗрж▓рж╛ржо ржХржорзЗржирзНржЯ ржХрж░рзЗ
103,рзирзжрззрзп рж╕рж╛рж▓рзЗ ржЧрж╛ржиржЯрж╛ рж░рж┐рж▓рж┐ржЬ рж╣ржУрзЯрж╛рж░ ржкрж░ ржерзЗржХрзЗ ржХржд ржмрж╛рж░ ржжрзЗ...
120,ржПржЗ ржЧрж╛ржи ржЯрж╛ ржЦрзБржм ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ рждрж╛ржЗ
135,ржЖрж▓рзНрж▓рж╛рж╣ рж╕ржм ржорзБржорж┐ржоржжрзЗрж░ ржмрзБржЭрж╛рж░ рждрзИржлрж┐ржХ ржжрж╛ржи ржХрж░рзБржХ ржЖржорж┐ржи
163,ржЧрж╛ржиржЯрж╛ ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ ржХрзЗржирзЛ ржЬрж╛ржирж┐
176,ржЗржирзНржЯрж╛рж░ржирзЗржЯ ржЖрж╕рж╛рж░ ржкрж░ ржПржЗ ржЧрж╛ржиржЯрж╛ рж╢рзБржирждрзЗ ржПрж▓рж╛ржо


In [114]:
from Levenshtein import ratio

comment_1 = "рзирзжрзирзк рж╕рж╛рж▓рзЗ ржХрзЗ ржХрзЗ рж╕рзБржирждрзЗржЫ"
comment_2 = "рзирзжрзирзк рж╕рж╛рж▓рзЗ ржХрзЗ ржХрзЗ ржЧрж╛ржиржЯрж╛ рж╢рзБржирзЗржЫрзЗржи"

similarity_ratio = ratio(comment_1, comment_2)
similarity_percentage = similarity_ratio * 100
print(f"Similarity: {similarity_percentage:.2f}%")

Similarity: 78.43%


In [122]:
def remove_similar_comments(df, threshold=0.6):
    indices_to_drop = set()
    
    for i in range(len(df)):
        if i in indices_to_drop:
            continue
        
        for j in range(i + 1, len(df)):
            if j in indices_to_drop:
                continue
            
            comment_1 = df.iloc[i]['Comment']
            comment_2 = df.iloc[j]['Comment']
            
            similarity = ratio(comment_1, comment_2)
            
            if similarity > threshold:
                indices_to_drop.add(j)
    
    valid_indices_to_drop = [idx for idx in indices_to_drop if idx in df.index]
    
    df = df.drop(index=valid_indices_to_drop).reset_index(drop=True)
    return df

In [124]:
df = remove_similar_comments(df)
df.head(10)

Unnamed: 0,Comment
0,рзирзжрзирзкржХрзЗ ржХрзЗ рж╢рзБржирзЗржЫрзЗржи рж▓рж╛ржЗржХ ржХрж░ржмрзЗржи
1,рзирзжрззрзо рж╕рж╛рж▓рзЗ ржПржЗ ржЧрж╛ржиржЯрж┐ рж╢рзБржирж┐ ржЖржЬржХрзЗ ржЖржмрж╛рж░ рж╢рзБржирж▓рж╛ржо
2,ржЖржорж┐ ржП ржЧрж╛ржирзЗ ржирж╛ржЪ ржХрж░ржЫрж┐
3,ржЕржирзЗржХ ржжрж┐ржи ржкрж░ ржЧрж╛ржи ржЯрж╛рж░ ржХржерж╛ ржоржирзЗ ржкрж░рж▓рзЛ рж╕рзБржирждрзЗ ржЖржЗрж▓рж╛ржо ржп...
4,ржЖржЬржХрзЗ рж╕рзГрждрж┐ рж░рзЗржЦрзЗ ржЧрзЗрж▓рж╛ржо ржХржорзЗржирзНржЯ ржХрж░рзЗ
5,рзирзжрззрзп рж╕рж╛рж▓рзЗ ржЧрж╛ржиржЯрж╛ рж░рж┐рж▓рж┐ржЬ рж╣ржУрзЯрж╛рж░ ржкрж░ ржерзЗржХрзЗ ржХржд ржмрж╛рж░ ржжрзЗ...
6,ржПржЗ ржЧрж╛ржи ржЯрж╛ ржЦрзБржм ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ рждрж╛ржЗ
7,ржЖрж▓рзНрж▓рж╛рж╣ рж╕ржм ржорзБржорж┐ржоржжрзЗрж░ ржмрзБржЭрж╛рж░ рждрзИржлрж┐ржХ ржжрж╛ржи ржХрж░рзБржХ ржЖржорж┐ржи
8,ржЧрж╛ржиржЯрж╛ ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ ржХрзЗржирзЛ ржЬрж╛ржирж┐
9,ржЗржирзНржЯрж╛рж░ржирзЗржЯ ржЖрж╕рж╛рж░ ржкрж░ ржПржЗ ржЧрж╛ржиржЯрж╛ рж╢рзБржирждрзЗ ржПрж▓рж╛ржо


In [128]:
religious_keywords = ['ржЖрж▓рзНрж▓рж╛рж╣', 'ржЖржорж┐ржи', 'ржЗржирж╢рж╛ржЖрж▓рзНрж▓рж╛рж╣', 'ржЖрж▓рзНрж▓рж╛рж╣рзБ', 'ржЖржХржмрж░', 'ржорзБржорж┐ржо']

def remove_religious_comments(df, keywords):
    df_filtered = df[~df['Comment'].apply(lambda x: any(word in x for word in keywords))].reset_index(drop=True)
    return df_filtered

In [130]:
df = remove_religious_comments(df, religious_keywords)

In [138]:
def clean_text(text):
    cleaned_text = ' '.join(text.replace('\n', ' ').split())
    return cleaned_text

In [140]:
df['Comment'] = df['Comment'].apply(clean_text)

In [132]:
len(df)

1771

In [142]:
df.head(10)

Unnamed: 0,Comment
0,рзирзжрзирзкржХрзЗ ржХрзЗ рж╢рзБржирзЗржЫрзЗржи рж▓рж╛ржЗржХ ржХрж░ржмрзЗржи
1,рзирзжрззрзо рж╕рж╛рж▓рзЗ ржПржЗ ржЧрж╛ржиржЯрж┐ рж╢рзБржирж┐ ржЖржЬржХрзЗ ржЖржмрж╛рж░ рж╢рзБржирж▓рж╛ржо
2,ржЖржорж┐ ржП ржЧрж╛ржирзЗ ржирж╛ржЪ ржХрж░ржЫрж┐
3,ржЕржирзЗржХ ржжрж┐ржи ржкрж░ ржЧрж╛ржи ржЯрж╛рж░ ржХржерж╛ ржоржирзЗ ржкрж░рж▓рзЛ рж╕рзБржирждрзЗ ржЖржЗрж▓рж╛ржо ржп...
4,ржЖржЬржХрзЗ рж╕рзГрждрж┐ рж░рзЗржЦрзЗ ржЧрзЗрж▓рж╛ржо ржХржорзЗржирзНржЯ ржХрж░рзЗ
5,рзирзжрззрзп рж╕рж╛рж▓рзЗ ржЧрж╛ржиржЯрж╛ рж░рж┐рж▓рж┐ржЬ рж╣ржУрзЯрж╛рж░ ржкрж░ ржерзЗржХрзЗ ржХржд ржмрж╛рж░ ржжрзЗржЦ...
6,ржПржЗ ржЧрж╛ржи ржЯрж╛ ржЦрзБржм ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ рждрж╛ржЗ
7,ржЧрж╛ржиржЯрж╛ ржнрж╛рж▓рзЛ рж▓рж╛ржЧрзЗ ржХрзЗржирзЛ ржЬрж╛ржирж┐
8,ржЗржирзНржЯрж╛рж░ржирзЗржЯ ржЖрж╕рж╛рж░ ржкрж░ ржПржЗ ржЧрж╛ржиржЯрж╛ рж╢рзБржирждрзЗ ржПрж▓рж╛ржо
9,ржорж╛ржпрж╝рж╛ рж▓рж╛ржЧрж┐ржпрж╝рзЗ ржЫрзЗржбрж╝рзЗ ржЪрж▓рзЗ ржЧрзЗржЫрзЗ


In [144]:
df.to_csv("BengaliSent.csv", index=False)