In [76]:
from youtube_comment_downloader import YoutubeCommentDownloader

def scrap_youtube_comments(video_urls):
    downloader = YoutubeCommentDownloader()

    all_comments = []

    for video_url in video_urls:
        if "youtu.be/" in video_url:
            video_id = video_url.split("youtu.be/")[1].split("?")[0]
        elif "youtube.com/watch?v=" in video_url:
            video_id = video_url.split("v=")[1].split("&")[0]
        else:
            raise ValueError(f"Invalid YouTube URL format: {video_url}")
        
        comments = downloader.get_comments(video_id)
        for comment in comments:
            all_comments.append({
                'Video_ID': video_id,
                'Comment': comment['text']
            })
    
    return all_comments

In [78]:
video_urls = [
    "https://youtu.be/K7PJZv5Johg?si=rRrZsCumvKFwjYsj",
    "https://youtu.be/Uccvf3peELQ?si=MuraPsCjHG--cl3w",
    "https://youtu.be/ubyErpdQAbs?si=GakOEkmMkW9uc2je",
    "https://youtu.be/Eq_okYibcGc?si=Nti7bjFcN8XpKoDs",
    "https://youtu.be/MOiTD_jwYvE?si=qdHOBfrBOzuit3ML"
]
comments = scrap_youtube_comments(video_urls)

In [79]:
len(comments)

42203

In [86]:
comments

[{'Video_ID': 'K7PJZv5Johg', 'Comment': 'অসাধারণ  অসাধারণ ❤'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Who is watching in 2024...?'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Nic gan❤'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'ai ganta amr onnek vlo lage❤ ar kar kar vlo lage...'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Brando Drive'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'কাল পরিক্ষা, এর মাঝে রাত ১১.৫৬ মিনিট হঠাৎ যে কেন এই গানটার কথা মনে পড়লো?'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'Audrey Trace'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': '120'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': '😊😊😊😊'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': 'Mon,16 sep.2024.... খোব ভালো লাগে গানটা❤❤'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'গানটা যত শুনি তত ভালো লাগে❤️❤️'},
 {'Video_ID': 'K7PJZv5Johg',
  'Comment': '2024 সালে কারা কারা শুনছেন,, শুধু তারাই লাইক করবেন ❤️😌'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': '২০২৪কে কে শুনেছেন লাইক করবেন'},
 {'Video_ID': 'K7PJZv5Johg', 'Comment': 'সুন্দর

In [88]:
import pandas as pd

comment_texts = [comment['Comment'] for comment in comments]
df = pd.DataFrame({'Comment': comment_texts})
df.head()

Unnamed: 0,Comment
0,অসাধারণ অসাধারণ ❤
1,Who is watching in 2024...?
2,Nic gan❤
3,ai ganta amr onnek vlo lage❤ ar kar kar vlo la...
4,Brando Drive


In [90]:
import re

def is_bangla(comment):
    bangla_regex = re.compile(r'^[\u0980-\u09FF\s]+$')
    return bool(bangla_regex.match(comment))

In [92]:
df = df[df['Comment'].apply(is_bangla)]
df.head()

Unnamed: 0,Comment
12,২০২৪কে কে শুনেছেন লাইক করবেন
23,২০১৮ সালে এই গানটি শুনি আজকে আবার শুনলাম
40,আমি আছি
44,আমি এ গানে নাচ করছি
49,এই ছবির নাম কী


In [96]:
df.drop_duplicates(inplace=True)

In [102]:
def count_words(comment):
    return len(comment.split())

In [104]:
df = df[df['Comment'].apply(count_words) >= 5]

In [106]:
df.head(50)

Unnamed: 0,Comment
12,২০২৪কে কে শুনেছেন লাইক করবেন
23,২০১৮ সালে এই গানটি শুনি আজকে আবার শুনলাম
44,আমি এ গানে নাচ করছি
66,অনেক দিন পর গান টার কথা মনে পরলো সুনতে আইলাম য...
73,আজকে সৃতি রেখে গেলাম কমেন্ট করে
103,২০১৯ সালে গানটা রিলিজ হওয়ার পর থেকে কত বার দে...
120,এই গান টা খুব ভালো লাগে তাই
135,আল্লাহ সব মুমিমদের বুঝার তৈফিক দান করুক আমিন
163,গানটা ভালো লাগে কেনো জানি
176,ইন্টারনেট আসার পর এই গানটা শুনতে এলাম


In [114]:
from Levenshtein import ratio

comment_1 = "২০২৪ সালে কে কে সুনতেছ"
comment_2 = "২০২৪ সালে কে কে গানটা শুনেছেন"

similarity_ratio = ratio(comment_1, comment_2)
similarity_percentage = similarity_ratio * 100
print(f"Similarity: {similarity_percentage:.2f}%")

Similarity: 78.43%


In [122]:
def remove_similar_comments(df, threshold=0.6):
    indices_to_drop = set()
    
    for i in range(len(df)):
        if i in indices_to_drop:
            continue
        
        for j in range(i + 1, len(df)):
            if j in indices_to_drop:
                continue
            
            comment_1 = df.iloc[i]['Comment']
            comment_2 = df.iloc[j]['Comment']
            
            similarity = ratio(comment_1, comment_2)
            
            if similarity > threshold:
                indices_to_drop.add(j)
    
    valid_indices_to_drop = [idx for idx in indices_to_drop if idx in df.index]
    
    df = df.drop(index=valid_indices_to_drop).reset_index(drop=True)
    return df

In [124]:
df = remove_similar_comments(df)
df.head(10)

Unnamed: 0,Comment
0,২০২৪কে কে শুনেছেন লাইক করবেন
1,২০১৮ সালে এই গানটি শুনি আজকে আবার শুনলাম
2,আমি এ গানে নাচ করছি
3,অনেক দিন পর গান টার কথা মনে পরলো সুনতে আইলাম য...
4,আজকে সৃতি রেখে গেলাম কমেন্ট করে
5,২০১৯ সালে গানটা রিলিজ হওয়ার পর থেকে কত বার দে...
6,এই গান টা খুব ভালো লাগে তাই
7,আল্লাহ সব মুমিমদের বুঝার তৈফিক দান করুক আমিন
8,গানটা ভালো লাগে কেনো জানি
9,ইন্টারনেট আসার পর এই গানটা শুনতে এলাম


In [128]:
religious_keywords = ['আল্লাহ', 'আমিন', 'ইনশাআল্লাহ', 'আল্লাহু', 'আকবর', 'মুমিম']

def remove_religious_comments(df, keywords):
    df_filtered = df[~df['Comment'].apply(lambda x: any(word in x for word in keywords))].reset_index(drop=True)
    return df_filtered

In [130]:
df = remove_religious_comments(df, religious_keywords)

In [138]:
def clean_text(text):
    cleaned_text = ' '.join(text.replace('\n', ' ').split())
    return cleaned_text

In [140]:
df['Comment'] = df['Comment'].apply(clean_text)

In [132]:
len(df)

1771

In [142]:
df.head(10)

Unnamed: 0,Comment
0,২০২৪কে কে শুনেছেন লাইক করবেন
1,২০১৮ সালে এই গানটি শুনি আজকে আবার শুনলাম
2,আমি এ গানে নাচ করছি
3,অনেক দিন পর গান টার কথা মনে পরলো সুনতে আইলাম য...
4,আজকে সৃতি রেখে গেলাম কমেন্ট করে
5,২০১৯ সালে গানটা রিলিজ হওয়ার পর থেকে কত বার দেখ...
6,এই গান টা খুব ভালো লাগে তাই
7,গানটা ভালো লাগে কেনো জানি
8,ইন্টারনেট আসার পর এই গানটা শুনতে এলাম
9,মায়া লাগিয়ে ছেড়ে চলে গেছে


In [144]:
df.to_csv("BengaliSent.csv", index=False)