In [1]:
import pandas as pd
import os
import json
from tqdm import tqdm


In [2]:
# Initialize an empty list for data collection
data = []

In [3]:
# Loop through each file in the current directory with a progress bar
for filename in tqdm(os.listdir('.'), desc="Processing files"):
    if filename.startswith("youtube_comments_") and filename.endswith(".json"):
        # Read the JSON file
        with open(filename, 'r', encoding='utf-8') as file:
            json_data = json.load(file)
            
            # Extract the required data
            for item in json_data:
                video_id = item['snippet']['videoId']
                comment = item['snippet']['topLevelComment']['snippet']['textDisplay']
                date = item['snippet']['topLevelComment']['snippet']['publishedAt']
                data.append({'videoId': video_id, 'comment': comment, 'date': date})

Processing files: 100%|██████████| 501/501 [00:00<00:00, 679.12it/s]


In [4]:
# Create the DataFrame
alljit_youtube_vdo_comment = pd.DataFrame(data, columns=['videoId', 'comment', 'date'])

In [5]:
print(alljit_youtube_vdo_comment.shape)
print(alljit_youtube_vdo_comment.columns)
print(alljit_youtube_vdo_comment["videoId"].value_counts())
print(alljit_youtube_vdo_comment["videoId"].nunique())
alljit_youtube_vdo_comment[alljit_youtube_vdo_comment["videoId"] == alljit_youtube_vdo_comment["videoId"][0]].head()


(13851, 3)
Index(['videoId', 'comment', 'date'], dtype='object')
videoId
x1QBT4Ab4kA    710
Jk4DUIg34Qc    640
2ngSlTLBG9M    629
I224jBZbdcA    323
CrPfRLmF1Ug    285
              ... 
tESnSpnlsXw      1
TY0sGDgvTKM      1
TWevjv_2jdo      1
tiXhZFuCRz4      1
FzBV38Z1paM      1
Name: count, Length: 489, dtype: int64
489


Unnamed: 0,videoId,comment,date
0,-cd_OMv1GOA,แอปพลิเคชัน ระบายความในใจฟรี 💓\r<br>คุณสามารถ...,2021-10-06T18:00:11Z
1,-cd_OMv1GOA,ขอบคุณครับ,2023-11-26T02:07:02Z
2,-cd_OMv1GOA,อย่ายึดติดกับความดี ตีเส้นให้ตัวเองและเคารพซื่...,2023-11-10T14:50:33Z
3,-cd_OMv1GOA,ขอบคุณมากครับ❤,2023-09-07T02:25:58Z
4,-cd_OMv1GOA,ฟังคุณอีฟพูดแล้วเหมือนอ่านใจเราออกเลย,2023-08-06T21:23:16Z


In [6]:
alljit_youtube_vdo = pd.read_csv("../../output - wip/alljit.csv")

print(alljit_youtube_vdo.shape)
print(alljit_youtube_vdo.columns)
print(alljit_youtube_vdo["videoId"].value_counts())


(500, 10)
Index(['videoId', 'channelId', 'channelTitle', 'publishTime', 'title',
       'description', 'thumbnail_default', 'thumbnail_medium',
       'thumbnail_high', 'liveBroadcastContent'],
      dtype='object')
videoId
tf5K5n9VwAY    2
FYbMb0p1fHg    2
sCmj46ypAwY    1
gHTnKCOKK1A    1
ghTe1K72nT8    1
              ..
-IE_VPJ3LLA    1
0uN--0AfdV4    1
_dBG0RKlpx0    1
IeKqI8WPGuQ    1
icQ-yE14jec    1
Name: count, Length: 498, dtype: int64


In [7]:
# Merge to get only the title from alljit_youtube_vdo into alljit_youtube_vdo_comment
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment.merge(
    alljit_youtube_vdo[['videoId', 'title']], 
    on='videoId', 
    how='left',
    suffixes=('', '_drop')  # Handle duplicate columns
)

# Drop any unwanted duplicate columns
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment.loc[:, ~alljit_youtube_vdo_comment.columns.str.contains('_drop')]

# Reordering the columns
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[['videoId', 'title', 'comment', 'date']]

# Display the updated DataFrame
alljit_youtube_vdo_comment.head()

Unnamed: 0,videoId,title,comment,date
0,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,แอปพลิเคชัน ระบายความในใจฟรี 💓\r<br>คุณสามารถ...,2021-10-06T18:00:11Z
1,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ขอบคุณครับ,2023-11-26T02:07:02Z
2,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,อย่ายึดติดกับความดี ตีเส้นให้ตัวเองและเคารพซื่...,2023-11-10T14:50:33Z
3,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ขอบคุณมากครับ❤,2023-09-07T02:25:58Z
4,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ฟังคุณอีฟพูดแล้วเหมือนอ่านใจเราออกเลย,2023-08-06T21:23:16Z


In [8]:
# Define the keywords for each label
keywords1 = ['suicide', 'suicides', 'suicided', 'suicidal', 'suici',
            'harm',	'harms', 'harmed',
            'อยากฆตต', "ฆตต",
            "อยากฆ่าตัวตาย", "ฆ่าตัวตาย",
            "อยากค่าตัวตาย", "ค่าตัวตาย",
            "อยากคิดสั้น", "คิดสั้น",
            "อยากโดดตึก", "โดดตึก",
            'อยากโดดน้ำ',	'โดดน้ำ',
            'อยากโดดสะพาน',	'โดดสะพาน',
            'อยากโดดที่สูง',	'โดดที่สูง',
            'อยากโดดจากที่สูง',	'โดดจากที่สูง',
            'อยากโดดให้รถชน',	'โดดให้รถชน',
            "อยากแขวนคอ", "แขวนคอ",
            "อยากผูกคอ", "ผูกคอ",           
            "อยากกินยาพิษ", "กินยาพิษ",
            "อยากกินยาเกินขนาด", "กินยาเกินขนาด",
            'อยากกินยาฆ่าแมลง',	'กินยาฆ่าแมลง',
            "อยากกินน้ำยาล้าง", "กินน้ำยาล้าง",
            'อยากกินยาเบือหนู',	'กินยาเบื่อหนู',
            'อยากยิงตัวตาย',	'ยิงตัวตาย',
            'อยากยิงหัวตัวเอง',	'ยิงหัวตัวเอง',
            'อยากตายบ่อย',	'อยากตายตลอด', 'อยากตายทุกวัน', 'อยากตายมาก', 'อยากตายมาด']

keywords2 = ["อยากหายไปจากโลก", "หายไปจากโลก", 
            "อยากหายจากโลก", "หายจากโลก", 
            "อยากหายตัวไป", "หายตัวไป",
            "อยากหายไป", "หายไป",
            "ไม่อยากมีชีวิต", "ไม่มีชีวิต", 
            "ไม่อยากตื่น", "ไม่ตื่น", 
            'อยากนอนไปตลอด', 'นอนไปตลอด',
            'อยากนอนตลอดไป', 'นอนตลอดไป',
            "ไม่อยากอยู่ต่อ", "ไม่อยู่ต่อ", 
            'ไม่อยากอยู่บนโลก',	'ไม่อยู่บนโลก',
            'อยากหนีไปจากโลก',	'หนีไปจากโลก',
            'อยากให้โลกแตก', 'โลกแตก',
            'อยากให้โลกหายไป',	'โลกหายไป',
            'อยากให้โลกจบสิ้น',	'โลกจบสิ้น',
            'อยากให้รถชนตาย', 'อยากให้รถชน',
            "อยากตาย", "ยากตาย",
            "อยากจบชีวิต", "จบชีวิต", 
            "อยากสิ้นชีวิต", "สิ้นชีวิต",
            "อยากหยุดหายใจ", "หยุดหายใจ",
            'die',	'dies',	'died',	'dying', 'dead',	'death',  'deaths']

# Function to assign labels based on keywords
def assign_label(comment):
    if any(keyword in comment for keyword in keywords1):
        return '1'
    elif any(keyword in comment for keyword in keywords2):
        return '2'
    else:
        return '0'

# Apply the function to the DataFrame
alljit_youtube_vdo_comment['label'] = alljit_youtube_vdo_comment['comment'].apply(assign_label)

# Display the updated DataFrame
print(alljit_youtube_vdo_comment.shape)
print(alljit_youtube_vdo_comment.columns)
print(alljit_youtube_vdo_comment["label"].value_counts())
print(alljit_youtube_vdo_comment["label"].value_counts(normalize=True))

(13862, 5)
Index(['videoId', 'title', 'comment', 'date', 'label'], dtype='object')
label
0    13137
2      458
1      267
Name: count, dtype: int64
label
0    0.947699
2    0.033040
1    0.019261
Name: proportion, dtype: float64


In [9]:
alljit_youtube_vdo_comment[alljit_youtube_vdo_comment["label"] == "1"].head(10)

Unnamed: 0,videoId,title,comment,date,label
219,-MLAQgbLVxU,อยู่กับคน ชอบใส่อารมณ์ กับคนใกล้ตัว รับมืออย่า...,แม่ เหนื่อยกับคนที่นำอารมณ์ มาลงกับแม่ บ่อย ทำ...,2022-10-30T14:31:42Z,1
262,-Ne2UBF-_wI,รักแท้ ที่แม้อาจจะไม่ได้ใช้ชีวิตร่วมกัน - ใช้ใ...,เคยดูหนังเรื่องนี้เมื่อหลายปีก่อน...ย้อนนึกถึง...,2022-01-08T22:43:42Z,1
490,1U_QQas5jfY,โลกซึมเศร้า ช่วงเวลาที่ยากที่สุด ในตอนที่เป็น ...,อยากตายมาด อยากตายทุกวัน เบื่อครอบครัว เบื่อคำ...,2023-11-16T12:41:57Z,1
506,1U_QQas5jfY,โลกซึมเศร้า ช่วงเวลาที่ยากที่สุด ในตอนที่เป็น ...,ผมขอวิธีรักษาแบบไหนก็ได้ที่ไม่จำเป็นต้องคุยโทร...,2023-06-15T15:27:04Z,1
590,1y5viwF547s,หมดไฟในการทำงาน ไม่ใช่โรคซึมเศร้า ทำความรู้จัก...,ใช่เลยค่ะ อันดับแรกคือกระเพาะ ท้องอืด อาหารไม่...,2022-02-05T10:21:23Z,1
672,2kz6Q-yhoQY,ชีวิตเราไม่ได้ยืนยาว &quot;พอที่จะอยู่อย่างอดท...,คิดว่าเหตุผลทางความคิดของคนที่ไม่มีความสุขกับช...,2023-08-22T03:02:34Z,1
761,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,ขอบคุณครับถ้าไม่ได้มารับฟังช่องนี้ผมคงคิดสั้นไ...,2022-12-25T04:49:24Z,1
860,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,ตอนนี่ผมเครียดมาก ผมกลัวเป็นเอดส์​ จากมีอะไรคร...,2022-08-25T13:44:20Z,1
972,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,ตอนนีมีผลกระทบทางกายเเล้วค่ะ เป็นเรื่องของลำไส...,2022-02-17T08:56:12Z,1
1008,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,คิดจนเครียด..เกือบคิดสั้น,2021-11-26T13:54:49Z,1


In [10]:
alljit_youtube_vdo_comment[alljit_youtube_vdo_comment["label"] == "2"].head(10)

Unnamed: 0,videoId,title,comment,date,label
23,-eoXdCubG1Y,ในวันที่ทุกข์ใจ ทำยังไงทำอย่างไร ให้นอนหลับลง,หลับยาก ขนาดหลับก็มีเรื่องมากมายอยู่ในหัว ทำให...,2023-04-16T16:41:39Z,2
428,1tfAGwMra2I,เซฟโซน ไม่ใช่สถานที่ แต่ Safe Zone คืออะไร? ไม...,ไม่รู้จะปรับจะเริ่มจากจุดไหนแล้ว ปรับมาสามสี่ป...,2023-03-03T12:51:45Z,2
469,1udq3QOVfLs,จิตตกไม่มีสาเหตุ อารมณ์ดาวน์เกิดขึ้นเองบ่อยๆ ร...,ความรู้สึกดาวน์มันมาจากประสบการณ์กระทบในอดีต ท...,2022-10-27T15:20:34Z,2
519,1U_QQas5jfY,โลกซึมเศร้า ช่วงเวลาที่ยากที่สุด ในตอนที่เป็น ...,เหมือนจะดีขึ้นแต่บางครั้งก็เหมือนจะแย่ลง อยากห...,2023-03-03T05:11:20Z,2
583,1y5viwF547s,หมดไฟในการทำงาน ไม่ใช่โรคซึมเศร้า ทำความรู้จัก...,เรื่องงาน ช่วง ตั้งแต่เดือน ก.พ 65 ที่ผ่านมา ค...,2022-05-19T14:35:55Z,2
596,1y5viwF547s,หมดไฟในการทำงาน ไม่ใช่โรคซึมเศร้า ทำความรู้จัก...,ใช่ค่ะ ไม่อยากตื่นไม่อยากทำอะไรไม่อยากกิน ไม่ห...,2021-06-07T18:24:16Z,2
710,2l4Uz_qQGHU,โหยหาอดีต นึกถึงแต่ความทรงจำที่ผ่านมา,วันนี้ฟังแล้วรู้สึกโดดเดี่ยวมากเลยค่ะ บ้านดิฉ...,2022-10-21T04:17:29Z,2
725,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,เปนคนคิดมากคะ เรื่องครอบครัว เรื่องสามี เเร้วก...,2023-08-28T02:30:33Z,2
996,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,แม่เสียมาเป็นปี นอนไม่หลับโทษตัวเอง ตลอดเวลาว่...,2021-11-30T13:02:19Z,2
1019,2ngSlTLBG9M,รวม Podcast สำหรับคนคิดมาก คนที่ชอบเก็บทุกเรื่...,แล้วอย่างเช่น อยู่ๆก็ร้องไห้ออกมา<br>นอนๆอยู่ก...,2021-11-23T15:37:38Z,2


In [11]:
alljit_youtube_vdo_comment[alljit_youtube_vdo_comment["label"] == "0"].head(10)

Unnamed: 0,videoId,title,comment,date,label
0,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,แอปพลิเคชัน ระบายความในใจฟรี 💓\r<br>คุณสามารถ...,2021-10-06T18:00:11Z,0
1,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ขอบคุณครับ,2023-11-26T02:07:02Z,0
2,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,อย่ายึดติดกับความดี ตีเส้นให้ตัวเองและเคารพซื่...,2023-11-10T14:50:33Z,0
3,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ขอบคุณมากครับ❤,2023-09-07T02:25:58Z,0
4,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ฟังคุณอีฟพูดแล้วเหมือนอ่านใจเราออกเลย,2023-08-06T21:23:16Z,0
5,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ขอบคุณมากครับ,2023-07-22T22:31:06Z,0
6,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ทำไมพ่อแม่ถึงเอาแต่ช่มแต่คนอื่คไม่เคยช่มผมเลยเ...,2023-05-10T11:18:46Z,0
7,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ถอยห่างจนไม่มีใครคบแล้วค่า😢,2023-03-29T01:31:24Z,0
8,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ร้องไห้ปะจำกับคำพูด,2022-10-12T12:02:25Z,0
9,-cd_OMv1GOA,อย่าเก็บคำพูดคนอื่นมาคิด พูดง่ายแต่ทำยาก ถ้าไม...,ผมเก็บมาจนคนที่พูดรับผลกรรมเลยครับ,2022-09-25T15:08:32Z,0


In [18]:
# remove the rows where 'comment' contains the specific phrase "แอปพลิเคชัน ระบายความในใจฟรี" or "ตอนนี้สามารถรับฟัง Alljit Podcast ได้ที่ Spotify แล้ว"
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[~alljit_youtube_vdo_comment['comment'].str.contains('แอปพลิเคชัน ระบายความในใจฟรี')]
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[~alljit_youtube_vdo_comment['comment'].str.contains('ตอนนี้สามารถรับฟัง Alljit Podcast ได้ที่ Spotify แล้ว')]
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[~alljit_youtube_vdo_comment['comment'].str.contains('Alljit แอปพลิเคชันเพื่อหัวใจ')]
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[~alljit_youtube_vdo_comment['comment'].str.contains('สามารถเป็นผู้สนับสนุนช่อง Alljit')]
alljit_youtube_vdo_comment = alljit_youtube_vdo_comment[~alljit_youtube_vdo_comment['comment'].str.contains('พูดความในใจ ระบายกับเราได้ฟรี')]

# show the shapeof the updated dataframe
print(alljit_youtube_vdo_comment.shape)

(13338, 5)


In [19]:
# Save the DataFrame to a CSV file in the folder "output - final"
alljit_youtube_vdo_comment.to_csv("../../output - final/alljit_youtube_vdo_comment.csv", index=False) # Do not include the index column