In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split

In [2]:
# Since the dataset is split into two .txt files, one with clickbait headlines and one without,
# We need to create a DataFrame to append these headlines and give it label values of 1 and 0
# One way which is implemented is creating two seperate dataframes for ClickBait and Non-Clickbait, and appending one to the 
# other

clickbait_df = pd.DataFrame(columns = ['Headline']) # We will append the label values after appending each and every headline
non_clickbait_df =  pd.DataFrame(columns = ['Headline'])


In [3]:
# Encoding value is required as the text is in a different language:
cb_headlines = []
ncb_headlines = []
with open('ClickBaitHeadLines.txt', encoding = 'utf8') as f:
    content = f.read()
    cb_headlines = content.split("\n") # List containing all clickbait headlines
    

with open('NonClickBaitHeadLines.txt', encoding = 'utf8') as f:
    content = f.read()
    ncb_headlines = content.split("\n")  # List containing all non-clickbait headlines    
  

print(f"Length of the list containing ClickBait Headlines: {len(cb_headlines)}")
print(f"Length of the list containing Non-Clickbait Headlines: {len(ncb_headlines)}")


Length of the list containing ClickBait Headlines: 49998
Length of the list containing Non-Clickbait Headlines: 50000


In [4]:
print(cb_headlines[0]) # Test
print(ncb_headlines[0]) # Test

"เปรี้ยว ฟีเวอร์" !! แม่ค้าหัวใสโหนกระแสแห่ขายของกระหน่ำ พบมีการทำสินค้าที่ระลึกด้วย !!!
'สุเทพ'เสียใจบึมซ้ำ ซัดแก๊งป่วนดิสเครดิตรัฐ


In [5]:
# Appending the Non-ClickBait Headlines first, then creating the column 'Score'. Appending all 0's to that column.
non_clickbait_df["Headline"] = ncb_headlines
clickbait_df["Headline"] = cb_headlines
non_clickbait_df

Unnamed: 0,Headline
0,'สุเทพ'เสียใจบึมซ้ำ ซัดแก๊งป่วนดิสเครดิตรัฐ
1,อัยการเชื่อ หมอ'คอนราด' พัวพัน'ไมเคิล'ตาย
2,'เทือก'รับ4จว.ล่อแหลม ก่อเหตุป่วนซ้ำ
3,เด็กล่าฝัน
4,ตอบแทนรักบริสุทธิ์ของแม่ด้วยของขวัญเลอค่าเหนือ...
5,'ประวิตร'ถกหน่วยข่าว รับมือระเบิดป่วนกรุง
6,หย่าร้างเป็นโรคระบาด แพร่กระจายในหมู่เพื่อนฝูง...
7,'นาตาลี' ติด 'เอิ๊น' เมินคนมองไม่สมกัน-ไร้ปัญห...
8,ชายแดนปกติ! เทือกยัน พร้อมคุยเขมร
9,ขาดเพื่อนเหมือนขาดไฟ โอกาสที่ี่จะมีชีวิตรอดตกต...


In [6]:
non_clickbait_df["Score"] = 0 # Creating a score column and setting the default value as 0, since it entirely contains non-clickbait headlines
clickbait_df["Score"] = 1 # Similar operation


In [7]:
final_dataset = pd.concat([non_clickbait_df, clickbait_df], ignore_index = True) # Concatenating both dataframes together
final_dataset

Unnamed: 0,Headline,Score
0,'สุเทพ'เสียใจบึมซ้ำ ซัดแก๊งป่วนดิสเครดิตรัฐ,0
1,อัยการเชื่อ หมอ'คอนราด' พัวพัน'ไมเคิล'ตาย,0
2,'เทือก'รับ4จว.ล่อแหลม ก่อเหตุป่วนซ้ำ,0
3,เด็กล่าฝัน,0
4,ตอบแทนรักบริสุทธิ์ของแม่ด้วยของขวัญเลอค่าเหนือ...,0
5,'ประวิตร'ถกหน่วยข่าว รับมือระเบิดป่วนกรุง,0
6,หย่าร้างเป็นโรคระบาด แพร่กระจายในหมู่เพื่อนฝูง...,0
7,'นาตาลี' ติด 'เอิ๊น' เมินคนมองไม่สมกัน-ไร้ปัญห...,0
8,ชายแดนปกติ! เทือกยัน พร้อมคุยเขมร,0
9,ขาดเพื่อนเหมือนขาดไฟ โอกาสที่ี่จะมีชีวิตรอดตกต...,0


In [8]:
final_dataset = final_dataset.sample(frac = 1).reset_index(drop=True) # Shuffling the entries in the dataframe 
final_dataset

Unnamed: 0,Headline,Score
0,"หล่อรวยครบสูตร ! เคยเห็นกันยัง? ""คิด คณชัย"" ลู...",1
1,นักซูโม่แข่งวิ่งมาราธอน,0
2,'เชส'ซูเปอร์ซับซัดโทษ ปืนยิงดับฮัดเดอร์สฟิลด์2-1,0
3,"อุ๊ยตายว๊ายกรี๊ด! ""โทนี่ รากแก่น"" กับภาพวัยละอ...",1
4,"ซึ้งน้ำตาไหล !! ""โอบ โอบขวัญ"" โชว์เสียงร้องในบ...",1
5,"โดนใจประชาชน !!! เมื่อ ""เจ เจตริน"" เจอเหตุการณ...",1
6,ดาวโจนส์ปิดบวก น้ำมันเพิ่มขึ้น 14 เซนต์,0
7,พักเหนื่อย,0
8,'เวสต์วูด'นำทัพโปรดัง ร่วมหวดกอล์ฟบัลเลนไทน์,0
9,คู่รักมังกรแห่วิวาห์ ตามกระแส 10/10/10,0


In [9]:
final_dataset.to_csv('Thai-Dataset.csv', index = False) # Writing the data to a .csv

In [32]:
# Splitting the dataset into train and test variants (80 - 20 ratio)
X_train, X_test, y_train, y_test = train_test_split(final_dataset.drop(['Score'], axis = 1), final_dataset.drop(['Headline'], axis = 1),  test_size=0.20, random_state=42)

In [33]:
X_train["Score"] = y_train
X_test["Score"] = y_test

X_train

Unnamed: 0,Headline,Score
92725,"""เด็กผู้หญิง"" ในภาพนี้ ไม่น่าเชื่อโตมาจะเป็นดา...",1
37683,ตั้งรางวัลนำจับ หญิงฉกทารก ควานหาทุกวิธี,0
38241,สิงห์บลูคอนเฟิร์มคว้า'นิวกาก้า'ร่วมทีมต้นปีหน้า,0
3806,แฟนผีได้ที!แก้ป้ายเตเบซ'ลาก่อน แมนเชสเตอร์',0
65307,"อิจฉาตาไหม้ !! ""หญิงแย้"" เผยของขวัญที่ ""ไฮโซท็...",1
6006,"สวยพิฆาตขย้ำใจ เปิดภาพสุดเซ็กซี่ ""กิ๊บซี่ Girl...",1
79002,"สวยชายทั้งชาติตะลึง !! จำกันได้เปล่า ""ต้องตา"" ...",1
44198,ประมวลภาพ กวางโจวเกมส์ 2010,0
69703,"เอาแน่แท้ !! จีนเตรียมเปิด ""สะพานกระจก"" ที่ยาว...",1
26922,พนันออนไลน์เฟื่องฟันกำไรปีละ5พันล.จี้รัฐรื้อพร...,0


In [34]:
X_train.to_csv("Thai-Train-Dataset.csv", index = False)
X_test.to_csv("Thai-Test-Dataset.csv", index = False)