In [1]:
# Importing necessary libraries for general df processing and analysis
import numpy as np  # linear algebra
from scipy import spatial
import pandas as pd  # df processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt
from statistics import mean

# Importing NLP libraries
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

In [31]:
df = pd.read_csv(r"..\data\news.csv")
df

Unnamed: 0,title,url,content
0,Ciri-ciri Keputihan Akibat Kanker Serviks yang...,https://health.detik.com/berita-detikhealth/d-...,Jakarta - Spesialis kandungan dan ginekologi d...
1,Bayi Kembar di Gaza Tewas Diserang Israel saat...,https://health.detik.com/berita-detikhealth/d-...,Jakarta - Kisah tragis lagi-lagi menimpa warga...
2,"Heboh Selebgram Cut Intan, KemenPPPA Dorong Ko...",https://health.detik.com/berita-detikhealth/d-...,Jakarta - Selebgram Cut Intan Nabila mengalami...
3,"Siasat Amel Carla Pangkas BB, Lebih Pilih Nasi...",https://health.detik.com/diet/d-7489260/siasat...,Jakarta - Amel Carla mengatakan pola makan dan...
4,"Lagi Ramai KDRT, Psikolog Ungkap Tanda Pasanga...",https://health.detik.com/berita-detikhealth/d-...,"Jakarta - 'Red flag' berarti bendera merah, ya..."
5,Nasib Nahas Pria Inggris Tewas usai Angkat Bar...,https://health.detik.com/true-story/d-7489105/...,Jakarta - Seorang pria bernama David Duffy (58...
6,KemenPPPA Apresiasi Keberanian Cut Intan Nabil...,https://health.detik.com/berita-detikhealth/d-...,Jakarta - Kementerian Pemberdayaan Perempuan d...
7,Ilmuwan Prediksi Makin Banyak Pria Bakal Kena ...,https://health.detik.com/berita-detikhealth/d-...,Jakarta - Kasus kematian akibat kanker pada pr...
8,"Ramai Istilah 'Marriage is Scary' di Medsos, N...",https://health.detik.com/berita-detikhealth/d-...,Jakarta - Fenomena 'marriage is scary' atau pe...
9,"Amel Carla Bikin Pangling usai Turun BB 13 Kg,...",https://health.detik.com/diet/d-7488808/amel-c...,Jakarta - Mantan artis cilik Amel Carla buka-b...


In [32]:
import re
import string


def cleaningText(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text) # remove mentions
    text = re.sub(r'#[A-Za-z0-9]+', '', text) # remove hashtag
    text = re.sub(r'RT[\s]', '', text) # remove RT
    text = re.sub(r"http\S+", '', text) # remove link
    text = re.sub(r'[0-9]+', '', text) # remove numbers

    text = text.replace('\n', ' ') # replace new line into space
    text = text.translate(str.maketrans('', '', string.punctuation)) # remove all punctuations
    text = text.strip(' ') # remove characters space from both left and right text
    text = text.strip('[]')
    return text

def casefoldingText(text): # Converting all the characters in a text into lower case
    text = text.lower() 
    return text

def tokenizingText(text): # Tokenizing or splitting a string, text into a list of tokens
    text = word_tokenize(text) 
    return text

# def stemmingText(text): # Reducing a word to its word stem that affixes to suffixes and prefixes or to the roots of words
#     factory = StemmerFactory()
#     stemmer = factory.create_stemmer()
#     text = [stemmer.stem(word) for word in text]
#     return text

# def filteringText(text): # Remove stopwors in a text
#     listStopwords = set(stopwords.words('indonesian'))
#     filtered = []
#     for txt in text:
#         if txt not in listStopwords:
#             filtered.append(txt)
#     text = filtered 
#     return text

def toSentence(list_words): # Convert list of words into sentence
    sentence = ' '.join(word for word in list_words)
    return sentence

In [33]:
df['content'] = df['content'].apply(cleaningText)
df['content'] = df['content'].apply(casefoldingText)
df['content'] = df['content'].apply(tokenizingText)
# df['content'] = df['content'].apply(filteringText)
df['content']= df['content'].apply(toSentence)

In [34]:
df

Unnamed: 0,title,url,content
0,Ciri-ciri Keputihan Akibat Kanker Serviks yang...,https://health.detik.com/berita-detikhealth/d-...,jakarta spesialis kandungan dan ginekologi dr ...
1,Bayi Kembar di Gaza Tewas Diserang Israel saat...,https://health.detik.com/berita-detikhealth/d-...,jakarta kisah tragis lagilagi menimpa warga ga...
2,"Heboh Selebgram Cut Intan, KemenPPPA Dorong Ko...",https://health.detik.com/berita-detikhealth/d-...,jakarta selebgram cut intan nabila mengalami k...
3,"Siasat Amel Carla Pangkas BB, Lebih Pilih Nasi...",https://health.detik.com/diet/d-7489260/siasat...,jakarta amel carla mengatakan pola makan dan g...
4,"Lagi Ramai KDRT, Psikolog Ungkap Tanda Pasanga...",https://health.detik.com/berita-detikhealth/d-...,jakarta red flag berarti bendera merah yang ju...
5,Nasib Nahas Pria Inggris Tewas usai Angkat Bar...,https://health.detik.com/true-story/d-7489105/...,jakarta seorang pria bernama david duffy di in...
6,KemenPPPA Apresiasi Keberanian Cut Intan Nabil...,https://health.detik.com/berita-detikhealth/d-...,jakarta kementerian pemberdayaan perempuan dan...
7,Ilmuwan Prediksi Makin Banyak Pria Bakal Kena ...,https://health.detik.com/berita-detikhealth/d-...,jakarta kasus kematian akibat kanker pada pria...
8,"Ramai Istilah 'Marriage is Scary' di Medsos, N...",https://health.detik.com/berita-detikhealth/d-...,jakarta fenomena marriage is scary atau pernik...
9,"Amel Carla Bikin Pangling usai Turun BB 13 Kg,...",https://health.detik.com/diet/d-7488808/amel-c...,jakarta mantan artis cilik amel carla bukabuka...


In [36]:
import pandas as pd
import nltk
from sklearn.model_selection import train_test_split
import random

# Pastikan Anda telah mengunduh 'punkt' jika belum
nltk.download('punkt')

# Function untuk membagi teks menjadi segmen 5 kata
def split_into_word_segments(text, segment_length=5):
    words = nltk.word_tokenize(text)
    segments = [' '.join(words[i:i + segment_length]) for i in range(0, len(words), segment_length)]
    return segments

# Function untuk membuat pasangan segmen kata dengan label
def create_segment_pairs(segments):
    pairs = []
    for i in range(len(segments) - 1):
        # Pasangan segmen yang benar
        pairs.append((segments[i], segments[i + 1], 1))
        # Pasangan segmen yang salah
        random_index = random.randint(0, len(segments) - 1)
        if random_index != i + 1:
            pairs.append((segments[i], segments[random_index], 0))
    return pairs

# Function utama untuk membuat dataset
def create_dataset(df, text_column):
    # List untuk menyimpan semua pasangan segmen
    all_pairs = []
    
    # Loop untuk setiap row di DataFrame
    for text in df[text_column]:
        segments = split_into_word_segments(text)
        segment_pairs = create_segment_pairs(segments)
        all_pairs.extend(segment_pairs)
    
    # Mengubah list menjadi DataFrame
    dataset = pd.DataFrame(all_pairs, columns=['segment1', 'segment2', 'label'])
    
    # Split menjadi train dan test set
    train_df, test_df = train_test_split(dataset, test_size=0.2, random_state=42)
    
    return train_df, test_df



# Membuat dataset
train_df, test_df = create_dataset(df, 'content')

# Output untuk verifikasi
print("Train Set:")
print(train_df.head())
print("\nTest Set:")
print(test_df.head())


Train Set:
                                     segment1  \
1344      krisis populasi popok dewasa krisis   
3353    lebih waspada terhadap potensi bahaya   
1117          scroll to continue with content   
3824  content ppds hospital based pendaftaran   
2805   klinis anastasia sari dewi menjelaskan   

                                           segment2  label  
1344           populasi di negeri sakura ituseiring      0  
3353           bpa advertisement scroll to continue      1  
1117  langsing dan pipinya terlihat tirussebenarnya      0  
3824                   ppds hospital based kemenkes      1  
2805             revenge porn merupakan sebuah aksi      1  

Test Set:
                                       segment1  \
149   padat termasuk menggunakan bangunan sipil   
1025             tidak membuat bahagia loh gitu   
1288         lebih baik unicharm pemimpin pasar   
720        kate middleton dpykna inggris barbel   
325           selebgram jadi korban kdrt jangan   

          

[nltk_data] Downloading package punkt to C:\Users\wandi
[nltk_data]     ramadan\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [43]:
train_df.tail(20)

Unnamed: 0,segment1,segment2,label
130,naik buat apamenurut kantor berita,israel di gaza ketika ayah,0
3735,bpjs kesehatan capai juta jiwa,dipastikan terjamin penuh oleh bpjs,0
2919,jawa yang ratarata mencatat aqi,pernapasanbanyak yang kemudian mengalami infeksi,0
3171,lu menuturkan bahwa saat itu,operasi nantinya remaja tersebut diperbolehkan,0
3444,keselamatan dan kesehatan masyarakat ujar,kemasan amdk bpom memaparkan hasil,0
2135,foto dan nomor kontak bpjs,satu umumnya sudah tercantum di,1
1482,saja yang boleh daftarbaca juga,panti jompo untuk anak muda,0
330,cut intan trauma gegara kddari,masyarakat dan kepolisian untuk mencegah,0
1238,dari penjualan popok dewasa sudah,dua kali lipat pendapatan yang,1
466,myself untuk kesehatan untuk sendiri,menggeluti olahraga golf dan lariamel,0


In [44]:
df['content'].values

array(['jakarta spesialis kandungan dan ginekologi dr ivander r utama fmas spog menyebut keputihan bisa jadi salah satu gejala kanker serviks yang perlu diwaspadai penyakit ini menghantui perempuan di indonesia dengan angka kematian tinggikasus kanker serviks pada awalnya kerap tidak menimbulkan gejala pada stadium awal namun wanita bisa mengenalinya jika mengalami keputihan yang tidak normalkeputihan yang berbau tidak sedap atau berbau busuk disertai nyeri saat pipis itu harus diperiksakan kata dr ivan dalam diskusi terkait kanker serviks selasa advertisement scroll to continue with content baca juga kenali penyebab benjolan di miss v bagian luar dari kista sampai herpesperempuan seringkali menyepelekan keputihan yang dialami sehingga ratarata pasien kanker serviks datang berobat dalam kondisi stadium lanjut kebanyakan pasien kanker serviks berobat ke dokter sudah dalam stadium atau sehingga tak bisa lagi menjalani operasidr ivan menambahkan setiap perempuan berisiko terkena kanker se