In [1]:
import rootutils
import os

'''
Mengatur ROOT directory untuk project dengan menggunakan library rootutils
search_from=os.getcwd() menentukan bahwa pencarian dimulai dari direktori kerja saat ini
indicator=[".project-root"] berarti pencarian akan berhenti saat menemukan file atau direktori bernama ".project-root"
pythonpath=True akan menambahkan ROOT ke PYTHONPATH untuk memastikan bahwa modul di ROOT dapat diimpor
dotenv=True akan memuat variabel lingkungan dari file .env di ROOT (jika ada)
'''
ROOT = rootutils.setup_root(
    search_from=os.getcwd(),
    indicator=[".project-root"],
    pythonpath=True,
    dotenv=True,
)

In [14]:
teks = 'Soal jln Jatibaru,polisi tdk bs GERTAK gubernur .Emangny polisi tdk ikut pmbhasan? Jgn berpolitik. Pengaturan wilayah,hak gubernur. Persoalan Tn Abang soal turun temurun.Pelik.Perlu kesabaran. [USERNAME] [USERNAME] [URL]'

# Remove Puncation and Special Character

In [20]:
import re  # Mengimpor modul 're' untuk bekerja dengan regex (regular expressions)

def regex_methods(text):
    # Definisikan regex untuk URL yang mencakup berbagai format URL
    url_regex = r"((www\.[^\s]+)|(https?://[^\s]+)|(http?://[^\s]+)||(http\S+))"
    
    # Hapus setiap URL dari teks
    text = re.sub(url_regex, "", text)  
    
    # Hapus tag HTML dari teks
    text = re.sub(r"<[^>]*>", "", text)  
    
    # Hapus username Twitter yang diawali dengan '@'
    text = re.sub(r"@[A-Za-z0-9]+", "", text)  
    
    # Hapus setiap baris baru '\n'
    text = re.sub(r"\n", " ", text)  
    
    # Hapus mention (username atau tanda @)
    text = re.sub(r"@[\w\-]+", "", text)  
    
    # Hapus simbol retweet 'RT' dari teks
    text = re.sub(r"RT", "", text)  
    
    # Hapus setiap kata 'USER' yang mungkin mewakili nama pengguna anonim
    text = re.sub(r"USER", "", text)  
    
    # Hapus kata 'URL' yang mungkin menjadi placeholder untuk URL
    text = re.sub(r" URL", " ", text)  
    text = re.sub(r" url", " ", text)  
    
    # Hapus tanda plus '+' dari teks
    text = re.sub(r"\+", " ", text)  
    
    # Hapus karakter spasi berulang dan menggantinya dengan satu spasi
    text = re.sub(r"\s+", " ", text)  
    
    # Hapus semua tanda baca dengan menggantinya menjadi spasi
    text = re.sub(r"[^0-9a-zA-Z]", " ", text)  
    
    # Hapus semua angka dari teks dan hanya menyisakan huruf
    text = re.sub(r"[^a-zA-Z]", " ", text)  
    
    # Hapus spasi ekstra
    text = re.sub(r" +", " ", text)  
    
    return text  # Kembalikan teks yang sudah dibersihkan

# Contoh penggunaan fungsi regex_methods untuk membersihkan teks
text_cleaning = regex_methods(teks)  # 'teks' adalah variabel teks input yang perlu dibersihkan
text_cleaning  # Menampilkan teks yang telah dibersihkan

'Soal jln Jatibaru polisi tdk bs GEAK gubernur Emangny polisi tdk ikut pmbhasan Jgn berpolitik Pengaturan wilayah hak gubernur Persoalan Tn Abang soal turun temurun Pelik Perlu kesabaran NAME NAME URL '

# Casefolding

In [23]:
"""
Mengubah teks menjadi huruf kecil dengan text.lower() adalah langkah penting dalam NLP untuk normalisasi teks, 
memastikan konsistensi, dan mengurangi dimensi fitur. Dalam contoh ini menggunakan .lower(), selain .lower() ada .upper() dan .title()
Dengan mengonversi semua teks ke huruf kecil, kita menyamakan variasi kapitalisasi, mengurangi noise data, dan memastikan pencocokan kata yang tepat. 
Ini membantu dalam mengurangi kompleksitas model dan meningkatkan efisiensi serta akurasi dalam analisis teks dan pemodelan.
"""

text_case_folding = text_cleaning.lower()
text_case_folding

'soal jln jatibaru polisi tdk bs geak gubernur emangny polisi tdk ikut pmbhasan jgn berpolitik pengaturan wilayah hak gubernur persoalan tn abang soal turun temurun pelik perlu kesabaran name name url '

# Stopword

### NLTK

In [30]:
import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('indonesian'))
print(list(stop_words)[:10])

['secara', 'bertutur', 'sama', 'para', 'punya', 'dirinya', 'kalaulah', 'berdatangan', 'sesuatunya', 'dekat']


In [38]:
# Menghapus stop words dari teks
text_stopword = " ".join(word for word in text_case_folding.split() if word not in stop_words)

print("Teks sebelum menghilangkan stopword : ",text_case_folding)
print("Teks sesudah menghilangkan stopword : ", text_stopword)

Teks sebelum menghilangkan stopword :  soal jln jatibaru polisi tdk bs geak gubernur emangny polisi tdk ikut pmbhasan jgn berpolitik pengaturan wilayah hak gubernur persoalan tn abang soal turun temurun pelik perlu kesabaran name name url 
Teks sesudah menghilangkan stopword :  soal jln jatibaru polisi tdk bs geak gubernur emangny polisi tdk pmbhasan jgn berpolitik pengaturan wilayah hak gubernur tn abang soal turun temurun pelik kesabaran name name url


### NLP_ID (Kumparan)

In [45]:
from nlp_id.stopword import StopWord 

stopword = StopWord() 
stop_words = stopword.get_stopword()

stop_words[0:10]

['ada',
 'adalagi',
 'adalah',
 'adanya',
 'adapun',
 'agak',
 'agak-agak',
 'agaknya',
 'agar',
 'aja']

In [46]:
# Menghapus stop words dari teks
text_stopword = stopword.remove_stopword(text_case_folding)

print("Teks sebelum menghilangkan stopword : ",text_case_folding)
print("Teks sesudah menghilangkan stopword : ", text_stopword)

Teks sebelum menghilangkan stopword :  soal jln jatibaru polisi tdk bs geak gubernur emangny polisi tdk ikut pmbhasan jgn berpolitik pengaturan wilayah hak gubernur persoalan tn abang soal turun temurun pelik perlu kesabaran name name url 
Teks sesudah menghilangkan stopword :  jln jatibaru polisi tdk bs geak gubernur emangny polisi tdk pmbhasan jgn berpolitik pengaturan wilayah hak gubernur tn abang turun temurun pelik kesabaran name name url
