In [2]:
# Text Preprocessing

# Text Cleaning: Menghapus tanda baca, angka, dan simbol yang tidak relevan

In [17]:
import re

def text_cleaning(text):
    # Menghapus tanda baca dan angka
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    # Menghapus spasi ganda
    text = re.sub(r'\s+', ' ', text)

    # Menormalkan teks menjadi huruf kecil (normalization)
    text = text.lower()
    return text

# Contoh teks yang akan dicleaning
text = "Berikut ini adalah contOh tEks 123 untUK TExt clEANing!!"


print("Sebelum di cleaning: ", text)

# Menjalankan text cleaning
text = text_cleaning(text)

print("Hasil text cleaning:", text)

Sebelum di cleaning:  Berikut ini adalah contOh tEks 123 untUK TExt clEANing!!
Hasil text cleaning: berikut ini adalah contoh teks untuk text cleaning 


In [None]:
# Text Normalization

# Stopword Removal -> Menghapus kata-kata yang sering muncul dalam bahasa, tetapi tidak memberikan informasi penting bagi pemahaman teks.

# Stemming: Menghilangkan imbuhan pada akhir kata untuk mengurangi dimensi data dan memperkuat analisis.

In [18]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download("stopwords")
nltk.download("punkt")

[nltk_data] Downloading package stopwords to /home/sam/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/sam/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [19]:
def stop_word(text):
    # Tokenisasi teks
    words = word_tokenize(text)
    # Menghapus stopword
    stop_words = set(stopwords.words("indonesian"))
    words = [word for word in words if word.lower() not in stop_words]
    # Menggabungkan kembali kata-kata yang sudah dicleaning menjadi teks
    text = " ".join(words)
    return text

In [20]:
text = text_cleaning(text)
print("Hasil text cleaning:", text)

Hasil text cleaning: berikut ini adalah contoh teks untuk text cleaning 


In [None]:
# stemming -> Menghilangkan imbuhan pada akhir kata untuk mengurangi dimensi data dan memperkuat analisis.

In [23]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_text(text):
    return stemmer.stem(text)


In [25]:
text = stem_text(text)
text

'ikut ini adalah contoh teks untuk text cleaning'

In [None]:
# tokenize

In [26]:
import nltk

def tokenize_text(text):
    return nltk.word_tokenize(text)


In [27]:
textTokenized = tokenize_text(text)
textTokenized

['ikut', 'ini', 'adalah', 'contoh', 'teks', 'untuk', 'text', 'cleaning']

In [None]:
# Text Representation: Mengubah teks menjadi representasi numerik yang dapat digunakan oleh mesin untuk melakukan analisis.

Text representation adalah tahap dimana teks yang awalnya berupa string dikonversikan menjadi representasi numerik yang dapat diterima oleh model machine learning. Terdapat beberapa metode text representation, antara lain:

One-hot Encoding
Bag of Words (BoW)
Term Frequency-Inverse Document Frequency (TF-IDF)
Word Embeddings
Dari metode-metode di atas, bag of words dan TF-IDF adalah dua metode text representation yang paling umum digunakan. Bag of words memrepresentasikan teks sebagai vektor dimana setiap elemen dari vektor mewakili sebuah kata dalam teks, sedangkan TF-IDF memrepresentasikan teks sebagai vektor dimana setiap elemen dari vektor mewakili seberapa penting sebuah kata dalam sebuah dokumen.

Untuk membuat bag of words atau TF-IDF, kita memerlukan library seperti scikit-learn atau gensim. Namun, sebelum melakukan text representation, kita harus melakukan preprocessing terlebih dahulu, seperti text cleaning, tokenizing, dan stemming.

In [29]:
from sklearn.feature_extraction.text import TfidfVectorizer

# data sample
documents = ['this is the first document',
             'this document is the second document',
             'and this is the third one',
             'is this the first document']

# instance of TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# fit and transform
tfidf = tfidf_vectorizer.fit_transform(documents)

# get feature names
feature_names = tfidf_vectorizer.get_feature_names_out()

# convert to dense array
dense = tfidf.todense()

# print result
for idx, doc in enumerate(dense):
    print("Document {}:".format(idx))
    print([(feature_names[col_index], doc[0, col_index]) for col_index in doc.nonzero()[1]])


Document 0:
[('document', 0.46979138557992045), ('first', 0.5802858236844359), ('is', 0.38408524091481483), ('the', 0.38408524091481483), ('this', 0.38408524091481483)]
Document 1:
[('document', 0.6876235979836938), ('is', 0.281088674033753), ('second', 0.5386476208856763), ('the', 0.281088674033753), ('this', 0.281088674033753)]
Document 2:
[('and', 0.511848512707169), ('is', 0.267103787642168), ('one', 0.511848512707169), ('the', 0.267103787642168), ('third', 0.511848512707169), ('this', 0.267103787642168)]
Document 3:
[('document', 0.46979138557992045), ('first', 0.5802858236844359), ('is', 0.38408524091481483), ('the', 0.38408524091481483), ('this', 0.38408524091481483)]


In [1]:
from gensim.models import Word2Vec

# data sample
sentences = [['this', 'is', 'the', 'first', 'sentence'],
             ['this', 'sentence', 'is', 'the', 'second', 'sentence'],
             ['and', 'this', 'is', 'the', 'third', 'sentence'],
             ['is', 'this', 'the', 'first', 'sentence']]

# instance of Word2Vec
model = Word2Vec(sentences, min_count=1)

# get word vector
word_vector = model.wv['sentence']

# print result
print(word_vector)


[-5.3622725e-04  2.3643136e-04  5.1033497e-03  9.0092728e-03
 -9.3029495e-03 -7.1168090e-03  6.4588725e-03  8.9729885e-03
 -5.0154282e-03 -3.7633716e-03  7.3805046e-03 -1.5334714e-03
 -4.5366134e-03  6.5540518e-03 -4.8601604e-03 -1.8160177e-03
  2.8765798e-03  9.9187379e-04 -8.2852151e-03 -9.4488179e-03
  7.3117660e-03  5.0702621e-03  6.7576934e-03  7.6286553e-04
  6.3508903e-03 -3.4053659e-03 -9.4640139e-04  5.7685734e-03
 -7.5216377e-03 -3.9361035e-03 -7.5115822e-03 -9.3004224e-04
  9.5381187e-03 -7.3191668e-03 -2.3337686e-03 -1.9377411e-03
  8.0774371e-03 -5.9308959e-03  4.5162440e-05 -4.7537340e-03
 -9.6035507e-03  5.0072931e-03 -8.7595852e-03 -4.3918253e-03
 -3.5099984e-05 -2.9618145e-04 -7.6612402e-03  9.6147433e-03
  4.9820580e-03  9.2331432e-03 -8.1579173e-03  4.4957981e-03
 -4.1370760e-03  8.2453608e-04  8.4986202e-03 -4.4621765e-03
  4.5175003e-03 -6.7869602e-03 -3.5484887e-03  9.3985079e-03
 -1.5776526e-03  3.2137157e-04 -4.1406299e-03 -7.6826881e-03
 -1.5080082e-03  2.46979