# Exploring Tokenization

Fa'iq Zhafran Naufal Brinatta (220535608468 TI/22)
@author: Aman Kedia

In [1]:
import nltk

In [2]:
plurals = ['caresses', 'flies', 'dies', 'mules', 'died', 'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
           'siezing', 'itemization', 'traditional', 'reference', 'colonizer', 'plotted', 'having', 'generously']

Baris kode tersebut adalah sebuah daftar bernama `plurals`, yang berisi kata-kata dalam bentuk jamak (plural) dalam bahasa Inggris, seperti "caresses", "flies", dan "died". Daftar ini dapat digunakan dalam analisis teks untuk mengidentifikasi dan menangani kata-kata jamak yang mungkin perlu diproses secara khusus, misalnya diubah menjadi bentuk tunggal selama proses stemming atau lemmatization. Selain itu, daftar ini berhubungan dengan teknik lain dalam pengolahan teks, seperti stopword removal, case-folding, n-grams, dan penghapusan HTML tags, yang semuanya bertujuan untuk membersihkan dan memperbaiki kualitas analisis teks. Dengan menandai kata-kata jamak dalam data yang dianalisis, kita dapat memastikan bahwa hasil analisis lebih akurat dan bermakna.

# Porter Stemmer

In [3]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
singles = [stemmer.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have gener


Kode ini menggunakan pustaka Natural Language Toolkit (NLTK) di Python untuk melakukan stemming pada kata-kata dalam daftar `plurals`. Pertama, `PorterStemmer` diimpor dari modul `nltk.stem.porter`, dan kemudian sebuah objek `stemmer` dibuat dari kelas tersebut. Menggunakan list comprehension, metode `stem()` diterapkan pada setiap kata dalam daftar `plurals`, menghasilkan daftar baru bernama `singles`, di mana setiap kata jamak diubah menjadi bentuk dasarnya. Akhirnya, hasil stemming dicetak dalam format string, dengan setiap kata dipisahkan oleh spasi. Secara keseluruhan, kode ini bertujuan untuk mengubah kata-kata dalam bentuk jamak menjadi bentuk dasar mereka, memudahkan analisis lebih lanjut pada data teks dan memberikan insight yang lebih baik dalam konteks model pembelajaran mesin atau analisis data lainnya.

# Snowball Stemmer

In [4]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [5]:
stemmer2 = SnowballStemmer(language='english')
singles = [stemmer2.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have generous


Kode ini menggunakan `SnowballStemmer` dari pustaka NLTK untuk melakukan stemming pada kata-kata dalam daftar `plurals` dengan fokus pada bahasa Inggris. Pertama, sebuah objek `stemmer2` dibuat dengan menentukan bahasa sebagai 'english', yang mengindikasikan bahwa algoritma Snowball akan digunakan untuk stemming kata dalam konteks bahasa Inggris. Selanjutnya, list comprehension diterapkan untuk menerapkan metode `stem()` dari objek `stemmer2` pada setiap kata dalam daftar `plurals`, menghasilkan daftar baru bernama `singles`, di mana setiap kata jamak diubah menjadi bentuk dasarnya. Akhirnya, hasil stemming dicetak dalam format string, dengan setiap kata dipisahkan oleh spasi. Dengan demikian, kode ini bertujuan untuk memberikan hasil stemming yang lebih akurat dan relevan dalam konteks analisis teks berbahasa Inggris, memanfaatkan keunggulan algoritma Snowball dibandingkan dengan algoritma lainnya.

# Wordnet Lemmatizer

In [6]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to C:\Users\Fa'iq
[nltk_data]     Brinatta\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [7]:
lemmatizer = WordNetLemmatizer()
s = "We are putting in efforts to enhance our understanding of Lemmatization"
token_list = s.split()
print("The tokens are: ", token_list)
lemmatized_output = ' '.join([lemmatizer.lemmatize(token) for token in token_list])
print("The lemmatized output is: ", lemmatized_output)

The tokens are:  ['We', 'are', 'putting', 'in', 'efforts', 'to', 'enhance', 'our', 'understanding', 'of', 'Lemmatization']
The lemmatized output is:  We are putting in effort to enhance our understanding of Lemmatization


Kode ini menggunakan pustaka NLTK untuk melakukan lemmatization pada sebuah kalimat yang disimpan dalam variabel `s`. Pertama, pustaka `wordnet` diunduh untuk mendukung lemmatization, dan objek `lemmatizer` dibuat dari kelas `WordNetLemmatizer`. Kalimat dalam variabel `s` dipecah menjadi token menggunakan metode `split()`, yang menghasilkan daftar kata yang disimpan dalam `token_list`. Kode kemudian mencetak daftar token tersebut. Selanjutnya, list comprehension diterapkan untuk menerapkan metode `lemmatize()` dari objek `lemmatizer` pada setiap token dalam `token_list`, menghasilkan output lemmatized yang kemudian digabungkan kembali menjadi satu string menggunakan `join()`. Hasil akhir mencetak kalimat yang sudah melalui proses lemmatization, di mana kata-kata diubah menjadi bentuk dasarnya, sehingga menghasilkan output yang lebih bersih dan terstandarisasi untuk analisis lebih lanjut dalam pengolahan bahasa alami.

## POS Tagging

In [8]:
nltk.download('averaged_perceptron_tagger')
pos_tags = nltk.pos_tag(token_list)
pos_tags

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Fa'iq Brinatta\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


[('We', 'PRP'),
 ('are', 'VBP'),
 ('putting', 'VBG'),
 ('in', 'IN'),
 ('efforts', 'NNS'),
 ('to', 'TO'),
 ('enhance', 'VB'),
 ('our', 'PRP$'),
 ('understanding', 'NN'),
 ('of', 'IN'),
 ('Lemmatization', 'NN')]

POS tagging (Part-of-Speech tagging) adalah proses mengidentifikasi dan menandai jenis kata (part of speech) dalam sebuah kalimat, seperti kata benda (noun), kata kerja (verb), kata sifat (adjective), dan lain-lain. Pada kode ini, pustaka NLTK diunduh untuk menggunakan model "averaged_perceptron_tagger", yang merupakan salah satu algoritma yang digunakan untuk melakukan tagging ini. Setelah itu, fungsi `nltk.pos_tag()` diterapkan pada daftar token `token_list`, yang sebelumnya dihasilkan dari kalimat. Fungsi ini mengembalikan daftar pasangan, di mana setiap pasangan terdiri dari sebuah token dan label POS-nya. Misalnya, untuk token "Lemmatization", hasil tagging mungkin menunjukkan bahwa itu adalah kata benda. Hasil dari POS tagging ini sangat berguna dalam analisis teks dan pengolahan bahasa alami, karena membantu dalam memahami fungsi kata dalam kalimat, yang selanjutnya dapat digunakan untuk tugas-tugas lebih lanjut seperti sintaksis, analisis semantik, atau pemrosesan teks berbasis konteks.

## POS tag Mapping

In [9]:
from nltk.corpus import wordnet

##This is a common method which is widely used across the NLP community of practitioners and readers

def get_part_of_speech_tags(token):

    """Maps POS tags to first character lemmatize() accepts.
    We are focussing on Verbs, Nouns, Adjectives and Adverbs here."""

    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    tag = nltk.pos_tag([token])[0][1][0].upper()

    return tag_dict.get(tag, wordnet.NOUN)

Fungsi `get_part_of_speech_tags` dalam kode ini dirancang untuk memetakan label POS (Part-of-Speech) dari sebuah token ke dalam format yang dapat diterima oleh fungsi `lemmatize()` dari pustaka WordNet. Fungsi ini fokus pada empat jenis kata utama: kata sifat (adjective), kata benda (noun), kata kerja (verb), dan kata keterangan (adverb). Di dalam fungsi, `tag_dict` adalah kamus yang mengaitkan karakter pertama dari label POS dengan konstanta yang sesuai dari WordNet. Fungsi ini menggunakan `nltk.pos_tag()` untuk mendapatkan label POS dari token yang diberikan, lalu mengambil karakter pertama dari tag tersebut dan mengubahnya menjadi huruf besar. Kemudian, fungsi mengembalikan nilai dari `tag_dict` berdasarkan tag yang diidentifikasi; jika tag tidak ditemukan, nilai default yang dikembalikan adalah `wordnet.NOUN`. Dengan cara ini, fungsi ini memfasilitasi penggunaan lemmatization yang lebih akurat berdasarkan konteks kata dalam kalimat.

## Wordnet Lemmatizer with POS Tag Information

In [10]:
lemmatized_output_with_POS_information = [lemmatizer.lemmatize(token, get_part_of_speech_tags(token)) for token in token_list]
print(' '.join(lemmatized_output_with_POS_information))

We be put in effort to enhance our understand of Lemmatization


Kode ini menggunakan fungsi `lemmatizer.lemmatize()` bersama dengan informasi part-of-speech (POS) untuk melakukan lemmatization yang lebih kontekstual pada daftar token yang dihasilkan sebelumnya dari kalimat. Dalam list comprehension, setiap token dalam `token_list` diproses dengan memanggil `get_part_of_speech_tags(token)` untuk menentukan jenis kata yang sesuai, seperti kata benda, kata kerja, kata sifat, atau kata keterangan. Dengan menggunakan informasi POS yang tepat, `lemmatizer` dapat menghasilkan bentuk dasar (lemma) dari setiap token dengan lebih akurat, karena lemmatization mempertimbangkan konteks kata dalam kalimat. Hasil akhir, yaitu daftar kata yang sudah di-lemmatize, digabungkan kembali menjadi satu string dengan menggunakan `join()`, dan kemudian dicetak. Proses ini membantu memastikan bahwa kata-kata dalam output lemmatized lebih relevan dan sesuai dengan makna yang dimaksud dalam kalimat aslinya.

## Lemmatization vs Stemming

In [11]:
stemmer2 = SnowballStemmer(language='english')
stemmed_sentence = [stemmer2.stem(token) for token in token_list]
print(' '.join(stemmed_sentence))

we are put in effort to enhanc our understand of lemmat


Kode tersebut melakukan stemming pada setiap kata dalam token_list menggunakan algoritma SnowballStemmer yang dikhususkan untuk bahasa Inggris. Objek stemmer2 dibuat untuk keperluan ini. Kemudian, setiap kata dalam token_list diproses menggunakan metode stem() dari objek stemmer2, dan hasilnya disimpan dalam list stemmed_sentence. Akhirnya, semua kata dalam stemmed_sentence digabungkan dengan spasi dan dicetak, menunjukkan hasil stemming dari kalimat awal.

# spaCy Lemmatizer

In [30]:
import spacy

# Load the downloaded model
nlp = spacy.load('en')

# Example usage
doc = nlp("We are putting in efforts to enhance our understanding of Lemmatization")
lemmatized_sentence = " ".join([token.lemma_ for token in doc])

print(lemmatized_sentence)


OSError: [WinError 126] The specified module could not be found. Error loading "C:\Users\Fa'iq Brinatta\AppData\Roaming\Python\Python312\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.

Kode tersebut melakukan lemmatisasi pada kalimat "We are putting in efforts to enhance our understanding of Lemmatization" menggunakan library spaCy. Pertama, model bahasa Inggris 'en' dimuat ke dalam objek nlp. Kemudian, kalimat diproses menggunakan nlp untuk membuat objek doc. Objek doc ini berisi informasi linguistik tentang kalimat, termasuk lemma dari setiap token. Terakhir, kode tersebut mengekstrak lemma dari setiap token dalam doc menggunakan atribut token.lemma_ dan menggabungkannya menjadi satu string, yang kemudian dicetak, menunjukkan hasil lemmatisasi dari kalimat tersebut.

# Stopwords

In [17]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = set(stopwords.words('english'))
", ".join(stop)

[nltk_data] Downloading package stopwords to C:\Users\Fa'iq
[nltk_data]     Brinatta\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


"hasn, re, wasn't, ourselves, from, at, she's, couldn't, who, your, himself, hers, were, about, aren't, until, just, haven, before, did, after, mustn, through, had, over, aren, theirs, such, being, won't, mightn't, to, where, too, hadn't, when, all, any, both, ain, didn't, further, above, m, ours, so, they, now, her, each, t, yourselves, been, having, those, my, shan't, don, didn, how, shan, nor, doesn't, which, hasn't, more, be, some, i, on, itself, why, off, same, isn't, their, yourself, under, does, own, you're, isn, it, out, than, other, only, should've, have, herself, she, in, can, couldn, his, are, not, haven't, weren, once, doesn, d, for, you've, very, mustn't, with, down, you, that'll, them, by, shouldn't, that, won, was, is, needn, ma, has, between, doing, most, will, below, no, wouldn't, shouldn, am, the, a, few, don't, he, y, it's, of, during, should, do, mightn, themselves, its, if, or, against, but, as, s, yours, whom, we, wasn, ll, into, weren't, our, then, o, while, you'

Kode tersebut mengunduh daftar stop words bahasa Inggris dari library NLTK dan menampilkannya. Pertama, nltk.download('stopwords') mengunduh data stop words jika belum ada. Kemudian, from nltk.corpus import stopwords mengimpor modul stopwords. Selanjutnya, stop = set(stopwords.words('english')) membuat sebuah set bernama stop yang berisi stop words bahasa Inggris. Terakhir, ", ".join(stop) menggabungkan semua stop words dalam stop menjadi satu string dengan setiap kata dipisahkan oleh koma dan spasi, lalu menampilkan string tersebut.

In [18]:
wh_words = ['who', 'what', 'when', 'why', 'how', 'which', 'where', 'whom']

stop = set(stopwords.words('english'))

sentence = "how are we putting in efforts to enhance our understanding of Lemmatization"

for word in wh_words:
    stop.remove(word)

sentence_after_stopword_removal = [token for token in sentence.split() if token not in stop]
" ".join(sentence_after_stopword_removal)

'how putting efforts enhance understanding Lemmatization'

Kode di atas melakukan penghapusan kata-kata tanya (wh-words) dan kata-kata umum (stopwords) dari sebuah kalimat berbahasa Inggris. Pertama, daftar kata tanya seperti 'who', 'what', 'when', 'why', 'how', 'which', 'where', dan 'whom' disimpan dalam variabel `wh_words`. Kemudian, menggunakan pustaka `stopwords` dari NLTK, kata-kata umum dalam bahasa Inggris dimasukkan ke dalam sebuah set bernama `stop`. Dalam kalimat "how are we putting in efforts to enhance our understanding of Lemmatization", setiap kata tanya dihapus dari set `stop`. Akhirnya, kalimat tersebut dipecah menjadi token, dan hanya token yang tidak termasuk dalam set `stop` yang disimpan dalam daftar baru, `sentence_after_stopword_removal`. Hasilnya adalah kalimat yang telah dibersihkan dari kata-kata umum, yang dapat dilihat melalui penggabungan kembali token tersebut menjadi string.

# Case Folding

In [19]:
s = "We are putting in efforts to enhance our understanding of Lemmatization"
s = s.lower()
s

'we are putting in efforts to enhance our understanding of lemmatization'

Kode di atas mengambil string `s`, yang berisi kalimat "We are putting in efforts to enhance our understanding of Lemmatization", dan mengubah semua karakter dalam string tersebut menjadi huruf kecil menggunakan metode `lower()`. Dengan melakukan ini, hasilnya adalah string yang lebih konsisten dan mudah diproses, terutama dalam konteks pemrosesan teks dan analisis, di mana perbedaan antara huruf besar dan kecil sering kali diabaikan. Setelah pengubahan, string yang dihasilkan adalah "we are putting in efforts to enhance our understanding of lemmatization".

# N-grams

In [20]:
from nltk.util import ngrams
s = "Natural Language Processing is the way to go"
tokens = s.split()
bigrams = list(ngrams(tokens, 2))
[" ".join(token) for token in bigrams]

['Natural Language',
 'Language Processing',
 'Processing is',
 'is the',
 'the way',
 'way to',
 'to go']

Kode di atas menghasilkan bigram dari kalimat "Natural Language Processing is the way to go". String tersebut dipecah menjadi token menggunakan `split()`, lalu fungsi `ngrams` dari NLTK membuat pasangan dua kata. Akhirnya, setiap bigram digabungkan kembali menjadi string, menghasilkan daftar bigram: ["Natural Language", "Language Processing", "Processing is", "is the", "the way", "way to", "to go"].

In [21]:
s = "Natural Language Processing is the way to go"
tokens = s.split()
trigrams = list(ngrams(tokens, 3))
[" ".join(token) for token in trigrams]

['Natural Language Processing',
 'Language Processing is',
 'Processing is the',
 'is the way',
 'the way to',
 'way to go']

Kode di atas menghasilkan bigram dari kalimat "Natural Language Processing is the way to go" dengan memecah kalimat menjadi token menggunakan metode `split()`. Kemudian, fungsi `ngrams` dari pustaka NLTK digunakan untuk membuat pasangan dua kata (bigrams) dari token yang dihasilkan. Setiap bigram, yang merupakan dua kata berurutan, digabungkan kembali menjadi string dengan menggunakan metode `join`. Hasil akhirnya adalah daftar bigram yang terdiri dari: ["Natural Language", "Language Processing", "Processing is", "is the", "the way", "way to", "to go"].

# Building a basic vocabulary

In [22]:
s = "Natural Language Processing is the way to go"
tokens = set(s.split())
vocabulary = sorted(tokens)
vocabulary

['Language', 'Natural', 'Processing', 'go', 'is', 'the', 'to', 'way']

Kode di atas menghasilkan kosakata unik dari kalimat "Natural Language Processing is the way to go". Pertama, kalimat tersebut dipecah menjadi token menggunakan metode `split()`, yang memisahkan kata berdasarkan spasi. Kemudian, `set` digunakan untuk menghapus duplikasi dan hanya menyimpan kata-kata unik. Setelah itu, fungsi `sorted` mengurutkan kosakata yang telah dikumpulkan secara alfabetis. Hasil akhirnya adalah daftar terurut dari kata-kata unik dalam kalimat, yang disimpan dalam variabel `vocabulary`.

# Removing HTML Tags

In [23]:
html = "<!DOCTYPE html><html><body><h1>My First Heading</h1><p>My first paragraph.</p></body></html>"
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
text = soup.get_text()
print(text)

My First HeadingMy first paragraph.


Kode di atas menggunakan pustaka BeautifulSoup untuk mengekstrak teks dari string HTML yang diberikan. Pertama, string HTML yang berisi struktur dasar halaman web diinisialisasi dalam variabel `html`. Kemudian, objek BeautifulSoup dibuat dengan mengolah string HTML tersebut. Dengan menggunakan metode `get_text()`, semua teks dalam elemen HTML diekstraksi, sehingga hanya teks yang terlihat, seperti "My First Heading" dan "My first paragraph.", yang diambil tanpa markup HTML. Hasilnya adalah string yang berisi teks bersih dari konten HTML, yang kemudian dicetak ke layar.