Nama : Rika Ajeng Finatih

NIM : 121450036

Kelas : Pemrosesan Bahasa Alami

# POS Tagging

POS Tagging atau Part of Speech Tagging merupakan prosesmengidentifikasian dan penandaan kategori tata bahasa (part of speech) dari setiap kata dalam suatu kalimat. Hal ini adalah langkah penting dalam pengolahan bahasa alami yang memungkinkan komputer untuk memahami makna dan struktur kalimat dengan lebih baik.

## Import Library

Langkah pertama dalam proses POS tagging adalah menginstal paket yang diperlukan untuk pemrosesan bahasa alami. Berikut adalah paket-paket yang akan diinstal.

In [121]:
# Install Packages
!pip install python-crfsuite
!pip install nltk
!pip install spacy



Penjelasan Packages:

* **python-crfsuite**: mengimplementasikan Conditional Random Fields (CRF), yang merupakan model statistik yang sering digunakan untuk tugas-tugas pengenalan pola, termasuk POS tagging.

* **nltk** (Natural Language Toolkit): pustaka Python yang menyediakan alat dan sumber daya untuk pemrosesan bahasa alami. Pustaka ini mencakup berbagai fungsi, seperti tokenisasi, pengenalan entitas, dan POS tagging. NLTK juga menyediakan berbagai dataset dan korpus bahasa yang berguna untuk pelatihan dan pengujian model NLP.

* **spacy**: pustaka NLP modern yang cepat dan efisien, dirancang untuk penggunaan dalam aplikasi dunia nyata. SpaCy mendukung berbagai tugas NLP, termasuk tokenisasi, pengenalan entitas, dan POS tagging, serta memiliki dukungan untuk beberapa bahasa. SpaCy juga mudah digunakan dan terintegrasi dengan model yang sudah dilatih sebelumnya.

Setelah packgaes berhasil di install, langkah seanjutnya dengan cara mengimport library yang akan digunakan dalam proses POS Tagging.

In [122]:
# Import Library
import pandas as pd
from nltk.tokenize import wordpunct_tokenize
from nltk.tag import CRFTagger
import nltk
from nltk import pos_tag

# Download NLTK
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

## Load Data

Import data Harry Potter 2 yang akan dilakukan POS Tagging.

In [123]:
# Memuat model bahasa Inggris dari SpaCy
nlp = spacy.load("en_core_web_sm")

# Import Data
df = pd.read_csv('Harry Potter 2.csv', delimiter=';')
df.head()

Unnamed: 0,Character,Sentence
0,HARRY,"I can’t let you out, Hedwig."
1,HARRY,I’m not allowed to use magic outside of school.
2,HARRY,"Besides, if Uncle Vernon…"
3,VERNON,Harry Potter!
4,HARRY,Now you’ve done it.


##  Preprocessing

In [124]:
def preprocessing(text):
    case_folded = text.lower()  # Mengubah ke huruf kecil
    tokenized = word_tokenize(case_folded)  # Tokenisasi
    return " ".join(tokenized)  # Mengembalikan teks yang ditokenisasi dalam bentuk string

In [125]:
# Menerapkan preprocessing pada kolom 'Sentence'
df['preprocessed_Sentence'] = df['Sentence'].apply(preprocessing)
print(df['preprocessed_Sentence'])

0                        i can ’ t let you out , hedwig .
1       i ’ m not allowed to use magic outside of scho...
2                              besides , if uncle vernon…
3                                          harry potter !
4                                  now you ’ ve done it .
                              ...                        
1695                                    sorry i 'm late .
1696    the owl that delivered my release papers got a...
1697                       some ruddy bird called errol .
1698    and i 'd just like to say that if it had n't b...
1699          there 's no hogwarts without you , hagrid .
Name: preprocessed_Sentence, Length: 1700, dtype: object


Setelah berhasil melakukan preocessing pada teks dengan mengubahnya menjadi huruf kecil dan melakukan tokenisasi, langkah selanjutnya masuk kedalam proses tagging bagian of speech (POS) menggunakan pustakan seperti NLTK atau spaCy.

## POS Tagging

Langkah akhir setelah melakukan preprocessing data, kita dapat menggunakan model SpaCy untuk melakukan POS tagging pada kolom yang berisi kalimat hasil dari proses preprocessing.

In [126]:
# Fungsi untuk melakukan POS Tagging
def pos_tagging(text):
    doc = nlp(text)  # Menggunakan model SpaCy untuk analisis teks
    words = [token.text for token in doc]  # Mengambil kata
    pos_tags = [token.pos_ for token in doc]  # Mengambil POS
    tags = [token.tag_ for token in doc]  # Mengambil tag
    deps = [token.dep_ for token in doc]  # Mengambil dependency
    return words, pos_tags, tags, deps  # Mengembalikan keempat komponen

# Membuat list untuk menyimpan hasil POS tagging dalam bentuk tabel
data = []

# Menerapkan POS tagging pada kalimat yang telah diproses
for index, row in df.iterrows():
    character = row['Character']  # Nama karakter
    sentence = row['preprocessed_Sentence']  # Kalimat yang telah diproses
    words, pos_tags, tags, deps = pos_tagging(sentence)  # Mendapatkan hasil POS tagging

    # Menyimpan hasil ke dalam list 'data'
    data.append([character, sentence, words, pos_tags, tags, deps])

# Membuat DataFrame dari hasil POS tagging
pos_df = pd.DataFrame(data, columns=['Character', 'Sentence', 'Word', 'POS', 'Tag', 'Dependency'])

# Menampilkan hasil dalam bentuk tabel
pos_df


Unnamed: 0,Character,Sentence,Word,POS,Tag,Dependency
0,HARRY,"i can ’ t let you out , hedwig .","[i, can, ’, t, let, you, out, ,, hedwig, .]","[PRON, AUX, PUNCT, PROPN, VERB, PRON, ADP, PUN...","[PRP, MD, '', NNP, VB, PRP, RP, ,, NNP, .]","[nsubj, aux, punct, nsubj, ROOT, nsubj, ccomp,..."
1,HARRY,i ’ m not allowed to use magic outside of scho...,"[i, ’, m, not, allowed, to, use, magic, outsid...","[PRON, PUNCT, AUX, PART, VERB, PART, VERB, NOU...","[PRP, '', VBP, RB, VBN, TO, VB, NN, RB, IN, NN...","[nsubjpass, punct, auxpass, neg, ROOT, aux, xc..."
2,HARRY,"besides , if uncle vernon…","[besides, ,, if, uncle, vernon, …]","[ADV, PUNCT, SCONJ, PROPN, NOUN, PUNCT]","[RB, ,, IN, NNP, NN, NFP]","[ROOT, punct, mark, compound, meta, punct]"
3,VERNON,harry potter !,"[harry, potter, !]","[PROPN, PROPN, PUNCT]","[NNP, NNP, .]","[compound, ROOT, punct]"
4,HARRY,now you ’ ve done it .,"[now, you, ’, ve, done, it, .]","[ADV, PRON, PUNCT, AUX, VERB, PRON, PUNCT]","[RB, PRP, '', VBP, VBN, PRP, .]","[advmod, nsubj, punct, aux, ROOT, dobj, punct]"
...,...,...,...,...,...,...
1695,HAGRID,sorry i 'm late .,"[sorry, i, ', m, late, .]","[INTJ, PRON, VERB, VERB, ADJ, PUNCT]","[UH, PRP, VBP, VBP, JJ, .]","[intj, ROOT, appos, appos, acomp, punct]"
1696,HAGRID,the owl that delivered my release papers got a...,"[the, owl, that, delivered, my, release, paper...","[DET, NOUN, PRON, VERB, PRON, NOUN, NOUN, AUX,...","[DT, NN, WDT, VBD, PRP$, NN, NNS, VBD, DT, VBN...","[det, nsubjpass, nsubj, relcl, poss, compound,..."
1697,HAGRID,some ruddy bird called errol .,"[some, ruddy, bird, called, errol, .]","[DET, NOUN, NOUN, VERB, NOUN, PUNCT]","[DT, NN, NN, VBN, NN, .]","[det, compound, nsubj, ROOT, oprd, punct]"
1698,HAGRID,and i 'd just like to say that if it had n't b...,"[and, i, 'd, just, like, to, say, that, if, it...","[CCONJ, PRON, AUX, ADV, VERB, PART, VERB, SCON...","[CC, PRP, MD, RB, VB, TO, VB, IN, IN, PRP, VBD...","[cc, nsubj, aux, advmod, ROOT, aux, xcomp, mar..."


Hasil yang diperoleh diatas menujukkan bahwa kita telah berhasil menerapkan POS tagging pada kalimat dari karakter dalam dataset "Harry Poter 2". Kalimat telah berhasil di kelompokkan dalan setiap POS, tag, dan dependensy. Penjelasan lebih detailnya sebagai berikut.

* **POS:** Mencantumkan kategori POS untuk setiap token. Misalnya, untuk kata "I", POS-nya adalah PRON (kata ganti), untuk "can" adalah AUX (kata kerja bantu), dan untuk "let" adalah VERB. Ini memberikan informasi tentang jenis kata dan fungsinya dalam kalimat.
* **Tag:** Bentuk yang lebih detail dari POS. Misalnya, untuk token "I", tag-nya adalah PRP (personal pronoun). Ini memberikan detail tambahan yang berguna untuk analisis lebih lanjut.

* **Dependency:** hubungan sintaksis antara kata dalam kalimat. Misalnya, nsubj menunjukkan bahwa kata tersebut adalah subjek nominal dari kata kerja. Ini memberikan struktur gramatikal yang lebih mendalam mengenai bagaimana kata-kata saling berhubungan dalam kalimat.

POS tagging merupakan langkah penting dalam proses analisis bahasa alami dan membuka jalan bagi analisis yang lebih mendalam serta aplikasi yang lebih kompleks.



## Simpan Hasil

In [127]:
# Simpan hasil POS tagging ke dalam file CSV
pos_df.to_csv('hasil_pos_tagging.csv', index=False)
