**TUGAS M5 NATURAL LANGUAGE PROCESSING**

**NAMED ENTITY RECOGNITION DAN DEPENDENCY PARSER**

**DENGAN NLTK DAN SPACY**

Nama : Nadila Fitri Noviardhana

NIM : 164221006

Kelas : NLP SD-A2

# NER

## NER DENGAN NLTK

In [2]:
import nltk

sentence = "Jeno is a member of the South Korean boy group NCT and is the lead dancer, lead rapper, and visual of its sub-unit NCT Dream"

words = nltk.word_tokenize(sentence)

pos_tags = nltk.pos_tag(words)

named_entities = nltk.ne_chunk(pos_tags)

print(named_entities)


(S
  (GPE Jeno/NNP)
  is/VBZ
  a/DT
  member/NN
  of/IN
  the/DT
  (LOCATION South/JJ Korean/JJ)
  boy/NN
  group/NN
  (ORGANIZATION NCT/NNP)
  and/CC
  is/VBZ
  the/DT
  lead/JJ
  dancer/NN
  ,/,
  lead/JJ
  rapper/NN
  ,/,
  and/CC
  visual/JJ
  of/IN
  its/PRP$
  sub-unit/JJ
  (ORGANIZATION NCT/NNP Dream/NNP))


### Hasil dan Identifikasi Kesalahan

Hasil dari proses NER di atas menunjukkan beberapa hal berikut.
1. Jeno diidentifikasi sebagai GPE atau Lokasi, di mana seharusnya Jeno adalah Person.
2. South Korean dilabelkan sebagai LOCATION.
3. NCT dan NCT Dream dideteksi sebagai sebuah organisasi.

Hasil di atas menunjukkan bahwa NLTK kerap salah dalam mengidentifikasi PERSON. 

## NER dengan Spacy

In [3]:
import spacy

nlp = spacy.load("en_core_web_sm")

sentence = "Jeno is a member of the South Korean boy group NCT and is the lead dancer, lead rapper, and visual of its sub-unit NCT Dream"

doc = nlp(sentence)

for ent in doc.ents:
    print(ent.text, ent.label_)


Jeno PERSON
South Korean NORP
NCT ORG


### Hasil dan Identifikasi Kesalahan Spacy

Dari hasil spaCy tersebut, didapatkan beberapa hal berikut.

1. Jeno iidentifikasi sebagai PERSON, yaitu nama individu.
2. South Korean diidentifikasi sebagai NORP (Nationalities, Religious, or Political groups), yaitu kelompok kebangsaan.
3. NCT diidentifikasi sebagai ORG (organization), yaitu sebuah organisasi (dalam hal ini, grup musik).

Secara keseluruhan hasil identifikasi sudah tepat dan sesuai konteksnya. Namun masih belum bisa mendeteksi NCT DREAM yang seharusnya sebagai ORG juga.

# DP

## DP dengan NLTK

DP dengan NLTK harus menggunakan tambahan library lagi yaitu Stanford Core NLP. Dalam penggunaan yang saya lakukan masih mengalami kegagalan dan tidak dapat tersambung. 
Maka kode di bawah ini memang error dan masih tidak dapat di run. 

In [4]:
import os
from nltk.parse.stanford import StanfordDependencyParser

os.environ['STANFORD_PARSER'] = 'stanford-parser.jar'
os.environ['STANFORD_MODELS'] = 'stanford-parser-4.2.0-models.jar'

path_to_models_jar = 'stanford-parser-4.2.0-models.jar'
dependency_parser = StanfordDependencyParser(model_path="edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")

sentence = "I eat 2 slices of mango."

result = dependency_parser.raw_parse(sentence)

# Menampilkan hasil parsing
dep = next(result)
print(list(dep.triples()))


Please use [91mnltk.parse.corenlp.CoreNLPDependencyParser[0m instead.
  dependency_parser = StanfordDependencyParser(model_path="edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")


LookupError: 

===========================================================================
  NLTK was unable to find stanford-parser\.jar! Set the CLASSPATH
  environment variable.

  For more information, on stanford-parser\.jar, see:
    <https://nlp.stanford.edu/software/lex-parser.shtml>
===========================================================================

## DP dengan Spacy

In [5]:
import spacy
from spacy import displacy

nlp = spacy.load('en_core_web_sm')

sentence = "i eat 2 slices of mango"

doc = nlp(sentence)

print("Hubungan antara kata-kata dalam kalimat:")
for token in doc:
    print(f'{token.text} ({token.dep_}) -> {token.head.text}')

displacy.serve(doc)


Hubungan antara kata-kata dalam kalimat:
i (nsubj) -> eat
eat (ROOT) -> eat
2 (nummod) -> slices
slices (dobj) -> eat
of (prep) -> slices
mango (pobj) -> of





Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


### Penjelasan

-	"i (nsubj) -> eat": "I" adalah subjek dari "eat"
-	"eat (ROOT) -> eat": "eat" adalah kata kerja utama dari kalimat.
-	"2 (nummod) -> slices": "2" menjelaskan jumlah dari "slices".
-	"slices (dobj) -> eat": "slices" adalah objek langsung dari "eat".
-	of (prep) -> slices": "of" menghubungkan "slices" dengan "mango".
-	mango (pobj) -> of": "mango" adalah objek dari preposisi "of".

# Kelebihan dan Kekurangan NLTK dan SpaCy

| **Kelebihan**                                      | **Kekurangan**                                       |
|----------------------------------------------------|-----------------------------------------------------|
| **NLTK**                                            |                                                     |
| a. NLTK lebih sederhana untuk proses pembelajaran, namun memberikan hasil yang lebih menyeluruh. | a. Dalam Named Entity Recognition (NER), NLTK kurang akurat dalam mengidentifikasi kategori PERSON. |
| b. Lebih fleksibel dalam penyesuaian dan modifikasi sesuai kebutuhan proyek. | b. Cukup lambat ketika digunakan pada dokumen berukuran besar. |
| **spaCy**                                           |                                                     |
| a. Lebih akurat dalam mengidentifikasi kata, terutama untuk NER. | a. Tidak menampilkan hasil secara menyeluruh untuk NER (hasilnya lebih spesifik). |
| b. Tidak memerlukan banyak proses tambahan dalam konfigurasi awal. | b. Modelnya terbatas pada bahasa yang lebih sedikit. |
| c. Hasil lebih sederhana, to the point, dan lebih mudah dipahami. |                                                     |
| d. Lebih cepat saat digunakan untuk dokumen berukuran besar. |                                                     |


# Perbedaan NLTK dan SpaCy secara umum

-	Untuk melakukan NER maupun DP, NLTK memerlukan proses tambahan yakni Tokenisasi untuk memecah kalimat menjadi tiap token dan Pos Tagging untuk mengidentifikasi tiap kata masuk ke dalam jenis kata apa. Sedangkan SpaCy dapat melakukannya secara langsung tanpa Pos Tagging atau tambahan lainnya.
-	Hasil yang didapatkan dari NLTK sangat lengkap dan menyeluruh disertai pula dengan hasil Pos Taggingnya, sedangkan SpaCy hanya terfokus pad NER saja.
-	Hasil NER dari SpaCy lebih akurat daripada NLTK.