Nama    : Najla Dhia Rusydi

NIM     : 164221043

<div align="center">

# **NER**

</div>


**Named Entity Recognition (NER)** : salah satu preprocessing dalam NLP yang bertujuan untuk mengidentifikasi dan mengkategorikan entitas penting dalam sebuah teks. Entitas yang diidentifikasi biasanya termasuk kategori seperti:

- **Orang** (Person): Nama individu, misalnya, *Barack Obama*.
- **Lokasi** (Location): Nama tempat atau wilayah, misalnya, *New York* atau *Indonesia*.
- **Organisasi** (Organization): Nama organisasi, misalnya, *Google* atau *PBB*.
- **Tanggal** (Date): Identifikasi tanggal atau periode waktu, misalnya, *2021* atau *kemarin*.

NER sangat berguna dalam berbagai aplikasi seperti:
- Ekstraksi informasi penting dari artikel berita.
- Menyusun database otomatis dari teks.
- Menganalisis konten media sosial atau dokumen bisnis.

Jadi, NER membantu dalam memahami dan mengekstrak informasi spesifik dari teks secara otomatis.

<div align="center">

### **Percobaan NER (Named Entity Recognition) dengan NLTK dan Spacy**

</div>


#### **NLTK**

In [9]:
import nltk
from nltk import word_tokenize, pos_tag, ne_chunk

sentence = "hi, my name is Nala, I was born in Indonesia."

words = word_tokenize(sentence)

pos_tags = pos_tag(words)

named_entities = ne_chunk(pos_tags)
print(named_entities)


(S
  hi/NN
  ,/,
  my/PRP$
  name/NN
  is/VBZ
  (PERSON Nala/NNP)
  ,/,
  I/PRP
  was/VBD
  born/VBN
  in/IN
  (GPE Indonesia/NNP)
  ./.)


**Penjelasan Kode:**
1. **Tokenisasi**: Kalimat dipecah menjadi kata-kata terpisah menggunakan `word_tokenize()`.
2. **POS Tagging**: Setiap kata diberi label dengan Part-of-Speech (POS) menggunakan `pos_tag()`, seperti kata benda, kata kerja, dan lain-lain.
3. **NER (Named Entity Recognition)**: Dengan menggunakan `ne_chunk()`, kata-kata yang terkait dengan entitas (seperti nama orang, tempat, atau organisasi) akan dikenali dan ditampilkan dalam bentuk chunking tree.

**Penjelasan Output:**

1. **S**: Melambangkan sebagai kalimat (*sentence*).
2. **hi/NN**: "hi" diberi tag sebagai **NN (noun)**, yang berarti kata ini dianggap sebagai kata benda.
3. **,/,:**: Koma sebagai tanda baca.
4. **my/PRP$**: "my" diberi tag sebagai **PRP$ (possessive pronoun)**, menunjukkan kata ganti kepemilikan.
5. **name/NN**: "name" diberi tag sebagai **NN (noun)**, kata benda.
6. **is/VBZ**: "is" diberi tag sebagai **VBZ (verb, third-person singular present)**, untuk kata kerja bentuk present orang ketiga tunggal.
7. **(PERSON Nala/NNP)**: "nala" diberi tag sebagai * **NNP (proper noun)** yang merupakan nama orang, dan di identifikasi sebagai entitas **person**.
8. **,/,:**: Koma sebagai tanda baca.
9. **I/PRP**: "i" diberi tag sebagai **PRP (personal pronoun)** yaitu kata ganti subjek.
10. **was/VBD**: "was" diberi tag sebagai **VBD (verb, past tense)**, kata kerja bentuk lampau.
11. **born/VBN**: "born" diberi tag sebagai **VBN (past participle)**, sebagai bentuk participle kata kerja.
12. **in/IN**: "in" diberi tag sebagai **IN (preposition)**, sebagai kata depan.
13. **(GPE Indonesia/NNP)**: "Indonesia" diberi tag sebagai **NNP (proper noun)**,karena ini adalah nama tempat (negara). selain intu juga di identifikasikan kedalam entitas Geografi.
14. **./.**: Tanda titik sebagai akhir kalimat.

**Kesimpulan:**
- Ada beberapa kesalahan dalam penandaan **POS**. Misalnya:
    - "hi" seharusnya ditandai sebagai UH (interjection), bukan NN (noun).
- **NER** berhasil mengenali **Nala** sebagai entitas orang (**PERSON**) dan **Indonesia** sebagai entitas geografis (**GPE**).

#### **Spacy**

In [10]:
import spacy

nlp = spacy.load("en_core_web_sm")

doc = nlp(sentence)

for ent in doc.ents:
    print(ent.text, ent.label_)


Nala PERSON
Indonesia GPE


**Penjelasan Kode:**

Berbeda dengan NLTK, Spacy tidak perlu melakukan tokenisasi da ps taging secara terpisah.SpaCy telah mengurus semua langkah-langkah tersebut secara otomatis di dalam pipeline NLP-nya.

1. Tokenisasi: SpaCy akan memecah teks menjadi token-token (kata dan tanda baca) ketika memproses teks dengan `nlp()`.
2. POS Tagging: Setelah tokenisasi, spaCy secara otomatis memberikan tag POS pada setiap token.
3. Named Entity Recognition (NER): SpaCy juga melakukan NER dalam proses tersebut, dan dapat langsung mengakses entitas yang dikenali melalui `doc.ents`.

**Penjelasan Output:**

Sama seperti NLTK kata **Nala** di idntifikasi sebagai entitas **PERSON** dan kata **Indonesia** sebagai entitas **GPE**

<div align="center">

#### **Kesimpula**

</div>

Dalam melakukan Named Entity Recognition (NER), NLTK dan spaCy memiliki pendekatan yang berbeda. Di NLTK, proses NER memerlukan beberapa langkah yang dilakukan secara terpisah. Seperti, harus melakukan tokenisasi dengan menggunakan `word_tokenize`. kemudian, setiap token perlu diberi label kategori kata (POS tagging) menggunakan `pos_tag`. Dan kemudaian baru, melakukan identifikasi entitas melalui `ne_chunk`, yang memproses token dan label POS untuk menemukan entitas seperti nama orang, tempat, atau organisasi.

Sebaliknya, spaCy menyederhanakan proses ini dengan mengintegrasikan tokenisasi, POS tagging, dan NER dalam satu langkah pemrosesan. dengan hanya memuat model dengan bahasa yang sesuai menggunakan `spacy.load()`, lalu memproses teks dengan metode `nlp()`. Hasilnya, spaCy langsung memberikan entitas bernama yang ditemukan dalam teks, tanpa perlu melakukan langkah-langkah tambahan secara manual.

Dengan demikian, **spaCy menawarkan metode yang lebih efisien dan terintegrasi** untuk NER dibandingkan dengan NLTK, yang memerlukan beberapa tahap pemrosesan terpisah.

<div align="center">

# **Dependency Parsing**

</div>


**Dependency Parsing**

Dependency parsing adalah teknik yang digunakan untuk menganalisis struktur gramatikal sebuah kalimat. Teknik ini melibatkan identifikasi hubungan antar kata dalam kalimat dan pemahaman tentang bagaimana kata-kata tersebut saling terkait satu sama lain.

**Komponen Utama**:

1. **Struktur Gramatikal**, hal ini merujuk pada bagaimana kata-kata dalam sebuah kalimat saling berhubungan berdasarkan peran gramatikal mereka. Struktur ini biasanya diwakili dalam bentuk pohon di mana setiap kata adalah node, dan edges  merepresentasikan ketergantungan sintaktis.

2. **Kata yang Terkait**: Dependency parsing menentukan bagaimana setiap kata bergantung pada kata lainnya. Misalnya, dalam kalimat "Kucing itu duduk di atas tikar," kata "duduk" adalah kata kerja utama (root), dan ia memiliki ketergantungan seperti "kucing" (subjek) dan "tikar" (objek preposisi).

3. **Jenis Hubungan**, Setiap hubungan ketergantungan memiliki jenis tertentu, seperti:
   - **Subjek (nsubj)**: Kata benda atau kata ganti yang menjadi subjek dari kata kerja.
   - **Objek (obj)**: Kata benda atau kata ganti yang menjadi objek dari kata kerja.
   - **Modifikator (amod)**: Kata sifat atau kata keterangan yang memodifikasi kata lain.
   - **Modifikator Preposisi (prep)**: Kata-kata yang menunjukkan hubungan antara kata benda dan bagian lain dari kalimat.

**Contoh**:
Untuk kalimat "Kucing itu duduk di atas tikar," parsing ketergantungan mungkin menunjukkan:
- **"duduk"** adalah root dari kalimat.
- **"Kucing itu"** adalah subjek nominal (`nsubj`) dari "duduk."
- **"di atas tikar"** adalah frasa preposisional yang memodifikasi "duduk" (`prep`).

<div align="center">

### **Percobaan Dependency Parsing dengan NLTK dan Spacy**

</div>



#### NLTK

In [16]:
!wget https://nlp.stanford.edu/software/stanford-corenlp-4.2.2.zip

!wget https://nlp.stanford.edu/software/stanford-corenlp-4.2.2-models-english.jar

!unzip /content/stanford-corenlp-4.2.2.zip

from nltk.parse.stanford import StanfordDependencyParser

# Path to CoreNLP jar unzipped
jar_path = '/content/stanford-corenlp-4.2.2/stanford-corenlp-4.2.2.jar'

# Path to CoreNLP model jar
models_jar_path = '/content/stanford-corenlp-4.2.2-models-english.jar'

sentence = 'Deemed universities charge huge fees'

# Initialize StanfordDependency Parser from the path
parser = StanfordDependencyParser(path_to_jar = jar_path, path_to_models_jar = models_jar_path)

# Parse the sentence
result = parser.raw_parse(sentence)
dependency = result.__next__()


print ("{:<15} | {:<10} | {:<10} | {:<15} | {:<10}".format('Head', 'Head POS','Relation','Dependent', 'Dependent POS'))
print ("-" * 75)

# Use dependency.triples() to extract the dependency triples in the form
# ((head word, head POS), relation, (dependent word, dependent POS))
for dep in list(dependency.triples()):
  print ("{:<15} | {:<10} | {:<10} | {:<15} | {:<10}"
         .format(str(dep[0][0]),str(dep[0][1]), str(dep[1]), str(dep[2][0]),str(dep[2][1])))

--2024-09-16 10:24:24--  https://nlp.stanford.edu/software/stanford-corenlp-4.2.2.zip
Resolving nlp.stanford.edu (nlp.stanford.edu)... 171.64.67.140
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... connected.
HTTP request sent, awaiting response... 302 FOUND
Location: https://downloads.cs.stanford.edu/nlp/software/stanford-corenlp-4.2.2.zip [following]
--2024-09-16 10:24:24--  https://downloads.cs.stanford.edu/nlp/software/stanford-corenlp-4.2.2.zip
Resolving downloads.cs.stanford.edu (downloads.cs.stanford.edu)... 171.64.64.22
Connecting to downloads.cs.stanford.edu (downloads.cs.stanford.edu)|171.64.64.22|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 504278711 (481M) [application/zip]
Saving to: ‘stanford-corenlp-4.2.2.zip’


2024-09-16 10:25:56 (5.28 MB/s) - ‘stanford-corenlp-4.2.2.zip’ saved [504278711/504278711]

--2024-09-16 10:25:56--  https://nlp.stanford.edu/software/stanford-corenlp-4.2.2-models-english.jar
Resolving nlp.stan

Please use [91mnltk.parse.corenlp.CoreNLPDependencyParser[0m instead.
  parser = StanfordDependencyParser(path_to_jar = jar_path, path_to_models_jar = models_jar_path)


Head            | Head POS   | Relation   | Dependent       | Dependent POS
---------------------------------------------------------------------------
charge          | VBP        | nsubj      | universities    | NNS       
universities    | NNS        | compound   | Deemed          | NNP       
charge          | VBP        | obj        | fees            | NNS       
fees            | NNS        | amod       | huge            | JJ        


**Penjelasan Proses** :
1. **Unduh dan Ekstrak Stanford CoreNLP**:
   - Kode mengunduh dan mengekstrak Stanford CoreNLP dan model bahasa Inggris yang diperlukan untuk parsing teks.
2. **Inisialisasi Parser**:
   - Parser dependensi dari Stanford CoreNLP diinisialisasi dengan menentukan path ke file JAR yang berisi kode dan model bahasa.
3. **Parse Kalimat**:
   - Kalimat yang diberikan ("Deemed universities charge huge fees") diparse untuk mendapatkan struktur sintaksisnya dalam bentuk dependensi.
4. **Tampilkan Hasil Parsing**:
   - Hasil parsing ditampilkan dalam format tabel yang menunjukkan kata-kata dalam kalimat beserta hubungan dependensi mereka, seperti subjek, objek, dan modifikator.

**Penjelasan Hasil** :

komponen yang dihasilkan diantaranya :
1. **Head**: Kata yang merupakan kata utama (head) dari hubungan dependensi.
2. **Head POS**: Part-of-Speech tag dari kata yang merupakan head.
3. **Relation**: Jenis hubungan dependensi antara head dan dependent.
4. **Dependent**: Kata yang tergantung pada head dalam hubungan dependensi.
5. **Dependent POS**: Part-of-Speech tag dari kata yang merupakan dependent.

pembahasan hasil Dependency Parsing NLTK:
1. **Baris 1**
   - **Head**: `charge` (Verb, VBP)
   - **Head POS**: VBP (Verb, non-3rd person singular present)
   - **Relation**: `nsubj` (Nominal subject)
   - **Dependent**: `universities` (Noun, NNS)
   - **Dependent POS**: NNS (Noun, plural)
   - **Penjelasan**: `universities` adalah subjek nominal (nsubj) dari `charge`. Dalam konteks ini, `charge` adalah kata kerja utama, dan `universities` adalah subjek yang melakukan tindakan `charge`.

2. **Baris 2**
   - **Head**: `universities` (Noun, NNS)
   - **Head POS**: NNS (Noun, plural)
   - **Relation**: `compound` (Compound noun)
   - **Dependent**: `Deemed` (Proper noun, NNP)
   - **Dependent POS**: NNP (Proper noun, singular)
   - **Penjelasan**: `Deemed` adalah bagian dari noun phrase yang lebih besar yang dipimpin oleh `universities`, dan dalam hal ini, `Deemed` memberikan informasi tambahan mengenai `universities`.

3. **Baris 3**
   - **Head**: `charge` (Verb, VBP)
   - **Head POS**: VBP (Verb, non-3rd person singular present)
   - **Relation**: `obj` (Object)
   - **Dependent**: `fees` (Noun, NNS)
   - **Dependent POS**: NNS (Noun, plural)
   - **Penjelasan**: `fees` adalah objek (obj) dari kata kerja `charge`. Ini menunjukkan bahwa `fees` adalah objek yang dikenakan oleh tindakan `charge`.

4. **Baris 4**
   - **Head**: `fees` (Noun, NNS)
   - **Head POS**: NNS (Noun, plural)
   - **Relation**: `amod` (Adjectival modifier)
   - **Dependent**: `huge` (Adjective, JJ)
   - **Dependent POS**: JJ (Adjective)
   - **Penjelasan**: `huge` adalah modifikator adjectival (amod) dari `fees`. Ini memberikan informasi tambahan mengenai `fees`, menjelaskan bahwa `fees` tersebut besar.

Secara keseluruhan, hasil dependency parsing ini menggambarkan bagaimana kata-kata dalam kalimat saling berhubungan, baik dalam konteks subjek, objek, maupun modifier. Parsing ini sangat berguna **untuk memahami struktur gramatikal dan semantik dari kalimat** dalam analisis teks.

#### Spacy

In [17]:
import spacy

# Load model bahasa Inggris dari Spacy
nlp = spacy.load("en_core_web_sm")

# Proses kalimat dengan NLP
doc = nlp(sentence)

# Print dependency parsing
for token in doc:
    print(f"{token.text} --> {token.dep_} --> {token.head.text}")


Deemed --> amod --> universities
universities --> nsubj --> charge
charge --> ROOT --> charge
huge --> amod --> fees
fees --> dobj --> charge


**Penjelasan Kode:**
1. **Import dan Load Model:**
   - Kode mengimpor pustaka spaCy dan memuat model bahasa Inggris kecil (`en_core_web_sm`).
2. **Proses Kalimat:**
   - Kalimat yang diberikan diproses menggunakan model spaCy untuk menghasilkan objek yang berisi hasil analisis sintaksis.
3. **Print Dependency Parsing:**
   - Kode iterasi melalui setiap token dalam objek analisis dan mencetak hubungan dependensi antara token dan kata kepala mereka.

**Penjelasan Hasil:**
1. **Deemed --> amod --> universities**
   - `Deemed` adalah **modifikator adjectival (amod)** dari `universities`.
   - `universities` adalah kata kepala (head) dari `Deemed`.

2. **universities --> nsubj --> charge**
   - `universities` adalah **subjek nominal (nsubj)** dari `charge`.
   - `charge` adalah kata kepala dari `universities`.

3. **charge --> ROOT --> charge**
   - `charge` adalah **kata kerja utama (ROOT)** dalam kalimat.
   - `charge` adalah kata kepala dari dirinya sendiri dalam konteks ini.

4. **huge --> amod --> fees**
   - `huge` adalah **modifikator adjectival (amod)** dari `fees`.
   - `fees` adalah kata kepala dari `huge`.

5. **fees --> dobj --> charge**
   - `fees` adalah **objek langsung (dobj)** dari `charge`.
   - `charge` adalah kata kepala dari `fees`.

**Kesimpulan:**
Hasil parsing menunjukkan bagaimana kata-kata dalam kalimat saling berhubungan:
- `Deemed` dan `huge` memberikan detail tambahan tentang `universities` dan `fees`.
- `universities` adalah subjek dari `charge`, yang merupakan kata kerja utama.
- `fees` adalah objek langsung dari `charge`.

<div align="center">

#### **Kesimpulan**

</div>

**NLTK** dan **spaCy** melakukan dependency parsing, dengan pendekatan dan tingkat kemudahan yang berbeda. 

- **NLTK**:
  - Menggunakan CoreNLP dari Stanford sebagai backend untuk dependency parsing, yang memerlukan konfigurasi server CoreNLP yang berjalan di `localhost`. 
  - Prosesnya memerlukan beberapa langkah: kita harus mengatur dan menjalankan server CoreNLP secara terpisah, dan kemudian menggunakan `CoreNLPDependencyParser` dari NLTK untuk melakukan parsing.
  - Kelemahan utamanya adalah *ketergantungan pada server eksternal dan potensi masalah koneksi*.

- **spaCy**:
  - Menyediakan solusi yang lebih terintegrasi dan mudah digunakan dengan model bahasa yang sudah menyertakan kemampuan dependency parsing.
  - Proses parsing dilakukan dalam satu langkah dengan metode `nlp()`, yang otomatis menangani tokenisasi, POS tagging, dan parsing ketergantungan.
  - *Lebih cepat dan lebih mudah* digunakan karena tidak memerlukan konfigurasi server tambahan.

Secara keseluruhan, spaCy menawarkan kemudahan dan efisiensi lebih besar dalam dependency parsing dibandingkan NLTK, yang memerlukan setup dan konfigurasi lebih rumit.