# Ekstraksi Informasi - Named Entity Recognition (NER)
Named Entity Recognition (NER) adalah tugas mendasar dalam NLP. Tujuannya adalah untuk menemukan entitas dunia nyata dalam teks dan mengkategorikannya.

Contoh:


*   Teks: Apple didirikan di Cupertino oleh Steve Jobs pada tahun 1976.
*   Entitas:

1.   Apple: ORG (Organisasi)
2.   Cupertino: GPE (Lokasi Geopolitik)
3.   Steve Jobs: PER (Orang)
4.   1976: DATE (Tanggal)


Kita akan menggunakan library NLP populer bernama spaCy, yang menyediakan model NER pra-terlatih yang sangat kuat dan mudah digunakan.

## 1. Instalasi dan Pengaturan spaCy
spaCy tidak hanya sebuah library, tetapi juga sebuah ekosistem. Setelah menginstal library, kita juga perlu mengunduh model bahasa yang berisi data terlatih.

In [2]:
# Import library
import spacy

# Muat model bahasa Inggris yang telah dilatih
# 'sm' berarti model kecil (small)
nlp = spacy.load("en_core_web_sm")

print("spaCy dan model berhasil dimuat!")

spaCy dan model berhasil dimuat!


## 2. Dasar-dasar Pemrosesan Teks dengan spaCy
Saat Anda memproses teks dengan spaCy, ia akan melakukan serangkaian proses, termasuk tokenisasi, Part-of-Speech tagging, dan NER. Hasilnya adalah objek Doc yang kaya akan informasi.

In [3]:
# Contoh teks
text = "Apple Inc. is looking at buying a U.K. startup for $1 billion. Tim Cook is the CEO."

# Proses teks dengan model nlp
doc = nlp(text)

# Iterasi melalui token yang terdeteksi
print("--- Token dan Info ---")
for token in doc:
    print(f"Token: {token.text}, POS Tag: {token.pos_}, Dependency: {token.dep_}")

--- Token dan Info ---
Token: Apple, POS Tag: PROPN, Dependency: compound
Token: Inc., POS Tag: PROPN, Dependency: nsubj
Token: is, POS Tag: AUX, Dependency: aux
Token: looking, POS Tag: VERB, Dependency: ROOT
Token: at, POS Tag: ADP, Dependency: prep
Token: buying, POS Tag: VERB, Dependency: pcomp
Token: a, POS Tag: DET, Dependency: det
Token: U.K., POS Tag: PROPN, Dependency: dobj
Token: startup, POS Tag: NOUN, Dependency: advcl
Token: for, POS Tag: ADP, Dependency: prep
Token: $, POS Tag: SYM, Dependency: quantmod
Token: 1, POS Tag: NUM, Dependency: compound
Token: billion, POS Tag: NUM, Dependency: pobj
Token: ., POS Tag: PUNCT, Dependency: punct
Token: Tim, POS Tag: PROPN, Dependency: compound
Token: Cook, POS Tag: PROPN, Dependency: nsubj
Token: is, POS Tag: AUX, Dependency: ROOT
Token: the, POS Tag: DET, Dependency: det
Token: CEO, POS Tag: PROPN, Dependency: attr
Token: ., POS Tag: PUNCT, Dependency: punct


## 3. Melakukan Named Entity Recognition (NER)
Objek Doc yang dihasilkan spaCy sudah berisi entitas yang terdeteksi. Kita bisa mengaksesnya melalui doc.ents.

In [4]:
# Proses teks yang sama lagi
doc = nlp(text)

# Iterasi melalui entitas yang ditemukan
print("--- Entitas yang Ditemukan ---")
for ent in doc.ents:
    print(f"Entitas: {ent.text}, Label: {ent.label_}, Penjelasan: {spacy.explain(ent.label_)}")

--- Entitas yang Ditemukan ---
Entitas: Apple Inc., Label: ORG, Penjelasan: Companies, agencies, institutions, etc.
Entitas: U.K., Label: GPE, Penjelasan: Countries, cities, states
Entitas: $1 billion, Label: MONEY, Penjelasan: Monetary values, including unit
Entitas: Tim Cook, Label: PERSON, Penjelasan: People, including fictional


## 4. Visualisasi Entitas
spaCy memiliki visualizer bawaan yang sangat bagus bernama displaCy untuk menyorot entitas langsung di dalam teks. Ini sangat membantu untuk analisis dan presentasi.

In [5]:
from spacy import displacy

# Gunakan displaCy untuk merender hasil NER
# style='ent' berarti kita ingin visualisasi entitas
displacy.render(doc, style="ent", jupyter=True)

## 5. Menganalisis Artikel Berita
Sekarang mari kita coba pada teks yang lebih panjang dan kompleks, seperti paragraf dari artikel berita.

In [6]:
news_text = """
Sundar Pichai, the CEO of Google, announced the new Pixel 8 phone at an event in New York City.
The company plans to invest heavily in its artificial intelligence division, headquartered in Mountain View,
California. The new device will compete with Apple's iPhone 15, which was launched last month in Cupertino.
Analysts from JPMorgan Chase predict a strong sales quarter for both tech giants.
"""

# Proses artikel berita
news_doc = nlp(news_text)

# Visualisasikan entitasnya
displacy.render(news_doc, style="ent", jupyter=True)

## 6. Dasar-dasar Pemrosesan Teks dengan spaCy
Terkadang, Anda hanya tertarik pada jenis entitas tertentu. Anda dapat dengan mudah memfilternya.

In [7]:
# Temukan semua nama orang (PERSON) dalam artikel
people = [ent.text for ent in news_doc.ents if ent.label_ == "PERSON"]
print("Nama Orang yang Disebutkan:", people)

# Temukan semua organisasi (ORG)
organizations = [ent.text for ent in news_doc.ents if ent.label_ == "ORG"]
print("Organisasi yang Disebutkan:", organizations)

Nama Orang yang Disebutkan: ['Sundar Pichai', 'Pixel']
Organisasi yang Disebutkan: ['Google', 'Apple', 'JPMorgan Chase']
