<img src="https://2.bp.blogspot.com/-066qpJs0Ttc/WiYPXGNYEYI/AAAAAAAAFu8/XbOaf7DqfDMM9truu3DkrkIGfRgP4zBzgCLcBGAs/s1600/udinus.jpg"  width="200">

# AMS - 01

oleh: Dr. Eng. Farrikh Alzami M.Kom; Abu Salam, M.Kom

disini kita akan menggunakan spacy untuk membahas Natural language Processing


Tutorial ini memberikan pengantar singkat untuk bekerja dengan bahasa alami (terkadang disebut "analitik teks") di Python, menggunakan spaCy dan pustaka terkait. Tim ilmu data di industri harus bekerja dengan banyak teks, salah satu dari empat kategori data teratas yang digunakan dalam pembelajaran mesin. Biasanya itu adalah teks buatan manusia, meskipun tidak selalu.

Pikirkan tentang ini: bagaimana "sistem operasi" untuk bisnis bekerja? Biasanya ada kontrak (kontrak penjualan, perjanjian kerja, kemitraan), ada invoice, ada polis asuransi, ada peraturan dan undang-undang lainnya, dan sebagainya. Semua itu direpresentasikan sebagai teks.

Anda mungkin menemukan beberapa akronim: pemrosesan bahasa alami (NLP), pemahaman bahasa alami (NLU), generasi bahasa alami (NLG) — yang secara kasar berbicara masing-masing "baca teks", "pahami makna", "tulis teks". Tugas-tugas ini semakin tumpang tindih dan menjadi sulit untuk mengkategorikan fitur yang diberikan.

Kerangka kerja spaCy — bersama dengan berbagai macam plug-in dan integrasi lainnya yang terus berkembang — menyediakan fitur untuk berbagai tugas bahasa alami. Ini menjadi salah satu perpustakaan bahasa alami yang paling banyak digunakan di Python untuk kasus penggunaan industri, dan memiliki komunitas yang cukup besar — ​​dan dengan itu, banyak dukungan untuk komersialisasi kemajuan penelitian karena area ini terus berkembang pesat.

In [167]:
# import spacy
import spacy

In [168]:
# load spacy dengan ukuran small
nlp = spacy.load("en_core_web_sm")

Variabel `nlp` itu sekarang menjadi gerbang Anda ke semua hal _spaCy_ dan dimuat dengan model kecil `en_core_web_sm` untuk bahasa Inggris.
Selanjutnya, mari kita jalankan "dokumen" kecil melalui pengurai bahasa alami:

In [169]:
text = "The rain in Spain falls mainly on the plain."
doc = nlp(text)

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.is_stop)

The the DET True
rain rain NOUN False
in in ADP True
Spain Spain PROPN False
falls fall VERB False
mainly mainly ADV False
on on ADP True
the the DET True
plain plain NOUN False
. . PUNCT False


In [170]:
text2 = "the beginning of time are unknown for every living beings which making useful in lived until now. Are we Sure?"
doc2 = nlp(text2)

for token2 in doc2:
    print(token2.text, token2.lemma_, token2.pos_, token2.is_stop)

the the DET True
beginning beginning NOUN False
of of ADP True
time time NOUN False
are be AUX True
unknown unknown ADJ False
for for SCONJ True
every every DET True
living live VERB False
beings being NOUN False
which which PRON True
making make VERB False
useful useful ADJ False
in in ADP True
lived live VERB False
until until ADP True
now now ADV True
. . PUNCT False
Are be AUX True
we we PRON True
Sure sure ADJ False
? ? PUNCT False


Pertama, kita membuat [doc](https://spacy.io/api/doc) dari teks, yang merupakan wadah untuk dokumen dan semua anotasinya. Kemudian kami mengulangi dokumen untuk melihat apa yang telah diurai _spaCy_.

Bagus, tapi banyak info dan agak sulit dibaca. Mari format ulang parse _spaCy_ dari kalimat tersebut sebagai kerangka data [pandas](https://pandas.pydata.org/):

In [171]:
import pandas as pd

cols = ("text", "lemma", "POS", "explain", "stopword")
rows = []

for t in doc:
    row = [t.text, t.lemma_, t.pos_, spacy.explain(t.pos_), t.is_stop]
    rows.append(row)

df = pd.DataFrame(rows, columns=cols)
    
df

Unnamed: 0,text,lemma,POS,explain,stopword
0,The,the,DET,determiner,True
1,rain,rain,NOUN,noun,False
2,in,in,ADP,adposition,True
3,Spain,Spain,PROPN,proper noun,False
4,falls,fall,VERB,verb,False
5,mainly,mainly,ADV,adverb,False
6,on,on,ADP,adposition,True
7,the,the,DET,determiner,True
8,plain,plain,NOUN,noun,False
9,.,.,PUNCT,punctuation,False


In [172]:
cols2 = ("text", "lemma", "POS", "explain", "stopword")
rows2 = []

for t in doc2:
    row2 = [t.text, t.lemma_, t.pos_, spacy.explain(t.pos_), t.is_stop]
    rows2.append(row2)

df2 = pd.DataFrame(rows2, columns=cols2)
    
df2

Unnamed: 0,text,lemma,POS,explain,stopword
0,the,the,DET,determiner,True
1,beginning,beginning,NOUN,noun,False
2,of,of,ADP,adposition,True
3,time,time,NOUN,noun,False
4,are,be,AUX,auxiliary,True
5,unknown,unknown,ADJ,adjective,False
6,for,for,SCONJ,subordinating conjunction,True
7,every,every,DET,determiner,True
8,living,live,VERB,verb,False
9,beings,being,NOUN,noun,False


Jauh lebih mudah dibaca!
Dalam kasus sederhana ini, seluruh dokumen hanyalah satu kalimat pendek.
Untuk setiap kata dalam kalimat itu _spaCy_ telah membuat [token](https://spacy.io/api/token), dan kami mengakses bidang di setiap token untuk menunjukkan:

  - teks mentah
  - [lemma](https://en.wikipedia.org/wiki/Lemma_(morphology)) – bentuk akar kata
  - [bagian dari pidato Part of Speech POS](https://en.wikipedia.org/wiki/Part_of_speech)
  - tanda apakah kata tersebut _stopword_ – yaitu, kata umum yang dapat disaring

sekarang kita gunakan displacy untuk visualisasi parse tree untuk kalimat diatas

In [173]:
from spacy import displacy

displacy.render(doc, style="dep", jupyter=True)

In [174]:
displacy.render(doc2, style="dep", jupyter=True)

Apakah itu membawa kembali kenangan sekolah menengah atas? Terus terang, bagi kita yang lebih dari latar belakang linguistik komputasi, diagram itu memicu kegembiraan.

Tapi mari kita backup sejenak. Bagaimana Anda menangani banyak kalimat?

Ada fitur untuk _sentence boundary detection_ (SBD) – juga dikenal sebagai _sentence segmentation_ – berdasarkan [sentencizer] bawaan/default (https://spacy.io/api/sentencezer):

In [175]:
text3 = "We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit. I fell in. Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket. The gorillas just went wild."

doc3 = nlp(text3)

for sent in doc3.sents:
    print(">", sent)

> We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit.
> I fell in.
> Everyone screamed and Tommy jumped in after me, forgetting that he had blueberries in his front pocket.
> The gorillas just went wild.


Ketika _spaCy_ membuat dokumen, ia menggunakan prinsip _non-destruktif tokenization_ yang berarti bahwa token, kalimat, dll., hanya diindeks ke dalam array yang panjang. Dengan kata lain, mereka tidak mengukir aliran teks menjadi potongan-potongan kecil. Jadi setiap kalimat adalah [span](https://spacy.io/api/span) dengan indeks _start_ dan _end_ ke dalam larik dokumen:

In [176]:
for sent in doc3.sents:
    print(">", sent.start, sent.end)

> 0 25
> 25 29
> 29 48
> 48 54


Kita dapat mengindeks ke dalam larik dokumen untuk mengeluarkan token untuk satu kalimat:

In [177]:
doc3[0:25]

We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit.

In [178]:
doc3[0:24]

We were all out at the zoo one day, I was doing some acting, walking on the railing of the gorilla exhibit

In [179]:
doc3[48:54]

The gorillas just went wild.

Atau cukup indeks ke token tertentu, seperti kata kerja `pergi` dalam kalimat terakhir:

In [180]:
token = doc3[51]
print(token.text, token.lemma_, token.pos_)

went go VERB


Pada titik ini kita dapat mengurai dokumen, membagi dokumen itu menjadi kalimat, lalu melihat anotasi tentang token di setiap kalimat. Itu awal yang baik.

## Memperoleh Teks

Sekarang kita dapat mengurai teks, dari mana kita mendapatkan teks?
Salah satu sumber cepat adalah untuk memanfaatkan jalinan.
Tentu saja ketika kita mengunduh halaman web, kita akan mendapatkan HTML, dan kemudian perlu mengekstrak teks darinya.
[beautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) adalah paket populer untuk itu.

Pertama, sedikit pembenahan:

In [181]:
import sys
import warnings

warnings.filterwarnings("ignore")

### Character Encoding

Berikut ini menunjukkan contoh cara menggunakan [codec](https://docs.python.org/3/library/codecs.html) dan [normalize unicode](https://docs.python.org/3/library/unicodedata.html#unicodedata.normalize). 

NB: contoh teks berasal dari artikel "[Metal umlat](https://en.wikipedia.org/wiki/Metal_umlaut)".

In [182]:
x = "Rinôçérôse screams ﬂow not unlike an encyclopædia, \
'TECHNICIÄNS ÖF SPÅCE SHIP EÅRTH THIS IS YÖÜR CÄPTÅIN SPEÄKING YÖÜR ØÅPTÅIN IS DEA̋D' to Spın̈al Tap."

type(x)

str

bentuknya string

In [183]:
repr(x)

'"Rinôçérôse screams ﬂow not unlike an encyclopædia, \'TECHNICIÄNS ÖF SPÅCE SHIP EÅRTH THIS IS YÖÜR CÄPTÅIN SPEÄKING YÖÜR ØÅPTÅIN IS DEA̋D\' to Spın̈al Tap."'

Terjemahannya ke [ASCII](http://www.asciitable.com/) tidak dapat digunakan oleh parser:

In [184]:
ascii(x)

'"Rin\\xf4\\xe7\\xe9r\\xf4se screams \\ufb02ow not unlike an encyclop\\xe6dia, \'TECHNICI\\xc4NS \\xd6F SP\\xc5CE SHIP E\\xc5RTH THIS IS Y\\xd6\\xdcR C\\xc4PT\\xc5IN SPE\\xc4KING Y\\xd6\\xdcR \\xd8\\xc5PT\\xc5IN IS DEA\\u030bD\' to Sp\\u0131n\\u0308al Tap."'

encoding menjadi UTF-8 juga ndak bisa

In [185]:
x.encode('utf8')

b"Rin\xc3\xb4\xc3\xa7\xc3\xa9r\xc3\xb4se screams \xef\xac\x82ow not unlike an encyclop\xc3\xa6dia, 'TECHNICI\xc3\x84NS \xc3\x96F SP\xc3\x85CE SHIP E\xc3\x85RTH THIS IS Y\xc3\x96\xc3\x9cR C\xc3\x84PT\xc3\x85IN SPE\xc3\x84KING Y\xc3\x96\xc3\x9cR \xc3\x98\xc3\x85PT\xc3\x85IN IS DEA\xcc\x8bD' to Sp\xc4\xb1n\xcc\x88al Tap."

mengabaikan karakter yang susah dibaca, merupakan *hal yang konyol*

In [186]:
x.encode('ascii', 'ignore')

b"Rinrse screams ow not unlike an encyclopdia, 'TECHNICINS F SPCE SHIP ERTH THIS IS YR CPTIN SPEKING YR PTIN IS DEAD' to Spnal Tap."

caranya, kita bisa normalisasi, baru encode

In [187]:
import unicodedata

unicodedata.normalize('NFKD', x).encode('ascii','ignore')

b"Rinocerose screams flow not unlike an encyclopdia, 'TECHNICIANS OF SPACE SHIP EARTH THIS IS YOUR CAPTAIN SPEAKING YOUR APTAIN IS DEAD' to Spnal Tap."

Bahkan sebelum normalisasi dan encode ini, Anda mungkin perlu mengonversi beberapa karakter secara eksplisit **sebelum** penguraian. Sebagai contoh:

In [188]:
x = "The sky “above” the port … was the color of ‘cable television’ – tuned to the Weather Channel®"

ascii(x)

"'The sky \\u201cabove\\u201d the port \\u2026 was the color of \\u2018cable television\\u2019 \\u2013 tuned to the Weather Channel\\xae'"

hasilnya menjadi seperti ini

In [189]:
unicodedata.normalize('NFKD', x).encode('ascii', 'ignore')

b'The sky above the port ... was the color of cable television  tuned to the Weather Channel'

...yang masih menghapus karakter yang mungkin penting untuk menguraikan kalimat.

Jadi pendekatan yang lebih maju bisa berupa:

In [190]:
x = x.replace('“', '"').replace('”', '"')
x = x.replace("‘", "'").replace("’", "'")
x = x.replace('…', '...').replace('–', '-')

x = unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8')
print(x)

The sky "above" the port ... was the color of 'cable television' - tuned to the Weather Channel


### Parsing HTML

Dalam fungsi berikut `get_text()` kita akan mengurai HTML untuk menemukan semua tag `<p/>`, lalu mengekstrak teksnya:

In [191]:
from bs4 import BeautifulSoup
import requests
import traceback

def get_text (url):
    buf = []
    
    try:
        soup = BeautifulSoup(requests.get(url).text, "html.parser")
        
        for p in soup.find_all("p"):
            buf.append(p.get_text())

        return "\n".join(buf)
    except:
        print(traceback.format_exc())
        sys.exit(-1)

Sekarang mari kita ambil beberapa teks dari sumber online.
Kami dapat membandingkan lisensi sumber terbuka yang dihosting di situs [Open Source Initiative](https://opensource.org/licenses/):

In [192]:
lic = {}
lic["mit"] = nlp(get_text("https://opensource.org/licenses/MIT"))
lic["asl"] = nlp(get_text("https://opensource.org/licenses/Apache-2.0"))
lic["bsd"] = nlp(get_text("https://opensource.org/licenses/BSD-3-Clause"))

for sent in lic["bsd"].sents:
    print(">", sent)

> SPDX short identifier: BSD-3-Clause
 

Note: This license has also been called the "New BSD License" or "Modified BSD License".
> See also the 2-clause BSD License.

> Copyright <YEAR> <COPYRIGHT HOLDER>
Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:

> 1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.

> 2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution.

> 3.
> Neither the name of the copyright holder nor the names of its contributors may be used to endorse or promote products derived from this software without specific prior written permission.

> THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIE

Salah satu kasus penggunaan umum untuk pekerjaan bahasa alami adalah membandingkan teks. Misalnya, dengan lisensi open source tersebut, kita dapat mengunduh teksnya, mengurai, lalu membandingkan metrik [kesamaan/similarity](https://spacy.io/api/doc#similarity) di antara mereka:

In [193]:
pairs = [
    ["mit", "asl"],
    ["asl", "bsd"],
    ["bsd", "mit"]
]

for a, b in pairs:
    print(a, b, lic[a].similarity(lic[b]))

mit asl 0.9085436503462764
asl bsd 0.8981709726047463
bsd mit 0.9801954262145988


Itu menarik, karena lisensi [BSD](https://opensource.org/licenses/BSD-3-Clause) dan [MIT](https://opensource.org/licenses/MIT) tampaknya paling mirip dokumen.
Sebenarnya mereka berhubungan erat.

Memang, ada beberapa teks tambahan yang disertakan dalam setiap dokumen karena penafian OSI di footer – tetapi ini memberikan perkiraan yang masuk akal untuk membandingkan lisensi.

## Pemahaman Bahasa Alami

Sekarang mari selami beberapa fitur _spaCy_ untuk NLU.
Mengingat bahwa kami memiliki penguraian dokumen, dari sudut pandang tata bahasa murni, kami dapat menarik [potongan kata benda](https://spacy.io/usage/linguistic-features#noun-chunks), yaitu, masing-masing frasa kata benda :

In [194]:
text = "Steve Jobs and Steve Wozniak incorporated Apple Computer on January 3, 1977, in Cupertino, California. They sell Iphone and Macbook with high price"
doc = nlp(text)

for chunk in doc.noun_chunks:
    print(chunk.text)

Steve Jobs
Steve Wozniak
Apple Computer
January
Cupertino
California
They
Iphone
Macbook
high price


Tidak buruk. Frase kata benda dalam sebuah kalimat umumnya memberikan lebih banyak konten informasi – sebagai filter sederhana yang digunakan untuk mereduksi dokumen panjang menjadi representasi yang lebih "disuling".

Kita dapat mengambil pendekatan ini lebih jauh dan mengidentifikasi [entitas bernama/named entity](https://spacy.io/usage/linguistic-features#named-entities) dalam teks, yaitu, kata benda yang tepat:

In [195]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Steve Jobs PERSON
Steve Wozniak PERSON
Apple Computer ORG
January 3, 1977 DATE
Cupertino GPE
California GPE
Iphone ORG
Macbook GPE


Pustaka _displaCy_ menyediakan cara terbaik untuk memvisualisasikan entitas bernama:

In [196]:
displacy.render(doc, style="ent", jupyter=True)

sekarang dicoba dengan kata lain

In [197]:
text2 = "Farrikh and Aboe are the lecturer from Universitas Dian Nuswantoro. Both of them always used gasoline bike from Honda"

doc2 = nlp(text2)

for chunk2 in doc2.noun_chunks:
    print(chunk2.text)

Farrikh
Aboe
the lecturer
Universitas Dian Nuswantoro
Both
them
gasoline bike
Honda


In [198]:
displacy.render(doc2, style="ent", jupyter=True)

Dalam istilah yang lebih umum, seseorang juga dapat menghubungkan _lemmas_ ke sumber daya yang menjelaskan artinya.
Sebagai contoh, di bagian awal kita menguraikan kalimat `The gorillas just went wild` dan mampu menunjukkan bahwa lemma untuk kata `went` adalah kata kerja `go`. Pada titik ini kita dapat menggunakan proyek terhormat yang disebut [WordNet](https://wordnet.princeton.edu/) yang menyediakan database leksikal untuk bahasa Inggris – dengan kata lain, ini adalah tesaurus yang dapat dihitung.

Ada integrasi _spaCy_ untuk WordNet yang disebut
[spacy-wordnet](https://github.com/recognai/spacy-wordnet) oleh [Daniel Vila Suero](https://twitter.com/dvilasuero), seorang ahli dalam bahasa alami dan pekerjaan grafik pengetahuan (Knowledge Graph).

Kemudian kami akan memuat data WordNet melalui NLTK (hal-hal ini terjadi):

In [199]:
import nltk

nltk.download("wordnet")

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Perhatikan bahwa _spaCy_ berjalan sebagai "pipa/pipeline" dan memungkinkan sarana untuk menyesuaikan bagian pipa yang digunakan.
Itu sangat bagus untuk mendukung integrasi alur kerja yang sangat menarik dalam pekerjaan ilmu data.
Di sini kita akan menambahkan `WordnetAnnotator` dari proyek _spacy-wordnet_:

In [200]:
!pip install spacy-wordnet

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [201]:
from spacy_wordnet.wordnet_annotator import WordnetAnnotator

print("before", nlp.pipe_names)

if "WordnetAnnotator" not in nlp.pipe_names:
  nlp.add_pipe("spacy_wordnet", after='tagger')
    
print("after", nlp.pipe_names)

before ['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
after ['tok2vec', 'tagger', 'spacy_wordnet', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


Dalam bahasa Inggris, beberapa kata terkenal karena memiliki banyak kemungkinan arti. Misalnya, klik melalui hasil online di [WordNet](http://wordnetweb.princeton.edu/perl/webwn?s=star&sub=Search+WordNet&o2=&o0=1&o8=1&o1=1&o7=&o5=&o9=&o6=&o3=&o4=&h=) cari untuk menemukan arti yang terkait dengan kata `withdraw`.

Sekarang mari kita gunakan _spaCy_ untuk melakukan pencarian itu secara otomatis:

In [206]:
token = nlp("withdraw")[0]
token._.wordnet.synsets()

[Synset('withdraw.v.01'),
 Synset('retire.v.02'),
 Synset('disengage.v.01'),
 Synset('recall.v.07'),
 Synset('swallow.v.05'),
 Synset('seclude.v.01'),
 Synset('adjourn.v.02'),
 Synset('bow_out.v.02'),
 Synset('withdraw.v.09'),
 Synset('retire.v.08'),
 Synset('retreat.v.04'),
 Synset('remove.v.01')]

In [207]:
token._.wordnet.lemmas()

[Lemma('withdraw.v.01.withdraw'),
 Lemma('withdraw.v.01.retreat'),
 Lemma('withdraw.v.01.pull_away'),
 Lemma('withdraw.v.01.draw_back'),
 Lemma('withdraw.v.01.recede'),
 Lemma('withdraw.v.01.pull_back'),
 Lemma('withdraw.v.01.retire'),
 Lemma('withdraw.v.01.move_back'),
 Lemma('retire.v.02.retire'),
 Lemma('retire.v.02.withdraw'),
 Lemma('disengage.v.01.disengage'),
 Lemma('disengage.v.01.withdraw'),
 Lemma('recall.v.07.recall'),
 Lemma('recall.v.07.call_in'),
 Lemma('recall.v.07.call_back'),
 Lemma('recall.v.07.withdraw'),
 Lemma('swallow.v.05.swallow'),
 Lemma('swallow.v.05.take_back'),
 Lemma('swallow.v.05.unsay'),
 Lemma('swallow.v.05.withdraw'),
 Lemma('seclude.v.01.seclude'),
 Lemma('seclude.v.01.sequester'),
 Lemma('seclude.v.01.sequestrate'),
 Lemma('seclude.v.01.withdraw'),
 Lemma('adjourn.v.02.adjourn'),
 Lemma('adjourn.v.02.withdraw'),
 Lemma('adjourn.v.02.retire'),
 Lemma('bow_out.v.02.bow_out'),
 Lemma('bow_out.v.02.withdraw'),
 Lemma('withdraw.v.09.withdraw'),
 Lemma('wit

In [208]:
token._.wordnet.wordnet_domains()

['astronomy',
 'school',
 'telegraphy',
 'industry',
 'psychology',
 'ethnology',
 'ethnology',
 'administration',
 'school',
 'finance',
 'economy',
 'exchange',
 'banking',
 'commerce',
 'medicine',
 'ethnology',
 'university',
 'school',
 'buildings',
 'factotum',
 'agriculture',
 'mechanics',
 'gastronomy',
 'meteorology',
 'physics',
 'basketball',
 'anatomy',
 'skiing',
 'nautical',
 'engineering',
 'racing',
 'home',
 'drawing',
 'dentistry',
 'ethnology',
 'mathematics',
 'furniture',
 'animal_husbandry',
 'industry',
 'economy',
 'body_care',
 'chemistry',
 'medicine',
 'surgery',
 'vehicles',
 'transport',
 'atomic_physic',
 'archaeology',
 'hydraulics',
 'oceanography',
 'golf',
 'sculpture',
 'earth',
 'applied_science',
 'artisanship']

Sekali lagi, jika Anda bekerja dengan grafik pengetahuan, tautan "pengertian kata/word sense" dari WordNet dapat digunakan bersama dengan algoritme grafik untuk membantu mengidentifikasi arti kata tertentu. Itu juga dapat digunakan untuk mengembangkan ringkasan untuk bagian teks yang lebih besar melalui teknik yang disebut _summarization_. Ini di luar cakupan tutorial ini, tetapi aplikasi yang menarik saat ini untuk bahasa alami di industri.

Pergi ke arah lain, jika Anda tahu _a priori_ bahwa dokumen adalah tentang domain atau rangkaian topik tertentu, maka Anda dapat membatasi makna yang dikembalikan dari _WordNet_. Dalam contoh berikut, kami ingin mempertimbangkan hasil NLU yang ada dalam Keuangan dan Perbankan:

In [214]:
domains = ["finance", "banking"]
sentence = nlp("I want to withdraw 5,000 euros from river bank")

enriched_sent = []

for token in sentence:
    # get synsets within the desired domains
    synsets = token._.wordnet.wordnet_synsets_for_domain(domains)
    
    if synsets:
        lemmas_for_synset = []
        
        for s in synsets:
            # get synset variants and add to the enriched sentence
            lemmas_for_synset.extend(s.lemma_names())
            enriched_sent.append("({})".format("|".join(set(lemmas_for_synset))))
    else:
        enriched_sent.append(token.text)

print(" ".join(enriched_sent))

I (need|want|require) to (draw|withdraw|take_out|draw_off) 5,000 euros from (river) (banking_concern|depository_financial_institution|bank|banking_company) (banking_concern|depository_financial_institution|bank|banking_company) (bank|banking_company|banking_concern|bank_building|depository_financial_institution)


In [213]:
domains = ["earth", "agriculture"]
sentence = nlp("I want to withdraw 5,000 euros from river bank")

enriched_sent = []

for token in sentence:
    # get synsets within the desired domains
    synsets = token._.wordnet.wordnet_synsets_for_domain(domains)
    
    if synsets:
        lemmas_for_synset = []
        
        for s in synsets:
            # get synset variants and add to the enriched sentence
            lemmas_for_synset.extend(s.lemma_names())
            enriched_sent.append("({})".format("|".join(set(lemmas_for_synset))))
    else:
        enriched_sent.append(token.text)

print(" ".join(enriched_sent))

I (need|want|require) to (withdraw|remove|take_away|take) 5,000 euros from (river) bank


materi di sesi 03 akan membahas scatter text