# Data Preparation

In [1]:
import json

In [2]:
labeled_data_ajb_1 = []     # data preparation for AJB document page one
labeled_data_ajb_23 = []    # data preparation for AJB document page two
training_data_ajb_1 = []    # data convertion from doccano into spacy variable for AJB document page one
training_data_ajb_23 = []   # data convertion from doccano into spacy variable for AJB document page two

In [3]:
# read AJB document page one file
with open(r"../../dataset/export/ajb_1.jsonl", "r") as read_file:
    for line in read_file:
        data = json.loads(line)
        labeled_data_ajb_1.append(data)

# read AJB document page two and three file
with open(r"../../dataset/export/ajb_23.jsonl", "r") as read_file:
    for line in read_file:
        data = json.loads(line)
        labeled_data_ajb_23.append(data)

In [4]:
# convert AJB document page one labeled_data doccano version into training_data spacy version
for entry in labeled_data_ajb_1:
    entities = []
    for e in entry['label']:
        entities.append((e[0], e[1], e[2]))
    spacy_entry = (entry['data'], { "entities": entities })
    training_data_ajb_1.append(spacy_entry)
    
# convert AJB document page two and three labeled_data doccano version into training_data spacy version
for entry in labeled_data_ajb_23:
    entities = []
    for e in entry['label']:
        entities.append((e[0], e[1], e[2]))
    spacy_entry = (entry['data'], { "entities": entities })
    training_data_ajb_23.append(spacy_entry)

In [5]:
training_data_ajb_1

[('AJB1_1988_R_1\tmengenai jual bali ml ik adat tanah hak nomor c3603 akta jualbeli no1382jragr 19 88 pada hari ini hari selaga tanggal 15 nopamber 1988 datang menghadap kepada kami camat kepala wilayah kecamatan gapond0 h olementert dan negei uengan surarkeputusamya berdasarkan ketentuan dalam pasal 5 peraturan menteri tangga agraria no 101961 bertindak sebagai m m lthi han afig ra nomor dije penjabat pembuat akta tanah yang dimaksudkan dalam pasal 19 peraturan pemerintah no 10 tahun 1961 tentang pendaftaran tanah untuk wilayah kebupaten daerah tinskatttnearane dengan dihadliri oleh saksisaksi yang kami kenaldiperkenalkan kepada kami dan akan dise butkan dibagian akhir akta ini i naa u m ur ny tinaw ati 48 tahun 1tbu rumattanggam indonesia aesoleh al1 rt004014kelura han sukasari kecamatan tangerang kota administratif tangerang pakerjaan kownhemegarwn aa at selanjutnya disebut peninal 1 jaka pihrkasa n a a a ii u m u 19tal 19 tahun pelada i indonosia 1 j1mtharypno rt00209 kelurahan suk

# Create the model for AJB document page one 

In [6]:
import spacy
import random
import datetime
from spacy.training.example import Example
from spacy.scorer import Scorer

In [7]:
# create the spacy pipeline and define the label
nlp = spacy.blank("id")
ner = nlp.add_pipe('ner')

ner.add_label("no_ajb")
ner.add_label("penjual_nama")
ner.add_label("penjual_umur")
ner.add_label("penjual_pekerjaan")
ner.add_label("penjual_agama")
ner.add_label("penjual_kewarganegaraan")
ner.add_label("penjual_alamat")
ner.add_label("pembeli_nama")
ner.add_label("pembeli_umur")
ner.add_label("pembeli_pekerjaan")
ner.add_label("pembeli_agama")
ner.add_label("pembeli_kewarganegaraan")
ner.add_label("pembeli_alamat")

print(ner.move_names)

['B-no_ajb', 'I-no_ajb', 'L-no_ajb', 'U-no_ajb', 'B-penjual_nama', 'I-penjual_nama', 'L-penjual_nama', 'U-penjual_nama', 'B-penjual_umur', 'I-penjual_umur', 'L-penjual_umur', 'U-penjual_umur', 'B-penjual_pekerjaan', 'I-penjual_pekerjaan', 'L-penjual_pekerjaan', 'U-penjual_pekerjaan', 'B-penjual_agama', 'I-penjual_agama', 'L-penjual_agama', 'U-penjual_agama', 'B-penjual_kewarganegaraan', 'I-penjual_kewarganegaraan', 'L-penjual_kewarganegaraan', 'U-penjual_kewarganegaraan', 'B-penjual_alamat', 'I-penjual_alamat', 'L-penjual_alamat', 'U-penjual_alamat', 'B-pembeli_nama', 'I-pembeli_nama', 'L-pembeli_nama', 'U-pembeli_nama', 'B-pembeli_umur', 'I-pembeli_umur', 'L-pembeli_umur', 'U-pembeli_umur', 'B-pembeli_pekerjaan', 'I-pembeli_pekerjaan', 'L-pembeli_pekerjaan', 'U-pembeli_pekerjaan', 'B-pembeli_agama', 'I-pembeli_agama', 'L-pembeli_agama', 'U-pembeli_agama', 'B-pembeli_kewarganegaraan', 'I-pembeli_kewarganegaraan', 'L-pembeli_kewarganegaraan', 'U-pembeli_kewarganegaraan', 'B-pembeli_alam

In [9]:
# initialize the training
nlp.begin_training()

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]

epochs = 1000
print("current date: {0} {1} {2}".format(datetime.datetime.now().day, datetime.datetime.now().strftime("%B"), datetime.datetime.now().year))
with nlp.disable_pipes(*other_pipes): # only train NER    
    for i in range(epochs):
        random.shuffle(training_data_ajb_1)
        losses = {}

        for batch in spacy.util.minibatch(training_data_ajb_1, size=2):
            for text, entities in batch:
                doc = nlp.make_doc(text)
                example = Example.from_dict(doc, entities)

                nlp.update([example], losses=losses, drop=0.3)

        print("iteration: {0} | loss: {1} | time: {2}".format(i + 1, losses, datetime.datetime.now().strftime("%H:%M:%S")))
    
# save the result of training into disk
nlp.to_disk("ajb_1_model")

current date: 14 7 2021




ValueError: 

# Create the model for AJB document page two and three 

In [50]:
# create the spacy pipeline and define the label
nlp_new = spacy.blank("id")
ner_new = nlp_new.add_pipe('ner')
ner_new.add_label("no_kohir_girik")
ner_new.add_label("no_persil")
ner_new.add_label("provinsi_tanah")
ner_new.add_label("kabupaten_tanah")
ner_new.add_label("kecamatan_tanah")
ner_new.add_label("kelurahan_tanah")
ner_new.add_label("jalan_tanah")
ner_new.add_label("harga_tanah")
ner_new.add_label("luas_tanah")

1

In [51]:
# initialize the training
nlp_new.begin_training()

epochs = 1000
print("current date: {0} {1} {2}".format(datetime.datetime.now().day, datetime.datetime.now().strftime("%B"), datetime.datetime.now().year))
for i in range(epochs):
    random.shuffle(training_data_ajb_23)
    losses = {}
    
    for batch in spacy.util.minibatch(training_data_ajb_23, size=2):
        for text, entities in batch:
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, entities)
            
            nlp_new.update([example], losses=losses, drop=0.3)
    
    print("iteration: {0} | loss: {1} | time: {2}".format(i + 1, losses, datetime.datetime.now().strftime("%H:%M:%S")))
    
# save the result of training into disk
nlp_new.to_disk("ajb_23_model")

current date: 14 July 2021




iteration: 0 | loss: {'ner': 1400.7767565379474} | time: 06:31:36
{'ner': 1400.7767565379474}
iteration: 1 | loss: {'ner': 1871.6770718947769} | time: 06:31:39
{'ner': 1871.6770718947769}
iteration: 2 | loss: {'ner': 1568.189440515658} | time: 06:31:41
{'ner': 1568.189440515658}
iteration: 3 | loss: {'ner': 1326.94483246237} | time: 06:31:44
{'ner': 1326.94483246237}
iteration: 4 | loss: {'ner': 1282.5966826176402} | time: 06:31:47
{'ner': 1282.5966826176402}


KeyboardInterrupt: 

# Test with real data

In [3]:
from spacy import displacy

# Test for AJB document page one
nlp = spacy.load("./ajb_1.model/")

example = "53 pembeli akta jual beli 361 no cipondoh 19 90 rabu tanggal 28 maret 1990 pada hari ini datang menghadap kepada saya achmad kosabir ba camat kepala wilayah kecamatan i fon oh oleh menteri dalam negerikepala badan pertanahan nasional dengan surat berdasarkan ketentuan dalam pasal 5 peraturan menteri agraria no 101961 keputusannya tanggal no bertindak sebagai pejabat pembuat akta tanah yang dimaksud dalam diangkat pasal 19 peraturan pemerintah no 10 tahun 1961 tentang pendaftaran tanah untuk wilayah kecamatan ipondoh dengan dihadiri oleh saksisaksi yang dikenal oleh saya pejabat pembuat akta tanah dan akan disebutkan di bagian akhir akta ini i n ama songgo bin bregud 85 t a h un petan i umur pekerjaan kewarganegaraan indonesia a l ama t kpkunciran rt01kw07 kelurahan kunciran kecamatan cipondoh kotif tangerang selaku penjual untuk selanjutnga di setut pihak pertama satria wibawa 24 t a h u n mahasiswa ii hama vmur pelkerjean kewargnno paraan indonesia a 1 anat j m haryono rt02rw09 kelurahan sukasari kocamatan tangerang kotif tangerang selaku pembeli untuk selanjutnya di sebut pifak kedua"
doc = nlp(example)

displacy.render(doc, style='ent')

In [66]:
# Test for AJB document page two and three
nlp = spacy.load("./ajb_23.model/")

example = "2 para penghadap menerangkan bahwa penjual dengan akta ini menjual kepada pembeli dan pembeli membeli dari penjual c 246 sabidang no tanah hak mll1k adat sebahagian dari terletak di daerah tingkat iwilayah daerah tingkat ii wilayah kecamatan wilayah jawa berat clp ond oh kunciran desa tgl no m2 diuraikan dalam surat ukur luas tanah meter persegi meter erpat ratus n berukuran panjang kuranglebih lebar kuranglebih 46 d ii kohir nomor meter blok persil nomor dan berbatasan di sebelah borbatagan dengen tenah sdr saun berbatagan dengan tener cdrsim berbatagan dengen tamah hy utara timur selatan barat berbatagn dengan tanh 36y hiat selanjutnya para penghadap menerangkan bahwa jualbeli ini meliputi pula bangunan dan tanaman yang ada di atas tanah tersebut yaitu berupa tanah k ogang 1000000 bahwa jualbeli ini terjadi dengan harga rp satu jutà rupiah bahwa penjual mengaku telah menerima sepenuhnya uang pembelian tersebut di atas dan untuk penerimaan uang itu akta ini berlaku pula sebagai tanda penerimaannya kwitansi bahwa jualbeli ini dilakukan dengan syaratsyarat seperti berikut pasal 1 mulai hari ini tanah hak dan bangunancertatanaman yang diuraikan dalam akta ini telah diserahkan kepada pembeli yang mengaku pula telah merterima penyerahan itu dan segala keuntungan yang didapat dari serta segala kerugianbeban yang diderita atas tanah hak danbangunaneertatanaman tersebut di atas menjadi hak tanggungan pembeli pasal 2 penjual menjamin bahwa tanahhak dabangunansertatanaman 1 tersebut di atas tidak dikenakan sesuatu sitaan atau tersangkut sebagai tang gungan untuk sesuatu piutang atau diberati dengan bebanbeban lainnya pasal 3"
doc = nlp(example)

displacy.render(doc, style='ent')

# Evaluate the performance

In [51]:
from spacy.scorer import Scorer

In [61]:
# Evaluate score of testing data AJB document page one
ner_model = spacy.load("./ajb_1.model")
scorer = Scorer(ner_model)

examples = []
for text, entities in testing_data_ajb_1:
    doc = ner_model(text)
    example = Example.from_dict(doc, entities)
    examples.append(example)
results = scorer.score(examples)

results

{'token_acc': 1.0,
 'token_p': 1.0,
 'token_r': 1.0,
 'token_f': 1.0,
 'ents_p': 0.6428571428571429,
 'ents_r': 0.5806451612903226,
 'ents_f': 0.6101694915254238,
 'ents_per_type': {'penjual_umur': {'p': 0.0, 'r': 0.0, 'f': 0.0},
  'no_ajb': {'p': 0.75, 'r': 1.0, 'f': 0.8571428571428571},
  'penjual_pekerjaan': {'p': 0.5, 'r': 0.3333333333333333, 'f': 0.4},
  'penjual_nama': {'p': 0.3333333333333333,
   'r': 0.3333333333333333,
   'f': 0.3333333333333333},
  'pembeli_nama': {'p': 1.0, 'r': 1.0, 'f': 1.0},
  'pembeli_umur': {'p': 0.6666666666666666,
   'r': 0.6666666666666666,
   'f': 0.6666666666666666},
  'penjual_alamat': {'p': 0.5, 'r': 0.5, 'f': 0.5},
  'pembeli_alamat': {'p': 1.0, 'r': 0.3333333333333333, 'f': 0.5},
  'pembeli_pekerjaan': {'p': 0.5, 'r': 0.3333333333333333, 'f': 0.4},
  'penjual_kewarganegaraan': {'p': 0.6666666666666666, 'r': 1.0, 'f': 0.8},
  'pembeli_kewarganegaraan': {'p': 1.0, 'r': 0.5, 'f': 0.6666666666666666},
  'penjual_agama': {'p': 1.0, 'r': 1.0, 'f': 1.

In [59]:
# Evaluate score of testing data AJB document page two and three
ner_model = spacy.load("./ajb_23.model")
scorer = Scorer(ner_model)

examples = []
for text, entities in testing_data_ajb_23:
    doc = ner_model(text)
    example = Example.from_dict(doc, entities)
    examples.append(example)
results = scorer.score(examples)

results

{'token_acc': 1.0,
 'token_p': 1.0,
 'token_r': 1.0,
 'token_f': 1.0,
 'ents_p': 0.6333333333333333,
 'ents_r': 0.5,
 'ents_f': 0.5588235294117647,
 'ents_per_type': {'kelurahan_tanah': {'p': 0.3333333333333333,
   'r': 0.4,
   'f': 0.3636363636363636},
  'kabupaten_tanah': {'p': 0.5,
   'r': 0.6666666666666666,
   'f': 0.5714285714285715},
  'kecamatan_tanah': {'p': 1.0, 'r': 0.75, 'f': 0.8571428571428571},
  'no_persil': {'p': 0.5, 'r': 0.5, 'f': 0.5},
  'harga_tanah': {'p': 0.75, 'r': 0.5, 'f': 0.6},
  'no_kohir_girik': {'p': 0.5, 'r': 0.2, 'f': 0.28571428571428575},
  'luas_tanah': {'p': 1.0, 'r': 0.2, 'f': 0.33333333333333337},
  'provinsi_tanah': {'p': 1.0, 'r': 0.75, 'f': 0.8571428571428571},
  'jalan_tanah': {'p': 0.5, 'r': 1.0, 'f': 0.6666666666666666},
  'no_ajb': {'p': 1.0, 'r': 1.0, 'f': 1.0}}}