In [18]:
import json
import pandas as pd
import numpy as np
from utils.data_helper import get_markable_dataframe, get_embedding_variables
from functools import reduce
from IPython.display import HTML, display
from tabulate import tabulate
from html import escape

In [19]:
embedding_indexes_file_path = 'helper_files/embedding/embedding_indexes.txt'
indexed_embedding_file_path = 'helper_files/embedding/indexed_embedding.txt'

word_vector, embedding_matrix, idx_by_word, word_by_idx = get_embedding_variables(embedding_indexes_file_path, indexed_embedding_file_path)

In [20]:
markables_original_singletons = get_markable_dataframe("data/testing/markables.csv", word_vector, idx_by_word)
markables_predicted_singletons = get_markable_dataframe("data/testing/markables_with_predicted_singleton.csv", word_vector, idx_by_word)

markables_original_singletons.head()

Unnamed: 0,id,text,is_pronoun,entity_type,is_proper_name,is_first_person,previous_words,next_words,is_singleton
0,1916,"[1263, 1264, 1968, 1395]",0,"[0, 0, 0, 0, 1, 0, 1, 0, 0, 0]",1,0,[],"[999, 379, 1161, 213, 27, 1263, 1969, 1188, 14...","[1.0, 0.0]"
1,1917,[213],1,"[0, 0, 0, 0, 0, 0, 1, 0, 0, 0]",0,0,"[1263, 1264, 1968, 1395, 999, 379, 1161]","[27, 1263, 1969, 1188, 1470, 25, 1161, 63, 424...","[1.0, 0.0]"
2,1918,"[1263, 1969, 1188]",0,"[0, 0, 1, 0, 1, 0, 0, 0, 0, 0]",1,0,"[1263, 1264, 1968, 1395, 999, 379, 1161, 213, 27]","[1470, 25, 1161, 63, 424, 1223, 25, 1415, 1161...","[1.0, 0.0]"
3,1919,"[1470, 25, 1161]",0,"[0, 0, 0, 0, 0, 1, 1, 0, 0, 0]",0,0,"[1968, 1395, 999, 379, 1161, 213, 27, 1263, 19...","[63, 424, 1223, 25, 1415, 1161, 876, 344, 213,...","[0.0, 1.0]"
4,1920,[424],0,"[0, 0, 0, 0, 0, 1, 0, 0, 0, 0]",0,0,"[1161, 213, 27, 1263, 1969, 1188, 1470, 25, 11...","[1223, 25, 1415, 1161, 876, 344, 213, 406, 122...","[0.0, 1.0]"


In [38]:
markables_predicted_singletons[markables_predicted_singletons['id'].map(lambda x: x in [2655, 2677, 2692, 2693, 2697])]

Unnamed: 0,id,text,is_pronoun,entity_type,is_proper_name,is_first_person,previous_words,next_words,is_singleton
469,2655,[2320],0,"[0, 0, 0, 0, 0, 0, 1, 0, 0, 0]",1,0,"[2316, 1211, 1707, 2317, 2150, 2, 1263, 2318, ...","[30, 833, 2321, 1218, 1662, 25, 1476, 1034, 25...","[0.0, 1.0]"
491,2677,[2320],0,"[0, 0, 0, 0, 1, 0, 0, 0, 0, 0]",1,0,"[281, 1034, 1360, 14, 1015, 243, 2237, 2329, 8...","[197, 256, 851, 14, 2330, 27, 1242, 1494, 2331...","[0.0, 1.0]"
506,2692,"[1263, 2341, 1494, 2342]",0,"[0, 0, 0, 0, 1, 1, 0, 0, 0, 0]",1,0,"[851, 2336, 516, 2337, 2319, 2338, 791, 2339, ...","[2320, 263, 213, 2148, 334, 1263, 2318, 2337, ...","[0.0, 1.0]"
507,2693,[2320],0,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 1]",1,0,"[2319, 2338, 791, 2339, 2340, 30, 1263, 2341, ...","[263, 213, 2148, 334, 1263, 2318, 2337, 2319, ...","[1.0, 0.0]"
511,2697,[2320],0,"[0, 0, 0, 0, 0, 0, 0, 0, 1, 0]",1,0,"[2148, 334, 1263, 2318, 2337, 2319, 1249, 227,...","[2268, 544, 218, 1263, 2318, 2077, 2319, 330, ...","[1.0, 0.0]"


In [21]:
def get_markable_text(idx):
    return ' '.join([word_by_idx[x] for x in markables_original_singletons[markables_original_singletons['id'] == idx].text.values[0]])

def get_markable_previous_words(idx):
    return ' '.join([word_by_idx[x] for x in markables_original_singletons[markables_original_singletons['id'] == idx].previous_words.values[0]])

def get_markable_next_words(idx):
    return ' '.join([word_by_idx[x] for x in markables_original_singletons[markables_original_singletons['id'] == idx].next_words.values[0]])

def get_markable(idx):
    return f'{get_markable_previous_words(idx)} [{get_markable_text(idx).upper()}] {get_markable_next_words(idx)}'.strip()

In [22]:
right_predicted_markables = markables_predicted_singletons[markables_predicted_singletons['is_singleton'].map(lambda x: x[0]) == markables_original_singletons['is_singleton'].map(lambda x: x[0])]
wrong_predicted_markables = markables_predicted_singletons[markables_predicted_singletons['is_singleton'].map(lambda x: x[0]) != markables_original_singletons['is_singleton'].map(lambda x: x[0])]

# Analysis of Wrongly Predicted Markables

## Label: singleton, predicted: non-singleton

In [23]:
false_negatives = wrong_predicted_markables[wrong_predicted_markables['is_singleton'].map(lambda x: x[0]) == 1]
false_negative_texts = [get_markable(idx) for idx in false_negatives['id']]

In [24]:
data_to_analyze =  false_negatives

print(f'"nya": {len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'proper name: {len(data_to_analyze[data_to_analyze["is_proper_name"] == 1])}')
print(f'pronoun: {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1])}')   
print(f'pronoun without "nya": {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1]) - len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'first person: {len(data_to_analyze[data_to_analyze["is_first_person"] == 1])}')

"nya": 5
proper name: 19
pronoun: 5
pronoun without "nya": 0
first person: 0


In [25]:
data_to_analyze, text_data_to_analyze = false_negatives, false_negative_texts

display(HTML(tabulate([
    [i, idx, escape(text)]
    for i, idx, text
    in zip(range(1, len(data_to_analyze) + 1), data_to_analyze['id'], text_data_to_analyze)
], tablefmt='html')))

0,1,2
1,1926,senilai rp <angka> miliar kepada exedy corporation yang berkedudukan di [JEPANG] kami telah menandatangani perjanjian pengikatan untuk penjualan seluruh saham milik
2,1966,tanggal berlaku dia menambahkan permohonan pembebasan bm harus diajukan kepada [DIRJEN BEA CUKAI DEPKEU] dengan melampirkan antara lain npwp ; surat izin usaha dari
3,2253,pada maret <angka> mencapai <angka> persen demikian dikemukakan deputi gubernur [BANK INDONESIA] bi hartadi a sarwono di jakarta rabu ia mengatakan persentase
4,2254,<angka> mencapai <angka> persen demikian dikemukakan deputi gubernur bank indonesia [BI] hartadi a sarwono di jakarta rabu ia mengatakan persentase tersebut
5,2268,hartadi dalam acara sosialisasi program peningkatan teknologi industri tpt di [BI] jakarta hartadi mengatakan bahwa industri tpt sebenarnya merupakan salah satu
6,2290,keengganan perbankan untuk memberikan pembiayaan pada industri tersebut membuat perkembangan [NYA] sungguh sangat memprihatinkan upaya yang dilakukan pemerintah untuk memberikan subsidi
7,2308,ini acara sosialisasi dapat memberikan akses informasi kepada perbankan khusus [NYA] mengenai bidang-bidang usaha yang memiliki prospek yang baik dan potensial
8,2383,menjadi rp <angka> miliar dibanding periode yang sama tahun sebelum [NYA] kenaikan laba bersih ini dipicu oleh naiknya penjualan sebesar <angka>
9,2423,[DEPUTI SENIOR] bank indonesia bi miranda s goeltom memprediksi pertumbuhan ekspor non
10,2424,deputi senior [BANK INDONESIA] bi miranda s goeltom memprediksi pertumbuhan ekspor non - migas


## Label: non-singleton, predicted: singleton

In [26]:
false_positives = wrong_predicted_markables[wrong_predicted_markables['is_singleton'].map(lambda x: x[0]) == 0]
false_positive_texts = [get_markable(idx) for idx in false_positives['id']]

In [27]:
data_to_analyze =  false_positives

print(f'"nya": {len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'proper name: {len(data_to_analyze[data_to_analyze["is_proper_name"] == 1])}')
print(f'pronoun: {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1])}')   
print(f'pronoun without "nya": {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1]) - len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'first person: {len(data_to_analyze[data_to_analyze["is_first_person"] == 1])}')

"nya": 7
proper name: 22
pronoun: 9
pronoun without "nya": 2
first person: 0


In [28]:
data_to_analyze, text_data_to_analyze = false_positives, false_positive_texts

display(HTML(tabulate([
    [i, idx, escape(text)]
    for i, idx, text
    in zip(range(1, len(data_to_analyze) + 1), data_to_analyze['id'], text_data_to_analyze)
], tablefmt='html')))

0,1,2
1,1916,[PT ASTRA OTOPARTS TBK] menjual kepemilikan saham nya di pt exedy indonesia sebanyak <angka>
2,1917,pt astra otoparts tbk menjual kepemilikan saham [NYA] di pt exedy indonesia sebanyak <angka> saham dengan harga rp
3,1918,pt astra otoparts tbk menjual kepemilikan saham nya di [PT EXEDY INDONESIA] sebanyak <angka> saham dengan harga rp <angka> per saham atau
4,1925,per saham atau total nya senilai rp <angka> miliar kepada [EXEDY CORPORATION] yang berkedudukan di jepang kami telah menandatangani perjanjian pengikatan untuk
5,1927,rp <angka> miliar kepada exedy corporation yang berkedudukan di jepang [KAMI] telah menandatangani perjanjian pengikatan untuk penjualan seluruh saham milik pt
6,1930,kami telah menandatangani perjanjian pengikatan untuk penjualan seluruh saham milik [PT ASTRA OTOPARTS] di pt exedy indonesia kepada exedy corporation kata sekretaris perusahaan
7,1931,pengikatan untuk penjualan seluruh saham milik pt astra otoparts di [PT EXEDY INDONESIA] kepada exedy corporation kata sekretaris perusahaan astra otoparts kartina rahayu
8,1932,saham milik pt astra otoparts di pt exedy indonesia kepada [EXEDY CORPORATION] kata sekretaris perusahaan astra otoparts kartina rahayu di jakarta senin
9,2286,dari total kredit perbankan nasional yang mencapai rp <angka> triliun [HARTADI] menjelaskan keengganan perbankan untuk memberikan pembiayaan pada industri tersebut membuat
10,2311,memiliki prospek yang baik dan potensial untuk dibiayai sementara itu [DIRJEND INDUSTRI LOGAM MESIN TEKSTIL DEPARTEMEN PERINDUSTRIAN ANSARI BUKHARI] mengatakan sebenarnya pembiayaan perbankan ke sektor tpt masih cukup baik


# Analysis of Rightly Predicted Markables

## Non-Singletons

In [29]:
true_negatives = right_predicted_markables[right_predicted_markables['is_singleton'].map(lambda x: x[0]) == 1]
true_negative_texts = [get_markable(idx) for idx in true_negatives['id']]

In [30]:
data_to_analyze =  true_negatives

print(f'"nya": {len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'proper name: {len(data_to_analyze[data_to_analyze["is_proper_name"] == 1])}')
print(f'pronoun: {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1])}')   
print(f'pronoun without "nya": {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1]) - len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'first person: {len(data_to_analyze[data_to_analyze["is_first_person"] == 1])}')

"nya": 19
proper name: 41
pronoun: 30
pronoun without "nya": 11
first person: 0


In [31]:
data_to_analyze, text_data_to_analyze = true_negatives, true_negative_texts

display(HTML(tabulate([
    [i, idx, escape(text)]
    for i, idx, text
    in zip(range(1, len(data_to_analyze) + 1), data_to_analyze['id'], text_data_to_analyze)
], tablefmt='html')))

0,1,2
1,1933,astra otoparts di pt exedy indonesia kepada exedy corporation kata [SEKRETARIS PERUSAHAAN ASTRA OTOPARTS] kartina rahayu di jakarta senin menurut dia penjualan saham tersebut
2,1934,exedy indonesia kepada exedy corporation kata sekretaris perusahaan astra otoparts [KARTINA RAHAYU] di jakarta senin menurut dia penjualan saham tersebut akan berlaku
3,1937,sekretaris perusahaan astra otoparts kartina rahayu di jakarta senin menurut [DIA] penjualan saham tersebut akan berlaku efektif apabila syarat-syarat sebagaimana termuat
4,1940,sebagaimana termuat dalam perjanjian pengikatan jual beli saham telah terpenuhi [DIA] mengatakan transaksi tersebut tidak mengandung unsur benturan kepentingan dilihat dari
5,1952,<angka> persen dari pendapatan dan <angka> persen dari ekuitas tambah [NYA]
6,1953,[MENKEU SRI MULYANI INDRAWATI] membebaskan tarif akhir bea masuk bm atas impor bahan baku
7,1964,<angka> hari setelah ditetapkan selama satu tahun sejak tanggal berlaku [DIA] menambahkan permohonan pembebasan bm harus diajukan kepada dirjen bea cukai
8,2255,mencapai <angka> persen demikian dikemukakan deputi gubernur bank indonesia bi [HARTADI A SARWONO] di jakarta rabu ia mengatakan persentase tersebut termasuk tinggi karena
9,2258,gubernur bank indonesia bi hartadi a sarwono di jakarta rabu [IA] mengatakan persentase tersebut termasuk tinggi karena npl untuk industri perbankan
10,2266,melahirkan persepsi bahwa industri tpt termasuk kategori sunset industri kata [HARTADI] dalam acara sosialisasi program peningkatan teknologi industri tpt di bi


## Singletons

In [32]:
true_positives = right_predicted_markables[right_predicted_markables['is_singleton'].map(lambda x: x[0]) == 0]
true_positive_texts = [get_markable(idx) for idx in true_positives['id']]

In [33]:
data_to_analyze =  true_positives

print(f'"nya": {len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'proper name: {len(data_to_analyze[data_to_analyze["is_proper_name"] == 1])}')
print(f'pronoun: {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1])}')   
print(f'pronoun without "nya": {len(data_to_analyze[data_to_analyze["is_pronoun"] == 1]) - len(list(filter(lambda x: get_markable_text(x) == "nya", data_to_analyze["id"])))}')
print(f'first person: {len(data_to_analyze[data_to_analyze["is_first_person"] == 1])}')

"nya": 18
proper name: 92
pronoun: 25
pronoun without "nya": 7
first person: 0


In [34]:
data_to_analyze, text_data_to_analyze = true_positives, true_positive_texts

display(HTML(tabulate([
    [i, idx, escape(text)]
    for i, idx, text
    in zip(range(1, len(data_to_analyze) + 1), data_to_analyze['id'], text_data_to_analyze)
], tablefmt='html')))

0,1,2
1,1919,otoparts tbk menjual kepemilikan saham nya di pt exedy indonesia [SEBANYAK <ANGKA> SAHAM] dengan harga rp <angka> per saham atau total nya senilai
2,1920,saham nya di pt exedy indonesia sebanyak <angka> saham dengan [HARGA] rp <angka> per saham atau total nya senilai rp <angka>
3,1921,nya di pt exedy indonesia sebanyak <angka> saham dengan harga [RP <ANGKA>] per saham atau total nya senilai rp <angka> miliar kepada
4,1922,exedy indonesia sebanyak <angka> saham dengan harga rp <angka> per [SAHAM] atau total nya senilai rp <angka> miliar kepada exedy corporation
5,1923,<angka> saham dengan harga rp <angka> per saham atau total [NYA] senilai rp <angka> miliar kepada exedy corporation yang berkedudukan di
6,1924,saham dengan harga rp <angka> per saham atau total nya [SENILAI RP <ANGKA> MILIAR] kepada exedy corporation yang berkedudukan di jepang kami telah menandatangani
7,1928,kepada exedy corporation yang berkedudukan di jepang kami telah menandatangani [PERJANJIAN PENGIKATAN] untuk penjualan seluruh saham milik pt astra otoparts di pt
8,1929,berkedudukan di jepang kami telah menandatangani perjanjian pengikatan untuk penjualan [SELURUH SAHAM] milik pt astra otoparts di pt exedy indonesia kepada exedy
9,1935,exedy corporation kata sekretaris perusahaan astra otoparts kartina rahayu di [JAKARTA] senin menurut dia penjualan saham tersebut akan berlaku efektif apabila
10,1936,corporation kata sekretaris perusahaan astra otoparts kartina rahayu di jakarta [SENIN] menurut dia penjualan saham tersebut akan berlaku efektif apabila syarat-syarat
