In [1]:
import pandas as pd
from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np
from numpy.linalg import norm

In [2]:
df = pd.read_csv("fatwa-mui.csv")
df.head()

Unnamed: 0,No,Judul Fatwa,Tema Fatwa,Nomor Fatwa,Tgl Ditetapkan
0,1,PANDUAN PENYELENGGARAAN IBADAH DI BULAN RAMADA...,Sosial Kemasyarakatan,KEPUTUSAN IJTIMA ULAMA KOMISI FATWA SE-INDONES...,16 December 2003
1,2,PENGGUNAAN MIKROBA DAN PRODUK MIKROBIAL DALAM ...,POM Iptek,01 Tahun 2010,19 January 2010
2,3,AIR DAUR ULANG,POM Iptek,02 Tahun 2010,27 January 2010
3,4,KIBLAT,Ibadah,03 Tahun 2010,1 February 2010
4,5,ARAH KIBLAT,Ibadah,05 Tahun 2010,1 July 2010


In [3]:
import re
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

def preprocess(text):
    no_punctuation = re.sub(r'[^\w\s]','', text)
    #stem_output = stemmer.stem(no_punctuation)
    return no_punctuation 

In [4]:
df['Sentence'] = df['Judul Fatwa'].apply(preprocess)
print(df[['Judul Fatwa', 'Sentence']].head(10))

                                         Judul Fatwa  \
0  PANDUAN PENYELENGGARAAN IBADAH DI BULAN RAMADA...   
1  PENGGUNAAN MIKROBA DAN PRODUK MIKROBIAL DALAM ...   
2                                     AIR DAUR ULANG   
3                                             KIBLAT   
4                                        ARAH KIBLAT   
5  PENGGUNAAN VAKSIN MENINGITIS BAGI JEMAAH HAJI ...   
6                                         KOPI LUWAK   
7                                         AMIL ZAKAT   
8  PENSUCIAN ALAT PRODUKSI YANG TERKENA NAJIS MUT...   
9  CARA PENSUCIAN EKSTRAK RAGI (YEAST EKSTRACT) D...   

                                            Sentence  
0  PANDUAN PENYELENGGARAAN IBADAH DI BULAN RAMADA...  
1  PENGGUNAAN MIKROBA DAN PRODUK MIKROBIAL DALAM ...  
2                                     AIR DAUR ULANG  
3                                             KIBLAT  
4                                        ARAH KIBLAT  
5  PENGGUNAAN VAKSIN MENINGITIS BAGI JEMAAH HAJI ... 

In [5]:
tokenizer = AutoTokenizer.from_pretrained("indolem/indobert-base-uncased")
model = AutoModel.from_pretrained("indolem/indobert-base-uncased")

In [6]:
def get_embeddings(text, token_length):
    tokens=tokenizer(text,max_length=token_length,padding='max_length',truncation=True)
    output=model(torch.tensor(tokens.input_ids).unsqueeze(0),
                 attention_mask=torch.tensor(tokens.attention_mask).unsqueeze(0))
    return output[1][0].detach().numpy()

In [7]:
def calc_cosine_similarity(array1, array2):
    return np.dot(array1, array2)/(norm(array1)*norm(array2))

In [8]:
n = len(df)
max_length = 40
empty_array = np.zeros((n, n))

In [9]:
vectorize = []
for i in range(n):
    vectorize.append(get_embeddings(df['Judul Fatwa'][i], max_length));

In [10]:
for i in range(len(empty_array[i])):
    for j in range(len(empty_array[i])):
        if (i != j):
          if (empty_array[j][i] == 0):
            similarity = calc_cosine_similarity(vectorize[i],vectorize[j])
            empty_array[i][j] = similarity
          else:
            continue
        else:
          empty_array[i][j] = 1

print(empty_array)

[[1.         0.48819226 0.57455295 ... 0.6199649  0.5013442  0.21256855]
 [0.         1.         0.51580119 ... 0.50838184 0.63107115 0.28830761]
 [0.         0.         1.         ... 0.63391155 0.5606457  0.21805805]
 ...
 [0.         0.         0.         ... 1.         0.63889593 0.32547411]
 [0.         0.         0.         ... 0.         1.         0.27005899]
 [0.         0.         0.         ... 0.         0.         1.        ]]


In [14]:
for i in range(len(empty_array[i])):
    for j in range(len(empty_array[i])):
        if(empty_array[i][j] > 0.8 and empty_array[i][j] < 1):
            print(df['Judul Fatwa'][i], ' | ', df['Judul Fatwa'][j], ' | ', empty_array[i][j]);

AMIL ZAKAT  |  PENGELOLAAN ZAKAT  |  0.8004690408706665
CARA PENSUCIAN EKSTRAK RAGI (YEAST EKSTRACT) DARI SISA PENGOLAHAN BIR (BREWER YEAST)  |  CARA PENSUCIAN EKSTRAK RAGI (YEAST EXTRACT) DARI SISA PENGOLAHAH BIR (BREWER YEAST)  |  0.9222145080566406
BADAL THAWAF IFADHAH (PELAKSANAAN THAWAF IFADHAH OLEH ORANG LAIN)  |  TASWIYAH AL-MANHAJ (PENYAMAAN POLA PIKIR DALAM MASALAH-MASALAH KEAGAMAAN)  |  0.8077623844146729
PENGGUNAAN PLASENTA HEWAN HALAL UNTUK BAHAN OBAT  |  PENGGUNAAN ALKOHOL / ETANOL UNTUK BAHAN OBAT  |  0.80544114112854
PENGGUNAAN PLASENTA HEWAN HALAL UNTUK BAHAN OBAT  |  PENGGUNAAN ALKOHOL/ETANOL UNTUK BAHAN OBAT  |  0.80544114112854
HUKUM PEMBAKARAN HUTAN DAN LAHAN SERTA PENGENDALIANNYA  |  HUKUM ALKOHOL DALAM MINUMAN  |  0.800701916217804
PELAKSANAAN SHALAT JUM'AT, DZIKIR DAN KEGIATAN KEAGAMAAN DI TEMPAT SELAIN MASJID  |  PELAKSAAN SHALAT JUM'AT, DZIKIR, DAN KEGIATAN KEAGAMAAN DI TEMPAT SELAIN MASJID  |  0.873968780040741
TRANSPLANTASI ORGAN DAN ATAU / JARINGAN TUBUH UNT