In [126]:
from sklearn.feature_extraction.text import TfidfVectorizer
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

import re
import tqdm
import pandas as pd
import numpy as np

In [127]:
def load_stopwords(file):
    return [line.rstrip('\n\r') for line in open(file)]

def text_lower(text):
  return text.lower()

def remove_entities(text):
  return re.sub(r'\[[^]]*\]', '', text)

def case_folding(text):
  return re.sub(r'[^a-z]', ' ', re.sub("'", '', text))

def stemming(text):
  return stemmer.stem(text)

def stopwords_removal(texts):
  texts_token = texts.split()
  not_stopword = []
  for token in texts_token:
    if token not in stopwords:
      not_stopword.append(token)
  return ' '.join(not_stopword)

def preprocessing(text):
  tx_lower = text_lower(text)
  tx_remove_entities = remove_entities(tx_lower)
  tx_case_folding = case_folding(tx_remove_entities)
  tx_stemming = stemming(tx_case_folding)
  tx_stopword = stopwords_removal(tx_stemming)
  return tx_stopword

In [128]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()
stopwords = load_stopwords('../data_label/stopwords/stopword_list_TALA.txt')

In [129]:
hadist_df = pd.read_csv('../trained/had_abudaud.csv')
df_hadist_bukhari =pd.read_csv('../datasets/had_abudaud.csv',names=['L1','L2','Text'])

In [130]:
vectorizer = TfidfVectorizer()

In [131]:
X = vectorizer.fit_transform(hadist_df.Text)

In [132]:
vectorizer.get_feature_names()[:10]

['aabatil',
 'aabiduuna',
 'aadait',
 'aafinii',
 'aafiyata',
 'aafiyatika',
 'aaidzan',
 'aajili',
 'aajilihi',
 'aajirnii']

In [133]:
sentence = 'bagaimana cara bercerai ?'

In [134]:
sent_prep = preprocessing(sentence)

In [135]:
query = sent_prep.split()
res = np.zeros(X.shape[0])
not_in_corpus = []

for keyword in query:
    try:
        res += X.toarray()[:,vectorizer.get_feature_names().index(keyword)]
    except:
        not_in_corpus,append(keyword)
        res = np.zeros(X.shape[0])

In [136]:
not_in_corpus

[]

In [137]:
res

array([0., 0., 0., ..., 0., 0., 0.])

In [138]:
sum(res)

15.99952464084772

In [139]:
top_idx = np.argsort(-res)[:10]
top_idx

array([1340, 1391, 1336, 1812, 1337, 3819, 1346, 1334, 1347, 1335])

In [140]:
valid = False
if sum(res)>0:
    valid = True

if valid:
    for i in range(len(top_idx)):
        print(res[top_idx[i]], df_hadist_bukhari.iloc[top_idx[i]][2])
else:
    print('dindt match, someting wrong')

0.7479361991822463 Telah menceritakan kepada kami [Bisyr bin Hilal], bahwa [Ja'far Sulaiman], ia telah menceritakan kepada mereka dari [Yazid Ar Risyk], dari [Mutharrif bin Abdullah], bahwa [Imran bin Hushain] ditanya mengenai seorang laki-laki yang mencerai isterinya kemudian menggaulinya dan tidak mempersaksikan perceraiannya dan tidak pula pencabutan perceraiannya. Ia berkata; engkau mencerai tidak secara sunah dan kembali tidak secara sunah. Persaksikan atas perceraiannya dan ruju' (kembali kapadanya), dan jangan engkau ulang hal itu lagi! 
0.6854545489891136 Telah menceritakan kepada kami [Sulaiman bin Abdul Hamid Al Bahrani], telah menceritakan kepada kami [Yahya bin Shalih], telah menceritakan kepada kami [Isma'il bin 'Ayyasy], telah menceritakan kepadaku ['Amr bin Muhajir] dari [ayahnya] dari [Asma` binti Yazid bin As Sakan Al Anshariyyah] bahwa ia telah dicerai pada zaman Rasulullah shallallahu 'alaihi wasallam dan wanita yang dicerai tidak memiliki 'iddah, kemudian Allah 'azz