# Hadits Clustering

### Load data from Excel

In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.set_option('display.max_colwidth', None)
data = pd.read_excel('data.xlsx')
data

Unnamed: 0,Hadits,Riwayah,Kategori
0,Kebersihan itu adalah sebagian dari iman,Muslim,Kebersihan
1,Siapa yang sungguh-sungguh berusaha untuk bersabar maka Allah akan memudahkan kesabaran baginya,Bukhari,Sabar
2,"Jika seorang manusia meninggal, terputuslah amalnya, kecuali dari tiga hal: sedekah jariyah, ilmu yang bermanfaat atau anak shalih yang berdoa untuknya",Muslim,Menuntut Ilmu
3,"Islam itu adalah bersih, maka jadilah kalian orang yang bersih. Sesungguhnya tidak masuk surga kecuali orang-orang yang bersih",Baihaqi,Kebersihan
4,Sabar itu ketika pertama kali mendapatkan musibah,Al-Bazzar dan Abu Ya’la,Sabar
5,Menuntut ilmu itu wajib atas setiap Muslim,Ibnu Majah,Menuntut Ilmu
6,"Jika sabar itu seorang laki-laki, niscaya ia adalah orang yang pemurah dan Allah menyukai orang-orang yang sabar",At Thabrani,Sabar
7,"Siapa yang menempuh jalan untuk mencari ilmu, maka Allah akan mudahkan baginya jalan menuju surga",Muslim,Menuntut Ilmu
8,Agama itu dibangun berasaskan kebersihan,Muslim,Kebersihan
9,Belajarlah kalian ilmu untuk ketentraman dan ketenangan serta rendah hatilah pada orang yang kamu belajar darinya,At Thabrani,Menuntut Ilmu


In [3]:
hadits = list(data['Hadits'])
hadits

['Kebersihan itu adalah sebagian dari iman',
 'Siapa yang sungguh-sungguh berusaha untuk bersabar maka Allah akan memudahkan kesabaran baginya',
 'Jika seorang manusia meninggal, terputuslah amalnya, kecuali dari tiga hal: sedekah jariyah, ilmu yang bermanfaat atau anak shalih yang berdoa untuknya',
 'Islam itu adalah bersih, maka jadilah kalian orang yang bersih. Sesungguhnya tidak masuk surga kecuali orang-orang yang bersih',
 'Sabar itu ketika pertama kali mendapatkan musibah',
 'Menuntut ilmu itu wajib atas setiap Muslim',
 'Jika sabar itu seorang laki-laki, niscaya ia adalah orang yang pemurah dan Allah menyukai orang-orang yang sabar',
 'Siapa yang menempuh jalan untuk mencari ilmu, maka Allah akan mudahkan baginya jalan menuju surga',
 'Agama itu dibangun berasaskan kebersihan',
 'Belajarlah kalian ilmu untuk ketentraman dan ketenangan serta rendah hatilah pada orang yang kamu belajar darinya']

### N-grams: Words Grouping
<b>Bi-grams (2-grams)</b>

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(analyzer='word', ngram_range=(2, 2))
n_grams = vectorizer.fit_transform(data['Hadits'].values.astype('U'))

In [5]:
vectorizer.get_feature_names_out()

array(['adalah bersih', 'adalah orang', 'adalah sebagian', 'agama itu',
       'akan memudahkan', 'akan mudahkan', 'allah akan', 'allah menyukai',
       'amalnya kecuali', 'anak shalih', 'atas setiap', 'atau anak',
       'baginya jalan', 'belajar darinya', 'belajarlah kalian',
       'berasaskan kebersihan', 'berdoa untuknya', 'bermanfaat atau',
       'bersabar maka', 'bersih maka', 'bersih sesungguhnya',
       'berusaha untuk', 'dan allah', 'dan ketenangan', 'dari iman',
       'dari tiga', 'dibangun berasaskan', 'hal sedekah', 'hatilah pada',
       'ia adalah', 'ilmu itu', 'ilmu maka', 'ilmu untuk', 'ilmu yang',
       'islam itu', 'itu adalah', 'itu dibangun', 'itu ketika',
       'itu seorang', 'itu wajib', 'jadilah kalian', 'jalan menuju',
       'jalan untuk', 'jariyah ilmu', 'jika sabar', 'jika seorang',
       'kali mendapatkan', 'kalian ilmu', 'kalian orang', 'kamu belajar',
       'kebersihan itu', 'kecuali dari', 'kecuali orang',
       'kesabaran baginya', 'ketenangan 

<b>Tri-grams (3-grams)</b>

In [6]:
vectorizer = CountVectorizer(analyzer='word', ngram_range=(3, 3))
n_grams = vectorizer.fit_transform(data['Hadits'].values.astype('U'))

In [7]:
vectorizer.get_feature_names_out()

array(['adalah bersih maka', 'adalah orang yang', 'adalah sebagian dari',
       'agama itu dibangun', 'akan memudahkan kesabaran',
       'akan mudahkan baginya', 'allah akan memudahkan',
       'allah akan mudahkan', 'allah menyukai orang',
       'amalnya kecuali dari', 'anak shalih yang', 'atas setiap muslim',
       'atau anak shalih', 'baginya jalan menuju',
       'belajarlah kalian ilmu', 'bermanfaat atau anak',
       'bersabar maka allah', 'bersih maka jadilah',
       'bersih sesungguhnya tidak', 'berusaha untuk bersabar',
       'dan allah menyukai', 'dan ketenangan serta', 'dari tiga hal',
       'dibangun berasaskan kebersihan', 'hal sedekah jariyah',
       'hatilah pada orang', 'ia adalah orang', 'ilmu itu wajib',
       'ilmu maka allah', 'ilmu untuk ketentraman',
       'ilmu yang bermanfaat', 'islam itu adalah', 'itu adalah bersih',
       'itu adalah sebagian', 'itu dibangun berasaskan',
       'itu ketika pertama', 'itu seorang laki', 'itu wajib atas',
       'jadi

# NLP Preprocessing
Stemming, Stop Words Removal, and Tokenizing

### Stemming

In [8]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

stem_words = []

# stemming process
for item in hadits:
    output = stemmer.stem(item)
    stem_words.append(output)

stem_words

['bersih itu adalah bagi dari iman',
 'siapa yang sungguh usaha untuk sabar maka allah akan mudah sabar bagi',
 'jika orang manusia tinggal putus amal kecuali dari tiga hal sedekah jariyah ilmu yang manfaat atau anak shalih yang doa untuk',
 'islam itu adalah bersih maka jadi kalian orang yang bersih sungguh tidak masuk surga kecuali orang yang bersih',
 'sabar itu ketika pertama kali dapat musibah',
 'tuntut ilmu itu wajib atas tiap muslim',
 'jika sabar itu orang laki niscaya ia adalah orang yang murah dan allah suka orang yang sabar',
 'siapa yang tempuh jalan untuk cari ilmu maka allah akan mudah bagi jalan tuju surga',
 'agama itu bangun asas bersih',
 'bajar kalian ilmu untuk ketentraman dan tenang serta rendah hati pada orang yang kamu ajar dari']

### Stop Words Removal

In [9]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

# create stop words removal
factory = StopWordRemoverFactory()
stopwords = factory.create_stop_word_remover()

stopwords_result = []

# stop words removal process
for item in stem_words:
    output = stopwords.remove(item)
    stopwords_result.append(output)

stopwords_result

['bersih iman',
 'sungguh usaha sabar allah mudah sabar',
 'manusia tinggal putus amal kecuali sedekah jariyah ilmu manfaat anak shalih doa',
 'islam bersih bersih sungguh surga kecuali bersih',
 'sabar musibah',
 'tuntut ilmu wajib muslim',
 'sabar laki niscaya murah allah suka sabar',
 'tempuh jalan cari ilmu allah mudah jalan surga',
 'agama bangun asas bersih',
 'bajar ilmu ketentraman tenang rendah hati ajar']

### Merge into DataFrame

In [10]:
data = data.drop(columns=['Hadits'])

In [11]:
pd.set_option('display.max_colwidth', None)
data.insert(0, "Hadits", stopwords_result, True)
data

Unnamed: 0,Hadits,Riwayah,Kategori
0,bersih iman,Muslim,Kebersihan
1,sungguh usaha sabar allah mudah sabar,Bukhari,Sabar
2,manusia tinggal putus amal kecuali sedekah jariyah ilmu manfaat anak shalih doa,Muslim,Menuntut Ilmu
3,islam bersih bersih sungguh surga kecuali bersih,Baihaqi,Kebersihan
4,sabar musibah,Al-Bazzar dan Abu Ya’la,Sabar
5,tuntut ilmu wajib muslim,Ibnu Majah,Menuntut Ilmu
6,sabar laki niscaya murah allah suka sabar,At Thabrani,Sabar
7,tempuh jalan cari ilmu allah mudah jalan surga,Muslim,Menuntut Ilmu
8,agama bangun asas bersih,Muslim,Kebersihan
9,bajar ilmu ketentraman tenang rendah hati ajar,At Thabrani,Menuntut Ilmu


### 1st Feature Extraction : TF-IDF Vectorizer

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Vectorizer to convert a collection of raw text to a matrix of TF-IDF features
vectorizer = TfidfVectorizer()

In [13]:
# Learn vocabulary and idf, return text matrix.
tfidf = vectorizer.fit_transform(data['Hadits'].values.astype('U'))
print(tfidf)

  (0, 13)	0.8024086456077293
  (0, 8)	0.5967749705324189
  (1, 22)	0.3723968219674235
  (1, 2)	0.3258032141960123
  (1, 29)	0.6516064283920247
  (1, 39)	0.43806682375507827
  (1, 33)	0.3723968219674235
  (2, 10)	0.29934379473347933
  (2, 31)	0.29934379473347933
  (2, 4)	0.29934379473347933
  (2, 20)	0.29934379473347933
  (2, 12)	0.19793474094935037
  (2, 16)	0.29934379473347933
  (2, 30)	0.29934379473347933
  (2, 17)	0.2544695735661133
  (2, 3)	0.29934379473347933
  (2, 27)	0.29934379473347933
  (2, 37)	0.29934379473347933
  (2, 21)	0.29934379473347933
  (3, 34)	0.2978440463447951
  (3, 14)	0.35036710213396627
  (3, 17)	0.2978440463447951
  (3, 33)	0.2978440463447951
  (3, 8)	0.7817350356182876
  (4, 24)	0.8024086456077293
  :	:
  (5, 12)	0.3566546401133593
  (6, 32)	0.3844542504197235
  (6, 23)	0.3844542504197235
  (6, 26)	0.3844542504197235
  (6, 19)	0.3844542504197235
  (6, 2)	0.285929962521186
  (6, 29)	0.571859925042372
  (7, 9)	0.3443025723968618
  (7, 15)	0.6886051447937236
  (7

### Tokenization from TF-IDF Vectorizer

In [14]:
# Array mapping from feature integer indices to feature name
words = vectorizer.get_feature_names_out()
words

array(['agama', 'ajar', 'allah', 'amal', 'anak', 'asas', 'bajar',
       'bangun', 'bersih', 'cari', 'doa', 'hati', 'ilmu', 'iman', 'islam',
       'jalan', 'jariyah', 'kecuali', 'ketentraman', 'laki', 'manfaat',
       'manusia', 'mudah', 'murah', 'musibah', 'muslim', 'niscaya',
       'putus', 'rendah', 'sabar', 'sedekah', 'shalih', 'suka', 'sungguh',
       'surga', 'tempuh', 'tenang', 'tinggal', 'tuntut', 'usaha', 'wajib'],
      dtype=object)

### Cosine Similarity and Similarity Matrix (optional)

In [15]:
from sklearn.metrics.pairwise import cosine_similarity

# Compute cosine similarity between samples in X and Y.
similarity_matrix = cosine_similarity(tfidf, tfidf)

In [16]:
# Matrix product
similarity_matrix

array([[1.        , 0.        , 0.        , 0.4665199 , 0.        ,
        0.        , 0.        , 0.        , 0.23546146, 0.        ],
       [0.        , 1.        , 0.        , 0.11091618, 0.38886241,
        0.        , 0.4657845 , 0.19242409, 0.        , 0.        ],
       [0.        , 0.        , 1.        , 0.07579225, 0.        ,
        0.07059434, 0.        , 0.04506237, 0.        , 0.05158513],
       [0.4665199 , 0.11091618, 0.07579225, 1.        , 0.        ,
        0.        , 0.        , 0.08717557, 0.30843866, 0.        ],
       [0.        , 0.38886241, 0.        , 0.        , 1.        ,
        0.        , 0.34127169, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.07059434, 0.        , 0.        ,
        1.        , 0.        , 0.08119699, 0.        , 0.0929502 ],
       [0.        , 0.4657845 , 0.        , 0.        , 0.34127169,
        0.        , 1.        , 0.07321751, 0.        , 0.        ],
       [0.        , 0.19242409, 0.0450623

### Predict category using Cosine Similarity (optional)

In [17]:
# Instead of using fit_transform, you need to first fit 
# the new text to the TFIDF matrix corpus like this:
queryTFIDF = TfidfVectorizer().fit(words)

In [18]:
# We can check that using a new predict text
predict_text = 'ilmu'

In [19]:
# Now we can 'transform' this vector into that matrix shape by using the transform function:
queryTFIDF = queryTFIDF.transform([predict_text])

In [20]:
# As we transformed our query in a tfidf object
# we can calculate the cosine similarity in comparison with 
# our pevious corpora
cosine_similarities = cosine_similarity(queryTFIDF, tfidf).flatten()
cosine_similarities

array([0.        , 0.        , 0.19793474, 0.        , 0.        ,
       0.35665464, 0.        , 0.22766278, 0.        , 0.26061684])

In [21]:
result = np.where(cosine_similarities != 0.0)
print("Prediksi kategori \'{}\' terkait pada urutan Hadits:".format(predict_text), list(np.array(result).flatten()))

Prediksi kategori 'ilmu' terkait pada urutan Hadits: [2, 5, 7, 9]


### 2nd Feature Extraction : N-grams
<b>Used 1-grams only for Feature Extraction comparison</b>

In [22]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(analyzer='word', ngram_range=(1, 1))
n_grams = vectorizer.fit_transform(data['Hadits'].values.astype('U'))

### Tokenization from N-grams

In [23]:
vectorizer.get_feature_names_out()

array(['agama', 'ajar', 'allah', 'amal', 'anak', 'asas', 'bajar',
       'bangun', 'bersih', 'cari', 'doa', 'hati', 'ilmu', 'iman', 'islam',
       'jalan', 'jariyah', 'kecuali', 'ketentraman', 'laki', 'manfaat',
       'manusia', 'mudah', 'murah', 'musibah', 'muslim', 'niscaya',
       'putus', 'rendah', 'sabar', 'sedekah', 'shalih', 'suka', 'sungguh',
       'surga', 'tempuh', 'tenang', 'tinggal', 'tuntut', 'usaha', 'wajib'],
      dtype=object)

### Clustering using K-Means from N-grams

In [24]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=0).fit(n_grams)

In [25]:
kmeans_result = kmeans.predict(n_grams)
print(kmeans_result)

[0 0 1 2 0 0 0 0 0 0]


In [26]:
# Show cluster results
for cluster_number in range(3):
    print('cluster: ', cluster_number)
    kmeans_group = np.where(kmeans_result == cluster_number)
    print(kmeans_group)

cluster:  0
(array([0, 1, 4, 5, 6, 7, 8, 9]),)
cluster:  1
(array([2]),)
cluster:  2
(array([3]),)


<p>Eww.. that's not what we wanted..</p>

### Clustering using K-Means from TF-IDF

In [27]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=0).fit(tfidf)

In [28]:
kmeans_result = kmeans.predict(tfidf)
print(kmeans_result)

[1 2 0 1 2 0 2 0 1 0]


In [29]:
# Show cluster results
for cluster_number in range(3):
    print('cluster: ', cluster_number)
    kmeans_group = np.where(kmeans_result == cluster_number)
    print(kmeans_group)

cluster:  0
(array([2, 5, 7, 9]),)
cluster:  1
(array([0, 3, 8]),)
cluster:  2
(array([1, 4, 6]),)


### Analisis hasil Cluster
Dari hasil Cluster, kita dapat menyimpulkan bahwa:<br>
cluster 0: Menuntut ilmu<br>
cluster 1: Kebersihan<br>
cluster 2: Sabar<br>

### Evaluation Metrics

In [30]:
y_true = np.array([1, 2, 0, 1, 2, 0, 2, 0, 1, 0])
# Actual label on dataset: 0 (Menuntut ilmu), 1 (Kebersihan), 2 (Sabar)

y_pred = kmeans_result

In [31]:
from sklearn.metrics import accuracy_score
print("Accuracy score:", accuracy_score(y_true, y_pred))

Accuracy score: 1.0


In [32]:
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         3
           2       1.00      1.00      1.00         3

    accuracy                           1.00        10
   macro avg       1.00      1.00      1.00        10
weighted avg       1.00      1.00      1.00        10

