## Term Frequency-Inverse Document Frequency (TF-IDF)
Term Frequency - Inverse Document Frequency (TF-IDF) is a widely used statistical method in natural language processing and information retrieval. **It measures how important a term is within a document relative to a collection of documents** (i.e., relative to a corpus).
- **Term Frequency:** TF of a term or word is the number of times the term appears in a document compared to the total number of words in the document.
- **Inverse Document Frequency:** IDF of a term reflects the proportion of documents in the corpus that contain the term. Words unique to a small percentage of documents (e.g., technical jargon terms) receive higher importance values than words common across all documents (e.g., a, the, and).

### About Project
This project devided into **three notebooks** that explained the usage of TF-IDF using **Bahasa Indonesia & English.** The process flow of this project start from data collection (corpus) to pre-processing and algorithm fitting, the detailed steps explained below:
1. **Data Collection (self-produce)**
2. **Text Pre-Processing (Case Folding, Punctuation Removal, Tokenizing, Applying Stop Words, Stemming)**
3. **Fitting the TF-IDF Algorithm**
4. **Testing for Input and Output**

#### The Notebook Divided into three sub-process:
1. text-preprocessing-english.ipynb
2. text-preprocessing-indonesia.ipynb
3. implementation.ipynb

### Listing library used in this project

In [1]:
# General text-processing using NLTK
!pip install nltk



In [2]:
# Puncuation Removal using REGEX
!pip install regex



In [3]:
# TF-IDF Algorithm using sklearn
!pip install scikit-learn



In [4]:
# Numpy for numerical manipulation
!pip install numpy



In [5]:
# Dataframe manipulation using Pandas
!pip install pandas



In [6]:
# Stemming in Indonesia
!pip install sastrawi



## Library Initialization

In [7]:
import numpy as np
import pandas as pd

import regex as re
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

from sklearn.feature_extraction.text import TfidfVectorizer

## Importing Dataset

In [8]:
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.max_colwidth', 1000)

dataset = pd.read_csv("corpus-indonesia.csv")
dataset

Unnamed: 0,id,teks,topik
0,IND1,MAKHLUK HIDUP ADALAH OBJEK KAJIAN UTAMA DALAM BIDANG BIOLOGI.,biologi
1,IND2,Biologi seluler = cabang biologi yang mempelajari struktur dan fungsi sel-sel dalam makhluk hidup.,biologi
2,IND3,Apa Saja Jenis-Jenis Sel yang Ada pada Makhluk Hidup?,sel
3,IND4,Sel merupakan istilah biologi untuk unit dasar dari kehidupan.,sel
4,IND5,Inti sel mengandung materi genetik dalam bentuk DNA.,dna
5,IND6,Gen adalah instruksi yang disimpan dalam DNA suatu sel.,dna
6,IND7,Mengapa sel disebut sebagai unit terkecil yang menyusun tubuh makhluk hidup?,sel
7,IND8,"Dalam biologi perkembangan, diferensiasi sel adalah proses di mana sel-sel mengembangkan fungsi spesifik.",biologi
8,IND9,"Makhluk hidup uniseluler adalah makhluk hidup yang hanya memilki sebuah sel tunggal, sedangkan multiseluler adalah makhluk hidup atau organisme yang memiliki lebih dari satu sel.",sel
9,IND10,BIOKIMIA ADALAH CABANG BIOLOGI YANG MEMPELAJARI KIMIA DASAR DALAM KEHIDUPAN MAKHLUK HIDUP.,biologi


### Function Support

In [9]:
def listToString(s):
    str1 = " "
    return (str1.join(s))

## Text Pre-processing

In [10]:
text = dataset.teks.to_list()

In [11]:
pd.DataFrame(text)

Unnamed: 0,0
0,MAKHLUK HIDUP ADALAH OBJEK KAJIAN UTAMA DALAM BIDANG BIOLOGI.
1,Biologi seluler = cabang biologi yang mempelajari struktur dan fungsi sel-sel dalam makhluk hidup.
2,Apa Saja Jenis-Jenis Sel yang Ada pada Makhluk Hidup?
3,Sel merupakan istilah biologi untuk unit dasar dari kehidupan.
4,Inti sel mengandung materi genetik dalam bentuk DNA.
5,Gen adalah instruksi yang disimpan dalam DNA suatu sel.
6,Mengapa sel disebut sebagai unit terkecil yang menyusun tubuh makhluk hidup?
7,"Dalam biologi perkembangan, diferensiasi sel adalah proses di mana sel-sel mengembangkan fungsi spesifik."
8,"Makhluk hidup uniseluler adalah makhluk hidup yang hanya memilki sebuah sel tunggal, sedangkan multiseluler adalah makhluk hidup atau organisme yang memiliki lebih dari satu sel."
9,BIOKIMIA ADALAH CABANG BIOLOGI YANG MEMPELAJARI KIMIA DASAR DALAM KEHIDUPAN MAKHLUK HIDUP.


## Data Cleaning
This process has a purpose to remove the punctuation and normalize the word lettering to lowercase

In [12]:
clean_text = []
for index, teks in enumerate(text):
    clean = re.sub(r'[^\w\s]','',teks.lower())
    
    # remove consecutive identical words ex(organelorganel)
    clean = re.sub(r'\b(\w+)\1{1,}', '\\1', clean)
    clean_text.append(clean)
print(clean_text)

['makhluk hidup adalah objek kajian utama dalam bidang biologi', 'biologi seluler  cabang biologi yang mempelajari struktur dan fungsi sel dalam makhluk hidup', 'apa saja jenis sel yang ada pada makhluk hidup', 'sel merupakan istilah biologi untuk unit dasar dari kehidupan', 'inti sel mengandung materi genetik dalam bentuk dna', 'gen adalah instruksi yang disimpan dalam dna suatu sel', 'mengapa sel disebut sebagai unit terkecil yang menyusun tubuh makhluk hidup', 'dalam biologi perkembangan diferensiasi sel adalah proses di mana sel mengembangkan fungsi spesifik', 'makhluk hidup uniseluler adalah makhluk hidup yang hanya memilki sebuah sel tunggal sedangkan multiseluler adalah makhluk hidup atau organisme yang memiliki lebih dari satu sel', 'biokimia adalah cabang biologi yang mempelajari kimia dasar dalam kehidupan makhluk hidup', 'mengapa studi tentang biologi dapat membantu kita memahami cara kerja berbagai sistem dalam makhluk hidup', 'evolusi adalah proses utama dalam biologi yang

## Sentence Tokenizing
This process has a purpose to transform clean text into a list of sentences

In [13]:
# Split clean text into a list of sentences
split_sentences = []
for index, teks in enumerate(clean_text):
  sentences = sent_tokenize(teks)
  split_sentences.append(sentences)
# print(sentences)
print(split_sentences)

[['makhluk hidup adalah objek kajian utama dalam bidang biologi'], ['biologi seluler  cabang biologi yang mempelajari struktur dan fungsi sel dalam makhluk hidup'], ['apa saja jenis sel yang ada pada makhluk hidup'], ['sel merupakan istilah biologi untuk unit dasar dari kehidupan'], ['inti sel mengandung materi genetik dalam bentuk dna'], ['gen adalah instruksi yang disimpan dalam dna suatu sel'], ['mengapa sel disebut sebagai unit terkecil yang menyusun tubuh makhluk hidup'], ['dalam biologi perkembangan diferensiasi sel adalah proses di mana sel mengembangkan fungsi spesifik'], ['makhluk hidup uniseluler adalah makhluk hidup yang hanya memilki sebuah sel tunggal sedangkan multiseluler adalah makhluk hidup atau organisme yang memiliki lebih dari satu sel'], ['biokimia adalah cabang biologi yang mempelajari kimia dasar dalam kehidupan makhluk hidup'], ['mengapa studi tentang biologi dapat membantu kita memahami cara kerja berbagai sistem dalam makhluk hidup'], ['evolusi adalah proses u

## Word Tokenizing
This process has a purpose to split the list of sentences into list of words

In [14]:
split_words = []
for index, sentence in enumerate(split_sentences):
    words = word_tokenize(listToString(split_sentences[index]))
    split_words.append(words)
print(split_words)

[['makhluk', 'hidup', 'adalah', 'objek', 'kajian', 'utama', 'dalam', 'bidang', 'biologi'], ['biologi', 'seluler', 'cabang', 'biologi', 'yang', 'mempelajari', 'struktur', 'dan', 'fungsi', 'sel', 'dalam', 'makhluk', 'hidup'], ['apa', 'saja', 'jenis', 'sel', 'yang', 'ada', 'pada', 'makhluk', 'hidup'], ['sel', 'merupakan', 'istilah', 'biologi', 'untuk', 'unit', 'dasar', 'dari', 'kehidupan'], ['inti', 'sel', 'mengandung', 'materi', 'genetik', 'dalam', 'bentuk', 'dna'], ['gen', 'adalah', 'instruksi', 'yang', 'disimpan', 'dalam', 'dna', 'suatu', 'sel'], ['mengapa', 'sel', 'disebut', 'sebagai', 'unit', 'terkecil', 'yang', 'menyusun', 'tubuh', 'makhluk', 'hidup'], ['dalam', 'biologi', 'perkembangan', 'diferensiasi', 'sel', 'adalah', 'proses', 'di', 'mana', 'sel', 'mengembangkan', 'fungsi', 'spesifik'], ['makhluk', 'hidup', 'uniseluler', 'adalah', 'makhluk', 'hidup', 'yang', 'hanya', 'memilki', 'sebuah', 'sel', 'tunggal', 'sedangkan', 'multiseluler', 'adalah', 'makhluk', 'hidup', 'atau', 'organi

## Implementing Stop Words in Indonesian
This process has a purpose to remove words that have no meaning using Indonesian stopwords

In [15]:
# stopwords in indonesia
indonesian_stop = stopwords.words('indonesian')
print(len(indonesian_stop), "stopwords in Indonesia:\n", indonesian_stop)

758 stopwords in Indonesia:
 ['ada', 'adalah', 'adanya', 'adapun', 'agak', 'agaknya', 'agar', 'akan', 'akankah', 'akhir', 'akhiri', 'akhirnya', 'aku', 'akulah', 'amat', 'amatlah', 'anda', 'andalah', 'antar', 'antara', 'antaranya', 'apa', 'apaan', 'apabila', 'apakah', 'apalagi', 'apatah', 'artinya', 'asal', 'asalkan', 'atas', 'atau', 'ataukah', 'ataupun', 'awal', 'awalnya', 'bagai', 'bagaikan', 'bagaimana', 'bagaimanakah', 'bagaimanapun', 'bagi', 'bagian', 'bahkan', 'bahwa', 'bahwasanya', 'baik', 'bakal', 'bakalan', 'balik', 'banyak', 'bapak', 'baru', 'bawah', 'beberapa', 'begini', 'beginian', 'beginikah', 'beginilah', 'begitu', 'begitukah', 'begitulah', 'begitupun', 'bekerja', 'belakang', 'belakangan', 'belum', 'belumlah', 'benar', 'benarkah', 'benarlah', 'berada', 'berakhir', 'berakhirlah', 'berakhirnya', 'berapa', 'berapakah', 'berapalah', 'berapapun', 'berarti', 'berawal', 'berbagai', 'berdatangan', 'beri', 'berikan', 'berikut', 'berikutnya', 'berjumlah', 'berkali-kali', 'berkata', 

#### Comparsion of before and after implementing stopwords

In [16]:
print(split_words, sep=', ')

[['makhluk', 'hidup', 'adalah', 'objek', 'kajian', 'utama', 'dalam', 'bidang', 'biologi'], ['biologi', 'seluler', 'cabang', 'biologi', 'yang', 'mempelajari', 'struktur', 'dan', 'fungsi', 'sel', 'dalam', 'makhluk', 'hidup'], ['apa', 'saja', 'jenis', 'sel', 'yang', 'ada', 'pada', 'makhluk', 'hidup'], ['sel', 'merupakan', 'istilah', 'biologi', 'untuk', 'unit', 'dasar', 'dari', 'kehidupan'], ['inti', 'sel', 'mengandung', 'materi', 'genetik', 'dalam', 'bentuk', 'dna'], ['gen', 'adalah', 'instruksi', 'yang', 'disimpan', 'dalam', 'dna', 'suatu', 'sel'], ['mengapa', 'sel', 'disebut', 'sebagai', 'unit', 'terkecil', 'yang', 'menyusun', 'tubuh', 'makhluk', 'hidup'], ['dalam', 'biologi', 'perkembangan', 'diferensiasi', 'sel', 'adalah', 'proses', 'di', 'mana', 'sel', 'mengembangkan', 'fungsi', 'spesifik'], ['makhluk', 'hidup', 'uniseluler', 'adalah', 'makhluk', 'hidup', 'yang', 'hanya', 'memilki', 'sebuah', 'sel', 'tunggal', 'sedangkan', 'multiseluler', 'adalah', 'makhluk', 'hidup', 'atau', 'organi

In [17]:
split_stop = []
for index, words in enumerate(split_words):
    wordsFiltered = [w for w in words if w not in indonesian_stop]
    split_stop.append(wordsFiltered)
print(split_stop)

[['makhluk', 'hidup', 'objek', 'kajian', 'utama', 'bidang', 'biologi'], ['biologi', 'seluler', 'cabang', 'biologi', 'mempelajari', 'struktur', 'fungsi', 'sel', 'makhluk', 'hidup'], ['jenis', 'sel', 'makhluk', 'hidup'], ['sel', 'istilah', 'biologi', 'unit', 'dasar', 'kehidupan'], ['inti', 'sel', 'mengandung', 'materi', 'genetik', 'bentuk', 'dna'], ['gen', 'instruksi', 'disimpan', 'dna', 'sel'], ['sel', 'unit', 'terkecil', 'menyusun', 'tubuh', 'makhluk', 'hidup'], ['biologi', 'perkembangan', 'diferensiasi', 'sel', 'proses', 'sel', 'mengembangkan', 'fungsi', 'spesifik'], ['makhluk', 'hidup', 'uniseluler', 'makhluk', 'hidup', 'memilki', 'sel', 'tunggal', 'multiseluler', 'makhluk', 'hidup', 'organisme', 'memiliki', 'sel'], ['biokimia', 'cabang', 'biologi', 'mempelajari', 'kimia', 'dasar', 'kehidupan', 'makhluk', 'hidup'], ['studi', 'biologi', 'membantu', 'memahami', 'kerja', 'sistem', 'makhluk', 'hidup'], ['evolusi', 'proses', 'utama', 'biologi', 'perubahan', 'populasi', 'makhluk', 'hidup']

## Stemming
This process has a purpose to find the root word of each word

In [18]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [19]:
dic_stem = {"nomor":[], "parameter":[], "kata":[]}
list_index = []
list_param = []
list_stem = []
for index, stop in enumerate(split_stop):
    for parameter, kata in enumerate(stop):
        stemword = stemmer.stem(kata)
        dic_stem["nomor"].append(index)
        dic_stem["parameter"].append(parameter)
        dic_stem["kata"].append(stemword)
# dic_stem
word_stemmed = pd.DataFrame(dic_stem)
word_stemmed.head(10)

Unnamed: 0,nomor,parameter,kata
0,0,0,makhluk
1,0,1,hidup
2,0,2,objek
3,0,3,kaji
4,0,4,utama
5,0,5,bidang
6,0,6,biologi
7,1,0,biologi
8,1,1,seluler
9,1,2,cabang


In [20]:
stembeneran = []
for index in range(0,15) :
    var = ' '.join(word_stemmed[word_stemmed.nomor == index].kata)
    stembeneran.append(var)
print(stembeneran, sep=', ')

['makhluk hidup objek kaji utama bidang biologi', 'biologi seluler cabang biologi ajar struktur fungsi sel makhluk hidup', 'jenis sel makhluk hidup', 'sel istilah biologi unit dasar hidup', 'inti sel kandung materi genetik bentuk dna', 'gen instruksi simpan dna sel', 'sel unit kecil susun tubuh makhluk hidup', 'biologi kembang diferensiasi sel proses sel kembang fungsi spesifik', 'makhluk hidup uniseluler makhluk hidup memilki sel tunggal multiseluler makhluk hidup organisme milik sel', 'biokimia cabang biologi ajar kimia dasar hidup makhluk hidup', 'studi biologi bantu paham kerja sistem makhluk hidup', 'evolusi proses utama biologi ubah populasi makhluk hidup', 'proses evolusi bentuk agam jenis sel dunia', 'evolusi sel hasil organel kompleks mitokondria kloroplas', 'teliti baru evolusi sel lanjut respons tekan seleksi lingkung ubah']


### Transform the clean dataset dan export it into csv

In [21]:
clean_dataset = pd.DataFrame(stembeneran)
clean_dataset = clean_dataset.rename(columns={0: 'teks'})

In [22]:
clean_dataset

Unnamed: 0,teks
0,makhluk hidup objek kaji utama bidang biologi
1,biologi seluler cabang biologi ajar struktur fungsi sel makhluk hidup
2,jenis sel makhluk hidup
3,sel istilah biologi unit dasar hidup
4,inti sel kandung materi genetik bentuk dna
5,gen instruksi simpan dna sel
6,sel unit kecil susun tubuh makhluk hidup
7,biologi kembang diferensiasi sel proses sel kembang fungsi spesifik
8,makhluk hidup uniseluler makhluk hidup memilki sel tunggal multiseluler makhluk hidup organisme milik sel
9,biokimia cabang biologi ajar kimia dasar hidup makhluk hidup


In [23]:
clean_dataset.to_csv('clean-corpus-indonesia.csv')