## Menghitung TF-IDF

##### Inisialisasi Library yang diperlukan untuk mengkalkulasi TF-IDF

In [1]:
import math

##### Kalkulasi TF-IDF

In [3]:
class TFIDFVectorizer:
    # Menginisialisasi Variable yang diperlukan untuk mengkalkulasi TF-IDF
    def __init__(self):
        self.documents = {}
        self.document_length = {}
        self.tf = {}
        self.idf = {}
        self.idf_tokens = []
        self.tfidf = {}
        self.lowest_value = 0
        self.highest_value = 0

    # Mengkalkulasi TF (Term Frequency) dari setiap dokumen dengan formula (Total Term/Frequency per term)
    def TermFrequency(self):
        # Iterasi seluruh dokumen dan kata didalam dokumen untuk menemukan jumlah tiap kata dalam dokumen 
        for index, document in self.documents.items():
            self.tf[index] = {}
            for word in document:
                if word in self.tf[index]:
                    self.tf[index][word] +=1
                else:
                    self.tf[index][word] = 1

            # Mengiterasi seluruh dokumen untuk menghitung Term Frequency dengan cara membagi frekuensi per term dengan total kata
            self.tf[index] = {key: term_frequency/sum(self.tf[index].values()) for key, term_frequency in self.tf[index].items()}
        
    # Mengkalkulasi IDF (Inverse Document Frequency) dari semua dokumen dengan formula (log(All document with term/Total Documents))
    def InverseDocumentFrequency(self):
        # Menginisialisasi variable yang diperlukan dalam kalkulasi IDF
        self.document_length = len(self.documents)
        self.idf_tokens = set()

        # Memilah kata secara unik
        for document in self.documents.values():
            self.idf_tokens.update(document)
        
        # Mengiterasi seluruh token untuk dikomparasikan di iterasi dokumen
        for token in self.idf_tokens:
            self.idf[token] = 0
            for document in self.documents.values():
                if token in document:
                    self.idf[token] += 1
                else:
                    self.idf[token] = 1
        
        self.idf = {key: math.log(self.document_length/value) for key, value in self.idf.items()}


    # Mengkalkulasi TF-IDF dengan formula (TF*IDF)
    def TFIDF(self):
        # Kalkulasi TF-IDF dengan cara mengiterasi seluruh tf values dan dikali dengan idf dengan key tf word
        for index, document in self.tf.items():
            self.tfidf[index] = {}
            for word, values in document.items():
                self.tfidf[index][word] = values*self.idf[word]

        # Menormalisasi TF-IDF Agar lebih mudah untuk dianalisa secara deskriptif
        all_values = [value for dict in self.tfidf.values() for value in dict.values()]
        self.highest_value = max(all_values)
        self.lowest_value = min(all_values)

        # Kalkulasi normalisasi dengan rumus (values-min(data)/max(data)-min(data))
        for index, document in self.tfidf.items():
            for word, values in document.items():
                self.tfidf[index][word] = (values-self.lowest_value/self.highest_value-self.lowest_value)
                

    def Train(self, documents = {}, treshold = 0.1):
        self.documents = documents
        self.TermFrequency()
        self.InverseDocumentFrequency()
        self.TFIDF()

        return(self.tfidf)

##### Mengkalkulasi data TF-IDF dari data train
