# N-grams:
Apa itu N-grams? N-gram adalah sequence of word yang ada di dalam kalimat. Sebelumnya kita sudah mengenal yang namanya Word Tokenize dimana dia bakal mecah-mecah setiap kata yang terkandung di dalam sebuah kalimat. Bedanya dengan N-grams, N-grams akan memecah-mecah kata dalam kalimat menjadi beberapa kata dengan kasta tertentu.

Contohnya:
* Unigram -> memecah setiap kata menjadi satu per satu.
"This is a sentence" -> ["This", "is", "a", "sentence"]
nah kalau inikan persis kayak word_tokenize(). Nah, bedanya di N-gram ini, kita bakal mecah ga cuman satu per satu tapi bisa 2 kata atau 3 kata. Contoh lainnya:

* Bigram -> memecah setiap kata menjadi dua kata-dua kata.
"This is a sentence" -> ["This is", "is a", "a sentence"]

* Trigram -> memecah setiap kata menjadi tiga kata-tiga kata.
"This is a sentence" -> ["This is a", "is a sentence"]

Semakin tinggi kasta suatu N-grams, semakin akurat model AI yang kita hasilkan. Tapi sebaliknya, semakin kecil kasta N-grams, semakin tidak akurat pula model AI yang kita hasilkan.

Take notes bahwa pada kenyataannya, N-grams sendiri biasanya digunakan tidak lebih dari **Trigram**.

## Cara menerapkan N-grams model:

import library yang diperlukan

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

CountVectorizer sendiri digunakan untuk mengubah data **text** menjadi representasi BackOfWords atau disingkat BOW. Singkatnya ini teh Vector

Sementara cosine_similarity digunakan untuk menghitung kemiripan cosinus antara vector-vector yang kita punya.

In [2]:
class NGramLanguageModel:
    def __init__(self, n):
        self.n = n # represents the n in n-gram
        self.vectorizer = CountVectorizer(analyzer="word", ngram_range=(n, n)) # membuat object CountVectorizer 

    def fit_transform(self, corpus):
        return self.vectorizer.fit_transform(corpus) # menghitung frekuensi kemunculan kata dan mengubahnya menjadi vector yang dapat diolah oleh model
    
    def transform(self, corpus):
        return self.vectorizer.transform(corpus) 
    
def calculate_cosine_similarity(matrix, query_vector):
    similarities = cosine_similarity(query_vector, matrix) # menghitung cosine similarity antara matrix dan vector query.
    return similarities

Contoh pemakaian:

In [5]:
# Ini corpus kita yang mau dijalankan dengan N-gram language model kita
# Ini ibaratnya dataset kita buat nge-train model N-gram language kita.
corpus = [
    "I like to play football",
    "It is a good game",
    "I prefer football over rugby",
    "I like to play chess"
]

# query yang akan dicari cosine similarity nya
query = "This is the query text"

# contoh membuat unigram:
n = 1

# buat object dari class NGramLanguageModel
ngram_language_model = NGramLanguageModel(n)

# ubah file corpus kita ke bentuk matrix
matrix = ngram_language_model.fit_transform(corpus)
# ubah file query kita ke bentuk vector
query_vector = ngram_language_model.transform([query])

print(f"{n}-gram Model: ")
data = matrix.A

# print data corpus kita dalam bentuk dataframe
print(pd.DataFrame(data, columns=ngram_language_model.vectorizer.get_feature_names_out()))

1-gram Model: 
   chess  football  game  good  is  it  like  over  play  prefer  rugby  to
0      0         1     0     0   0   0     1     0     1       0      0   1
1      0         0     1     1   1   1     0     0     0       0      0   0
2      0         1     0     0   0   0     0     1     0       1      1   0
3      1         0     0     0   0   0     1     0     1       0      0   1


Hasil yang ada diatas adalah bentuk mappingan dimana pada corpus index ke-0 terdapat chess sebanyak 0 kata, football sebanyak 1 kata, dan seterusnya.

In [6]:
print(query_vector.A)

[[0 0 0 0 1 0 0 0 0 0 0 0]]


Nah, kalau yang ini tuh query text kita, dibandingin sama N-gram model kita dengan format kolom mappingan yang sama. Nah query text ini tuh lebih ke arah text-inputnya kita.

In [7]:
# Kalkulasi cosine similarity corpus yang kita punya
similarities = calculate_cosine_similarity(matrix, query_vector)

# print cosine similarity
data = {'Document': corpus, 'Similarity': similarities[0]}
df = pd.DataFrame(data)

print(f"{query}")
print(df)

This is the query text
                       Document  Similarity
0       I like to play football         0.0
1             It is a good game         0.5
2  I prefer football over rugby         0.0
3          I like to play chess         0.0
