In [32]:
paragraph = """
    Di sebuah desa yang terkenal dengan hasil pertaniannya,
    para petani menanam berbagai jenis buah seperti pisang, jeruk, dan apel.
    Setiap musim panen tiba, apel menjadi buah yang paling banyak dicari karena rasanya
    yang segar dan kandungan gizinya yang tinggi. Tidak hanya dijual dalam bentuk buah segar,
    apel juga diolah menjadi jus, selai, dan kue oleh para pelaku UMKM setempat. Menariknya,
    beberapa petani mulai bereksperimen dengan varietas apel baru yang lebih tahan terhadap perubahan cuaca.
    Walaupun harga apel kadang naik turun di pasar, permintaan terhadap apel tetap stabil
    karena masyarakat sudah terbiasa mengonsumsi Apeljack sebagai bagian dari gaya hidup sehat.
"""

In [34]:
# count word "Apel" on paragraph using count 
# but when text include "Apeljack" it will still count

wordApel = paragraph.lower().count("apel")
print(wordApel)


7


In [35]:
# count word "Apel" on pargraph using counter and regex
import re

wordApel = sum(1 for match in re.finditer(r"\bapel\b", paragraph.lower()))

print(wordApel)

6


In [36]:
# count word "Apel" on paragraph using counter and collections
from collections import Counter
import re

wordApel = re.findall(r'\b\w+\b', paragraph.lower())
counter = Counter(wordApel)

print(counter["apel"])

6


# TF-IDF

TF-IDF (Term Frequency - Inverse Document Frequency)

is a method for evaluating how important a word is in a documents

In [10]:
### install scikit-learn and pandas
!pip install scikit-learn pandas

[0m

In [7]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. Setup data (korspus)
# Dokumen A (Index 0) : "Apel berwarna merah"
# Dokumen B (Index 1) : "Apel itu sudah dimakan ulat"

corpus = [
    "Apel berwarna merah",
    "Apel itu sudah dimakan ulat"
]

# 2. Initialize Vectorizer
vectorizer = TfidfVectorizer()

# down here will start calculate using TF-IDF
# 3. Calculate TF-IDF (Fit & Transform)
# Machine will calculate (Fit) the value in docs
tfidf_matrix = vectorizer.fit_transform(corpus)

# 4. Show result
# get name "word" (feature) from machine
feature_names = vectorizer.get_feature_names_out()

# create table
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names, index=["Dokumen A", "Dokumen B"])


print(df_tfidf)

               apel  berwarna   dimakan       itu     merah     sudah  \
Dokumen A  0.449436  0.631667  0.000000  0.000000  0.631667  0.000000   
Dokumen B  0.335176  0.000000  0.471078  0.471078  0.000000  0.471078   

               ulat  
Dokumen A  0.000000  
Dokumen B  0.471078  


Kata Apel itu mendapatakan nilai sekitar 0.4 dan 0.3 tidak terlalu tinggi nilainya (jika dilihat per dokumen) itu karna kata tersebut muncul di kedua dokumen, lalu ada kata bewarna merah di dok A sebagai "ciri khas" dokumen tersebut, sedangkan di dokumen B ada kata dimakan, itu, sudah sebagai ciri khas dokumen B

## Cosine Similarity

Sebuah metode untuk mengukur seberapa mirip dua benda (dalam hal ini dokument/teks) dengan menghitung kosinus sudut di antara kedua vektor dokumen tersebut. 

In [20]:
## implement
# first using numpy

import numpy as np
from numpy.linalg import norm

# 1. vektor
# Dokumen A: 1 Apel, 2 Manis

vec_a = np.array([1,2])

# Dokumen B: 2 Apel, 1 Manis

vec_b = np.array([2,1])

# 2. Calculate Dot Product
# Rumus: (1*2) + (2*1) = 4

dot_product = np.dot(vec_a, vec_b)

# 3. Calculate (Magnitude / Length Vector)
# Rumus: Akar ( ||A|| * ||B||)

norm_a = norm(vec_a)
norm_b = norm(vec_b)

# 4. Hitung Cosine Similarity
# Rumus: dot_product / (norm_a * norm_b)

result = dot_product / (norm_a * norm_b)

print(result)


0.7999999999999998


Hasilnya 0.799... itu berarti dokumen A dan dokumen B memiliki kemiripan sekitar 79 - 80%

In [30]:
# Using scikit-learn

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Prepare data 
vec_a = np.array([[1,2]])
vec_b = np.array([[2,1]])


# Calculate cosine similarity
similarity = cosine_similarity(vec_a, vec_b)

print("Hasil Cosine similarity :", similarity[0][0])

Hasil Cosine similarity : 0.7999999999999999


Hasilnya samaa

In [13]:
!pip install scikit-learn pandas

[0m

In [16]:
## Exercise
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
list_data = [
    "Ibu memasak nasi di dapur rumah.",
    "Ayah membaca berita pagi di ruang tamu.",
    "Anak belajar menulis dan membaca di sekolah.",
    "Guru menjelaskan pelajaran dengan sabar.",
    "Komputer digunakan untuk mengolah data.",
    "Internet membantu pencarian informasi dengan cepat.",
    "Mahasiswa mengerjakan tugas menggunakan laptop.",
    "Teknologi berkembang sangat pesat setiap tahun.",
    "Sistem informasi mempermudah pekerjaan kantor.",
    "Pengguna mengakses aplikasi melalui ponsel.",
    "Cuaca hujan membuat jalanan menjadi licin.",
    "Matahari bersinar cerah di pagi hari.",
    "Kendaraan melaju pelan karena lalu lintas padat.",
    "Perjalanan jauh membutuhkan persiapan matang.",
    "Petani menanam padi di sawah.",
    "Dokter memeriksa kesehatan pasien.",
    "Rumah sakit menyediakan layanan medis.",
    "Olahraga rutin menjaga tubuh tetap sehat.",
    "Makanan bergizi penting untuk pertumbuhan.",
    "Minuman dingin menyegarkan di siang hari.",
    "Anak bermain bola di halaman rumah.",
    "Pekerja berangkat pagi ke tempat kerja.",
    "Data disimpan dengan aman di server.",
    "Algoritma membantu proses pengambilan keputusan.",s
    "Pembelajaran mesin digunakan dalam kecerdasan buatan."
]
tfidf_matrix = vectorizer.fit_transform(list_data)
feature_names = vectorizer.get_feature_names_out()
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)


# implementasi cosine similarity


    algoritma      aman      anak  aplikasi      ayah   belajar  berangkat  \
0    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
1    0.000000  0.000000  0.000000  0.000000  0.416356  0.000000   0.000000   
2    0.000000  0.000000  0.364711  0.000000  0.000000  0.411515   0.000000   
3    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
4    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
5    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
6    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
7    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
8    0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
9    0.000000  0.000000  0.000000  0.447214  0.000000  0.000000   0.000000   
10   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   0.000000   
11   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000 