Melakukan Install Library

In [None]:
!pip install faiss-cpu  # Menginstall FAISS (Facebook AI Similarity Search) versi CPU
!pip install langchain  # Menginstal LangChain untuk membangun aplikasi berbasis NLP
!pip install pypdf  # Menginstal pustaka PyPDF untuk membaca dan memanipulasi file PDF dalam Python.
!pip install sentence-transformers  # Menginstal Sentence Transformers untuk menghasilkan embeddings



Melakukan Import Library

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings  # Mengimpor kelas untuk menghasilkan embeddings menggunakan model Hugging Face
from langchain.text_splitter import CharacterTextSplitter  # Mengimpor kelas untuk membagi teks menjadi potongan karakter
from langchain.vectorstores import FAISS  # Mengimpor kelas untuk menggunakan FAISS sebagai penyimpanan vektor
from langchain.document_loaders import DirectoryLoader, PyPDFLoader  # Mengimpor kelas untuk memuat dokumen dari direktori dan file PDF
import pandas as pd  # Mengimpor pustaka pandas untuk manipulasi dan analisis data

Membuka akses ke Google Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')  # Mount Google Drive

Mounted at /content/drive


Melakukan Import Model SentenceTransformer

In [None]:
from sentence_transformers import SentenceTransformer  # Mengimpor SentenceTransformer yang berfungsi untuk menghasilkan representasi vektor dari kalimat atau teks

Mengatur Token Hugging Face

In [None]:
import os

os.environ['HF_TOKEN'] = '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'

In [None]:
from huggingface_hub import login

login(token=os.getenv('HF_TOKEN'))

Note: Environment variable`HF_TOKEN` is set and is the current active token independently from the token you've just configured.


Melakukan Upload Dokumen dan Proses Vector

In [None]:
# Memuat dokumen dari direktori
loader = DirectoryLoader("/content/drive/MyDrive/TugasNLP", loader_cls=PyPDFLoader)
pages = loader.load_and_split()  # Memuat dan membagi halaman

# Membagi teks menjadi potongan
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(pages)

# Menggunakan Sentence Transformers untuk embeddings
model_name = "all-MiniLM-L6-v2"  # Model Sentence Transformers yang open-access
embeddings = HuggingFaceEmbeddings(model_name=model_name)  # Menggunakan model Sentence Transformers

Melakukan Inisialisasi untuk FAISS DB

In [None]:
db = FAISS.from_documents (docs, embeddings)

Pencarian Berdasarkan Similarity

In [None]:
query = "Indonesia"
docs = db.similarity_search (query)
docs

[Document(id='86138854-fa5a-46af-a44e-eb4ce2ca28df', metadata={'producer': 'Skia/PDF m135 Google Docs Renderer', 'creator': 'PyPDF', 'creationdate': '', 'title': 'Kekayaan dan Kebudayaan Indonesia', 'source': '/content/drive/MyDrive/TugasNLP/Kekayaan dan Kebudayaan Indonesia.pdf', 'total_pages': 2, 'page': 0, 'page_label': '1'}, page_content='Kekayaan  dan  Kebudayaan  Indonesia  \nIndonesia,  sebagai  negara  kepulauan  terbesar  di  dunia,  memiliki  kekayaan  yang  melimpah  baik  \ndari\n \nsegi\n \nsumber\n \ndaya\n \nalam\n \nmaupun\n \nkebudayaan.\n \nDengan\n \nlebih\n \ndari\n \n17.000\n \npulau\n \ndan\n \nlebih\n \ndari\n \n300\n \nkelompok\n \netnis,\n \nIndonesia\n \nmenawarkan\n \nkeragaman\n \nyang\n \nluar\n \nbiasa\n \nyang\n \ntercermin\n \ndalam\n \ntradisi,\n \nseni,\n \ndan\n \ncara\n \nhidup\n \nmasyarakatnya.\n \nDalam\n \nesai\n \nini,\n \nkita\n \nakan\n \nmembahas\n \nkekayaan\n \nalam\n \ndan\n \nkebudayaan\n \nIndonesia\n \nserta\n \nbagaimana\n \nkeduanya\n

Melakukan Penyimpanan

In [None]:
save_directory = "Tugas"  # Menentukan direktori penyimpanan
db.save_local(save_directory)  # Menyimpan database lokal


Memproses Data ke FAISS

In [None]:
# Memuat database dari penyimpanan lokal dengan izin deserialisasi berbahaya
new_db = FAISS.load_local(save_directory, embeddings, allow_dangerous_deserialization=True)

Menampilkan Data Tersimpan

In [None]:
# Fungsi untuk mengonversi vector store menjadi DataFrame
def store_to_df(store):
    v_dict = store.docstore._dict
    data_rows = []
    for k in v_dict.keys():
        doc_name = v_dict[k].metadata['source'].split('/')[-1]
        page_number = v_dict[k].metadata['page'] + 1
        content = v_dict[k].page_content
        data_rows.append({"chunk_id": k, "document": doc_name, "page": page_number, "content": content})
    vector_df = pd.DataFrame(data_rows)
    return vector_df

In [None]:
# Mencetak jumlah dokumen yang ada di dalam database
num_docs = len(new_db.docstore._dict)  # Mengakses dictionary yang menyimpan dokumen
print(f"Jumlah dokumen dalam FAISS: {num_docs}")

# Menampilkan dokumen yang disimpan
def show_vstore(store):
    vector_df = store_to_df(store)
    display(vector_df)

# Panggil fungsi untuk menampilkan dokumen
show_vstore(new_db)

Jumlah dokumen dalam FAISS: 2


Unnamed: 0,chunk_id,document,page,content
0,86138854-fa5a-46af-a44e-eb4ce2ca28df,Kekayaan dan Kebudayaan Indonesia.pdf,1,Kekayaan dan Kebudayaan Indonesia \nIndone...
1,c4a5e823-f015-4e3e-9755-a0785dba1a77,Kekayaan dan Kebudayaan Indonesia.pdf,2,mana mereka mengandalkan laut sebagai sum...


In [None]:
# Memuat database dari folder 'Tugas'
new_db = FAISS.load_local("Tugas", embeddings, allow_dangerous_deserialization=True)

# Mengakses vektor dari database
vectors = new_db.index.reconstruct_n(0, new_db.index.ntotal)  # Mengambil semua vektor

# Menampilkan vektor
for i, vector in enumerate(vectors):
    print(f"Vektor {i}: {vector}")


Vektor 0: [ 1.87808517e-02  8.95409361e-02  4.14998271e-02  8.21048953e-03
 -8.03878382e-02 -5.00214919e-02  5.98512255e-02 -5.90501055e-02
 -4.10398580e-02 -7.64306914e-03  9.08231884e-02 -2.47067697e-02
 -5.19107021e-02 -6.03081062e-02  7.97044709e-02 -4.55242544e-02
 -1.05021782e-02  4.11359919e-03 -9.26889777e-02 -7.76762962e-02
 -2.70394124e-02 -7.02802315e-02 -6.62986711e-02 -1.61990919e-03
 -4.58799750e-02  9.51993093e-02  7.17998669e-02 -1.71036590e-02
  6.38427436e-02 -4.04566415e-02 -3.27258818e-02  8.71479884e-02
 -4.99834940e-02 -3.24242674e-02 -6.24339767e-02  5.10907061e-02
  3.71723659e-02 -3.61217931e-02  5.74887693e-02  4.93651628e-02
  9.50395688e-03 -4.19959053e-02 -2.93223858e-02 -9.32434127e-02
  5.82108609e-02 -7.92510659e-02 -7.31128380e-02  6.54259417e-03
  2.53601093e-02 -2.29030903e-02 -4.56486866e-02  3.34641188e-02
  1.00029316e-02 -9.74870473e-03  5.51380217e-03 -1.19502291e-01
  6.08850876e-03 -6.84522511e-03  4.47016619e-02 -1.07625574e-02
 -7.39737749e-0