In [1]:
!pip install pdfminer.six



## STEP 1 # Import Required Libraries

In [31]:
import io, os
import re
import openai
from openai.embeddings_utils import get_embedding
import tiktoken
import pandas as pd
import numpy as np
from pdfminer.high_level import extract_text_to_fp, extract_pages, extract_text
from pdfminer.layout import LAParams
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
from pandas.core.common import SettingWithCopyWarning
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)

## STEP 2 # Parsing or Extract PDF Into Text

In [2]:
def extract_info(file_path):
    # Create a buffer to store the extracted text
    buf = io.StringIO()
    
    # Extract the text using pdfminer
    with open(file_path, 'rb') as fp:
        extract_text_to_fp(fp, buf, laparams=LAParams())
    
    # Preprocess the text to remove unnecessary whitespace and line breaks
    text = buf.getvalue().strip()

    # Exclude pages that contain "DAFTAR ISI" or "DAFTAR TABEL"
    pages = text.split('\x0c')
    exclude_list = ["DAFTAR ISI", "DAFTAR TABEL", "PRAKATA", "PENDAHULUAN", "LAMPIRAN I", 
                    "Format 1", "Format 4", "Format 5", "Format 6", "PROGRAM PEMAGANGAN", 
                    "KURIKULUM PROGRAM PEMAGANGAN", "SILABUS PROGRAM PEMAGANGAN", "LAMPIRAN II",
                    "LAMPIRAN III", "   1. JADWAL PEMAGANGAN", "2. KEGIATAN HARIAN PESERTA YANG DIKETAHUI PEMBIMBING",
                    "TABEL", "LAMPIRAN",
                    ]
    pages = [page for page in pages if not any(exclude_str in page for exclude_str in exclude_list)]
    text = '\x0c'.join(pages)
    
    # Split the text into paragraphs based on subheadings
    subheading_pattern = re.compile(r'^[A-Z]\.\s|\bBAB\s+(?![ivx]+\b)|\bBAB\s+[ivx]+\s+', re.MULTILINE)
    paragraphs = []
    
    matches = subheading_pattern.finditer(text)
    start = 0
    
    for match in matches:
        paragraph = text[start:match.start()].strip()
        paragraph = re.sub(r'\s+', ' ', paragraph)
        # Remove numbers between dashes
        paragraph = re.sub(r'-\s*\d+\s*-', ' ', paragraph)
        # Remove numbers followed by "http://jdih.pu.go.id"
        paragraph = re.sub(r'\d+\s*http://jdih\.pu\.go\.id', '', paragraph)
        # Remove Roman numerals
        paragraph = re.sub(r'\b[ivx]+\b', '', paragraph)
        paragraphs.append(paragraph)
        start = match.start()

    paragraph = text[start:].strip()
    paragraph = re.sub(r'\s+', ' ', paragraph)
    # Remove numbers between dashes
    paragraph = re.sub(r'-\s*\d+\s*-', ' ', paragraph)
    # Remove numbers followed by "http://jdih.pu.go.id"
    paragraph = re.sub(r'\d+\s*http://jdih\.pu\.go\.id', '', paragraph)
    # Remove Roman numerals
    paragraph = re.sub(r'\b[ivx]+\b', '', paragraph)
    paragraphs.append(paragraph)

    # Remove specific words from each paragraph
    remove_words = ["Dokumen ini tidak dikendalikan jika di unduh/Uncontrolled when downloaded", 
                    "Ditetapkan di Jakarta pada tanggal 6 Desember 2019 MENTERI PEKERJAAN UMUM DAN PERUMAHAN RAKYAT, ttd",
                    "M. BASUKI HADIMULJONO",
                    "www.djpp.depkumham.go.id",
                    "Format 2: Contoh Perjanjian Pemagangan",
                    "Format 3: Contoh Perjanjian Kerja Sama",
                    "2. Tahap Pemagangan dan Evaluasi Pelaksanaan Pemagangan 8 9 10 11 SELESAI Persiapan Pemagangan Pelaksanaan Pemagangan Pengawasan Pelaksanaan Pemagangan Evaluasi Pelaksanaan Pemagangan",
                    "SALINAN",
                    "MENTERI PEKERJAAN UMUM DAN PERUMAHAN RAKYAT REPUBLIK INDONESIA",
                    "Kepada yang terhormat, 1. Para Pimpinan Tinggi Madya; 2. Para Pimpinan Tinggi Pratama; 3. Para Kepala Satuan Kerja. di Kementerian Pekerjaan Umum dan Perumahan Rakyat"]
    
    for i in range(len(paragraphs)):
        for word in remove_words:
            paragraphs[i] = paragraphs[i].replace(word, "")
        
    return paragraphs

In [3]:
# Directory path containing PDF files
pdf_dir_path = r"C:\Users\Annisa Rizki\Desktop\Annisa Lianda\Job Freelance\chatbot_using_openai\pdf"

# List to store the extracted paragraphs
paragraphs_list = []

# Loop through all PDF files in the directory
for filename in os.listdir(pdf_dir_path):
    if filename.endswith(".pdf"):
        # Extract paragraphs from the PDF file
        paragraphs = extract_info(os.path.join(pdf_dir_path, filename))
        
        # Append the paragraphs to the list with the filename
        for paragraph in paragraphs:
            paragraphs_list.append([paragraph, filename])

results = pd.DataFrame(paragraphs_list,columns=["Content", "Filename"])
    

In [4]:
results

Unnamed: 0,Content,Filename
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...


## STEP 2 # Preprocessing And Create 2 New Column (namely; Title, Heading)

In [5]:
results['Heading'] = results['Content'].str.extract(r'^((?:.(?![A-Z]?[a-z]))+)')
results

Unnamed: 0,Content,Filename,Heading
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB I KETENTUAN UMUM
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN"
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1)
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IV SURVEI PEMELIHARAAN JALAN
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB V PEMROGRAMAN PEMELIHARAAN JALAN
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IX PENILIKAN JALAN


In [6]:
results['Content'] = results['Content'].replace(r'^\s*$', np.nan, regex=True)

In [7]:
results

Unnamed: 0,Content,Filename,Heading
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB I KETENTUAN UMUM
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN"
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1)
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IV SURVEI PEMELIHARAAN JALAN
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB V PEMROGRAMAN PEMELIHARAAN JALAN
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IX PENILIKAN JALAN


In [8]:
results = results.dropna(subset=['Content'])
results

Unnamed: 0,Content,Filename,Heading
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB I KETENTUAN UMUM
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN"
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1)
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IV SURVEI PEMELIHARAAN JALAN
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB V PEMROGRAMAN PEMELIHARAAN JALAN
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IX PENILIKAN JALAN


In [9]:
results['Filename'] = results.Filename.str.replace('.pdf', '')
results

Unnamed: 0,Content,Filename,Heading
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB I KETENTUAN UMUM
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN"
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1)
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB IV SURVEI PEMELIHARAAN JALAN
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB V PEMROGRAMAN PEMELIHARAAN JALAN
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB IX PENILIKAN JALAN


In [10]:
results['Title'] = results.Filename + " - " + results.Heading 
results

Unnamed: 0,Content,Filename,Heading,Title
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB I KETENTUAN UMUM,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1),PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB IV SURVEI PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB V PEMROGRAMAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2011,BAB IX PENILIKAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...


In [11]:
del results['Filename']

In [12]:
results['Context'] = results.Title + "\n\n" + results.Content
results

Unnamed: 0,Content,Heading,Title,Context
0,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
1,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,BAB I KETENTUAN UMUM,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
2,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...","BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN",PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
3,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1),PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
4,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,BAB IV SURVEI PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
5,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,BAB V PEMROGRAMAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
6,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
7,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
8,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
9,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,BAB IX PENILIKAN JALAN,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...


## STEP 3 # Create Token Using Tiktoken For The Requirements Needed At OpenAI

In [13]:
openai.api_key = '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'
model_engine = "davinci"
encoding = tiktoken.get_encoding("gpt2")

In [14]:
def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

tokens = []

for line in results['Context']:
    num_tokens = num_tokens_from_string(line,'gpt2')
    tokens.append(num_tokens)

arr_tokens = np.array(tokens)
tokens= pd.DataFrame({"Tokens" : arr_tokens})

results['Tokens'] = tokens['Tokens']
results = results[['Title', 'Heading', 'Content', 'Tokens', 'Context']]
results

Unnamed: 0,Title,Heading,Content,Tokens,Context
0,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,PERATURAN MENTERI PEKERJAAN UMUM REPUBLIK INDO...,712,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
1,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB I KETENTUAN UMUM,BAB I KETENTUAN UMUM Pasal 1 Dalam Peraturan M...,2291,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
2,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,"BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN","BAB II MAKSUD, TUJUAN, DAN LINGKUP PENGATURAN ...",442,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
3,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB III RENCANA UMUM PEMELIHARAAN JALAN (1),BAB III RENCANA UMUM PEMELIHARAAN JALAN (1) Pe...,2680,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
4,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IV SURVEI PEMELIHARAAN JALAN,BAB IV SURVEI PEMELIHARAAN JALAN Pasal 9 (1) S...,1164,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
5,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB V PEMROGRAMAN PEMELIHARAAN JALAN,BAB V PEMROGRAMAN PEMELIHARAAN JALAN Pasal 12 ...,648,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
6,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN,BAB VI PEMBIAYAAN PEMELIHARAAN JALAN Pasal 13 ...,571,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
7,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN,BAB VII PERENCANAAN TEKNIS PEMELIHARAAN JALAN ...,1154,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
8,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN,BAB VIII PELAKSANAAN PEMELIHARAAN JALAN Pasal ...,2256,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...
9,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...,BAB IX PENILIKAN JALAN,BAB IX PENILIKAN JALAN Pasal 20 (1) Penilikan ...,984,PERATURAN MENTERI PEKERJAAN UMUM RI NOMOR 13_2...


## STEP 4 # Embedding Text To Get Vectorization