In [2]:
import pdfplumber
import pandas as pd
import os
import re
from IPython.display import display

# Fungsi untuk menggabungkan karakter atau angka yang terpisah satu per satu oleh spasi
def fix_separated_text(text):
    text = re.sub(r'(?<=\b\w) (\w\b)', r'\1', text)  # Menggabungkan angka atau huruf yang seharusnya tergabung
    text = re.sub(r'(?<=\d)(H\.\d)', r' \1', text)  # Menjaga spasi sebelum format khusus
    text = re.sub(r'(?<=\d)(B\.\d)', r' \1', text)
    return text

# Fungsi untuk mengekstrak teks dari satu file PDF dan memisahkannya ke dalam baris berbeda
def extract_text_from_pdf(pdf_path):
    if not os.path.exists(pdf_path):
        print(f"File tidak ditemukan: {pdf_path}")
        return None
    
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text_lines = []
            for page in pdf.pages:
                text = page.extract_text()
                if text:
                    lines = text.split("\n")
                    cleaned_lines = [fix_separated_text(line) for line in lines]
                    text_lines.extend(cleaned_lines)
        return text_lines
    except Exception as e:
        print(f"Error saat membaca file {pdf_path}: {e}")
        return None

# Folder tempat menyimpan file PDF
folder_path = r"Z:\2. LAPOR TAHUNAN\SEJAHTERA DUNIA AKHIRAT, PT (GRUP)\1 PUSAT\TAHUNAN\2024\Bupot PPh"
pdf_files = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith(".pdf")]

# Dictionary untuk menyimpan data dari setiap file
data_dict = {}

for idx, pdf in enumerate(pdf_files, start=1):
    extracted_text = extract_text_from_pdf(pdf)
    if extracted_text:
        data_dict[f"File_{idx}"] = extracted_text  # Menyimpan data dalam dictionary

# Mencari jumlah baris maksimum agar semua file memiliki panjang yang sama dalam DataFrame
max_rows = max(len(text) for text in data_dict.values())

# Menjadikan dictionary sebagai DataFrame dengan kolom dari setiap file
df = pd.DataFrame({col: text + [""] * (max_rows - len(text)) for col, text in data_dict.items()})

# Menambahkan header angka berurutan
df.columns = [str(i+1) for i in range(len(df.columns))]

# Preview hasil ekstraksi
print("Preview hasil ekstraksi:")
display(df.head(20))  # Menampilkan 20 baris pertama dalam bentuk tabel
# # Inisialisasi list untuk menyimpan data yang telah diproses
output_path = os.path.join(folder_path, "rekap output mentah.xlsx")
df.to_excel(output_path, index=False)

# print(f"Tahap 1 selesai! File disimpan di: {output_path}")
processed_data = []

Preview hasil ekstraksi:


Unnamed: 0,1,2,3,4,5,6,7,8,9,10,...,68,69,70,71,72,73,74,75,76,77
0,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,...,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples,areastaples
1,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,...,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN,BUKTI PEMOTONGAN/PEMUNGUTAN
2,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,...,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS,FORMULIR BPBS
3,"PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...",...,"PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ...","PPh PASAL 4 AYAT (2), PASAL 15, PASAL 22, DAN ..."
4,H.1 NOMOR : 2000000010 H.4 PPh Final,H.1 NOMOR : 2000000332 H.4 PPh Final,H.1 NOMOR : 2000000394 H.4 PPh Final,H.1 NOMOR : 2000000547 H.4 PPh Final,H.1 NOMOR : 2000000063 H.4 PPh Final,H.1 NOMOR : 2000000103 H.4 PPh Final,H.1 NOMOR : 2000000622 H.4 PPh Final,H.1 NOMOR : 2000001176 H.4 PPh Final,H.1 NOMOR : 2000001177 H.4 PPh Final,H.1 NOMOR : 2000000110 H.4 PPh Final,...,H.1 NOMOR : 2000001050 H.4 PPh Final,H.1 NOMOR : 2000001054 H.4 PPh Final,H.1 NOMOR : 2000001061 H.4 PPh Final,H.1 NOMOR : 2000001436 H.4 PPh Final,H.1 NOMOR : 2000002608 H.4 PPh Final,H.1 NOMOR : 2000006974 H.4 PPh Final,H.1 NOMOR : 2000007102 H.4 PPh Final,H.1 NOMOR : 2000000205 H.4 PPh Final,H.1 NOMOR : 2000000276 H.4 PPh Final,H.1 NOMOR : 2000000001 H.4X PPh Final
5,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,...,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI,KEMENTERIAN KEUANGAN RI
6,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...,DIREKTORAT JENDERAL PAJAK H.2 Pembetulan Ke- 0...
7,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,...,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT,A. IDENTITAS WAJIB PAJAK YANG DIPOTONG/DIPUNGUT
8,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,...,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000 / 0800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000,A.1 NPWP : 800132771643000
9,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,...,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :,A.2 NIK :


In [3]:
# Lanjut ke proses kedua
file_path = output_path
sheet_name = 'Sheet1'
df = pd.read_excel(file_path, sheet_name=sheet_name, header=None)
processed_data = []
# Fungsi untuk mendapatkan nilai dari baris tertentu, jika tidak sesuai format cek baris berikutnya
def get_valid_value(df, row_list, col, keyword="", remove_spaces=True):
    """ Cek beberapa baris hingga menemukan format yang benar """
    for row in row_list:
        if row < len(df) and pd.notna(df.iloc[row, col]):
            value = str(df.iloc[row, col]).replace(keyword, "").strip()
            return value.replace(" ", "") if remove_spaces else value
    return "-"

# Fungsi untuk mengambil tanggal dengan format yang benar
def get_valid_date(df, row_list, col):
    """ Cek beberapa baris hingga menemukan format tanggal yang benar """
    for row in row_list:
        if row < len(df) and pd.notna(df.iloc[row, col]):
            tanggal_parts = str(df.iloc[row, col]).split()
            if len(tanggal_parts) >= 8:
                return f"{tanggal_parts[3]}/{tanggal_parts[5]}/{tanggal_parts[7]}"
    return "00/00/0000"
# Inisialisasi list untuk menyimpan data yang telah diproses
for col in df.columns:
    # Ambil data dari baris yang sesuai
    npwp = get_valid_value(df, [28, 29], col, "C.1 NPWP :")  # Cek di baris 28, jika kosong cek di baris 29
    npwp = npwp[4]
     # Ambil data dari baris yang sesuai setelah pembersihan
    npwp = df.iloc[28, col].replace("C.1 NPWP : ", "").replace(" ", "")
        
    # Ambil nama pemotong dengan regex untuk menghapus "C.X Nama Wajib Pajak : " (X bisa angka berapa pun)
    nama_pemotong = re.sub(r'C\.\d+ Nama Wajib Pajak : ', '', df.iloc[29, col])

    # Ambil jenis PPH, jika baris 16 salah cek baris 17
    jenis_pph_raw = get_valid_value(df, [16, 17], col, remove_spaces=False).split()
    jenis_pph_clean = "".join(filter(str.isdigit, jenis_pph_raw[1].split('-')[0])) if len(jenis_pph_raw) > 1 else "00"
    jenis_pph = "22" if jenis_pph_clean.isdigit() and int(jenis_pph_clean) <= 17 else "23"

    # Ambil objek potput dan pph potput
    objek_potput = jenis_pph_raw[2].replace(".", "").replace(",00", "") if len(jenis_pph_raw) > 2 else "0"
    pph_potput = jenis_pph_raw[4].replace(".", "").replace(",00", "") if len(jenis_pph_raw) > 4 else "0"
    # pph_potput = jenis_pph_raw[3].replace(".", "").replace(",00", "") if len(jenis_pph_raw) > 4 else jenis_pph_raw[4]
    # no_bukti = df.iloc[5, col].split()[5]

    # Ambil nomor bukti, jika tidak ditemukan cek baris berikutnya
    no_bukti = str(df.iloc[18, 5]).replace("H.1 NOMOR : ", "").replace(" H.4 PPh Final", "") if pd.notna(df.iloc[18, 5]) else "-"
    no_bukti = get_valid_value(df, [5, 18], col, remove_spaces=False).split()
    no_bukti = no_bukti[3].replace("H.1 NOMOR : ", "").replace(" H.4 PPh Final", "") if len(no_bukti) > 6 else "-"
    
    # Ambil data tanggal dari baris ke-31
    tanggal_bukti_raw = df.iloc[30, col].split()  # Pisahkan teks berdasarkan spasi
    tahun = tanggal_bukti_raw[7]  # Ambil tahun (indeks 5)
    bulan = tanggal_bukti_raw[5]  # Ambil bulan (indeks 3)
    hari = tanggal_bukti_raw[3]   # Ambil hari (indeks 1)

    # Format tanggal menjadi "hari/bulan/tahun"
    tanggal_bukti = f"{hari}/{bulan}/{tahun}"

    alamat_pemotong = "-"
    ntpn = "-"

    # Tambahkan data yang telah diproses ke list
    processed_data.append([
        len(processed_data) + 1,  # NO
        nama_pemotong,            # NAMA PEMOTONG/ PEMUNGUT
        npwp,                     # NPWP
        jenis_pph,                # JENIS PPH
        "1",                      # JENIS PENGHASILAN
        objek_potput,             # OBJEK POTPUT (Rupiah)
        pph_potput,               # PPH POTPUT
        no_bukti,                 # NO BUKTI
        tanggal_bukti,            # TANGGAL BUKTI
        alamat_pemotong,          # ALAMAT PEMOTONG/ PEMUNGUT
        ntpn                      # NTPN
    ])

# Buat DataFrame dari data yang telah diproses
output_df = pd.DataFrame(processed_data, columns=[
    "NO", "NAMA PEMOTONG/ PEMUNGUT", "NPWP", "JENIS PPH", "JENIS PENGHASILAN", 
    "OBJEK POTPUT (Rupiah)", "PPH POTPUT", "NO BUKTI", "TANGGAL BUKTI", 
    "ALAMAT PEMOTONG/ PEMUNGUT", "NTPN"
])

# Preview hasil akhir
print("Preview hasil akhir:")
display(output_df.head(20))  # Menampilkan 20 baris pertama dalam bentuk tabel

Preview hasil akhir:


Unnamed: 0,NO,NAMA PEMOTONG/ PEMUNGUT,NPWP,JENIS PPH,JENIS PENGHASILAN,OBJEK POTPUT (Rupiah),PPH POTPUT,NO BUKTI,TANGGAL BUKTI,ALAMAT PEMOTONG/ PEMUNGUT,NTPN
0,1,WORLD INNOVATIVE TELECOMMUNICATION,740330766606001,23,1,1500000,225000,2000000010,03/01/2024,-,-
1,2,WORLD INNOVATIVE TELECOMMUNICATION,740330766606001,23,1,900000,135000,2000000332,29/01/2024,-,-
2,3,FINNET INDONESIA,24793911062000,23,1,2003384,300507,2000000394,19/01/2024,-,-
3,4,FINNET INDONESIA,24793911062000,23,1,4629372,694405,2000000547,31/01/2024,-,-
4,5,HARAPAN CELLULAR MAKMUR,707513677616000,23,1,162162,0,2000000063,10/02/2024,-,-
5,6,WORLD INNOVATIVE TELECOMMUNICATION,740330766652001,23,1,1837838,275675,2000000103,29/02/2024,-,-
6,7,WORLD INNOVATIVE TELECOMMUNICATION,740330766606001,23,1,459460,68919,2000000622,29/02/2024,-,-
7,8,MAJU EXPRESS INDONESIA,25761057415000,23,1,3000000,60000,2000001176,05/02/2024,-,-
8,9,MAJU EXPRESS INDONESIA,25761057415000,23,1,12010000,240200,2000001177,21/02/2024,-,-
9,10,WORLD INNOVATIVE TELECOMMUNICATION,740330766652001,23,1,200000,30000,2000000110,05/03/2024,-,-


In [5]:
output_file_path = 'output_data.txt'
output_df.to_csv(output_file_path, sep='\t', index=False)  # Menyimpan dalam format txt dengan pemisah tab

print(f"Data telah disimpan ke {output_file_path}")

Data telah disimpan ke output_data.txt


In [None]:
output_file_path = "output_data.csv"
output_df.to_csv(output_file_path, sep=';', index=False)

print(f"Data telah disimpan ke {output_file_path}")

Data telah disimpan ke output_data.csv


In [8]:
# Simpan hasil ke file Excel
output_file_path = "mport bupot.xlsx"
output_df.to_excel(output_file_path, index=False)  # Menyimpan dalam format Excel

print(f"Data telah disimpan ke {output_file_path}")

Data telah disimpan ke mport bupot.xlsx
