In [9]:
import pdfplumber
import pandas as pd

def extract_table_data(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        page = pdf.pages[0]  # Giả sử bảng bạn muốn trích xuất ở trang đầu tiên
        tables = page.extract_tables()

        if tables:
            df = pd.DataFrame(tables[0], columns=['Ngày GD/TNX Date', 'Số tiền ghi nợ/Debit', 'Số tiền ghi có/Credit', 'Số Dư', 'Nội dung chi tiết/Transactions in detail'])
            return df
        else:
            return None

# Thay thế 'your_file.pdf' bằng đường dẫn đến file PDF của bạn
df = extract_table_data('thong_tin_ung_ho_qua_tsk_vcb_0011001932418_tu_01_09_den10_09_2024.pdf')

if df is not None:
    print(df)


                                    Ngày GD/TNX Date    Số tiền ghi nợ/Debit   
0                  Ngày GD/\nTNX Date\nSố CT/ Doc No  Số tiền ghi nợ/\nDebit  \
1  01/09/2024\n5213.45946\n01/09/2024\n5090.85797...                           

                               Số tiền ghi có/Credit            Số Dư   
0                            Số tiền ghi có/\nCredit  Số dư/\nBalance  \
1  50.000\n20.000\n29.000\n3.000\n3.000\n3.000\n3...                    

            Nội dung chi tiết/Transactions in detail  
0         Nội dung chi tiết/\nTransactions in detail  
1  292976.010924.013647.xin cam on\nVCB.CTDK.31/0...  


# Dùng tabula để đọc pdf

In [1]:
import pandas as pd
import tabula

In [2]:
# # Set display options to show all columns and rows
# pd.set_option('display.max_columns', None)  # Show all columns
# pd.set_option('display.max_rows', None)     # Show all rows
# pd.set_option('display.max_colwidth', None) # Show full column width

In [2]:
dfs = tabula.read_pdf('thong_tin_ung_ho_qua_tsk_vcb_0011001932418_tu_01_09_den10_09_2024.pdf', pages=1, relative_area=True, relative_columns=True)

In [7]:
df = dfs[0]
df

Unnamed: 0,Ngày GD/\rTNX Date\rSố CT/ Doc No,Số tiền ghi nợ/\rDebit,Số tiền ghi có/\rCredit,Số dư/\rBalance,Nội dung chi tiết/\rTransactions in detail
0,01/09/2024\r5213.45946\r01/09/2024\r5090.85797...,,50.000\r20.000\r29.000\r3.000\r3.000\r3.000\r3...,,292976.010924.013647.xin cam on\rVCB.CTDK.31/0...


In [18]:
import tabula

# Đọc PDF với tham số stream
dfs = tabula.read_pdf('thong_tin_ung_ho_qua_tsk_vcb_0011001932418_tu_01_09_den10_09_2024.pdf', pages=1, stream=True, relative_area=True, relative_columns=True)


# Lấy DataFrame đầu tiên
df = dfs[0]

# df = df.replace(to_replace=r'\r', value=' ', regex=True)

# Hiển thị DataFrame đã xử lý
df

Unnamed: 0.1,Ngày GD/,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,Số tiền ghi nợ/,Số tiền ghi có/,Số dư/,Nội dung chi tiết/
1,TNX Date,,,,
2,,Debit,Credit,Balance,Transactions in detail
3,Số CT/ Doc No,,,,
4,01/09/2024,,,,
5,,,50.000,,292976.010924.013647.xin cam on
6,5213.45946,,,,
7,01/09/2024,,,,
8,,,20.000,,VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu
9,5090.85797,,,,


# Xư lý data

In [35]:
# Giả sử df là DataFrame mà bạn đã có
# Khởi tạo danh sách lớn để chứa các mảng con
result_arrays = []
current_array = []

# Lặp qua từng hàng trong DataFrame
for index, row in df.iterrows():
    # Kiểm tra xem cột đầu tiên có phải là ngày tháng hay không
    if pd.to_datetime(row[0], errors='coerce', format='%d/%m/%Y') is not pd.NaT:
        # Nếu có, kiểm tra xem current_array có dữ liệu không
        if current_array:
            result_arrays.append(current_array)  # Thêm mảng hiện tại vào danh sách lớn
            current_array = []  # Reset current_array cho mảng mới
        
    # Thêm hàng vào current_array
    current_array.append(row.values)

# Thêm mảng cuối cùng nếu nó không rỗng
if current_array:
    result_arrays.append(current_array)

# Hiển thị kết quả
for array in result_arrays:
    print(array)
    print('-' * 70)  # Dòng phân cách giữa các mảng con

[array([nan, 'Số tiền ghi nợ/', 'Số tiền ghi có/', 'Số dư/',
       'Nội dung chi tiết/'], dtype=object), array(['TNX Date', nan, nan, nan, nan], dtype=object), array([nan, 'Debit', 'Credit', 'Balance', 'Transactions in detail'],
      dtype=object), array(['Số CT/ Doc No', nan, nan, nan, nan], dtype=object)]
----------------------------------------------------------------------
[array(['01/09/2024', nan, nan, nan, nan], dtype=object), array([nan, nan, '50.000', nan, '292976.010924.013647.xin cam on'],
      dtype=object), array(['5213.45946', nan, nan, nan, nan], dtype=object)]
----------------------------------------------------------------------
[array(['01/09/2024', nan, nan, nan, nan], dtype=object), array([nan, nan, '20.000', nan, 'VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu'],
      dtype=object), array(['5090.85797', nan, nan, nan, nan], dtype=object), array([nan, nan, nan, nan, '0481000755821 toi 0011001932418 MAT'],
      dtype=object), array([nan, nan, nan, nan, 'TRAN TO QUOC VN -

In [39]:
dictionaries = []
for array in result_arrays:
    # Kiểm tra xem có phải là mảng tiêu đề hay không
    if array[0][0] == 'TNX Date':
        continue  # Bỏ qua mảng tiêu đề

    # Lấy dữ liệu cần thiết
    date = array[0][0]
    transaction_id = array[2][0]
    amount = array[1][2]
    content = ""
    for row in array:
        content += str(row[4]) + " "

    # Tạo dictionary
    dictionary = {'Date': date, 'TransactionID': transaction_id, 'Amount': amount, 'Content': content.strip()}
    dictionaries.append(dictionary)

# In kết quả
for dictionary in dictionaries:
    print(dictionary)

{'Date': nan, 'TransactionID': nan, 'Amount': nan, 'Content': 'Nội dung chi tiết/ nan Transactions in detail nan'}
{'Date': '01/09/2024', 'TransactionID': '5213.45946', 'Amount': '50.000', 'Content': 'nan 292976.010924.013647.xin cam on nan'}
{'Date': '01/09/2024', 'TransactionID': '5090.85797', 'Amount': '20.000', 'Content': 'nan VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu nan 0481000755821 toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}
{'Date': '01/09/2024', 'TransactionID': '5241.83107', 'Amount': '29.000', 'Content': 'nan MBVCB.6916176124.CAO VIET TUAN nan chuyen tien.CT tu 0101001222009 CAO VIET TUAN toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}
{'Date': '01/09/2024', 'TransactionID': '5218.87149', 'Amount': '3.000', 'Content': 'nan 272986.010924.101858.DO DUC LOI chuyen nan tien'}
{'Date': '01/09/2024', 'TransactionID': '5388.96713', 'Amount': '3.000', 'Content': 'nan 020097040509011046122024JDC5013867.96713 nan .104607.Vietcombank:0011001932418:DANG THI THANH  MHS

In [40]:
cleaned_dictionaries = []
for dictionary in dictionaries:
    # Kiểm tra xem Date có phải là ngày hợp lệ không
    if pd.to_datetime(dictionary['Date'], errors='coerce', format='%d/%m/%Y') is not pd.NaT:
        # Làm sạch Content: loại bỏ nan và khoảng trắng dư thừa
        cleaned_content = ' '.join(filter(lambda x: x.strip() != '' and x.strip().lower() != 'nan', dictionary['Content'].split()))
        
        # Cập nhật nội dung đã làm sạch vào dictionary
        dictionary['Content'] = cleaned_content
        
        # Thêm vào danh sách cleaned_dictionaries nếu Content không rỗng
        if cleaned_content:
            cleaned_dictionaries.append(dictionary)

# Hiển thị kết quả cuối cùng
for d in cleaned_dictionaries:
    print(d)

{'Date': '01/09/2024', 'TransactionID': '5213.45946', 'Amount': '50.000', 'Content': '292976.010924.013647.xin cam on'}
{'Date': '01/09/2024', 'TransactionID': '5090.85797', 'Amount': '20.000', 'Content': 'VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu 0481000755821 toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}
{'Date': '01/09/2024', 'TransactionID': '5241.83107', 'Amount': '29.000', 'Content': 'MBVCB.6916176124.CAO VIET TUAN chuyen tien.CT tu 0101001222009 CAO VIET TUAN toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}
{'Date': '01/09/2024', 'TransactionID': '5218.87149', 'Amount': '3.000', 'Content': '272986.010924.101858.DO DUC LOI chuyen tien'}
{'Date': '01/09/2024', 'TransactionID': '5388.96713', 'Amount': '3.000', 'Content': '020097040509011046122024JDC5013867.96713 .104607.Vietcombank:0011001932418:DANG THI THANH MHS533583'}
{'Date': '01/09/2024', 'TransactionID': '5212.91607', 'Amount': '3.000', 'Content': '529474.010924.112032.BUI VAN DAI chuyen tien'}
{'Date': '01/09

In [1]:
import pandas as pd
import tabula

# Đọc tất cả các trang từ PDF
## Tất cả pages
# dfs = tabula.read_pdf('thong_tin_ung_ho_qua_tsk_vcb_0011001932418_tu_01_09_den10_09_2024.pdf', pages='all', stream=True, relative_area=True, relative_columns=True)

## Với 3 pages đầu
dfs = tabula.read_pdf('thong_tin_ung_ho_qua_tsk_vcb_0011001932418_tu_01_09_den10_09_2024.pdf', pages='1-3', stream=True, relative_area=True, relative_columns=True)

# Kết hợp tất cả DataFrames vào một DataFrame duy nhất
df = pd.concat(dfs, ignore_index=True)

result_arrays = []
current_array = []

# Lặp qua từng hàng trong DataFrame
for index, row in df.iterrows():
    # Kiểm tra xem cột đầu tiên có phải là ngày tháng hay không
    if pd.to_datetime(row[0], errors='coerce', format='%d/%m/%Y') is not pd.NaT:
        # Nếu có, kiểm tra xem current_array có dữ liệu không
        if current_array:
            result_arrays.append(current_array)  # Thêm mảng hiện tại vào danh sách lớn
            current_array = []  # Reset current_array cho mảng mới
        
    # Thêm hàng vào current_array
    current_array.append(row.values)

# Thêm mảng cuối cùng nếu nó không rỗng
if current_array:
    result_arrays.append(current_array)

dictionaries = []
for array in result_arrays:
    # Kiểm tra xem có phải là mảng tiêu đề hay không
    if array[0][0] == 'TNX Date':
        continue  # Bỏ qua mảng tiêu đề

    # Lấy dữ liệu cần thiết
    date = array[0][0]
    transaction_id = array[2][0]
    amount = array[1][2]
    content = ""
    for row in array:
        content += str(row[4]) + " "

    # Tạo dictionary
    dictionary = {'Date': date, 'TransactionID': transaction_id, 'Amount': amount, 'Content': content.strip()}
    dictionaries.append(dictionary)

cleaned_dictionaries = []
for dictionary in dictionaries:
    # Kiểm tra xem Date có phải là ngày hợp lệ không
    if pd.to_datetime(dictionary['Date'], errors='coerce', format='%d/%m/%Y') is not pd.NaT:
        # Làm sạch Content: loại bỏ nan và khoảng trắng dư thừa
        cleaned_content = ' '.join(filter(lambda x: x.strip() != '' and x.strip().lower() != 'nan', dictionary['Content'].split()))
        
        # Cập nhật nội dung đã làm sạch vào dictionary
        dictionary['Content'] = cleaned_content
        
        # Thêm vào danh sách cleaned_dictionaries nếu Content không rỗng
        if cleaned_content:
            cleaned_dictionaries.append(dictionary)

# Kết quả cuối cùng
print(cleaned_dictionaries)

[{'Date': '01/09/2024', 'TransactionID': '5213.45946', 'Amount': '50.000', 'Content': '292976.010924.013647.xin cam on'}, {'Date': '01/09/2024', 'TransactionID': '5090.85797', 'Amount': '20.000', 'Content': 'VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu 0481000755821 toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}, {'Date': '01/09/2024', 'TransactionID': '5241.83107', 'Amount': '29.000', 'Content': 'MBVCB.6916176124.CAO VIET TUAN chuyen tien.CT tu 0101001222009 CAO VIET TUAN toi 0011001932418 MAT TRAN TO QUOC VN - BAN CUU TRO TW'}, {'Date': '01/09/2024', 'TransactionID': '5218.87149', 'Amount': '3.000', 'Content': '272986.010924.101858.DO DUC LOI chuyen tien'}, {'Date': '01/09/2024', 'TransactionID': '5388.96713', 'Amount': '3.000', 'Content': '020097040509011046122024JDC5013867.96713 .104607.Vietcombank:0011001932418:DANG THI THANH MHS533583'}, {'Date': '01/09/2024', 'TransactionID': '5212.91607', 'Amount': '3.000', 'Content': '529474.010924.112032.BUI VAN DAI chuyen tien'}, {'Date':

# Chuyển về dataframe với 3 page đầu tiên

In [2]:
# Chuyển đổi danh sách dictionaries thành DataFrame
data_final = pd.DataFrame(cleaned_dictionaries)

# Hiển thị DataFrame
data_final

Unnamed: 0,Date,TransactionID,Amount,Content
0,01/09/2024,5213.45946,50.000,292976.010924.013647.xin cam on
1,01/09/2024,5090.85797,20.000,VCB.CTDK.31/03/2024.ADIDA PHAT. CT tu 04810007...
2,01/09/2024,5241.83107,29.000,MBVCB.6916176124.CAO VIET TUAN chuyen tien.CT ...
3,01/09/2024,5218.87149,3.000,272986.010924.101858.DO DUC LOI chuyen tien
4,01/09/2024,5388.96713,3.000,020097040509011046122024JDC5013867.96713 .1046...
5,01/09/2024,5212.91607,3.000,529474.010924.112032.BUI VAN DAI chuyen tien
6,01/09/2024,5220.28596,3.000,577301.010924.113215.DO DUC LOI MHS 4242
7,01/09/2024,5388.33462,3.000,020097040509011137472024Y7ZE058213.33462 .1137...
8,01/09/2024,5216.68569,3.000,761664.010924.121847.NGUYEN VAN TUAN chuyen tien
9,01/09/2024,5387.37142,3.000,0200970405090112202020246WVI059470.3714 2.1220...
