In [1]:
import os
import random
import numpy as np

In [2]:
import os
import csv
import numpy as np

def process_file(file_path: str, output_path: str) -> None:
    """ Xử lý một file dữ liệu .txt chuyển đổi sang file .csv mà không dùng dấu ngoặc kép

    Parameters
    ----------
    file_path : str
        Đường dẫn đến file dữ liệu cần xử lý với định dạng: <items>:<total_utility>:<item_utilities>.
    output_path : str
        Đường dẫn đến file sau khi xử lý với định dạng: <items>,<item_utilities>,<item_probabilities>.
    """
    with open(file_path, 'r') as infile, open(output_path, 'w', newline='') as outfile:
        csv_writer = csv.writer(outfile)
        # Ghi tiêu đề vào file CSV
        csv_writer.writerow(["items", "item_utilities", "item_probabilities"])

        for line in infile:
            line = line.strip()
            
            if not line:
                continue
            
            try:
                items_part, _, item_utilities = line.split(':')
                
                # Chuyển đổi các chuỗi thành danh sách
                items = list(map(int, items_part.split()))
                utilities = list(map(int, item_utilities.split()))
                
                if len(items) != len(utilities):
                    print(f"Lỗi số lượng items và utilities không bằng dòng {line}")
                    continue
                
                # Sinh xác suất ngẫu nhiên cho mỗi item
                probabilities = np.round(np.random.uniform(0.01, 1.0, len(items)), 2).tolist()
                
                # Ghi dữ liệu vào file CSV mà không có dấu ngoặc kép
                csv_writer.writerow([ ' '.join(map(str, items)), ' '.join(map(str, utilities)), ' '.join(map(str, probabilities)) ])
            
            except Exception as e:
                print(f"Lỗi xử lý dòng {line}: {e}")
        
        print(f"Xử lý xong file {file_path} và lưu vào {output_path}")

def process_all_txt_files_and_save_csv(input_dir: str, output_dir: str) -> None:
    """ Xử lý tất cả các file dữ liệu .txt trong thư mục input_dir và lưu vào thư mục output_dir dưới dạng CSV

    Parameters
    ----------
    input_dir : str
        Đường dẫn đến thư mục chứa các file dữ liệu cần xử lý.
    output_dir : str
        Đường dẫn đến thư mục chứa các file sau khi xử lý.
    """
    
    # Đảm bảo thư mục đầu ra tồn tại
    os.makedirs(output_dir, exist_ok=True)

    # Duyệt qua tất cả các tệp .txt trong thư mục đầu vào
    for file_name in os.listdir(input_dir):
        if file_name.endswith(".txt"):
            input_file_path = os.path.join(input_dir, file_name)
            output_csv_path = os.path.join(output_dir, f"processed_{os.path.splitext(file_name)[0]}.csv")
            
            # Gọi hàm xử lý tệp
            print(f"Đang xử lý tệp: {input_file_path}")
            process_file(input_file_path, output_csv_path)
            print("==" * 30)


In [3]:
input_directory = "data"  # Thư mục đầu vào chứa các tệp .txt
output_directory = "Uncertain_DB"  # Thư mục đầu ra chứa các tệp đã xử lý

process_all_txt_files_and_save_csv(input_directory, output_directory)

Đang xử lý tệp: data\chess_utility_spmf.txt
Xử lý xong file data\chess_utility_spmf.txt và lưu vào Uncertain_DB\processed_chess_utility_spmf.csv
Đang xử lý tệp: data\connect_utility_spmf.txt
Xử lý xong file data\connect_utility_spmf.txt và lưu vào Uncertain_DB\processed_connect_utility_spmf.csv
Đang xử lý tệp: data\foodmart.txt
Xử lý xong file data\foodmart.txt và lưu vào Uncertain_DB\processed_foodmart.csv
Đang xử lý tệp: data\mushroom_utility_SPMF.txt
Xử lý xong file data\mushroom_utility_SPMF.txt và lưu vào Uncertain_DB\processed_mushroom_utility_SPMF.csv
Đang xử lý tệp: data\pumsb_utility_spmf.txt
Xử lý xong file data\pumsb_utility_spmf.txt và lưu vào Uncertain_DB\processed_pumsb_utility_spmf.csv
Đang xử lý tệp: data\retail_utility_spmf.txt
Xử lý xong file data\retail_utility_spmf.txt và lưu vào Uncertain_DB\processed_retail_utility_spmf.csv
