In [None]:
import pandas as pd
import os
import glob

# Đường dẫn đến thư mục chứa các file Parquet (thư mục hiện tại)
parquet_dir = os.path.dirname(os.path.abspath("CSE-CIC-IDS2018dataset"))

# Tìm tất cả các file Parquet trong thư mục
parquet_files = glob.glob(os.path.join(parquet_dir, "*.parquet"))

# Kiểm tra xem có file Parquet nào không
if not parquet_files:
    print("Lỗi: Không tìm thấy file Parquet nào trong thư mục!")
else:
    print(f"Tìm thấy {len(parquet_files)} file Parquet: {parquet_files}")
    
    # Đường dẫn đến file CSV đầu ra
    output_csv = os.path.join(parquet_dir, "merged_output.csv")
    
    # Biến để kiểm soát ghi header và đếm tổng số dòng
    first_chunk = True
    total_rows = 0
    
    try:
        # Đọc và gộp từng file Parquet
        for file in parquet_files:
            print(f"Đang xử lý file: {file}")
            
            # Đọc file Parquet
            df = pd.read_parquet(file)
            total_rows += len(df)
            
            # Ghi vào file CSV (append nếu không phải file đầu tiên)
            df.to_csv(
                output_csv,
                mode="a" if not first_chunk else "w",
                index=False,
                header=first_chunk
            )
            first_chunk = False
        
        print(f"Đã gộp thành công {len(parquet_files)} file Parquet vào {output_csv}")
        print(f"Tổng số dòng: {total_rows}")
        
        # Đọc file CSV để lấy nhãn và số lượng mẫu
        print("\nĐang đọc file CSV để phân tích nhãn...")
        df_csv = pd.read_csv(output_csv)
        
        # Kiểm tra xem cột 'Label' có tồn tại không
        if 'Label' in df_csv.columns:
            # Lấy danh sách nhãn độc nhất và số lượng mẫu
            label_counts = df_csv['Label'].value_counts()
            
            # In các nhãn và số lượng mẫu
            print("\nCác nhãn độc nhất và số lượng mẫu trong cột 'Label':")
            for label, count in label_counts.items():
                print(f"Nhãn: {label}, Số mẫu: {count}")
            
            # In tổng số nhãn và tổng số mẫu
            print(f"\nTổng số nhãn độc nhất: {len(label_counts)}")
            print(f"Tổng số mẫu: {label_counts.sum()}")
        else:
            print("Lỗi: Cột 'Label' không tồn tại trong file CSV!")
            
    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file {output_csv}!")
    except Exception as e:
        print(f"Lỗi khi xử lý: {str(e)}")

Tìm thấy 10 file Parquet: ['d:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\Botnet-Friday-02-03-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\Bruteforce-Wednesday-14-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\DDoS1-Tuesday-20-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\DDoS2-Wednesday-21-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\DoS1-Thursday-15-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\DoS2-Friday-16-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\Infil1-Wednesday-28-02-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\Infil2-Thursday-01-03-2018_TrafficForML_CICFlowMeter.parquet', 'd:\\NIDSwML\\Datasets\\CSE-CIC-IDS2018_dataset\\Web1-Thursday-22-02-2018_Traffic