In [None]:
#đọc file tuần tự
import time
import pandas as pd
files = ["sales_jan.csv", "sales_feb.csv", "sales_mar.csv"]
def read_file_sequential():
    start = time.time()
    for f in files:
        time.sleep(0.2)
        df = pd.read_csv(f)
        print(f"Đọc xong {f}: {len(df)} dòng")
    end = time.time()
    print(f"Thời gian đọc tuần tự: {end - start:.4f} giây")

In [3]:
read_file_sequential()

Đọc xong sales_jan.csv: 31 dòng
Đọc xong sales_feb.csv: 29 dòng
Đọc xong sales_mar.csv: 31 dòng
Thời gian đọc tuần tự: 0.6455 giây


In [11]:
#đọc file bằng threading.Thread
import threading
import time
import pandas as pd
results = []
def load_csv_thread(filename):
    time.sleep(0.7)
    df = pd.read_csv(filename)
    results.append((filename, len(df)))
    print(f"Đọc xong {filename}: {len(df)} dòng")
def read_file_multithread():
    start = time.time()
    threads = []    #ds lưu trữ các luồng
    for f in files:   #lập qua ds file cần đọc
        t = threading.Thread(target=load_csv_thread, args=(f,))  #tạo luồng mới bằng cách truyền hàm load
        threads.append(t)    #thêm luồng vfao ds lưu trữ thread
        t.start()  #bắt đầu luồng ở mỗi lần lặp
    for t in threads:
        t.join()  #chờ tất cả các luồng kết thúc
    end = time.time()
    print(f"Thời gian đọc đa luồng: {end - start:.4f} giây")  #in ra thời gian thực thi tổng cộng khi sd đa luồng

In [12]:
read_file_multithread()

Đọc xong sales_feb.csv: 29 dòng
Đọc xong sales_mar.csv: 31 dòng
Đọc xong sales_jan.csv: 31 dòng
Thời gian đọc đa luồng: 0.7160 giây


In [13]:
#hàm so sánh trực tiếp
if __name__ == "__main__":
    print("----Đọc tuần tự----")
    read_file_sequential()
    print("\n----Đọc đa luồng----")
    read_file_multithread()

----Đọc tuần tự----
Đọc xong sales_jan.csv: 31 dòng
Đọc xong sales_feb.csv: 29 dòng
Đọc xong sales_mar.csv: 31 dòng
Thời gian đọc tuần tự: 0.6059 giây

----Đọc đa luồng----
Đọc xong sales_jan.csv: 31 dòng
Đọc xong sales_feb.csv: 29 dòng
Đọc xong sales_mar.csv: 31 dòng
Thời gian đọc đa luồng: 0.7219 giây


In [14]:
from concurrent.futures import ThreadPoolExecutor
import pandas as pd
import time
def load_csv(filename):
    print(f"Đang đọc {filename}")
    time.sleep(0.5)
    df = pd.read_csv(filename)
    return filename, len(df)
files = ["sales_feb.csv", "sales_jan.csv", "sales_mar.csv"]
with ThreadPoolExecutor(max_workers=3) as executor:
    results = executor.map(load_csv, files)
for fname, rows in results:
    print(f"{fname}: {rows} dòng")


Đang đọc sales_feb.csv
Đang đọc sales_jan.csv
Đang đọc sales_mar.csv
sales_feb.csv: 29 dòng
sales_jan.csv: 31 dòng
sales_mar.csv: 31 dòng
