In [12]:
#並列処理サンプル
#テキストファイルを並列で読み込み、トークナイゼーションを行う例
#I/Oバウンド処理とCPUバウンド処理を使い分け

from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
import os
import nltk

# ファイルの読み込み（I/Oバウンド）
def load_file(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            content = f.read()
        return content
    except Exception as e:
        print(f"Error loading {file_path}: {e}")
        return None

# テキストの前処理（CPUバウンド）
def tokenize_text(text):
    return nltk.word_tokenize(text)

def main():
    file_paths = [f"text_{i}.txt" for i in range(1, 11)]

    # 1. I/Oバウンド処理: ファイルの読み込み
    with ThreadPoolExecutor(max_workers=4) as executor:
        texts = list(executor.map(load_file, file_paths))
    
    # 2. CPUバウンド処理: トークナイゼーション
    with ProcessPoolExecutor(max_workers=os.cpu_count()) as executor:
        tokenized_texts = list(executor.map(tokenize_text, texts))

    # 結果の確認
    for i, tokens in enumerate(tokenized_texts, 1):
        print(f"File {i}: {tokens[:10]}")  # 最初の10トークンを表示

if __name__ == "__main__":
    nltk.download('punkt')
    main()


ModuleNotFoundError: No module named 'nltk'