# 16. ファイルをN分割する

自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

In [None]:
# 問題16: ファイルをN分割する

import math
import os

# PythonでファイルをN分割する関数
def split_file(file_path, n, output_dir='.'):
    """ファイルをN分割する関数
    
    Args:
        file_path: 入力ファイルのパス
        n: 分割数
        output_dir: 出力ディレクトリ
        
    Returns:
        分割されたファイルのパスのリスト
    """
    # 出力ファイルのパスのリスト
    output_files = []
    
    # 入力ファイルの行数をカウント
    with open(file_path, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    total_lines = len(lines)
    lines_per_file = math.ceil(total_lines / n)  # 1ファイルあたりの行数（切り上げ）
    
    # ファイル名の基本部分とファイル拡張子を取得
    base_name = os.path.basename(file_path)
    name, ext = os.path.splitext(base_name)
    
    # ファイルを分割して保存
    for i in range(n):
        start_idx = i * lines_per_file
        end_idx = min((i + 1) * lines_per_file, total_lines)
        
        if start_idx >= total_lines:
            break
        
        output_path = os.path.join(output_dir, f"{name}_{i+1:02d}{ext}")
        output_files.append(output_path)
        
        with open(output_path, 'w', encoding='utf-8') as f_out:
            f_out.writelines(lines[start_idx:end_idx])
    
    return output_files

# サンプルファイルのパス（実際の環境に合わせて変更してください）
file_path = '../data/popular-names.txt'
output_dir = '../data'

# 分割数を指定（コマンドライン引数の代わりに直接指定）
n = 5

# ファイルをN分割
try:
    output_files = split_file(file_path, n, output_dir)
    print(f"ファイルを{n}分割しました:")
    for file_path in output_files:
        print(f"- {file_path}")
except FileNotFoundError:
    print(f"ファイル {file_path} が見つかりません。")
    print("このノートブックを実行する前に、必要なデータファイルをダウンロードしてください。")
    print("データファイルは https://nlp100.github.io/data/popular-names.txt からダウンロードできます。")

In [None]:
# コマンドライン引数を受け取る場合の実装例
import sys
import math
import os

def split_file_with_args(file_path, n, output_dir='.'):
    """ファイルをN分割する関数
    
    Args:
        file_path: 入力ファイルのパス
        n: 分割数
        output_dir: 出力ディレクトリ
    """
    try:
        # 入力ファイルの行数をカウント
        with open(file_path, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        total_lines = len(lines)
        lines_per_file = math.ceil(total_lines / n)  # 1ファイルあたりの行数（切り上げ）
        
        # ファイル名の基本部分とファイル拡張子を取得
        base_name = os.path.basename(file_path)
        name, ext = os.path.splitext(base_name)
        
        # ファイルを分割して保存
        for i in range(n):
            start_idx = i * lines_per_file
            end_idx = min((i + 1) * lines_per_file, total_lines)
            
            if start_idx >= total_lines:
                break
            
            output_path = os.path.join(output_dir, f"{name}_{i+1:02d}{ext}")
            
            with open(output_path, 'w', encoding='utf-8') as f_out:
                f_out.writelines(lines[start_idx:end_idx])
            
            print(f"ファイルを作成しました: {output_path}")
    
    except FileNotFoundError:
        print(f"ファイル {file_path} が見つかりません。")

# この関数をコマンドラインから実行する場合の例
# python split_file.py popular-names.txt 5 output_dir
if __name__ == '__main__' and len(sys.argv) > 2:
    file_path = sys.argv[1]
    n = int(sys.argv[2])
    output_dir = sys.argv[3] if len(sys.argv) > 3 else '.'
    split_file_with_args(file_path, n, output_dir)

# Jupyter上では実行しない（デモンストレーションのみ）
print("これはコマンドライン引数を受け取る実装例です。")
print("実際にコマンドラインから実行する場合は、以下のようにします：")
print("python split_file.py popular-names.txt 5 output_dir")

In [None]:
# UNIXコマンドでの確認（Jupyter上で実行）
# splitコマンドを使用してファイルをN分割
!mkdir -p /tmp/split_output 2>/dev/null
!split -n l/5 ../data/popular-names.txt /tmp/split_output/popular-names_ 2>/dev/null && echo "splitコマンドで分割完了" || echo "splitコマンドでの分割に失敗しました"

In [None]:
# 分割されたファイルの確認
!ls -l /tmp/split_output/ 2>/dev/null || echo "ディレクトリが見つかりません"

## 解説

この問題では、ファイルを行単位でN分割する方法を学びます。

### Pythonでの実装

PythonでファイルをN分割するには、以下の手順を実行します：

1. 入力ファイルの全行を読み込みます。
2. 全体の行数を分割数で割って、1ファイルあたりの行数を計算します。
3. 計算した行数に基づいて、ファイルを分割して保存します。

### コマンドライン引数を受け取る実装

Pythonスクリプトをコマンドラインから実行する場合、`sys.argv`を使用してコマンドライン引数を受け取ることができます。

```python
import sys

file_path = sys.argv[1]  # 1番目の引数（ファイルパス）
n = int(sys.argv[2])     # 2番目の引数（分割数）
output_dir = sys.argv[3] if len(sys.argv) > 3 else '.'  # 3番目の引数（出力ディレクトリ、省略可能）
```

### UNIXコマンドでの確認

UNIXの`split`コマンドを使用して、ファイルをN分割できます：

```bash
split -n l/N input.txt output_prefix
```

`-n l/N`オプションは、ファイルをN個の部分に分割することを指定します。`l`は「行数で分割」を意味します。

### 注意点

- ファイルが存在しない場合のエラー処理を行っています。
- 分割数が行数より多い場合の処理を考慮しています。
- 文字エンコーディングを指定して、異なる言語や文字セットのファイルも正しく処理できるようにしています。
- 実際のアプリケーションでは、コマンドライン引数やGUIなどを通じて、ユーザーから分割数を受け取ることができます。