# 18. 各行を3コラム目の数値の降順にソート

各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ．

In [None]:
# 問題18: 各行を3コラム目の数値の降順にソート

# Pythonで3コラム目の数値の降順でソートする関数
def sort_by_column(file_path, column_index=2, reverse=True, delimiter='\t'):
    """ファイルの行を特定の列の値でソートする関数
    
    Args:
        file_path: 入力ファイルのパス
        column_index: ソートする列のインデックス（0始まり）
        reverse: 降順にする場合はTrue、昇順にする場合はFalse
        delimiter: 列の区切り文字
        
    Returns:
        ソートされた行のリスト
    """
    lines = []
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            lines.append(line.rstrip('\n'))
    
    # 3コラム目（インデックス2）の数値でソート
    # keyにはラムダ関数を使用して、各行を分割し、指定された列の値を数値に変換
    sorted_lines = sorted(lines, 
                          key=lambda line: float(line.split(delimiter)[column_index]) if len(line.split(delimiter)) > column_index else 0, 
                          reverse=reverse)
    
    return sorted_lines

# サンプルファイルのパス（実際の環境に合わせて変更してください）
file_path = '../data/popular-names.txt'

# 3コラム目の数値の降順でソート
try:
    sorted_lines = sort_by_column(file_path)
    print(f"3コラム目の数値の降順でソートした結果（最初の5行）:")
    for i, line in enumerate(sorted_lines):
        if i < 5:
            print(line)
        else:
            break
    print("...")
except FileNotFoundError:
    print(f"ファイル {file_path} が見つかりません。")
    print("このノートブックを実行する前に、必要なデータファイルをダウンロードしてください。")
    print("データファイルは https://nlp100.github.io/data/popular-names.txt からダウンロードできます。")
except IndexError:
    print("ファイルの形式が想定と異なります。3列目が存在するか確認してください。")

In [None]:
# UNIXコマンドでの確認（Jupyter上で実行）
# sortコマンドを使用して3コラム目の数値の降順でソート
!sort -t $'\t' -k 3,3nr ../data/popular-names.txt | head -n 5 2>/dev/null || echo "コマンドの実行に失敗しました"

## 解説

この問題では、ファイルの各行を3コラム目（3列目）の数値の降順でソートする方法を学びます。

### Pythonでの実装

Pythonで3コラム目の数値の降順でソートするには、以下の手順を実行します：

1. ファイルを開いて全行を読み込みます。
2. `sorted`関数を使用して、3コラム目（インデックス2）の数値に基づいて行をソートします。
3. `key`パラメータにラムダ関数を指定して、各行を分割し、3コラム目の値を数値に変換してソートの基準とします。
4. `reverse=True`を指定して、降順にソートします。

### UNIXコマンドでの確認

UNIXの`sort`コマンドを使用して、3コラム目の数値の降順でソートできます：

```bash
sort -t $'\t' -k 3,3nr input.txt
```

- `-t $'\t'`：タブ文字を区切り文字として指定します。
- `-k 3,3`：3列目をソートのキーとして使用します。
- `n`：数値としてソートします。
- `r`：降順（逆順）でソートします。

### 注意点

- ファイルが存在しない場合のエラー処理を行っています。
- 列数が不足している行に対する処理を考慮しています。
- 文字エンコーディングを指定して、異なる言語や文字セットのファイルも正しく処理できるようにしています。
- ソート時に元の行の内容は変更せず、行全体の順序のみを変更しています。