# 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ．

In [None]:
# 問題19: 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

from collections import Counter

# Pythonで1列目の文字列の出現頻度を求める関数
def count_column_frequency(file_path, column_index=0, delimiter='\t'):
    """ファイルの特定の列の値の出現頻度を求める関数
    
    Args:
        file_path: 入力ファイルのパス
        column_index: 列のインデックス（0始まり）
        delimiter: 列の区切り文字
        
    Returns:
        (値, 出現回数)のタプルのリスト（出現回数の降順）
    """
    values = []
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            columns = line.strip().split(delimiter)
            if len(columns) > column_index:
                values.append(columns[column_index])
    
    # Counterを使用して出現頻度をカウント
    counter = Counter(values)
    
    # 出現頻度の降順でソート
    sorted_items = counter.most_common()
    
    return sorted_items

# サンプルファイルのパス（実際の環境に合わせて変更してください）
file_path = '../data/popular-names.txt'

# 1列目の文字列の出現頻度を求める
try:
    frequency = count_column_frequency(file_path)
    print(f"1列目の文字列の出現頻度（上位10件）:")
    for i, (value, count) in enumerate(frequency):
        if i < 10:
            print(f"{value}: {count}回")
        else:
            break
    print(f"\n合計: {len(frequency)}種類の異なる値")
except FileNotFoundError:
    print(f"ファイル {file_path} が見つかりません。")
    print("このノートブックを実行する前に、必要なデータファイルをダウンロードしてください。")
    print("データファイルは https://nlp100.github.io/data/popular-names.txt からダウンロードできます。")

In [None]:
# UNIXコマンドでの確認（Jupyter上で実行）
# cut, sort, uniqコマンドを使用して1列目の文字列の出現頻度を求める
!cut -f 1 ../data/popular-names.txt | sort | uniq -c | sort -nr | head -n 10 2>/dev/null || echo "コマンドの実行に失敗しました"

## 解説

この問題では、ファイルの1列目に含まれる文字列の出現頻度を求め、その頻度の高い順に並べる方法を学びます。

### Pythonでの実装

Pythonで1列目の文字列の出現頻度を求めるには、以下の手順を実行します：

1. ファイルを開いて1行ずつ読み込みます。
2. 各行をタブ文字で分割して列のリストを取得します。
3. 1列目（インデックス0）の値をリストに追加します。
4. `collections.Counter`を使用して、リスト内の各値の出現回数をカウントします。
5. `most_common()`メソッドを使用して、出現頻度の降順でソートされた(値, 出現回数)のタプルのリストを取得します。

### UNIXコマンドでの確認

UNIXコマンドを組み合わせて、1列目の文字列の出現頻度を求めることができます：

```bash
cut -f 1 input.txt | sort | uniq -c | sort -nr
```

- `cut -f 1`：1列目を抽出します。
- `sort`：抽出した値をソートします。
- `uniq -c`：ソートされた値の出現回数をカウントします。
- `sort -nr`：出現回数の降順でソートします（`n`は数値として、`r`は降順）。

### 注意点

- ファイルが存在しない場合のエラー処理を行っています。
- 列数が不足している行に対する処理を考慮しています。
- 文字エンコーディングを指定して、異なる言語や文字セットのファイルも正しく処理できるようにしています。
- 大きなファイルでも効率的に処理できるように、ファイルを一度に全て読み込むのではなく、1行ずつ処理しています。
- `collections.Counter`は、Pythonの標準ライブラリで提供されている便利なデータ構造で、要素の出現回数を効率的にカウントできます。