# 17. １列目の文字列の異なり

1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはcut, sort, uniqコマンドを用いよ．

In [None]:
# 問題17: １列目の文字列の異なり

# Pythonで1列目の文字列の異なりを求める関数
def get_unique_values_in_column(file_path, column_index=0, delimiter='\t'):
    """ファイルの特定の列の異なる値（ユニークな値）を取得する関数
    
    Args:
        file_path: 入力ファイルのパス
        column_index: 列のインデックス（0始まり）
        delimiter: 列の区切り文字
        
    Returns:
        ユニークな値のセット
    """
    unique_values = set()
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            columns = line.strip().split(delimiter)
            if len(columns) > column_index:
                unique_values.add(columns[column_index])
    
    return unique_values

# サンプルファイルのパス（実際の環境に合わせて変更してください）
file_path = '../data/popular-names.txt'

# 1列目の文字列の異なりを求める
try:
    unique_values = get_unique_values_in_column(file_path)
    print(f"1列目の異なる文字列の数: {len(unique_values)}")
    print("\n1列目の異なる文字列の一部（最初の10個）:")
    for i, value in enumerate(sorted(unique_values)):
        if i < 10:
            print(f"- {value}")
        else:
            break
    print("...")
except FileNotFoundError:
    print(f"ファイル {file_path} が見つかりません。")
    print("このノートブックを実行する前に、必要なデータファイルをダウンロードしてください。")
    print("データファイルは https://nlp100.github.io/data/popular-names.txt からダウンロードできます。")

In [None]:
# UNIXコマンドでの確認（Jupyter上で実行）
# cut, sort, uniqコマンドを使用して1列目の文字列の異なりを求める
!cut -f 1 ../data/popular-names.txt | sort | uniq | wc -l 2>/dev/null || echo "コマンドの実行に失敗しました"

In [None]:
# 1列目の異なる文字列の一部を表示
!cut -f 1 ../data/popular-names.txt | sort | uniq | head -n 10 2>/dev/null || echo "コマンドの実行に失敗しました"

## 解説

この問題では、ファイルの1列目に含まれる文字列の種類（異なる文字列の集合）を求める方法を学びます。

### Pythonでの実装

Pythonで1列目の文字列の異なりを求めるには、以下の手順を実行します：

1. ファイルを開いて1行ずつ読み込みます。
2. 各行をタブ文字で分割して列のリストを取得します。
3. 1列目（インデックス0）の値をセット（`set`）に追加します。セットは重複を許さないデータ構造なので、自動的に異なる値のみが保持されます。
4. 最終的に得られたセットの要素数が、1列目の異なる文字列の数となります。

### UNIXコマンドでの確認

UNIXコマンドを組み合わせて、1列目の文字列の異なりを求めることができます：

```bash
cut -f 1 input.txt | sort | uniq | wc -l
```

- `cut -f 1`：1列目を抽出します。
- `sort`：抽出した値をソートします。
- `uniq`：ソートされた値から重複を除去します。
- `wc -l`：行数（異なる値の数）をカウントします。

### 注意点

- ファイルが存在しない場合のエラー処理を行っています。
- 列数が不足している行に対する処理を考慮しています。
- 文字エンコーディングを指定して、異なる言語や文字セットのファイルも正しく処理できるようにしています。
- 大きなファイルでも効率的に処理できるように、ファイルを一度に全て読み込むのではなく、1行ずつ処理しています。