# 12. 1列目をcol1.txtに，2列目をcol2.txtに保存

各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

In [None]:
# 問題12: 1列目をcol1.txtに，2列目をcol2.txtに保存

# Pythonで列を抽出して保存
def extract_columns(file_path, col1_path, col2_path):
    """ファイルから1列目と2列目を抽出して別々のファイルに保存する関数
    
    Args:
        file_path: 入力ファイルのパス
        col1_path: 1列目を保存するファイルのパス
        col2_path: 2列目を保存するファイルのパス
        
    Returns:
        処理した行数
    """
    count = 0
    with open(file_path, 'r', encoding='utf-8') as f_in, \
         open(col1_path, 'w', encoding='utf-8') as f_col1, \
         open(col2_path, 'w', encoding='utf-8') as f_col2:
        for line in f_in:
            if line.strip():  # 空行でない場合
                count += 1
                columns = line.strip().split('\t')
                if len(columns) >= 2:
                    f_col1.write(columns[0] + '\n')
                    f_col2.write(columns[1] + '\n')
    return count

# サンプルファイルのパス（実際の環境に合わせて変更してください）
file_path = '../data/popular-names.txt'
col1_path = '../data/col1.txt'
col2_path = '../data/col2.txt'

# 列を抽出して保存
try:
    processed_lines = extract_columns(file_path, col1_path, col2_path)
    print(f"Pythonで処理: {processed_lines}行を処理しました")
    print(f"1列目を {col1_path} に保存しました")
    print(f"2列目を {col2_path} に保存しました")
except FileNotFoundError:
    print(f"ファイル {file_path} が見つかりません。")
    print("このノートブックを実行する前に、必要なデータファイルをダウンロードしてください。")
    print("データファイルは https://nlp100.github.io/data/popular-names.txt からダウンロードできます。")

In [None]:
# UNIXコマンドでの確認（Jupyter上で実行）
# cutコマンドを使用して1列目を抽出
!cut -f 1 ../data/popular-names.txt > /tmp/unix_col1.txt 2>/dev/null && echo "1列目を抽出しました" || echo "1列目の抽出に失敗しました"

In [None]:
# cutコマンドを使用して2列目を抽出
!cut -f 2 ../data/popular-names.txt > /tmp/unix_col2.txt 2>/dev/null && echo "2列目を抽出しました" || echo "2列目の抽出に失敗しました"

In [None]:
# 結果の確認（最初の5行を表示）
print("Pythonで抽出した1列目（最初の5行）:")
!head -n 5 ../data/col1.txt 2>/dev/null || echo "ファイルが見つかりません"

print("\nPythonで抽出した2列目（最初の5行）:")
!head -n 5 ../data/col2.txt 2>/dev/null || echo "ファイルが見つかりません"

print("\nUNIXコマンドで抽出した1列目（最初の5行）:")
!head -n 5 /tmp/unix_col1.txt 2>/dev/null || echo "ファイルが見つかりません"

print("\nUNIXコマンドで抽出した2列目（最初の5行）:")
!head -n 5 /tmp/unix_col2.txt 2>/dev/null || echo "ファイルが見つかりません"

## 解説

この問題では、タブ区切りのテキストファイルから特定の列を抽出し、別々のファイルに保存する方法を学びます。

### Pythonでの実装

Pythonで列を抽出するには、以下の手順を実行します：

1. 入力ファイルを開き、1行ずつ読み込みます。
2. 各行をタブ文字（`\t`）で分割して列のリストを取得します。
3. 1列目（インデックス0）と2列目（インデックス1）を別々のファイルに書き込みます。

### UNIXコマンドでの確認

UNIXの`cut`コマンドを使用して、特定の列を抽出できます：

```bash
cut -f 1 input.txt > col1.txt  # 1列目を抽出
cut -f 2 input.txt > col2.txt  # 2列目を抽出
```

`-f`オプションは、抽出するフィールド（列）を指定します。デフォルトのフィールド区切り文字はタブです。

### 注意点

- ファイルが存在しない場合のエラー処理を行っています。
- 空行や列数が不足している行に対する処理を考慮しています。
- 文字エンコーディングを指定して、異なる言語や文字セットのファイルも正しく処理できるようにしています。
- 大きなファイルでも効率的に処理できるように、ファイルを一度に全て読み込むのではなく、1行ずつ処理しています。