# 問題30: 形態素解析結果の読み込み

夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを読み込み，各形態素を表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．

In [None]:
# MeCabの出力結果を読み込む関数
def load_mecab_result(file_path):
    """
    MeCabの解析結果ファイルを読み込み、各形態素を辞書のリストとして返す関数
    
    Args:
        file_path (str): MeCab出力ファイルのパス
        
    Returns:
        list: 文のリスト。各文は形態素（辞書）のリスト
    """
    sentences = []
    current_sentence = []
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            # EOSは文の区切り
            if line == 'EOS\n':
                if current_sentence:
                    sentences.append(current_sentence)
                    current_sentence = []
                continue
                
            # 空行をスキップ
            if line == '\n':
                continue
                
            # タブで分割して表層形とそれ以外の情報に分ける
            try:
                surface, info = line.split('\t')
                
                # カンマで分割して品詞情報などを取得
                info_items = info.split(',')
                
                # 形態素情報を辞書として格納
                morpheme = {
                    'surface': surface,
                    'base': info_items[6],
                    'pos': info_items[0],
                    'pos1': info_items[1]
                }
                
                current_sentence.append(morpheme)
            except:
                # 不正な形式の行をスキップ
                continue
    
    # 最後の文が追加されていない場合に追加
    if current_sentence:
        sentences.append(current_sentence)
    
    return sentences

In [None]:
# 形態素解析結果の読み込み
file_path = '../../data/neko.txt.mecab'
sentences = load_mecab_result(file_path)

# 最初の文を表示
print(f"総文数: {len(sentences)}")
print("\n最初の文の形態素:")
for morpheme in sentences[0]:
    print(morpheme)

## 解説

この問題では、MeCabによる形態素解析結果を読み込み、各形態素を辞書型に格納する処理を実装しました。

### MeCabの出力形式
MeCabの出力は以下の形式になっています：
```
表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
```

### 実装のポイント
1. **文の区切り**: MeCabの出力では、文の区切りは「EOS」という特殊なマーカーで示されています。これを利用して、1文ごとに形態素のリストを作成しています。

2. **形態素情報の抽出**: 各行をタブで分割して表層形と品詞情報に分け、さらに品詞情報をカンマで分割して必要な情報を取得しています。

3. **辞書型への格納**: 各形態素の情報を、指定されたキー（surface, base, pos, pos1）を持つ辞書型に格納しています。

4. **エラー処理**: 不正な形式の行があった場合にスキップする例外処理を追加しています。

この関数は、第4章の残りの問題でも活用されます。