# 問題33: 「AのB」

形態素解析結果から「AのB」という表現をすべて抽出せよ．ただし，AとBは名詞とする．

In [None]:
# 問題30で実装した関数を読み込む
import sys
sys.path.append('../..')  # 親ディレクトリをパスに追加

# 形態素解析結果を読み込む関数
def load_mecab_result(file_path):
    """
    MeCabの解析結果ファイルを読み込み、各形態素を辞書のリストとして返す関数
    
    Args:
        file_path (str): MeCab出力ファイルのパス
        
    Returns:
        list: 文のリスト。各文は形態素（辞書）のリスト
    """
    sentences = []
    current_sentence = []
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            # EOSは文の区切り
            if line == 'EOS\n':
                if current_sentence:
                    sentences.append(current_sentence)
                    current_sentence = []
                continue
                
            # 空行をスキップ
            if line == '\n':
                continue
                
            # タブで分割して表層形とそれ以外の情報に分ける
            try:
                surface, info = line.split('\t')
                
                # カンマで分割して品詞情報などを取得
                info_items = info.split(',')
                
                # 形態素情報を辞書として格納
                morpheme = {
                    'surface': surface,
                    'base': info_items[6],
                    'pos': info_items[0],
                    'pos1': info_items[1]
                }
                
                current_sentence.append(morpheme)
            except:
                # 不正な形式の行をスキップ
                continue
    
    # 最後の文が追加されていない場合に追加
    if current_sentence:
        sentences.append(current_sentence)
    
    return sentences

# 「AのB」表現を抽出する関数
def extract_a_no_b(sentences):
    """
    形態素解析結果から「AのB」表現を抽出する関数
    AとBは名詞、「の」は助詞
    
    Args:
        sentences (list): 文のリスト。各文は形態素（辞書）のリスト
        
    Returns:
        list: 「AのB」表現のリスト
    """
    a_no_b_expressions = []
    
    # 全ての文を処理
    for sentence in sentences:
        # 文中の連続する3つの形態素を調べる
        for i in range(len(sentence) - 2):
            # 「名詞+助詞「の」+名詞」のパターンを探す
            if (sentence[i]['pos'] == '名詞' and
                sentence[i+1]['surface'] == 'の' and sentence[i+1]['pos'] == '助詞' and
                sentence[i+2]['pos'] == '名詞'):
                
                # 「AのB」表現を作成
                a_no_b = sentence[i]['surface'] + sentence[i+1]['surface'] + sentence[i+2]['surface']
                a_no_b_expressions.append(a_no_b)
    
    return a_no_b_expressions

In [None]:
# 形態素解析結果の読み込み
file_path = '../../data/neko.txt.mecab'
sentences = load_mecab_result(file_path)

# 「AのB」表現を抽出
a_no_b_expressions = extract_a_no_b(sentences)

# 結果の表示
print(f"「AのB」表現の数: {len(a_no_b_expressions)}")
print("\n最初の20個の「AのB」表現:")
for expression in a_no_b_expressions[:20]:
    print(expression)

# 重複を除いた「AのB」表現
unique_expressions = set(a_no_b_expressions)
print(f"\n重複を除いた「AのB」表現の数: {len(unique_expressions)}")
print("\n重複を除いた最初の20個の「AのB」表現:")
for expression in list(unique_expressions)[:20]:
    print(expression)

## 解説

この問題では、形態素解析結果から「AのB」という表現を抽出しました。ここでの「の」は助詞、AとBは名詞です。

### 実装のポイント

1. **パターンマッチング**: 連続する3つの形態素を調べ、「名詞+助詞「の」+名詞」というパターンを探しています。

2. **表現の構築**: パターンに一致した場合、3つの形態素の表層形を連結して「AのB」表現を作成しています。

3. **全文検索**: すべての文の中で、連続する3つの形態素のすべての組み合わせを調べています。

### 「AのB」表現の特徴

「AのB」表現は日本語で非常に一般的な構造で、以下のような関係を表します：

1. **所有関係**: 「猫の尻尾」（猫が持つ尻尾）
2. **所属関係**: 「学校の先生」（学校に所属する先生）
3. **性質・特徴**: 「木の家」（木でできた家）
4. **主題と説明**: 「人生の意味」（人生という主題についての意味）

### 結果の考察

抽出された「AのB」表現の中には、小説『吾輩は猫である』の特徴を反映したものが多く含まれています。例えば、「吾輩の主人」「家の内」「茶の間」などは、小説の舞台や登場人物に関連する表現です。

また、「AのB」表現の頻度分析を行うことで、小説の中で重要な関係性や主題を把握することができます。