# 問題32: 動詞の基本形

形態素解析結果から動詞の基本形をすべて抽出せよ．

In [None]:
# 問題30で実装した関数を読み込む
import sys
sys.path.append('../..')  # 親ディレクトリをパスに追加

# 形態素解析結果を読み込む関数
def load_mecab_result(file_path):
    """
    MeCabの解析結果ファイルを読み込み、各形態素を辞書のリストとして返す関数
    
    Args:
        file_path (str): MeCab出力ファイルのパス
        
    Returns:
        list: 文のリスト。各文は形態素（辞書）のリスト
    """
    sentences = []
    current_sentence = []
    
    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            # EOSは文の区切り
            if line == 'EOS\n':
                if current_sentence:
                    sentences.append(current_sentence)
                    current_sentence = []
                continue
                
            # 空行をスキップ
            if line == '\n':
                continue
                
            # タブで分割して表層形とそれ以外の情報に分ける
            try:
                surface, info = line.split('\t')
                
                # カンマで分割して品詞情報などを取得
                info_items = info.split(',')
                
                # 形態素情報を辞書として格納
                morpheme = {
                    'surface': surface,
                    'base': info_items[6],
                    'pos': info_items[0],
                    'pos1': info_items[1]
                }
                
                current_sentence.append(morpheme)
            except:
                # 不正な形式の行をスキップ
                continue
    
    # 最後の文が追加されていない場合に追加
    if current_sentence:
        sentences.append(current_sentence)
    
    return sentences

# 動詞の基本形を抽出する関数
def extract_verb_base_forms(sentences):
    """
    形態素解析結果から動詞の基本形を抽出する関数
    
    Args:
        sentences (list): 文のリスト。各文は形態素（辞書）のリスト
        
    Returns:
        list: 動詞の基本形のリスト
    """
    verb_base_forms = []
    for sentence in sentences:
        for morpheme in sentence:
            if morpheme['pos'] == '動詞':
                verb_base_forms.append(morpheme['base'])
    
    return verb_base_forms

In [None]:
# 形態素解析結果の読み込み
file_path = '../../data/neko.txt.mecab'
sentences = load_mecab_result(file_path)

# 動詞の基本形を抽出
verb_base_forms = extract_verb_base_forms(sentences)

# 結果の表示
print(f"動詞の基本形の数: {len(verb_base_forms)}")
print("\n最初の20個の動詞の基本形:")
for base_form in verb_base_forms[:20]:
    print(base_form)

# 重複を除いた動詞の基本形
unique_base_forms = set(verb_base_forms)
print(f"\n重複を除いた動詞の基本形の数: {len(unique_base_forms)}")
print("\n重複を除いた最初の20個の動詞の基本形:")
for base_form in list(unique_base_forms)[:20]:
    print(base_form)

## 解説

この問題では、形態素解析結果から動詞の基本形を抽出しました。

### 実装のポイント

1. **動詞の抽出**: 形態素の品詞（pos）が「動詞」であるものを抽出しています。

2. **基本形の取得**: 抽出した動詞の基本形（base）を取得しています。基本形とは、動詞の辞書形（終止形）のことです。例えば、「走った」という表層形の基本形は「走る」です。

3. **重複の処理**: 同じ基本形が複数回出現する場合があります。必要に応じて、`set()`を使用して重複を除去することができます。

### 表層形と基本形の違い

問題31では動詞の表層形を抽出しましたが、この問題では基本形を抽出しています。表層形は文中に実際に出現している形であり、基本形は辞書に載っている形です。

例えば：
- 「走る」（基本形）が「走った」（表層形）として出現
- 「読む」（基本形）が「読んで」（表層形）として出現

基本形を抽出することで、異なる活用形で出現している同じ動詞をまとめて扱うことができます。これは、テキストの内容分析や特徴抽出において重要です。

### 結果の考察

抽出された動詞の基本形の中には、「する」「なる」「ある」「いる」などの一般的な動詞が多く含まれています。これらは日本語の文章でよく使われる基本的な動詞です。

表層形と比較すると、基本形の方が種類（ユニーク数）が少なくなっていることが予想されます。これは、異なる活用形が同じ基本形にまとめられるためです。