In [10]:
def parse_mecab_output(file_path):
    sentences = []  # 文全体を格納するリスト
    sentence = []   # 個々の文を構成する形態素を格納するリスト

    with open(file_path, 'r', encoding='utf-8') as file:
        for i, line in enumerate(file):
            line = line.strip()
            if not line or line == 'EOS':  # 空行や"EOS"行は文の終わりとして扱う
                if sentence:  # 文が空でない場合、文をsentencesに追加
                    sentences.append(sentence)
                    sentence = []  # 新しい文の準備
                continue

            parts = line.split('\t')
            if len(parts) < 2:  # タブで分割された部分が2つ未満の場合はスキップ
                continue

            surface = parts[0]
            feature_list = parts[1].split(',')
            if len(feature_list) < 5:  # 形態素情報が足りない場合はスキップ
                continue

            morpheme = {
                'surface': surface,
                'base': feature_list[2] if len(feature_list) > 2 else '*',  # 基本形
                'pos': feature_list[3] if len(feature_list) > 3 else '*',   # 品詞
                'pos1': feature_list[4] if len(feature_list) > 4 else '*'   # 品詞細分類1
            }
            sentence.append(morpheme)

        if sentence:  # ファイルの最後に残った文を追加
            sentences.append(sentence)

    return sentences

sentences = parse_mecab_output('neko.txt.mecab')

In [11]:
verbs = []
for sentence in sentences:
    for morpheme in sentence:
        if morpheme['pos'] == '動詞':
            verbs.append(morpheme['surface'])

print(verbs[:10])  # 最初の10個の動詞の表層形を表示

[]
