# 第4章: 言語解析
問題30から問題35までは、以下の文章text（太宰治の『走れメロス』の冒頭部分）に対して、言語解析を実施せよ。問題36から問題39までは、国家を説明した文書群（日本語版ウィキペディア記事から抽出したテキスト群）をコーパスとして、言語解析を実施せよ。

https://nlp100.github.io/2025/ja/ch04.html

In [4]:
text = """
メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。
メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
"""

In [17]:
!pip install pandas

You should consider upgrading via the '/Users/kuramotomana/nlp100/.venv/bin/python3 -m pip install --upgrade pip' command.[0m


## 30. 動詞
文章textに含まれる動詞をすべて表示せよ。

In [19]:
# 形態素解析エンジンMeCabのPythonバインディングをインポート
import MeCab

# pandasをインポート（MeCab出力の省略対策のためではなく、今は未使用）
import pandas as pd

# pandasの表示設定（将来DataFrame使うとき用、今はMeCabの出力をそのまま使う）
pd.set_option("display.max_rows", None)         # 表示する最大行数を無制限に
pd.set_option("display.max_colwidth", None)     # 列の文字数も制限なしに

# 解析したい日本語テキスト（複数行にわたる文章）
text = """
メロスは激怒した。
必ず、かの邪智暴虐の王を除かなければならぬと決意した。
メロスには政治がわからぬ。
メロスは、村の牧人である。
笛を吹き、羊と遊んで暮して来た。
けれども邪悪に対しては、人一倍に敏感であった。
"""

# MeCabのTaggerオブジェクトを生成（辞書や動作設定はOSに依存して自動選択される）
tagger = MeCab.Tagger()

# MeCabでテキスト全体を形態素解析し、解析結果を改行区切りの文字列として取得
node = tagger.parse(text)

# 【出力1】MeCabの解析結果をそのまま表示（省略なし）
print("🔍 MeCabの解析結果（全文）")
print(node)

# 動詞の基本形（辞書に載っている元の形）を保存するためのリストを作成
verbs = []

# MeCabの出力は1語ごとに1行なので、改行で分割して1行ずつ処理
for line in node.split('\n'):

    # 'EOS' は MeCab における「文の終わり」のマーク。空行とともにスキップする
    if line == 'EOS' or line == '':
        continue

    try:
        # 各行は「表層形（表示される形） + タブ + 品詞情報」の形式なので、分ける
        surface, feature = line.split('\t')

        # 品詞情報（「名詞,一般,*,*,*,*,〜」のようなカンマ区切りの情報）を分割
        features = feature.split(',')

        # 品詞情報の0番目（features[0]）が「動詞」だったら処理を進める
        if features[0] == '動詞':

            # features[6] は「基本形」（例：した → する）を表す
            # "*" の場合は値がないのでスキップ
            if features[6] != '*':
                base_form = features[6]  # 基本形を取り出す
                verbs.append(base_form)  # 動詞リストに追加

    except ValueError:
        # 行にタブが含まれていないなど、splitに失敗した場合はスキップ
        continue

# 【出力2】Pythonのリスト形式で動詞の基本形をすべて表示（重複は残す）
print("📝 動詞のリスト（Pythonのリスト形式）")
print(verbs)

🔍 MeCabの解析結果（全文）
メロス	名詞,一般,*,*,*,*,*
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
激怒	名詞,サ変接続,*,*,*,*,激怒,ゲキド,ゲキド
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。
必ず	副詞,助詞類接続,*,*,*,*,必ず,カナラズ,カナラズ
、	記号,読点,*,*,*,*,、,、,、
かの	連体詞,*,*,*,*,*,かの,カノ,カノ
邪智	名詞,一般,*,*,*,*,邪智,ジャチ,ジャチ
暴虐	名詞,一般,*,*,*,*,暴虐,ボウギャク,ボーギャク
の	助詞,連体化,*,*,*,*,の,ノ,ノ
王	名詞,一般,*,*,*,*,王,オウ,オー
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
除か	動詞,自立,*,*,五段・カ行イ音便,未然形,除く,ノゾカ,ノゾカ
なけれ	助動詞,*,*,*,特殊・ナイ,仮定形,ない,ナケレ,ナケレ
ば	助詞,接続助詞,*,*,*,*,ば,バ,バ
なら	動詞,非自立,*,*,五段・ラ行,未然形,なる,ナラ,ナラ
ぬ	助動詞,*,*,*,特殊・ヌ,基本形,ぬ,ヌ,ヌ
と	助詞,格助詞,引用,*,*,*,と,ト,ト
決意	名詞,サ変接続,*,*,*,*,決意,ケツイ,ケツイ
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。	記号,句点,*,*,*,*,。,。,。
メロス	名詞,一般,*,*,*,*,*
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
政治	名詞,一般,*,*,*,*,政治,セイジ,セイジ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
わから	動詞,自立,*,*,五段・ラ行,未然形,わかる,ワカラ,ワカラ
ぬ	助動詞,*,*,*,特殊・ヌ,基本形,ぬ,ヌ,ヌ
。	記号,句点,*,*,*,*,。,。,。
メロス	名詞,一般,*,*,*,*,*
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
村	名詞,一般,*,*,*,*,村,ムラ,ムラ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
牧人	名詞,一般,*,*,*,*

## 31. 動詞の原型
文章textに含まれる動詞と、その原型をすべて表示せよ。

## 32. 「AのB」
文章textにおいて、2つの名詞が「の」で連結されている名詞句をすべて抽出せよ。



## 33. 係り受け解析
文章textに係り受け解析を適用し、係り元と係り先のトークン（形態素や文節などの単位）をタブ区切り形式ですべて抽出せよ。

## 34. 主述の関係
文章textにおいて、「メロス」が主語であるときの述語を抽出せよ。