In [None]:
!pip install mecab-python3  unidic-lite
# sudo apt install mecab mecab-ipadic-utf8

### 形態素解析

In [None]:
import MeCab

mecab = MeCab.Tagger() 

result = mecab.parse("すもももももももものうち")

print(result)

### 分かち書き

In [None]:
import MeCab

mecab = MeCab.Tagger("-Owakati")

docs = ["すもももももももものうち"]

result = [mecab.parse(doc).strip() for doc in docs]

print(result)

### 単語の表層形と品詞を取得

In [None]:
import MeCab

# MeCabの初期化
mecab = MeCab.Tagger()

# 解析するテキスト
text = "すもももももももものうち"

# 単語ごとに解析結果を出力
node = mecab.parseToNode(text)
while node:
    word = node.surface  # 表層形
    pos = node.feature.split(",")[0]  # 品詞
    if word:  # 空でない場合のみ出力
        print(f"単語: {word},\t品詞: {pos}")
    node = node.next


### 形態素解析結果をリスト形式で取得

In [None]:
import MeCab

# MeCabの初期化
mecab = MeCab.Tagger()

# 解析するテキスト
text = "すもももももももものうち"

# 結果をリスト形式で保存
results = []
node = mecab.parseToNode(text)
while node:
    word = node.surface
    features = node.feature.split(",")
    if word:  # 空でない場合のみ追加
        results.append({
            "word": word,
            "pos": features[0],  # 品詞
            "reading": features[-2] if len(features) > 7 else ""  # 読み（存在する場合）
        })
    node = node.next

for res in results:
    print(res)


### ふりがな付け


In [8]:
import MeCab

# MeCabの初期化
mecab = MeCab.Tagger()

# ふりがなを付けたいテキスト
text = "今日はとても良い天気なので、犬の散歩をしてみました。"

# ふりがなを付ける関数
def add_furigana(text):
    node = mecab.parseToNode(text)
    result = []
    while node:
        word = node.surface  # 表層形
        features = node.feature.split(",")
        
        # 読みの取得
        if len(features) > 6 and features[6] != "*":
            reading = features[6]  # 読みが存在する場合
        elif len(features) > 7 and features[7] != "*":
            reading = features[7]  # 読みが第6フィールドにある場合
        else:
            reading = word  # 読みがない場合は表層形をそのまま利用
        
        # 読みが異なる場合にふりがなを付加
        if word != reading:
            result.append(f"{word}（{reading}）")
        else:
            result.append(word)
        
        # 次のノードに移動
        node = node.next
    return "".join(result)

# 実行
furigana_text = add_furigana(text)
print(furigana_text)


今日（キョウ）は（ハ）とても（トテモ）良い（ヨイ）天気（テンキ）な（ダ）の（ノ）で（ダ）、（）犬（イヌ）の（ノ）散歩（サンポ）を（ヲ）し（スル）て（テ）み（ミル）まし（マス）た（タ）。（）
