In [1]:
"""
MeCabとPythonを使用した日本語テキスト分析入門
事前準備（必要なパッケージをインストール）

pip install mecab-python3
pip install unidic-lite
"""
import MeCab

# MeCab Taggerオブジェクトを作成
mecab = MeCab.Tagger()

# 簡単な日本語の文を分析
text = "私は日本語を勉強しています。"
result = mecab.parse(text)

print(result)

私	ワタクシ	ワタクシ	私-代名詞	代名詞			0
は	ワ	ハ	は	助詞-係助詞			
日本	ニッポン	ニッポン	日本	名詞-固有名詞-地名-国			3
語	ゴ	ゴ	語	名詞-普通名詞-一般			1
を	オ	ヲ	を	助詞-格助詞			
勉強	ベンキョー	ベンキョウ	勉強	名詞-普通名詞-サ変可能			0
し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般	0
て	テ	テ	て	助詞-接続助詞			
い	イ	イル	居る	動詞-非自立可能	上一段-ア行	連用形-一般	0
ます	マス	マス	ます	助動詞	助動詞-マス	終止形-一般	
。			。	補助記号-句点			
EOS



In [2]:
nodes = mecab.parseToNode(text)
print("トークン, 解析結果")
print("=" * 6, "," , "=" * 50)

while nodes:
    if nodes.surface != "":
        print(f"{nodes.surface}, {nodes.feature}")
    nodes = nodes.next

トークン, 解析結果
私, 代名詞,*,*,*,*,*,ワタクシ,私-代名詞,私,ワタクシ,私,ワタクシ,和,*,*,*,*,ワタクシ,ワタクシ,ワタクシ,ワタクシ,*,*,0,*,*
は, 助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,*,ハ,ハ,ハ,ハ,*,*,*,"動詞%F2@0,名詞%F1,形容詞%F2@-1",*
日本, 名詞,固有名詞,地名,国,*,*,ニッポン,日本,日本,ニッポン,日本,ニッポン,固,*,*,*,*,ニッポン,ニッポン,ニッポン,ニッポン,*,*,3,*,*
語, 名詞,普通名詞,一般,*,*,*,ゴ,語,語,ゴ,語,ゴ,漢,*,*,*,*,ゴ,ゴ,ゴ,ゴ,*,*,1,C3,*
を, 助詞,格助詞,*,*,*,*,ヲ,を,を,オ,を,オ,和,*,*,*,*,ヲ,ヲ,ヲ,ヲ,*,*,*,"動詞%F2@0,名詞%F1,形容詞%F2@-1",*
勉強, 名詞,普通名詞,サ変可能,*,*,*,ベンキョウ,勉強,勉強,ベンキョー,勉強,ベンキョー,漢,*,*,*,*,ベンキョウ,ベンキョウ,ベンキョウ,ベンキョウ,*,*,0,C2,*
し, 動詞,非自立可能,*,*,サ行変格,連用形-一般,スル,為る,し,シ,する,スル,和,*,*,*,*,シ,スル,シ,スル,*,*,0,C5,*
て, 助詞,接続助詞,*,*,*,*,テ,て,て,テ,て,テ,和,*,*,*,*,テ,テ,テ,テ,*,*,*,"動詞%F1,形容詞%F2@-1",*
い, 動詞,非自立可能,*,*,上一段-ア行,連用形-一般,イル,居る,い,イ,いる,イル,和,*,*,*,*,イ,イル,イ,イル,*,*,0,C4,*
ます, 助動詞,*,*,*,助動詞-マス,終止形-一般,マス,ます,ます,マス,ます,マス,和,*,*,*,*,マス,マス,マス,マス,*,*,*,動詞%F4@1,*
。, 補助記号,句点,*,*,*,*,,。,。,,。,,記号,*,*,*,*,,,,,*,*,*,*,*


In [3]:
"""
テキストのトークン化
"""
def tokenize(text):
    mecab = MeCab.Tagger()
    nodes = mecab.parseToNode(text)
    tokens = []
    while nodes:
        if nodes.surface != "":
            tokens.append(nodes.surface)
        nodes = nodes.next
    return tokens

# 使用例
text = "私は日本語を勉強しています。"
tokens = tokenize(text)
print(tokens)

['私', 'は', '日本', '語', 'を', '勉強', 'し', 'て', 'い', 'ます', '。']


In [4]:
"""
品詞情報の抽出
"""
def tokenize_with_pos(text):
    mecab = MeCab.Tagger()
    nodes = mecab.parseToNode(text)
    tokens = []
    while nodes:
        if nodes.surface != "":
            tokens.append((nodes.surface, nodes.feature.split(',')[0]))
        nodes = nodes.next
    return tokens

# 使用例
text = "私は日本語を勉強しています。"
tokens_with_pos = tokenize_with_pos(text)
print(tokens_with_pos)

[('私', '代名詞'), ('は', '助詞'), ('日本', '名詞'), ('語', '名詞'), ('を', '助詞'), ('勉強', '名詞'), ('し', '動詞'), ('て', '助詞'), ('い', '動詞'), ('ます', '助動詞'), ('。', '補助記号')]


In [5]:
"""
特定の品詞のフィルタリング
"""
def filter_pos(tokens, pos_list):
    return [token for token, pos in tokens if pos in pos_list]

# 使用例
text = "私は日本語を勉強しています。"
tokens_with_pos = tokenize_with_pos(text)
nouns = filter_pos(tokens_with_pos, ['名詞'])
print(nouns)

['日本', '語', '勉強']


In [6]:
"""
基本形の抽出
"""
def get_base_forms(text):
    mecab = MeCab.Tagger()
    nodes = mecab.parseToNode(text)
    base_forms = []
    while nodes:
        if nodes.surface != "":
            features = nodes.feature.split(',')
            base_forms.append(features[7] if len(features) > 8 else nodes.surface)
        nodes = nodes.next
    return base_forms

# 使用例
text = "私は日本語を勉強しています。"
base_forms = get_base_forms(text)
print(base_forms)

['私-代名詞', 'は', '日本', '語', 'を', '勉強', '為る', 'て', '居る', 'ます', '。']


In [7]:
"""
単語の頻度カウント
"""
from collections import Counter

def count_word_frequencies(text):
    tokens = tokenize(text)
    return Counter(tokens)

# 使用例
text = "私は日本語を勉強しています。私は毎日日本語を話します。"
word_frequencies = count_word_frequencies(text)
print(word_frequencies)

Counter({'私': 2, 'は': 2, '日本': 2, '語': 2, 'を': 2, 'ます': 2, '。': 2, '勉強': 1, 'し': 1, 'て': 1, 'い': 1, '毎日': 1, '話し': 1})


In [8]:
"""
固有表現の抽出
"""
def extract_named_entities(text):
    mecab = MeCab.Tagger()
    nodes = mecab.parseToNode(text)
    named_entities = []
    current_ne = []
    while nodes:
        if nodes.surface != "":
            features = nodes.feature.split(',')
            if features[1] == '固有名詞':
                current_ne.append(nodes.surface)
            else:
                if current_ne:
                    named_entities.append(''.join(current_ne))
                    current_ne = []
        nodes = nodes.next
    if current_ne:
        named_entities.append(''.join(current_ne))
    return named_entities

# 使用例
text = "私は東京で山田さんと会いました。"
named_entities = extract_named_entities(text)
print(named_entities)

['東京', '山田']


In [9]:
"""
テキスト要約
"""
from collections import defaultdict

def simple_summarize(text, num_sentences=3):
    sentences = text.split('。')
    word_frequencies = defaultdict(int)
    
    for sentence in sentences:
        tokens = tokenize(sentence)
        for token in tokens:
            word_frequencies[token] += 1
    
    sentence_scores = []
    for i, sentence in enumerate(sentences):
        score = sum(word_frequencies[token] for token in tokenize(sentence))
        sentence_scores.append((i, score))
    
    top_sentences = sorted(sentence_scores, key=lambda x: x[1], reverse=True)[:num_sentences]
    top_sentences = sorted(top_sentences, key=lambda x: x[0])
    
    summary = '。'.join(sentences[i] for i, _ in top_sentences) + '。'
    return summary

# 使用例
text = """
日本語は世界で最も難しい言語の一つだと言われています。
漢字、ひらがな、カタカナという3つの文字体系があります。
また、敬語システムも複雑で、状況に応じて適切な言葉遣いを選ぶ必要があります。
しかし、日本語を学ぶことで、日本の豊かな文化や歴史に触れることができます。
多くの外国人が日本語に魅力を感じ、学習に取り組んでいます。
日本語の習得は確かに難しいですが、努力次第で必ず上達します。
"""

summary = simple_summarize(text, num_sentences=3)
print(summary)


また、敬語システムも複雑で、状況に応じて適切な言葉遣いを選ぶ必要があります。
しかし、日本語を学ぶことで、日本の豊かな文化や歴史に触れることができます。
多くの外国人が日本語に魅力を感じ、学習に取り組んでいます。
