# Text segmentation example
* reference: https://qiita.com/automation2025/items/7474deca81fd8f6cda07

## Basic functions

In [None]:
# pip install mecab
# pip install unidic-lite

In [13]:
import pandas as pd
import MeCab

In [15]:
# build tagger object
mecab = MeCab.Tagger() 

In [17]:
text = "黒島区長の川井さんは、修復に携わった人々への感謝とともに「神輿が帰ってきて町に元気が出て、祭りにたくさんの人が来ると期待しています」と思いを語りました。"

In [19]:
result = mecab.parse(text)
print(result)

黒島	クロシマ	クロシマ	クロシマ	名詞-固有名詞-人名-姓			0,2
区長	クチョー	クチョウ	区長	名詞-普通名詞-一般			1,2
の	ノ	ノ	の	助詞-格助詞			
川井	カワイ	カワイ	カワイ	名詞-固有名詞-人名-姓			0
さん	サン	サン	さん	接尾辞-名詞的-一般			
は	ワ	ハ	は	助詞-係助詞			
、			、	補助記号-読点			
修復	シューフク	シュウフク	修復	名詞-普通名詞-サ変可能			0
に	ニ	ニ	に	助詞-格助詞			
携わっ	タズサワッ	タズサワル	携わる	動詞-一般	五段-ラ行	連用形-促音便	4
た	タ	タ	た	助動詞	助動詞-タ	連体形-一般	
人々	ヒトビト	ヒトビト	人々	名詞-普通名詞-一般			2
へ	エ	ヘ	へ	助詞-格助詞			
の	ノ	ノ	の	助詞-格助詞			
感謝	カンシャ	カンシャ	感謝	名詞-普通名詞-サ変可能			1
と	ト	ト	と	助詞-格助詞			
とも	トモ	トモ	共	名詞-普通名詞-一般			0,1
に	ニ	ニ	に	助詞-格助詞			
「			「	補助記号-括弧開			
神輿	ミコシ	ミコシ	御輿	名詞-普通名詞-一般			0,1
が	ガ	ガ	が	助詞-格助詞			
帰っ	カエッ	カエル	返る	動詞-一般	五段-ラ行	連用形-促音便	1
て	テ	テ	て	助詞-接続助詞			
き	キ	クル	来る	動詞-非自立可能	カ行変格	連用形-一般	1
て	テ	テ	て	助詞-接続助詞			
町	マチ	マチ	町	名詞-普通名詞-一般			2
に	ニ	ニ	に	助詞-格助詞			
元気	ゲンキ	ゲンキ	元気	名詞-普通名詞-形状詞可能			1
が	ガ	ガ	が	助詞-格助詞			
出	デ	デル	出る	動詞-一般	下一段-ダ行	連用形-一般	1
て	テ	テ	て	助詞-接続助詞			
、			、	補助記号-読点			
祭り	マツリ	マツリ	祭り	名詞-普通名詞-一般			0
に	ニ	ニ	に	助詞-格助詞			
たくさん	タクサン	タクサン	沢山	形状詞-一般			3
の	ノ	ノ	の	助詞-格助詞			
人	ヒト	ヒト	人	名詞-普通名詞-一般			0
が	ガ	ガ	が	助詞-格助詞			
来る	クル	クル	来る	動詞-非自立可能	カ行変格	終止形-一般	1
と	ト	ト	と	助詞-接続助詞			
期待	キタイ	キ

### Segmentation

In [24]:
def tokenize(text):
    nodes = mecab.parseToNode(text)
    tokens = []
    while nodes:
        if nodes.surface != "":
            tokens.append(nodes.surface)
        nodes = nodes.next
    return tokens

In [26]:
tokens = tokenize(text)
print(tokens)

['黒島', '区長', 'の', '川井', 'さん', 'は', '、', '修復', 'に', '携わっ', 'た', '人々', 'へ', 'の', '感謝', 'と', 'とも', 'に', '「', '神輿', 'が', '帰っ', 'て', 'き', 'て', '町', 'に', '元気', 'が', '出', 'て', '、', '祭り', 'に', 'たくさん', 'の', '人', 'が', '来る', 'と', '期待', 'し', 'て', 'い', 'ます', '」', 'と', '思い', 'を', '語り', 'まし', 'た', '。']


### Segmentation with POS

In [29]:
def tokenize_with_pos(text):
    nodes = mecab.parseToNode(text)
    tokens = []
    while nodes:
        if nodes.surface != "":
            tokens.append((nodes.surface, nodes.feature.split(',')[0]))
        nodes = nodes.next
    return tokens

In [31]:
tokens_with_pos = tokenize_with_pos(text)
print(tokens_with_pos)

[('黒島', '名詞'), ('区長', '名詞'), ('の', '助詞'), ('川井', '名詞'), ('さん', '接尾辞'), ('は', '助詞'), ('、', '補助記号'), ('修復', '名詞'), ('に', '助詞'), ('携わっ', '動詞'), ('た', '助動詞'), ('人々', '名詞'), ('へ', '助詞'), ('の', '助詞'), ('感謝', '名詞'), ('と', '助詞'), ('とも', '名詞'), ('に', '助詞'), ('「', '補助記号'), ('神輿', '名詞'), ('が', '助詞'), ('帰っ', '動詞'), ('て', '助詞'), ('き', '動詞'), ('て', '助詞'), ('町', '名詞'), ('に', '助詞'), ('元気', '名詞'), ('が', '助詞'), ('出', '動詞'), ('て', '助詞'), ('、', '補助記号'), ('祭り', '名詞'), ('に', '助詞'), ('たくさん', '形状詞'), ('の', '助詞'), ('人', '名詞'), ('が', '助詞'), ('来る', '動詞'), ('と', '助詞'), ('期待', '名詞'), ('し', '動詞'), ('て', '助詞'), ('い', '動詞'), ('ます', '助動詞'), ('」', '補助記号'), ('と', '助詞'), ('思い', '名詞'), ('を', '助詞'), ('語り', '動詞'), ('まし', '助動詞'), ('た', '助動詞'), ('。', '補助記号')]


## Examples for applications

### Example 1: sentiment analysis

In [35]:
sentiment_dict = {
    "楽しい": 1, "嬉しい": 1, "素晴らしい": 2,
    "悲しい": -1, "辛い": -1, "最悪": -2, 
    "感謝": 2, "期待": 1, "元気":1
}

def simple_sentiment_analysis(text):
    tokens = tokenize(text)
    score = sum(sentiment_dict.get(token, 0) for token in tokens)
    return score


In [37]:
sentiment_score = simple_sentiment_analysis(text)
print(f"感情スコア: {sentiment_score}")

感情スコア: 4


### Example 2: calculate tf-idf

In [40]:
from sklearn.feature_extraction.text import TfidfVectorizer
data = pd.read_csv("./output_split.csv")
docs = [para for para in data['para'] if '能登' in para or '復興' in para][:10]

In [42]:
def tokenize_with_pos_tfidf(text, include_pos={'名詞', '動詞'}): # filter words by POS
    node = mecab.parseToNode(text)
    tokens = []
    while node:
        features = node.feature.split(',')
        pos = features[0]
        if pos in include_pos:
            surface = node.surface
            if surface:
                tokens.append(surface)
        node = node.next
    return tokens

In [44]:
tokenized_docs = [" ".join(tokenize_with_pos_tfidf(doc)) for doc in docs]  # join back to paragraph

# calculate tfidf
vectorizer = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b") 
tfidf_matrix = vectorizer.fit_transform(tokenized_docs)
tokens = vectorizer.get_feature_names_out()

df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=tokens)
#print(df_tfidf)

# print
for idx, row in df_tfidf.iterrows():
    print(f"\n{idx+1} TF-IDF top 5:")
    top_words = row.sort_values(ascending=False).head(5)
    for word, score in top_words.items():
        if score > 0:
            print(f"{word}: {score:.4f}")


1 TF-IDF top 5:
林家: 0.3281
町: 0.2552
夏: 0.1930
開か: 0.1930
一門: 0.1930

2 TF-IDF top 5:
役: 0.3720
三平: 0.2767
信連: 0.2480
武者: 0.2480
行列: 0.2480

3 TF-IDF top 5:
穴水: 0.2912
町: 0.2589
復興: 0.2325
できる: 0.1958
人: 0.1958

4 TF-IDF top 5:
隆起: 0.2828
し: 0.1786
発生: 0.1663
もらおう: 0.1663
計り知れ: 0.1663

5 TF-IDF top 5:
ボード: 0.3498
理事: 0.1749
でき: 0.1749
法人: 0.1749
杉野: 0.1749

6 TF-IDF top 5:
市: 0.2830
大雨: 0.2636
一部: 0.2241
より: 0.2241
国土: 0.2241

7 TF-IDF top 5:
工区: 0.6048
市: 0.2164
復旧: 0.2016
トンネル: 0.2016
浜: 0.2016

8 TF-IDF top 5:
土砂: 0.3591
警戒: 0.3591
災害: 0.3591
い: 0.2374
市: 0.1928

9 TF-IDF top 5:
雨: 0.3600
1: 0.2117
向かっ: 0.2117
停滞: 0.2117
ミリ: 0.2117

10 TF-IDF top 5:
市: 0.2726
雨量: 0.2539
規制: 0.2539
達し: 0.2539
より: 0.2158
