In [5]:
# !pip install sudachipy sudachidict_core
from sudachipy import tokenizer
from sudachipy import dictionary
import re

# --- Step 1: 生成 input.txt（ファイルは自動で保存・閉じる）---
# sample_text = """
# 人工知能は急速に進化しています。自然言語処理も重要な研究分野の一つですか？
# しかし、日本語には多くの課題が残っている。今後の改善が期待されているでしょう。
# """
#
# file_path = "input.txt"
#
# with open(file_path, "w", encoding="utf-8") as f:
#     f.write(sample_text.strip())
# ↑ この段階でファイルは保存され、閉じられる

# --- Step 2: SudachiPy を用いた文分割と単語数分析 ---
from sudachipy import tokenizer
from sudachipy import dictionary
import re

# トークナイザー初期化
tokenizer_obj = dictionary.Dictionary().create()
mode = tokenizer.Tokenizer.SplitMode.C

# ファイルから読み込み
file_path = "input.txt"
with open(file_path, "r", encoding="utf-8") as f:
    text = f.read()

# 文単位に分割（句点などで）
sentences = re.split(r'[。！？]\s*', text.strip())
sentences = [s for s in sentences if s]

# 分析と出力
for i, sentence in enumerate(sentences, 1):
    tokens = tokenizer_obj.tokenize(sentence, mode)
    words = [m.surface() for m in tokens if m.surface().strip()]
    print(f"第{i}文：{sentence}")
    print(f"単語数：{len(words)}")
    print(f"分かち書き：{' '.join(words)}\n")

# 文単位に分割
sentences = re.split(r'[。！？]\s*', text.strip())
sentences = [s for s in sentences if s]

# 敬語→常体変換関数（簡易版）
def convert_to_plain(sentence):
    tokens = tokenizer_obj.tokenize(sentence, mode)
    surfaces = [m.surface() for m in tokens]

    # 基本の文末変換ルール（※非常に簡易）
    joined = ''.join(surfaces)
    if joined.endswith("です"):
        return joined[:-2] + "である"
    elif joined.endswith("でした"):
        return joined[:-3] + "であった"
    elif joined.endswith("ます"):
        return joined[:-2] + "る"
    elif joined.endswith("ました"):
        return joined[:-3] + "た"
    elif joined.endswith("ください"):
        return joined[:-4] + "るとよい"
    else:
        return joined  # 変換しない（または追加）

# 変換と表示
for i, sent in enumerate(sentences, 1):
    converted = convert_to_plain(sent)
    print(f"第{i}文（元）: {sent}")
    print(f"第{i}文（常体）: {converted}\n")

第1文：人工知能は急速に進化しています
単語数：9
分かち書き：人工知能 は 急速 に 進化 し て い ます

第2文：自然言語処理も重要な研究分野の一つですか
単語数：11
分かち書き：自然言語処理 も 重要 な 研究 分野 の 一 つ です か

第3文：しかし、日本語には多くの課題が残っている
単語数：12
分かち書き：しかし 、 日本語 に は 多く の 課題 が 残っ て いる

第4文：今後の改善が期待されているでしょう
単語数：10
分かち書き：今後 の 改善 が 期待 さ れ て いる でしょう

第1文（元）: 人工知能は急速に進化しています
第1文（常体）: 人工知能は急速に進化している

第2文（元）: 自然言語処理も重要な研究分野の一つですか
第2文（常体）: 自然言語処理も重要な研究分野の一つですか

第3文（元）: しかし、日本語には多くの課題が残っている
第3文（常体）: しかし、日本語には多くの課題が残っている

第4文（元）: 今後の改善が期待されているでしょう
第4文（常体）: 今後の改善が期待されているでしょう

