In [2]:
def is_jouyou_kanji(kanji):
    """
    指定した漢字が常用漢字かどうかを判定する関数です。

    Args:
        kanji (str): 判定したい1文字の漢字

    Returns:
        bool: 常用漢字ならTrue、そうでなければFalse

    >>> is_jouyou_kanji('漢')
    True
    >>> is_jouyou_kanji('龠')
    False
    """
    # 常用漢字表（2010年告示）のUnicodeリスト（ここでは代表的な一部のみ例示）
    jouyou_kanji_set = set([
        # 一部抜粋。実際は全2136字を含める必要あり
        '一', '右', '雨', '円', '王', '音', '下', '火', '花', '学', '気', '九', '休', '玉', '金', '空', '月', '犬', '見', '五', '口', '校', '左', '三', '山', '子', '四', '糸', '字', '耳', '七', '車', '手', '十', '出', '女', '小', '上', '森', '人', '水', '正', '生', '青', '赤', '千', '川', '先', '早', '草', '足', '村', '大', '男', '竹', '中', '虫', '町', '天', '田', '土', '二', '日', '入', '年', '白', '八', '百', '文', '木', '目', '立', '力', '林', '六', '漢'
        # ...（省略）
    ])
    return kanji in jouyou_kanji_set

def check(candidate):
    assert candidate('一') == True
    assert candidate('漢') == True
    assert candidate('𠮷') == False
    #勺 錘 銑 脹 匁 = False   # これらは常用漢字ではない

check(is_jouyou_kanji) # テスト実行

In [8]:
def is_elementary_school_kanji(kanji):
    """
    指定した漢字が小学校で習う漢字（教育漢字）かどうかを判定する関数です。

    Args:
        kanji (str): 判定したい1文字の漢字

    Returns:
        bool: 教育漢字ならTrue、そうでなければFalse
    """
    # 教育漢字（学年別漢字配当表）から一部抜粋
    elementary_kanji_set = set([
        '一', '右', '雨', '円', '王', '音', '下', '火', '花', '学', '気', '九', '休', '玉', '金', '空', '月', '犬', '見', '五', '口', '校', '左', '三', '山', '子', '四', '糸', '字', '耳', '七', '車', '手', '十', '出', '女', '小', '上', '森', '人', '水', '正', '生', '青', '赤', '千', '川', '先', '早', '草', '足', '村', '大', '男', '竹', '中', '虫', '町', '天', '田', '土', '二', '日', '入', '年', '白', '八', '百', '文', '木', '目', '立', '力', '林', '六'
        # ...（省略）
    ])
    return kanji in elementary_kanji_set

def check(candidate):
    assert candidate('一') == True
    assert candidate('富') == True
    assert candidate('論') == True
    assert candidate('危') == True
    assert candidate('龠') == False
    assert candidate('𠮷') == False

check(is_elementary_school_kanji) # テスト実行


AssertionError: 

In [None]:
def detect_japanese_or_chinese(text):
    """
    テキストが日本語か中国語かを簡易に判定する関数です。
    ひらがな・カタカナが含まれていれば日本語、
    簡体字・繁体字の中国語専用漢字が多ければ中国語と判定します。

    Args:
        text (str): 判定したいテキスト

    Returns:
        str: '日本語', '中国語', '不明' のいずれか

    >>> detect_japanese_or_chinese('私は学生です')
    '日本語'
    >>> detect_japanese_or_chinese('你好')
    '中国語'
    >>> detect_japanese_or_chinese('漢字')
    '不明'
    """
    if not text or not isinstance(text, str):
        return '不明'

    # ひらがな・カタカナ判定
    for c in text:
        if '\u3040' <= c <= '\u309F' or '\u30A0' <= c <= '\u30FF':
            return '日本語'

    # 中国語の簡体字・繁体字の代表例
    chinese_only_kanji = set([
        '汉', '马', '龙', '丽', '东', '吴', '陈', '刘', '赵', '孙', '杨', '黄', '郑', '谢', '钟', '许', '邓', '冯', '你'
    ])
    if any(c in chinese_only_kanji for c in text):
        return '中国語'

    # 簡体字のUnicode範囲（例: U+4E00～U+9FFFは中日共通だが、簡体字は個別に判定）
    # ここでは代表的なもののみ
    return '不明'

def check(candidate):
    assert candidate('私は学生です') == '日本語'
    assert candidate('漢字') == '不明'
    assert candidate('こんにちは') == '日本語'
    assert candidate('你好') == '中国語'
    assert candidate('漢字とカタカナ') == '日本語'
    assert candidate('汉字和繁体字') == '中国語'

check(detect_japanese_or_chinese) # テスト実行

In [10]:
def detect_japanese_style(text):
    """
    テキストが常体（普通体）か敬体（丁寧体）かを簡易的に判定する関数です。
    「です」「ます」などの丁寧語が含まれていれば敬体、それ以外は常体と判定します。

    Args:
        text (str): 判定したい日本語テキスト

    Returns:
        str: '敬体', '常体', '不明' のいずれか

    >>> detect_japanese_style('私は学生です。')
    '敬体'
    >>> detect_japanese_style('私は学生だ。')
    '常体'
    >>> detect_japanese_style('学生')
    '不明'
    """
    if not text or not isinstance(text, str):
        return '不明'

    # 敬体の代表的な語尾
    polite_endings = ['です', 'ます', 'でした', 'ました', 'でしょう', 'ましょう', 'ください', 'ございます']
    for ending in polite_endings:
        if ending in text:
            return '敬体'

    # 常体の代表的な語尾
    plain_endings = ['だ', 'である', 'だった', 'する', 'した', 'しない', 'だろう', 'と思う']
    for ending in plain_endings:
        if ending in text:
            return '常体'

    return '不明'

def check(candidate):
    assert candidate('私は学生です。') == '敬体'
    assert candidate('私は学生だ。') == '常体'
    assert candidate('学生') == '不明'
    assert candidate('先生は来るでしょう。') == '敬体'
    assert candidate('先生は来る。') == '常体'
    assert candidate('今日はいい天気ですね。') == '敬体'

check(detect_japanese_style) # テスト実行

AssertionError: 

In [None]:
from janome.tokenizer import Tokenizer

def wakati_text(text):
    """
    janomeを使って日本語テキストをわかち書きし、空白区切りで返す関数

    Args:
        text (str): 日本語テキスト

    Returns:
        str: わかち書きされたテキスト（空白区切り）

    >>> wakati_text('私は学生です')
    '私 は 学生 です'
    """
    t = Tokenizer()
    words = [token.surface for token in t.tokenize(text)]
    #print(words)  # デバッグ用にトークン化された単語を表示
    return ' '.join(words)

def check(candidate):
    assert candidate('私は学生です') == '私 は 学生 です'
    assert candidate('今日はいい天気ですね') == '今日 は いい 天気 です ね'
    assert candidate('明日は雨が降るでしょう') == '明日 は 雨 が 降る でしょ う'
    assert candidate('日本語のテキストをわかち書きします') == '日本語 の テキスト を わかち書き し ます'

check(wakati_text) # テスト実行

['私', 'は', '学生', 'です']
['今日', 'は', 'いい', '天気', 'です', 'ね']
['明日', 'は', '雨', 'が', '降る', 'でしょ', 'う']
['日本語', 'の', 'テキスト', 'を', 'わかち書き', 'し', 'ます']


In [20]:
from janome.tokenizer import Tokenizer

def kanji_to_hiragana(text):
    """
    janomeを使って日本語テキスト中の漢字をひらがなに変換する関数

    Args:
        text (str): 日本語テキスト

    Returns:
        str: ひらがなに変換されたテキスト

    >>> kanji_to_hiragana('私は学生です')
    'わたしはがくせいです'
    """
    t = Tokenizer()
    result = []
    for token in t.tokenize(text):
        # 読みが取得できる場合はひらがなに変換
        reading = token.reading
        if reading == '*':
            # 読みが取得できない場合はそのまま
            result.append(token.surface)
        else:
            # カタカナの読みをひらがなに変換
            hiragana = ''.join([chr(ord(c) - 0x60) if 'ァ' <= c <= 'ン' else c for c in reading])
            result.append(hiragana)
    return ''.join(result)

def check(candidate):
    assert candidate('私は学生です') == 'わたしはがくせいです'
    assert candidate('今日はいい天気ですね') == 'きょうはいいてんきですね'
    assert candidate('明日は雨が降るでしょう') == 'あしたはあめがふるでしょう'
    assert candidate('日本語のテキストをわかち書きします') == 'にほんごのてきすとをわかちがきします'

check(kanji_to_hiragana) # テスト実行

In [None]:
import unicodedata

def is_cjk_character(char):
    """
    文字がCJK（中日韓）統合漢字かどうかを判定
    
    Args:
        char (str): 判定したい1文字
        
    Returns:
        bool: CJK統合漢字ならTrue
    """
    if not char:
        return False
    
    # Unicode範囲での判定
    code_point = ord(char)
    
    # CJK統合漢字の範囲
    cjk_ranges = [
        (0x4E00, 0x9FFF),   # CJK統合漢字
        (0x3400, 0x4DBF),   # CJK統合漢字拡張A
        (0x20000, 0x2A6DF), # CJK統合漢字拡張B
        (0x2A700, 0x2B73F), # CJK統合漢字拡張C
        (0x2B740, 0x2B81F), # CJK統合漢字拡張D
        (0x2B820, 0x2CEAF), # CJK統合漢字拡張E
        (0x2CEB0, 0x2EBEF), # CJK統合漢字拡張F
        (0x30000, 0x3134F)  # CJK統合漢字拡張G
    ]
    
    for start, end in cjk_ranges:
        if start <= code_point <= end:
            return True
    
    return False

def is_chinese_kanji(kanji):
    """
    指定した漢字が日本で使われない中国語の漢字かどうかを判定します。
    
    Args:
        kanji (str): 判定したい1文字の漢字

    Returns:
        bool: JIS第一・第二水準外の中国語漢字ならTrue、そうでなければFalse

    >>> is_chinese_kanji('汉')
    True
    >>> is_chinese_kanji('漢')
    False
    """
    if not kanji or len(kanji) != 1:
        return False
    
    # 漢字かどうかの基本チェック
    if not is_cjk_character(kanji):
        return False
    
    try:
        # Shift_JIS（cp932）エンコードを試行
        # JIS第一・第二水準の漢字はcp932でエンコード可能
        kanji.encode('cp932')
        return False  # エンコードできる = 日本の標準漢字
    except UnicodeEncodeError:
        # エンコードできない = JIS第一・第二水準外
        # 中国語簡体字・繁体字の可能性が高い
        return True

def check(candidate):
    assert candidate('汉') == True
    assert candidate('漢') == False
    assert candidate('马') == True
    assert candidate('龙') == True
    assert candidate('丽') == True
    assert candidate('东') == True
    assert candidate('吴') == True
    assert candidate('陈') == True
    assert candidate('刘') == True
    assert candidate('赵') == True

check(is_chinese_kanji) # テスト実行

In [None]:
def is_fish_kanji(kanji):
    """
    魚に関する漢字（魚偏の漢字）かどうかを判定する関数

    Args:
        kanji (str): 判定したい1文字の漢字

    Returns:
        bool: 魚偏の漢字ならTrue、そうでなければFalse

    >>> is_fish_kanji('鮭')
    True
    >>> is_fish_kanji('猫')
    False
    """
    if not kanji or len(kanji) != 1:
        return False
    
    # 魚偏の漢字の包括的なリスト
    fish_kanji_set = {
        # 一般的な魚の名前
        '鮎', '鯵', '鰯', '鰻', '鰹', '鮭', '鯖', '鯛', '鮪', '鱈', '鰰', '鱒', '鰡', '鯉', '鮒',
        '鱗', '鮫', '鰊', '鰓', '鯨', '鮨', '鮓', '鮮', '鯛', '鯉', '鮒', '鮎', '鰐', '鯢', '鯰',
        
        # より専門的・地方的な魚の名前
        '鮗', '鮹', '鯏', '鯑', '鯒', '鯔', '鯕', '鯖', '鯗', '鯘', '鯙', '鯚', '鯛', '鯜', '鯝',
        '鯞', '鯟', '鯠', '鯡', '鯢', '鯣', '鯤', '鯥', '鯦', '鯧', '鯨', '鯩', '鯪', '鯫', '鯬',
        '鯭', '鯮', '鯯', '鯰', '鯱', '鯲', '鯳', '鯴', '鯵', '鯶', '鯷', '鯸', '鯹', '鯺', '鯻',
        '鯼', '鯽', '鯾', '鯿', '鰀', '鰁', '鰂', '鰃', '鰄', '鰅', '鰆', '鰇', '鰈', '鰉', '鰊',
        '鰋', '鰌', '鰍', '鰎', '鰏', '鰐', '鰑', '鰒', '鰓', '鰔', '鰕', '鰖', '鰗', '鰘', '鰙',
        '鰚', '鰛', '鰜', '鰝', '鰞', '鰟', '鰠', '鰡', '鰢', '鰣', '鰤', '鰥', '鰦', '鰧', '鰨',
        '鰩', '鰪', '鰫', '鰬', '鰭', '鰮', '鰯', '鰰', '鰱', '鰲', '鰳', '鰴', '鰵', '鰶', '鰷',
        '鰸', '鰹', '鰺', '鰻', '鰼', '鰽', '鰾', '鰿', '鱀', '鱁', '鱂', '鱃', '鱄', '鱅', '鱆',
        '鱇', '鱈', '鱉', '鱊', '鱋', '鱌', '鱍', '鱎', '鱏', '鱐', '鱑', '鱒', '鱓', '鱔', '鱕',
        '鱖', '鱗', '鱘', '鱙', '鱚', '鱛', '鱜', '鱝', '鱞', '鱟', '鱠', '鱡', '鱢', '鱣', '鱤',
        '鱥', '鱦', '鱧', '鱨', '鱩', '鱪', '鱫', '鱬', '鱭', '鱮', '鱯', '鱰', '鱱', '鱲', '鱳',
        '鱴', '鱵', '鱶', '鱷', '鱸', '鱹', '鱺', '鱻', '鱼', '鱽', '鱾', '鱿',
        
        # 魚料理・魚関連の漢字
        '鮮', '鮨', '鮓', '鮑', '鮒', '鮖', '鮗', '鮘', '鮙', '鮚', '鮛', '鮜', '鮝', '鮞', '鮟',
        '鮠', '鮡', '鮢', '鮣', '鮤', '鮥', '鮦', '鮧', '鮨', '鮩', '鮪', '鮫', '鮬', '鮭', '鮮',
        '鮯', '鮰', '鮱', '鮲', '鮳', '鮴', '鮵', '鮶', '鮷', '鮸', '鮹', '鮺', '鮻', '鮼', '鮽',
        '鮾', '鮿', '鯀', '鯁', '鯂', '鯃', '鯄', '鯅', '鯆', '鯇', '鯈', '鯉', '鯊', '鯋', '鯌',
        '鯍', '鯎', '鯏', '鯐', '鯑', '鯒', '鯓', '鯔', '鯕'
    }
    
    return kanji in fish_kanji_set

def check(candidate):
    assert candidate('鮭') == True
    assert candidate('鯖') == True
    assert candidate('鰹') == True
    assert candidate('鯛') == True
    assert candidate('鯉') == True
    assert candidate('猫') == False  # 魚偏ではない
    assert candidate('犬') == False  # 魚偏ではない

check(is_fish_kanji) # テスト実行