In [1]:
import pandas as pd
import re

jlpt_df = pd.read_csv('/Users/michael/Documents/日本語/JLPT_levels_combined.csv')
kanji_to_level = dict(zip(jlpt_df['Word'], jlpt_df['Level']))
hiragana_pattern = re.compile(r'[\u3040-\u309F]')
katakana_pattern = re.compile(r'[\u30A0-\u30FF]')

def analyze_text(input_text):
    kanji_levels = {'N1': 0, 'N2': 0, 'N3': 0, 'N4': 0, 'N5': 0, 'Hiragana': 0, 'Katakana': 0, 'Unknown Kanji': 0}
    kanji_counts = {'N1': set(), 'N2': set(), 'N3': set(), 'N4': set(), 'N5': set(), 'Hiragana': set(), 'Katakana': set(), 'Unknown Kanji': set()}
    
    for char in input_text:
        if char in kanji_to_level:
            level = kanji_to_level[char]
            kanji_levels[level] += 1
            kanji_counts[level].add(char)
        elif hiragana_pattern.match(char):
            kanji_levels['Hiragana'] += 1
            kanji_counts['Hiragana'].add(char)
        elif katakana_pattern.match(char):
            kanji_levels['Katakana'] += 1
            kanji_counts['Katakana'].add(char)
        elif '\u4e00' <= char <= '\u9fff':
            kanji_levels['Unknown Kanji'] += 1
            kanji_counts['Unknown Kanji'].add(char)
        elif char.isalnum() or char.isspace():
            continue
    
    total_kanji = sum(kanji_levels.values())
    
    if total_kanji == 0:
        return "No kanji found in the input text."
    
    percent_composition = {level: (count / total_kanji) * 100 for level, count in kanji_levels.items()}
    
    result = "Kanji and JLPT Levels:\n"
    for level, kanji_set in kanji_counts.items():
        result += f"{level}: {' '.join(kanji_set)}\n"
    
    result += "\nPercent Composition of JLPT Levels:\n"
    for level, percent in percent_composition.items():
        result += f"{level}: {percent:.2f}%\n"
    
    return result

input_text = """
明日 今日よりも好きになれる 溢れる想いが止まらない
今もこんなに好きでいるのに 言葉に出来ない
君のくれた日々が積み重なり 過ぎ去った日々2人歩いた『軌跡』
僕らの出逢いがもし偶然ならば? 運命ならば?
君に巡り合えた それって『奇跡』
2人寄り添って歩いて 永久の愛を形にして
いつまでも君の横で 笑っていたくて
アリガトウや ah 愛してるじゃまだ足りないけど
せめて言わせて 「幸せです」と
いつも君の右の手の平を ただ僕の左の手の平が
そっと包んでくそれだけで ただ愛を感じていた
日々の中で 小さな幸せ 見つけ重ね ゆっくり歩いた『軌跡』
僕らの出会いは大きな世界で
小さな出来事 巡り合えた それって『奇跡』
うまく行かない日だって 2人で居れば晴れだって!
強がりや寂しさも 忘れられるから
僕は君でなら 僕で居れるから!
だからいつも そばにいてよ 『愛しい君へ』
2人フザけあった帰り道 それも大切な僕らの日々
「想いよ届け!!!」と伝えた時に 初めて見せた表情の君
少し間が空いて 君がうなずいて 僕らの心 満たされてく愛で
ぼくらまだ旅の途中で またこれから先も 何十年
続いていけるような未来へ
例えばほら 明日を見失いそうに 僕らなったとしても
2人寄り添って歩いて 永久の愛を形にして
いつまでも君の横で 笑っていたくて
アリガトウや ah 愛してるじゃまだ足りないけど
せめて言わせて 「幸せです」と
うまく行かない日だって 2人で居れば晴れだって!
喜びや悲しみも 全て分け合える
君がいるから 生きていけるから!
だからいつも そばにいてよ 『愛しい君へ』
最後の一秒まで
明日 今日より笑顔になれる 君がいるだけで そう思えるから
何十年 何百年 何千年 時を超えよう 君を愛してる
"""

analysis_result = analyze_text(input_text)
print(analysis_result)

Kanji and JLPT Levels:
N1: 寂 軌 巡 奇 添 僕
N2: 永 包 秒 届 跡 超 久
N3: 積 合 平 想 横 幸 未 表 最 過 偶 居 愛 途 葉 例 感 情 続 君 寄 好 晴 悲 命 然 喜 忘 顔 失 初 伝 満 全 笑
N4: 止 思 強 足 言 運 旅 歩 去 切 世 帰 界 心 重 空 会 手 道 事 明 少
N5: 小 来 今 行 年 日 一 出 時 千 中 生 左 人 見 大 先 右 十 間 何 分 後 百
Hiragana: に だ ず で じ ん を と ゆ え や ほ て す く そ う ら し け ぎ っ が の へ き り ぼ も よ は ば さ か る ど ま あ ね ゃ つ こ れ せ た み わ び い め な
Katakana: リ ガ フ ザ ト ウ ア
Unknown Kanji: 形 逢 溢

Percent Composition of JLPT Levels:
N1: 2.67%
N2: 1.89%
N3: 10.85%
N4: 5.03%
N5: 9.43%
Hiragana: 67.61%
Katakana: 1.89%
Unknown Kanji: 0.63%

