In [1]:
import pandas as pd
import re

jlpt_df = pd.read_csv('/Users/michael/Documents/日本語/JLPT_levels_combined.csv')
kanji_to_level = dict(zip(jlpt_df['Word'], jlpt_df['Level']))
hiragana_pattern = re.compile(r'[\u3040-\u309F]')
katakana_pattern = re.compile(r'[\u30A0-\u30FF]')

def analyze_text(input_text):
    kanji_levels = {'N1': 0, 'N2': 0, 'N3': 0, 'N4': 0, 'N5': 0, 'Hiragana': 0, 'Katakana': 0, 'Unknown Kanji': 0}
    kanji_counts = {'N1': set(), 'N2': set(), 'N3': set(), 'N4': set(), 'N5': set(), 'Hiragana': set(), 'Katakana': set(), 'Unknown Kanji': set()}
    
    for char in input_text:
        if char in kanji_to_level:
            level = kanji_to_level[char]
            kanji_levels[level] += 1
            kanji_counts[level].add(char)
        elif hiragana_pattern.match(char):
            kanji_levels['Hiragana'] += 1
            kanji_counts['Hiragana'].add(char)
        elif katakana_pattern.match(char):
            kanji_levels['Katakana'] += 1
            kanji_counts['Katakana'].add(char)
        elif '\u4e00' <= char <= '\u9fff':
            kanji_levels['Unknown Kanji'] += 1
            kanji_counts['Unknown Kanji'].add(char)
        elif char.isalnum() or char.isspace():
            continue
    
    total_kanji = sum(kanji_levels.values())
    
    if total_kanji == 0:
        return "No kanji found in the input text."
    
    percent_composition = {level: (count / total_kanji) * 100 for level, count in kanji_levels.items()}
    
    result = "Kanji and JLPT Levels:\n"
    for level, kanji_set in kanji_counts.items():
        result += f"{level}: {' '.join(kanji_set)}\n"
    
    result += "\nPercent Composition of JLPT Levels:\n"
    for level, percent in percent_composition.items():
        result += f"{level}: {percent:.2f}%\n"
    
    return result

input_text = """
好きだったこの場所
やめられないマンガを途中で閉じて
顔を上げて気づくように
居心地いい日向もいつの間にか
影になって黄昏れる
君と会って
過ぎる時間忘れるくらい夢中で話した
僕の夢は ここではないどこかへ
帰り道は 帰り道は
遠回りをしたくなるよ
どこを行けば どこに着くか?
過去の道なら迷うことがないから
弱虫 弱虫
弱虫 新しい世界へ
今行きたい
行きたい
行きたい
行きたい
強くなりたい
好きだったこの場所
一歩目踏み出そう
街灯りが寂しくふと感じるのは
見慣れた景色と違うから
いつもの高架線が見えなくなって
どこにいるか分からない
人は誰も
変わることに慣れていなくて
昨日と同じように
今日も明日もここにいたくなるんだ
知らない道知らない道
あと何回歩けるだろう
夢の方へ 愛の方へ
風は道を選んだりはしないよ
このまま このまま
このままワンウェイの標識
でも行くんだ
行くんだ
行くんだ
行くんだ
戻れなくても
君と離れるのは悲しいけど
大事なお別れだ
もっともっと広い世界知らなきゃいけない
いつか (いつか)
きっと (きっと)
違う道を選んだ意味 輝く未来のためと
互いに分かるだろう
風のように 風のように
思うままに生きてみよう
過去がどんな眩しくても
未来はもっと眩しいかもしれない
帰り道は 帰り道は
遠回りをしたくなるよ
どこを行けば どこに着くか？
過去の道なら迷うことがないから
弱虫 弱虫
弱虫新しい世界へ
今行きたい
行きたい
行きたい
行きたい
強くなりたい
好きだったこの場所
大切な思い出
好きだった この場所
"""

analysis_result = analyze_text(input_text)
print(analysis_result)

Kanji and JLPT Levels:
N1: 輝 離 街 影 架 標 寂 踏 僕
N2: 線 弱 虫 灯 黄
N3: 途 違 未 慣 誰 景 顔 閉 選 識 戻 愛 遠 所 向 忘 変 居 昨 好 感 互 迷 過 夢 悲 回 君
N4: 切 帰 目 事 別 世 思 心 広 方 界 場 味 歩 同 明 風 地 知 道 着 会 強 色 意 新 去
N5: 行 見 時 気 人 出 中 分 生 間 上 今 来 日 何 一 話 大 高
Hiragana: ど よ て の ま げ ば じ ゃ づ も だ み な つ こ た を か ん る お れ が ろ え ぎ あ り し き は け へ め っ ら で そ わ ふ い く と や に う
Katakana: ガ ン ワ ウ イ ェ マ
Unknown Kanji: 昏 眩

Percent Composition of JLPT Levels:
N1: 1.51%
N2: 2.52%
N3: 8.05%
N4: 9.73%
N5: 7.38%
Hiragana: 68.96%
Katakana: 1.34%
Unknown Kanji: 0.50%

