In [1]:
import re
from pprint import pprint

def convert_japanese_brackets_to_pairs(annotated_sentence):
    # Regex to match <kanji>[furigana] patterns
    pattern = re.compile(r"<([^>]+)>\[([^]]+)\]")
    # To hold the resulting pairs
    pairs = []
    # Tracks the last end index of matches to find non-matched parts
    last_end = 0

    # Function to add non-matched parts as their own pairs
    def add_non_matched_parts(start):
        nonlocal last_end
        if start > last_end:
            # Add non-matched parts (hiragana, punctuation, etc.) to pairs
            for char in annotated_sentence[last_end:start]:
                pairs.append({"part": char, "phonetic": char})

    for match in pattern.finditer(annotated_sentence):
        start, end = match.span()
        # Add non-matched parts before the current match
        add_non_matched_parts(start)

        kanji, furigana = match.groups()
        # Add the matched kanji/katakana with furigana as a pair
        pairs.append({"part": kanji, "phonetic": furigana})

        last_end = end  # Update the last end index

    # Add any remaining non-matched parts after the last match
    add_non_matched_parts(len(annotated_sentence))

    # Construct the full sentence without annotations
    full_sentence = pattern.sub(r"\1", annotated_sentence)
    
    return {
        "full": full_sentence,
        "pairs": pairs
    }

# Example usage
annotated_sentence = 'ある<日>[ひ]、<私>[わたし]は<青>[あお]い<シャツ>[しゃつ]、<赤>[あか]い<シャツ>[しゃつ]、<緑>[みどり]のT<シャツ>[しゃつ]、<黄色>[きいろ]のT<シャツ>[しゃつ]を<持>[も]っていました。そして、<私>[わたし]は<カップ>[かっぷ]を<何個持>[なんこも]っていますかと<尋>[たず]ねられました。<カップ>[かっぷ]は<四個持>[よんこも]っています。<次>[つぎ]に、<サンドイッチ>[さんどいっち]を<何個持>[なんこも]っていますかと<尋>[たず]ねられました。<サンドイッチ>[さんどいっち]は<五個持>[ごこも]っています。'
result = convert_japanese_brackets_to_pairs(annotated_sentence)
pprint(result)


{'full': 'ある日、私は青いシャツ、赤いシャツ、緑のTシャツ、黄色のTシャツを持っていました。そして、私はカップを何個持っていますかと尋ねられました。カップは四個持っています。次に、サンドイッチを何個持っていますかと尋ねられました。サンドイッチは五個持っています。',
 'pairs': [{'part': 'あ', 'phonetic': 'あ'},
           {'part': 'る', 'phonetic': 'る'},
           {'part': '日', 'phonetic': 'ひ'},
           {'part': '、', 'phonetic': '、'},
           {'part': '私', 'phonetic': 'わたし'},
           {'part': 'は', 'phonetic': 'は'},
           {'part': '青', 'phonetic': 'あお'},
           {'part': 'い', 'phonetic': 'い'},
           {'part': 'シャツ', 'phonetic': 'しゃつ'},
           {'part': '、', 'phonetic': '、'},
           {'part': '赤', 'phonetic': 'あか'},
           {'part': 'い', 'phonetic': 'い'},
           {'part': 'シャツ', 'phonetic': 'しゃつ'},
           {'part': '、', 'phonetic': '、'},
           {'part': '緑', 'phonetic': 'みどり'},
           {'part': 'の', 'phonetic': 'の'},
           {'part': 'T', 'phonetic': 'T'},
           {'part': 'シャツ', 'phonetic': 'しゃつ'},
           {'part': '、', 'phonetic': '、'},
           {'part': '黄色', 