In [32]:
'''
Load sentences from `kwdlc_knp` and names from `names`,
Generate sample and truth data for family_name/given_name/full_name and kannji/katakana/hiragana/roma respectively.
'''
from pathlib import Path
from typing import Dict, List
import pandas as pd
import datetime
import tqdm

def update_name(text: str, labels: List[List], name: str) -> List:
    '''
    labels are the locations of name in the text.
    update the names and labels with the input names and return the new text and labels.
    '''
    chars = list(text)
    old_labels = [l[:] for l in labels]
    new_labels = list()
    while old_labels:
        s, e = old_labels.pop(0)
        chars[s: e] = name
        diff = len(name) - (e - s)
        e += diff
        for l in old_labels:
            l[0] += diff
            l[1] += diff
        new_labels.append((s, e))
    return ''.join(chars), new_labels

def generate_data(sent_csv: Path, name_csv: Path, name_style: str) -> Dict[str, pd.DataFrame]:
    '''
    :param sent_csv: Path. Csv file with columns of id, text and labels
    :param name_csv: Path. Csv file with columns of name, rank, katakana, hiragana, roma
    :param name_style: str. {'kanji', 'katakana', 'hiragana', 'roma'}
    :return: pd.Dataframe.
        For sample data, the columns consist of
        - school_id (1)
        - created_at (YYYY-MM-DD HH:mm:SS)
        - updated_at (YYYY-MM-DD HH:mm:SS)
        - id
        - text
        For truth data (for evaluation), the columns consist of
        - id
        - text
        - labels
    '''
    # Load sent_csv
    sent_df = pd.read_csv(sent_csv, index_col="id")
    name_df = pd.read_csv(name_csv, keep_default_na=False)
    texts = list()
    labels = list()
    school_id = list()
    created_at, updated_at = list(), list()

    names = name_df[name_style][:3]
    for _, row in tqdm.tqdm(list(sent_df.iterrows())):
        sent_text = row['text']
        sent_labels = eval(row['labels'])
        for name in names[:5]:
            if not name:
                continue
            t, l = update_name(sent_text, sent_labels, name)
            school_id.append(1)
            dt = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            created_at.append(dt)
            updated_at.append(dt)
            texts.append(t)
            labels.append(l)
    # Generate sample data
    sample_df = pd.DataFrame({
        "scool_id": school_id,
        "created_at": created_at,
        "updated_at": updated_at,
        "text": texts
    })
    truth_df = pd.DataFrame({
        "text": texts,
        "labels": labels
    })
    return {"sample": sample_df, "truth": truth_df}

In [33]:
sent_csv = "kwdlc_knp/sentences.csv"
name_csv = "names/full_names.csv"
for name_style in ("kanji", "katakana", "hiragana", "roma"):
    df = generate_data(sent_csv, name_csv, name_style)
    df["truth"].to_csv(f"name_{name_style}_truth_data.csv")
    df["sample"].to_csv(f"name_{name_style}_sample_data.csv")

100%|██████████| 983/983 [00:00<00:00, 9268.69it/s]
100%|██████████| 983/983 [00:00<00:00, 7552.82it/s]
100%|██████████| 983/983 [00:00<00:00, 6444.82it/s]
100%|██████████| 983/983 [00:00<00:00, 7382.65it/s]


In [31]:
!head *.csv

==> name_hiragana_sample_data.csv <==
,scool_id,created_at,updated_at,text
0,1,2022-03-28 19:36:18,2022-03-28 19:36:18,布川事件を描いたドキュメンタリー映画「さとうひろととさとうひろと」の試写会に行ってきました。
1,1,2022-03-28 19:36:18,2022-03-28 19:36:18,布川事件を描いたドキュメンタリー映画「さとうはるなとさとうはるな」の試写会に行ってきました。
2,1,2022-03-28 19:36:18,2022-03-28 19:36:18,布川事件を描いたドキュメンタリー映画「さとうさくらとさとうさくら」の試写会に行ってきました。

==> name_hiragana_truth_data.csv <==
,text,labels
0,布川事件を描いたドキュメンタリー映画「さとうひろととさとうひろと」の試写会に行ってきました。,"[(19, 25), (26, 32)]"
1,布川事件を描いたドキュメンタリー映画「さとうはるなとさとうはるな」の試写会に行ってきました。,"[(19, 25), (26, 32)]"
2,布川事件を描いたドキュメンタリー映画「さとうさくらとさとうさくら」の試写会に行ってきました。,"[(19, 25), (26, 32)]"

==> name_kanji_sample_data.csv <==
,scool_id,created_at,updated_at,text
0,1,2022-03-28 19:36:17,2022-03-28 19:36:17,布川事件を描いたドキュメンタリー映画「佐藤大翔と佐藤大翔」の試写会に行ってきました。
1,1,2022-03-28 19:36:17,2022-03-28 19:36:17,布川事件を描いたドキュメンタリー映画「佐藤陽菜と佐藤陽菜」の試写会に行ってきました。

==> name_kanji_truth_data.csv <==
,text,labels
0,布川事件を描いたドキュメンタリー映画「佐藤大翔と佐藤大翔」の試写会に行ってきました。,"[(19, 23), (24, 28)]"
1,布川事件を描いたドキュメンタリー映画「佐