In [1]:
import pandas as pd

In [2]:
# read text files and chunk them into sentences with some overlapping
import os
import re

def chunk_text(file_path, overlap=1):
    with open(file_path, 'r') as file:
        text = file.read()
    chunk_size = 100
    step_size = int(chunk_size * (1 - overlap / 10))
    chunks = [text[i:i + chunk_size] for i in range(0, len(text), step_size)]
    return chunks

df = None

for file in os.listdir('文学'):
    if file.endswith('.txt'):
        file_path = os.path.join('文学', file)
        book_name = file.split('-')[0]
        author = file.split('-')[1]
        year = file.split('-')[2].split('.')[0]
        chunks = chunk_text(file_path, overlap=1)
        df_book = pd.DataFrame(
            {'text': chunks,
             'book': [book_name] * len(chunks),
             'author': [author] * len(chunks),
             'year': [year] * len(chunks)}
        )
        df_book['text'] = df_book['text'].str.replace(r'\n', ' ', regex=True).str.strip()

        df = pd.concat([df, df_book], ignore_index=True) if df is not None else df_book

df

Unnamed: 0,text,book,author,year
0,第凡內早餐 職棒六年，職場九年的春天，我初初萌生想要買一顆鑽石的念頭，而且要就...,第凡內早餐,朱天心,1995
1,要一個白金指環、六爪鑲嵌的典型第凡內圓形明亮切割的鑽戒。 為什麼呢？ 為...,第凡內早餐,朱天心,1995
2,鑽石至少超過五億克拉，若是哪一天，一向壟斷掌控全世界80％鑽石原石的生產買賣庫存的德比爾斯公...,第凡內早餐,朱天心,1995
3,不可能），再無法控制如澳洲、蘇俄、薩伊、波扎那在內的諸國尚存地底的豐富鑽石礦藏，那麼，窮我所...,第凡內早餐,朱天心,1995
4,得出呢！ 所以與保值無關。 儘管我很倒霉的抽籤中了辦公室裡這個月的會錢，...,第凡內早餐,朱天心,1995
...,...,...,...,...
11154,隨時隨地都可能、容易受到各種意外巧合的襲擊，並因此遭遇死亡。他們像原始人似的必須天天面對充滿...,預知死亡紀事,朱天心,1992
11155,誕不經、笑破肚腸、而他們所認為的神祕徵兆。 曠野之子（太陽晒熟的美果，月亮養成的寶貝），我...,預知死亡紀事,朱天心,1992
11156,曠野之子，他死得太早，假若活到我這年紀，他也許要收回他的教義—— 我們的老靈魂們，我無法再...,預知死亡紀事,朱天心,1992
11157,的歌聲： 或許夜行者， 把這月暈叫作氣象， 但是我們精靈看法不同， 只有我們持有正確...,預知死亡紀事,朱天心,1992


In [3]:
import os
from IPython.display import display, HTML
import ipywidgets as widgets

def highlight_keywords_toolkit(df, iloc):
    """
    Creates an interactive toolkit for highlighting keywords in a specific text from the dataframe.

    Parameters:
    - df: pandas DataFrame containing the text data.
    - iloc: int, the row index of the text to highlight.
    """
    # Validate iloc index
    if iloc < 0 or iloc >= len(df):
        print("Invalid iloc index.")
        return

    # Get the text for the specified iloc
    text = df.iloc[iloc]['text']
    book = df.iloc[iloc]['book']
    author = df.iloc[iloc]['author']
    year = df.iloc[iloc]['year']

    # Create widgets
    text_area = widgets.Textarea(value=text, description='Text:', layout=widgets.Layout(width='100%', height='200px'))
    keyword_input = widgets.Text(description='Keywords:', placeholder='Enter keywords separated by commas')
    save_button = widgets.Button(description='Save Keywords')
    output_label = widgets.Label(value='')

    # Function to handle keyword highlighting and saving
    def save_keywords(_):
        keywords = [kw.strip() for kw in keyword_input.value.split(',') if kw.strip()]
        if not keywords:
            output_label.value = "No keywords entered."
            return

        # Highlight keywords in the text
        highlighted_text = text
        for keyword in keywords:
            highlighted_text = re.sub(f"({re.escape(keyword)})", r'<mark>\1</mark>', highlighted_text, flags=re.IGNORECASE)

        # Save keywords to a file
        output_file = f"./labeled_keywords/{iloc}.txt"
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(', '.join(keywords))
        
        # Display the highlighted text and confirmation
        display(HTML(f"<div style='font-family: Arial; line-height: 1.6;'>{highlighted_text}</div>"))
        output_label.value = f"Keywords saved to {output_file}"

    # Attach the save function to the button
    save_button.on_click(save_keywords)

    # Display the interface
    display(widgets.VBox([text_area, keyword_input, save_button, output_label]))


random_index = df.index.to_list()
import random
random.shuffle(random_index)
for idx in random_index[:10]:
    highlight_keywords_toolkit(df, idx)


VBox(children=(Textarea(value='看看黃淮平原外，再要走在無限的日月山川裡聽不盡的漁樵閒話。就是到了現在，我也從不認為高一時的那種想法是否是幼稚，或悲觀。爺爺曾經說過日本有一個很轟動的事情，一…

VBox(children=(Textarea(value='，86巷，阿嬷家，談話頭，花吃店。有反共標語和公賣局煙酒鐵牌和中美合作握手圖案的，阿財的店。有三輪車、老收音機、電話、舊報紙、梳妝檯的，阿爸的情人。後現代中國…

VBox(children=(Textarea(value='神采，看人，被人看。不一刻男男女女紛亂到來，黑衣、白衣、灰衣，一系列國際流行中間色。    \u3000\u3000有人喊說貪狼來了，貪狼來了。美茵說，大翁你…

VBox(children=(Textarea(value='個要談什麼？李磊原先要談的她不想談，現在再談時機和情緒全不對了。  她看到薛敬走過來的表情，已經明白李磊今天不會來了，不知怎麼，她暗中鬆了一口氣。她們這樣半生…

VBox(children=(Textarea(value='於我所剩餘三分之二的工資，總該可以自由運用吧。    \u3000\u3000但可以確定的是，我每次的餐飲花費中的三分之一，是間接繳給了房產主，即使不考慮國民…

VBox(children=(Textarea(value='薄弱的真相－－羅衣悲傷。    \u3000\u3000有一天排完戲，他又坐在劇場中央抽煙，晨勉推開門，滿劇場是煙，她在羅衣面前坐下，她老爸說錯了，她對改變愛…

VBox(children=(Textarea(value='不是這個意思，或該說，原本我的擔心也許源本於此，但一發展下去，便早就遠遠超過於此了。    \u3000\u3000我試著以一兩個例子解釋一下。    \u3…

VBox(children=(Textarea(value='7路公車上，看臺北灰灰的雨天，好不可怕，一時又想到那本「十五歲的遺書」。灰色的雨天常會讓我想到自殺之類的事，有時煩心事實在太多時就會想想死的方式，我可是絕不找…

VBox(children=(Textarea(value='，夏天就要過完了，一到夜晚，幾百戶的大村子只剩十來點分不清遠近人家的燈火；遠遠沿半個村子外緣的縱貫公路久久才會有車燈無聲的閃一下而過，是我們唯一知道外頭世界還…

VBox(children=(Textarea(value='嚇壞了鸚鵡，牠自己也撞昏過去。  戲班子又回來了，時間不對了，電視打得他們鼻青臉腫，他們想念么么拐高地的黃金歲月，他們又回來了。  還記得電視開播那天，我們村…