# Data Labeling Tool for Sentiment Analysis

Tool này giúp gán nhãn sentiment cho các câu input và lưu thành file CSV để training.

In [1]:
import pandas as pd
import os
from IPython.display import display, clear_output
import ipywidgets as widgets

In [2]:
class SentimentLabeler:
    def __init__(self, language):
        self.language = language
        self.data = []
        self.setup_widgets()
        
    def setup_widgets(self):
        self.text_input = widgets.Textarea(
            placeholder='Nhập văn bản cần gán nhãn ở đây...' if self.language == 'vi' else 'Enter text to label here...',
            layout={'width': '100%', 'height': '100px'}
        )
        
        self.label_buttons = [
            widgets.Button(description='Tích cực / Positive', button_style='success'),
            widgets.Button(description='Tiêu cực / Negative', button_style='danger'),
            widgets.Button(description='Trung tính / Neutral', button_style='info')
        ]
        
        for btn in self.label_buttons:
            btn.on_click(self.on_button_clicked)
        
        self.save_button = widgets.Button(
            description='Lưu dữ liệu / Save data',
            button_style='warning'
        )
        self.save_button.on_click(self.save_data)
        
        self.output = widgets.Output()
        
    def display(self):
        display(self.text_input)
        display(widgets.HBox(self.label_buttons))
        display(self.save_button)
        display(self.output)
        
    def on_button_clicked(self, btn):
        text = self.text_input.value.strip()
        if not text:
            return
            
        label_map = {
            'Tích cực / Positive': 'positive',
            'Tiêu cực / Negative': 'negative',
            'Trung tính / Neutral': 'neutral'
        }
        
        self.data.append({
            'text': text,
            'label': label_map[btn.description]
        })
        
        with self.output:
            clear_output()
            print(f"Đã gán nhãn {len(self.data)} câu" if self.language == 'vi' else f"Labeled {len(self.data)} sentences")
            
        self.text_input.value = ''
        
    def save_data(self, btn):
        if not self.data:
            return
            
        df = pd.DataFrame(self.data)
        
        # Ensure data directory exists
        os.makedirs('../data/raw', exist_ok=True)
        
        # Save to CSV
        output_path = f'../data/raw/{self.language}_social_media_manual.csv'
        
        # If file exists, append to it
        if os.path.exists(output_path):
            existing_df = pd.read_csv(output_path)
            df = pd.concat([existing_df, df], ignore_index=True)
        
        df.to_csv(output_path, index=False)
        
        with self.output:
            clear_output()
            print(f"Đã lưu {len(df)} câu vào {output_path}" if self.language == 'vi' 
                  else f"Saved {len(df)} sentences to {output_path}")

## Gán nhãn cho Tiếng Việt / Vietnamese Labeling

In [3]:
vi_labeler = SentimentLabeler('vi')
vi_labeler.display()

Textarea(value='', layout=Layout(height='100px', width='100%'), placeholder='Nhập văn bản cần gán nhãn ở đây..…

HBox(children=(Button(button_style='success', description='Tích cực / Positive', style=ButtonStyle()), Button(…



Output()

## Gán nhãn cho Tiếng Anh / English Labeling

In [4]:
en_labeler = SentimentLabeler('en')
en_labeler.display()

Textarea(value='', layout=Layout(height='100px', width='100%'), placeholder='Enter text to label here...')

HBox(children=(Button(button_style='success', description='Tích cực / Positive', style=ButtonStyle()), Button(…



Output()