ViSoNorm - Vietnamese Social Media Lexical Normalization Toolkit
Tutorial Notebook for Google Colab

In [22]:
print("=== ViSoNorm Toolkit Summary ===")
print("""
🎯 ViSoNorm Toolkit cung cấp các chức năng chính:

1. 🔧 BasicNormalizer: Chuẩn hóa văn bản cơ bản
   - Case folding (lowercase, uppercase, capitalize)
   - Tone normalization
   - Basic text preprocessing

2. �� EmojiHandler: Xử lý emoji
   - Detect emojis
   - Split emoji text
   - Remove emojis

3. 📊 Resource Management: Quản lý dataset
   - list_datasets(): Liệt kê datasets
   - load_dataset(): Tải dataset
   - get_dataset_info(): Thông tin dataset

4. �� Task Models: Các mô hình xử lý tác vụ
   - SpamReviewDetection: Phát hiện spam
   - HateSpeechDetection: Phát hiện hate speech
   - HateSpeechSpanDetection: Phân tích hate speech
   - EmotionRecognition: Nhận diện cảm xúc
   - AspectSentimentAnalysis: Phân tích sentiment theo aspect

5. 🧪 Advanced Usage: Kết hợp các chức năng
   - Xử lý văn bản đa bước
   - Tùy chỉnh pipeline

✅ Toolkit đã sẵn sàng sử dụng!
""")

=== ViSoNorm Toolkit Summary ===

🎯 ViSoNorm Toolkit cung cấp các chức năng chính:

1. 🔧 BasicNormalizer: Chuẩn hóa văn bản cơ bản
   - Case folding (lowercase, uppercase, capitalize)
   - Tone normalization
   - Basic text preprocessing

2. �� EmojiHandler: Xử lý emoji
   - Detect emojis
   - Split emoji text
   - Remove emojis

3. 📊 Resource Management: Quản lý dataset
   - list_datasets(): Liệt kê datasets
   - load_dataset(): Tải dataset
   - get_dataset_info(): Thông tin dataset

4. �� Task Models: Các mô hình xử lý tác vụ
   - SpamReviewDetection: Phát hiện spam
   - HateSpeechDetection: Phát hiện hate speech
   - HateSpeechSpanDetection: Phân tích hate speech
   - EmotionRecognition: Nhận diện cảm xúc
   - AspectSentimentAnalysis: Phân tích sentiment theo aspect

5. 🧪 Advanced Usage: Kết hợp các chức năng
   - Xử lý văn bản đa bước
   - Tùy chỉnh pipeline

✅ Toolkit đã sẵn sàng sử dụng!



# 🚀 Installation

In [2]:
# Cài đặt từ TestPyPI
!pip install -q visonorm
print("✅ ViSoNorm đã được cài đặt thành công!")

✅ ViSoNorm đã được cài đặt thành công!


In [3]:
import importlib.metadata

try:
    visonorm_version = importlib.metadata.version('visonorm')
    print(f"Version của visonorm: {visonorm_version}")
except importlib.metadata.PackageNotFoundError:
    print("Package 'visonorm' không được tìm thấy.")


Version của visonorm: 0.1.1


# 📚 Import các module chính

In [4]:
from visonorm import BasicNormalizer, EmojiHandler, NswDetector, ViSoLexNormalizer

# Import chức năng Resource
from visonorm import list_datasets, load_dataset, get_dataset_info

# Import các chức năng Task
from visonorm import (
    SpamReviewDetection,
    HateSpeechSpanDetection,
    HateSpeechDetection,
    EmotionRecognition,
    AspectSentimentAnalysis
)

from visonorm import normalize_sentence, detect_nsw
print("✅ Tất cả các module đã được import thành công!")

✅ Tất cả các module đã được import thành công!


# 🔧 BasicNormalizer - Chức năng chuẩn hóa cơ bản

In [5]:
# Khởi tạo BasicNormalizer
normalizer = BasicNormalizer()

In [6]:
# Ví dụ văn bản cần chuẩn hóa
text1 = "Hôm nay tôi rất vui😊"
text2 = "Bận xong rồi. Xoã đi :)"
text3 = "Điện thoại này có CAMERA rất TỐT😊😊 nhưng pin không ổn tí nào:)))!"

In [7]:
print("=== BasicNormalizer Examples ===")

# Test case folding
print(f"Original: {text1}")
print(f"Lowercase: {normalizer.case_folding(text1, mode='lower')}")
print(f"Uppercase: {normalizer.case_folding(text1, mode='upper')}")
print(f"Capitalize: {normalizer.case_folding(text1, mode='capitalize')}")

# Test tone normalization
print(f"\nOriginal: {text2}")
print(f"Tone normalized: {normalizer.tone_normalization(text2)}")

# Test basic normalization
print(f"\nOriginal: {text3}")
print(f"Basic normalized: {normalizer.basic_normalizer(text3)}")

# Test với các tùy chọn khác nhau
print(f"\nBasic normalized (no case folding): {normalizer.basic_normalizer(text3, case_folding=False)}")
print(f"Basic normalized (Capitalize): {normalizer.basic_normalizer(text3, case_folding=True, mode='capitalize')}")
print(f"Basic normalized (Remove emoji): {normalizer.basic_normalizer(text3, remove_emoji=True)}")
print(f"Basic normalized (Split emoji): {normalizer.basic_normalizer(text3, remove_emoji=False, split_emoji=True)}")

=== BasicNormalizer Examples ===
Original: Hôm nay tôi rất vui😊
Lowercase: hôm nay tôi rất vui😊
Uppercase: HÔM NAY TÔI RẤT VUI😊
Capitalize: Hôm Nay Tôi Rất Vui😊

Original: Bận xong rồi. Xoã đi :)
Tone normalized: Bận xong rồi. Xõa đi :)

Original: Điện thoại này có CAMERA rất TỐT😊😊 nhưng pin không ổn tí nào:)))!
Basic normalized: điện thoại này có camera rất tốt 😊 😊 nhưng pin không ổn tí nào :))) !

Basic normalized (no case folding): Điện thoại này có CAMERA rất TỐT 😊 😊 nhưng pin không ổn tí nào :))) !
Basic normalized (Capitalize): Điện Thoại Này Có Camera Rất Tốt 😊 😊 Nhưng Pin Không Ổn Tí Nào :))) !
Basic normalized (Remove emoji): điện thoại này có camera rất tốt nhưng pin không ổn tí nào !
Basic normalized (Split emoji): điện thoại này có camera rất tốt 😊 😊 nhưng pin không ổn tí nào :))) !


# ViSoLexNormalizer

In [8]:
import pprint

In [9]:
print("=== ViSoLexNormalizer Examples ===")
input_str = "sv dh gia dinh chua cho di lam :))"
normalizer = ViSoLexNormalizer()

=== ViSoLexNormalizer Examples ===


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json: 0.00B [00:00, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/471k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/876 [00:00<?, ?B/s]

visonorm_visobert_model.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/visolex/visobert-normalizer-mix100:
- visonorm_visobert_model.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


pytorch_model.bin:   0%|          | 0.00/393M [00:00<?, ?B/s]

In [10]:
print("NORMALIZE SENTENCE ...")
pred_str = normalizer.normalize_sentence(input_str)
print(f"Normalized sentence: {pred_str}")
print("DETECT NSW ...")
nsw_list = normalizer.normalize_sentence(input_str, detect_nsw=True)
print(f"Detected NSW:")
for nsw in nsw_list[0]:
    print(f"- {nsw}\n")
print("✓ Execute NSW normalization successfully")

print(f"Original: {input_str}")
print(f"Normalized: {pred_str}")

NORMALIZE SENTENCE ...


model.safetensors:   0%|          | 0.00/393M [00:00<?, ?B/s]

Normalized sentence: sinh viên đại học gia đình chưa chờ đi làm :))
DETECT NSW ...
Detected NSW:
- {'index': 1, 'start_index': 0, 'end_index': 2, 'nsw': 'sv', 'prediction': 'sinh viên', 'confidence_score': 0.9519}

- {'index': 3, 'start_index': 3, 'end_index': 5, 'nsw': 'dh', 'prediction': 'đại học', 'confidence_score': 0.9949}

- {'index': 6, 'start_index': 10, 'end_index': 14, 'nsw': 'dinh', 'prediction': 'đình', 'confidence_score': 0.9904}

- {'index': 7, 'start_index': 15, 'end_index': 19, 'nsw': 'chua', 'prediction': 'chưa', 'confidence_score': 0.958}

- {'index': 8, 'start_index': 20, 'end_index': 23, 'nsw': 'cho', 'prediction': 'chờ', 'confidence_score': 0.594}

- {'index': 9, 'start_index': 10, 'end_index': 12, 'nsw': 'di', 'prediction': 'đi', 'confidence_score': 0.998}

- {'index': 10, 'start_index': 27, 'end_index': 30, 'nsw': 'lam', 'prediction': 'làm', 'confidence_score': 0.9982}

✓ Execute NSW normalization successfully
Original: sv dh gia dinh chua cho di lam :))
Normaliz

# 😊 EmojiHandler - Xử lý emoji

In [11]:
# Khởi tạo EmojiHandler
emoji_handler = EmojiHandler()

# Ví dụ văn bản có emoji
text_with_emoji = "Hôm nay tôi rất vui 😊🎉😊 và hạnh phúc 🎉! Cuộc sống thật tuyệt vời ��"

print("=== EmojiHandler Examples ===")

# Detect emojis
emojis = emoji_handler.detect_emoji(text_with_emoji)
print(f"Original text: {text_with_emoji}")
print(f"Detected emojis: {emojis}")

# Split emoji text
split_text = emoji_handler.split_emoji_text(text_with_emoji)
print(f"Split emoji text: {split_text}")

# Split consecutive emojis
text_with_consecutive_emoji = "Hôm nay tôi rất vui 😊🎉😊"
split_consecutive = emoji_handler.split_emoji_emoji(text_with_consecutive_emoji)
print(f"Split consecutive emojis: {split_consecutive}")

# Remove emojis
text_without_emoji = emoji_handler.remove_emojis(text_with_emoji)
print(f"Text without emojis: {text_without_emoji}")

=== EmojiHandler Examples ===
Original text: Hôm nay tôi rất vui 😊🎉😊 và hạnh phúc 🎉! Cuộc sống thật tuyệt vời ��
Detected emojis: ['😊🎉😊', '🎉', '��']
Split emoji text: Hôm nay tôi rất vui 😊 🎉 😊 và hạnh phúc 🎉 ! Cuộc sống thật tuyệt vời ��
Split consecutive emojis: Hôm nay tôi rất vui 😊 🎉 😊
Text without emojis: Hôm nay tôi rất vui và hạnh phúc ! Cuộc sống thật tuyệt vời


# 📊 Resource Management - Quản lý dataset

In [12]:
print("=== Resource Management Examples ===")

# Liệt kê tất cả datasets có sẵn
print("Available datasets:")
datasets = list_datasets()
for i, dataset in enumerate(datasets, 1):
    print(f"{i}. {dataset}")

# Lấy thông tin chi tiết về một dataset
print(f"\nDataset info for 'ViLexNorm':")
try:
    info = get_dataset_info("ViLexNorm")
    print(f"URL: {info['url']}")
    print(f"Type: {info['type']}")
except Exception as e:
    print(f"Error getting dataset info: {e}")

# Tải dataset (comment out để tránh download lớn)
print(f"\n📥 Loading dataset example (commented out to avoid large download):")
df = load_dataset("ViLexNorm")
print(f"Dataset shape: {df.shape}")
# print(f"First few rows:")
# print(df.head())

2026-01-06 02:38:28,161 INFO Downloading dataset 'ViLexNorm' from https://github.com/AnhHoang0529/visonorm/releases/download/0.0.1/ViLexNorm.csv...
2026-01-06 02:38:28,173 INFO Downloading file from https://github.com/AnhHoang0529/visonorm/releases/download/0.0.1/ViLexNorm.csv to datasets/ViLexNorm.csv...


=== Resource Management Examples ===
Available datasets:
1. ViLexNorm
2. ViHSD
3. ViHOS
4. UIT-VSMEC
5. ViSpamReviews
6. UIT-ViSFD
7. UIT-ViCTSD
8. ViTHSD
9. BKEE
10. UIT-ViQuAD

Dataset info for 'ViLexNorm':
URL: https://github.com/AnhHoang0529/visonorm/releases/download/0.0.1/ViLexNorm.csv
Type: csv

📥 Loading dataset example (commented out to avoid large download):


ViLexNorm.csv:   0%|          | 0.00/6.05M [00:00<?, ?B/s]

2026-01-06 02:38:28,543 INFO File downloaded successfully to datasets/ViLexNorm.csv.
2026-01-06 02:38:28,548 INFO Loading dataset 'ViLexNorm' as CSV.


Dataset shape: (10463, 7)


# �� Advanced Usage - Sử dụng nâng cao

In [13]:
print("=== Advanced Usage Examples ===")

# Kết hợp BasicNormalizer và EmojiHandler
def process_text_advanced(text):
    """Xử lý văn bản với nhiều bước"""
    print(f"Original text: {text}")

    # Bước 1: Xử lý emoji
    emoji_handler = EmojiHandler()
    emojis = emoji_handler.detect_emoji(text)
    print(f"Detected emojis: {emojis}")

    # Bước 2: Chuẩn hóa cơ bản
    normalizer = BasicNormalizer()
    normalized = normalizer.basic_normalizer(text, case_folding=True)
    print(f"Normalized text: {normalized}")

    # Bước 3: Loại bỏ emoji
    without_emoji = emoji_handler.remove_emojis(text)
    print(f"Text without emojis: {without_emoji}")

    return {
        'original': text,
        'emojis': emojis,
        'normalized': normalized,
        'without_emoji': without_emoji
    }

# Test advanced processing
advanced_text = "Hôm nay tôi rất😊 VUI 😊😊 và HẠNH PHÚC ��! Cuộc sống thật TUYỆT VỜI 🌟"
result = process_text_advanced(advanced_text)

=== Advanced Usage Examples ===
Original text: Hôm nay tôi rất😊 VUI 😊😊 và HẠNH PHÚC ��! Cuộc sống thật TUYỆT VỜI 🌟
Detected emojis: ['😊', '😊😊', '��', '🌟']
Normalized text: hôm nay tôi rất 😊 vui 😊 😊 và hạnh phúc �� ! cuộc sống thật tuyệt vời 🌟
Text without emojis: Hôm nay tôi rất VUI và HẠNH PHÚC ! Cuộc sống thật TUYỆT VỜI


# 🎯 Task Models - Các mô hình xử lý tác vụ

In [14]:
print("=== Task Models Examples ===")

# Test SpamReviewDetection
print("🔍 SpamReviewDetection:")

# Xem danh sách các model có sẵn
print("Available models:", SpamReviewDetection.list_model_names())

try:
    spam_detector = SpamReviewDetection("phobert-v2")
    spam_text = "Sản phẩm rất tốt, chất lượng cao!"
    spam_result = spam_detector.predict(spam_text)
    print(f"Text: {spam_text}")
    print(f"Result: {spam_result}")
except Exception as e:
    print(f"SpamReviewDetection error: {e}")

Text: Sản phẩm rất tốt, chất lượng cao!
Result: Spam


In [15]:
# Test EmotionRecognition
print(f"\n🎉 EmotionRecognition:")

# Xem danh sách các model có sẵn
print("Available models:", EmotionRecognition.list_model_names())

try:
    emotion_detector = EmotionRecognition("vit5")
    emotion_text = "Tôi rất vui mừng và hạnh phúc!"
    emotion_result = emotion_detector.predict(emotion_text)
    print(f"Text: {emotion_text}")
    print(f"Emotion: {emotion_result}")
except Exception as e:
    print(f"EmotionRecognition error: {e}")

Text: Tôi rất vui mừng và hạnh phúc!
Emotion: Anger


In [16]:
# Test HateSpeechDetection
print(f"\n🚫 HateSpeechDetection:")
# Xem danh sách các model có sẵn
print("Available models:", HateSpeechDetection.list_model_names())
try:
    hate_detector = HateSpeechDetection("bartpho")
    hate_text = "Văn bản cần kiểm tra hate speech"
    hate_result = hate_detector.predict(hate_text)
    print(f"Text: {hate_text}")
    print(f"Result: {hate_result}")
except Exception as e:
    print(f"HateSpeechDetection error: {e}")

Text: Văn bản cần kiểm tra hate speech
Result: HATE


In [17]:
# Test HateSpeechDetection
print(f"\n🚫 HateSpeechDetection:")
# Xem danh sách các model có sẵn
print("Available models:", HateSpeechDetection.list_model_names())
try:
    hate_detector = HateSpeechDetection("visobert")
    hate_text = "Văn bản cần kiểm tra hate speech"
    hate_result = hate_detector.predict(hate_text)
    print(f"Text: {hate_text}")
    print(f"Result: {hate_result}")
except Exception as e:
    print(f"HateSpeechDetection error: {e}")


🚫 HateSpeechDetection:
Available models: ['phobert-v1', 'phobert-v2', 'bartpho', 'visobert', 'vihate-t5', 'xlm-r', 'roberta-gru', 'mbert', 'sphobert']


tokenizer_config.json: 0.00B [00:00, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/471k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/584 [00:00<?, ?B/s]

models.py: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/390M [00:00<?, ?B/s]

HateSpeechDetection error: Failed to load model 'visobert' from 'visolex/visobert-hsd'. Last error: visolex/visobert-hsd does not appear to have a file named pytorch_model.bin, model.safetensors, tf_model.h5, model.ckpt or flax_model.msgpack.. Please check if the model exists on HuggingFace Hub: https://huggingface.co/visolex/visobert-hsd


In [18]:
# Test HateSpeechSpanDetection
print(f"\n🚫 HateSpeechSpanDetection:")
# Xem danh sách các model có sẵn
print("Available models:", HateSpeechSpanDetection.list_model_names())
try:
    hate_span_detector = HateSpeechSpanDetection("bartpho")
    hate_span_text = "Nói cái lồn gì mà khó nghe"
    hate_span_result = hate_span_detector.predict(hate_span_text)
    print(f"Text: {hate_span_text}")
    print(f"Result: {hate_span_result}")
except Exception as e:
    print(f"HateSpeechSpanDetection error: {e}")

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Text: Nói cái lồn gì mà khó nghe
Result: {'tokens': [], 'text': ''}


In [19]:
# Test AspectSentimentAnalysis
print(f"\n📱 AspectSentimentAnalysis:")

# Xem danh sách các domain có sẵn
print("Available domains:", AspectSentimentAnalysis.list_domains())

# Xem danh sách các model cho một domain cụ thể
print("Models for smartphone:", AspectSentimentAnalysis.list_model_names("smartphone"))
print("Models for restaurant:", AspectSentimentAnalysis.list_model_names("restaurant"))
print("Models for hotel:", AspectSentimentAnalysis.list_model_names("hotel"))

try:
    absa = AspectSentimentAnalysis("restaurant", "bartpho")
    absa_text = "Điện thoại có camera rất tốt nhưng pin nhanh hết"
    absa_result = absa.predict(absa_text, threshold=0.5)
    print(f"Text: {absa_text}")
    print(f"Aspects: {absa_result}")
except Exception as e:
    print(f"AspectSentimentAnalysis error: {e}")

Text: Điện thoại có camera rất tốt nhưng pin nhanh hết
Aspects: []


# 🎉 Test Complete Functionality

In [20]:
def test_complete_functionality():
    """Test toàn bộ chức năng của ViSoLex"""
    print("🧪 Testing Complete ViSoLex Functionality")

    test_text = "Hôm nay tôi rất VUI 😊 và HẠNH PHÚC 🎉�! Cuộc sống thật TUYỆT VỜI 🌟"

    # Test BasicNormalizer
    normalizer = BasicNormalizer()
    normalized = normalizer.basic_normalizer(test_text)
    print(f"✅ BasicNormalizer: {normalized}")

    # Test EmojiHandler
    emoji_handler = EmojiHandler()
    emojis = emoji_handler.detect_emoji(test_text)
    print(f"✅ EmojiHandler: {emojis}")

    # Test Resource Management
    datasets = list_datasets()
    print(f"✅ Resource Management: {len(datasets)} datasets available")

    # Test Task Models (basic test)
    try:
        spam_detector = SpamReviewDetection("phobert")
        spam_result = spam_detector.predict("Sản phẩm tốt")
        print(f"✅ Task Models: Spam detection working")
    except Exception as e:
        print(f"⚠️ Task Models: {e}")

    print("🎉 All basic functionality tests completed!")

# Chạy test
test_complete_functionality()

🧪 Testing Complete ViSoLex Functionality
✅ BasicNormalizer: hôm nay tôi rất vui 😊 và hạnh phúc 🎉 � ! cuộc sống thật tuyệt vời 🌟
✅ EmojiHandler: ['😊', '🎉�', '🌟']
✅ Resource Management: 10 datasets available
⚠️ Task Models: Model 'phobert' not found. Available models: ['phobert-v1', 'phobert-v1-multiclass', 'phobert-v2', 'phobert-v2-multiclass', 'visobert', 'visobert-multiclass', 'bartpho', 'bartpho-multiclass', 'xlm-r', 'xlm-r-multiclass', 'mbert', 'mbert-multiclass', 'vit5', 'vit5-multiclass', 'textcnn', 'textcnn-multiclass', 'bilstm', 'bilstm-multiclass', 'roberta-gru', 'roberta-gru-multiclass', 'sphobert', 'sphobert-multiclass']
🎉 All basic functionality tests completed!
