Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Vài thử nghiệm sử dụng thư viện để chuẩn hóa văn bản #16

Open
nguyenhung opened this issue Jul 7, 2022 · 1 comment

Comments

@nguyenhung
Copy link

Mình chạy thử ví dụ có sẵn trong UnitTestVietnameseTextNormalizer.py và có đọc và hiểu tiêu chí sửa của bạn là chỉ sửa khi chắc chắn

VietnameseTextNormalizer.Normalize(" UTF8 : Tôi làm việ ở ban công ngệ FPT, tôi là người viêt nam. hôm nay tôi ko thích ăn mì tôm. tôi làm đc 2 bài tập.");
//                                   UTF8 : Tôi làm việc ở ban công nghệ FPT, tôi là người viêt nam. hôm nay tôi không thích ăn mì tôm. tôi làm đc 2 bài tập.

Mình có vài nhận xét nhanh và viết ra để các bạn khác có nhu cầu sử dụng thư viện không phải đánh giá lại

  • Kết quả chữ 'viet nam' 'hcm' không được thêm dấu, không viết hoa
  • Các chữ viết tắt thường thấy như ko đc sẽ không được thư viện thay thế tự động
  • Sau dấu chấm câu, văn bản sẽ không được sửa viết hoa chữ đầu
  • Các lỗi gõ như hôm__nay (nhiều hơn 1 khoảng trắng), Trời có mưa không__? Trời nắng. (thừa khoảng trắng trước dấu câu) sẽ không được sửa
  • Một vài lỗi chính tả mình nghĩ để thử thử viện bảng chất timf kiếm học bỏng tình tiếc không được sửa
@langmaninternet
Copy link
Owner

Hay quá cảm ơn góp ý của bạn
mình sẽ nghiên cứu update thêm các trường hợp trên để công cụ trở nên hoàn thiện hơn

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants