Skip to content

VFND/vfnd-fake-news-experiences

Repository files navigation

VFND Experiences - Thí nghiệm trên tập dữ liệu VFND

Một số thí nghiệm dựa trên dataset VFND sẽ được thực hiện trong repo này

1. Mô tả nội dung các file và thư mục

  1. corpus_extending.ipynb: dùng để mở rộng bộ từ điển để dùng cho phương pháp Longest Matching, bộ từ điển mở rộng được đặt trong thư mục Dictionaries

  2. news-preprocessing.ipynb: thử nghiệm các phương thức tiền xử lý dữ liệu

  3. Thư mục Dictionaries: Chứa các bộ từ điển bi_gram.txt, tri_gram.txt, four_gram.txtStopwords_vi.txt

2. Tham khảo và vay mượn

2.1 Vay mượn mã nguồn

  1. urlmarker.py: Mã nguồn hỗ trợ trích xuất tương đối chính xác URL trong văn bản, Tham khảo theo [1]
  2. Các bộ từ điển tham khảo từ VNLP Core, Từ điển tiếng Việt và bộ Stopwords_vi.txt tham khảo tại dnanhkhoa/Stopwords_vi.txt

2.2 Tài liệu tham khảo

  1. Url extraction in python - Ryan Compton: Trích xuất URL trong văn bản bằng REGEX
  2. Các bài viết VNLP Core - Forum MachineLearning cơ bản: Bài 1, Bài 2 & Bài 3

3. Các tác giả

  • Phạm Minh Ninh - Bach Khoa HCM - CS student - github - facebook
  • Hồ Quang Thanh - Bach Khoa HCM - CS student - github

Xem thêm trong contributors.

About

Thí nghiệm dataset VFND

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published