Cantonese/Mandarin Classification Task

The aim of this task is to classify texts into Cantonese and Mandarin. It is extremely useful for filtering Cantonese text from large-scale web crawling-based corpus.

Scores

Model	Author	Accuracy
Cantonese text classifier	CanCLID	82.49%

Please update this list if you have built your own model.

Test

python compute_accuracy.py output.txt

Source

The Cantonese test data are extracted from 粵語對話語料.

The Mandarin test data are extracted from PTT 八卦版問答中文語料.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
compute_accuracy.py		compute_accuracy.py
test.label.txt		test.label.txt
test.text.txt		test.text.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

compute_accuracy.py

compute_accuracy.py

test.label.txt

test.label.txt

test.text.txt

test.text.txt

Repository files navigation

Cantonese/Mandarin Classification Task

Scores

Test

Source

About

Releases

Packages

Languages

ayaka14732/yue-cmn-classification-task

Folders and files

Latest commit

History

Repository files navigation

Cantonese/Mandarin Classification Task

Scores

Test

Source

About

Resources

Stars

Watchers

Forks

Languages