GitHub - lixcli/simple_classification_of_hanzi: simple classification of hanzi by scikit-learn

获取模型
主要步骤：

文本预处理，提取语料中的中文
向量化
训练
存储模型

主要使用工具：
scikit-learn的GaussianNB(朴素贝叶斯模型)和CountVectorizer(获取词向量)

预测文本
提供三种方式预测

    ===========================================
    usage:
    1. t :train model
    2. f [filename]:detect one file
    3. s [sentence]:detect one sentence
    4. d [diratory]:detect one diratory
    ===========================================

运行效果

运行方法
安装scikit-learn代码库
运行python detect.py

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
asset		asset
corpus		corpus
test		test
detect.py		detect.py
model.pkl		model.pkl
output_of_files.txt		output_of_files.txt
preprocess_corpus.py		preprocess_corpus.py
readme.md		readme.md
simplified.txt		simplified.txt
traditional.txt		traditional.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

lixcli/simple_classification_of_hanzi

Folders and files

Latest commit

History

Repository files navigation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages