GitHub - wareya/analyzer: unnamed japanese text analyzer

unnamed japanese text analyzer

generates a word frequency list from japanese utf-8 text
depends on kuromoji-unidic-kanaaccent from maven
invoke java -jar analyzer.jar mycorpus.txt > myfrequencylist.txt
licensed under a public domain–like permissive license
particles, auxiliary verbs, etc are blacklisted from output

use the companion program to combine lists made from different sources: https://github.com/wareya/normalizer

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
.idea		.idea
META-INF		META-INF
resource		resource
src		src
.gitignore		.gitignore
analyzer.iml		analyzer.iml
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

unnamed japanese text analyzer

About

Releases 11

Packages

Contributors 2

Languages

wareya/analyzer

Folders and files

Latest commit

History

Repository files navigation

unnamed japanese text analyzer

About

Resources

Stars

Watchers

Forks

Releases 11

Packages 0

Contributors 2

Languages

Packages