Skip to content
Permalink
Browse files
update top doc for release
  • Loading branch information
nitslp-ri committed Aug 11, 2020
1 parent 0541412 commit 0297df36c8bb581237816da5a0d8d96d81a96ca7
Show file tree
Hide file tree
Showing 5 changed files with 121 additions and 57 deletions.
@@ -135,6 +135,3 @@ ipch/
*.vsp
*.vspx
*.sap

# Visual Studio Code files
.vscode/*
@@ -4,9 +4,10 @@

Julius

(Rev 4.5 2019/01/02)
(Rev 4.4.2 2016/09/12)
(Rev 4.4 2016/08/30)
(Rev 4.6 2020/09/02)
(Rev 4.5 2019/01/02)
(Rev 4.4.2 2016/09/12)
(Rev 4.4 2016/08/30)
(Rev 4.3.1 2014/01/15)
(Rev 4.3 2013/12/25)
(Rev 4.2.3 2013/06/30)
@@ -101,33 +102,33 @@ UTF-8に変換されました.以降の更新は UTF-8 ベースで行われ
Julius-4.5のファイルの構成
=============================

00readme-ja.txt 最初に読む文書(このファイル)
LICENSE.txt ライセンス条項
Release-ja.txt リリースノート/変更履歴
00readme-DNN.txt DNN-HMM の使い方説明
configure configureスクリプト
configure.in
Sample.jconf jconf 設定ファイルサンプル
Sample.dnnconf DNN 設定ファイルのサンプル
julius/ Julius ソース
libjulius/ JuliusLib コアエンジンライブラリ ソース
libsent/ JuliusLib 汎用ライブラリ ソース
adinrec/ 録音ツール adinrec
adintool/ 音声録音/送受信ツール adintool
generate-ngram/ N-gram文生成ツール
gramtools/ 文法作成ツール群
jcontrol/ サンプルネットワーククライアント jcontrol
mkbingram/ バイナリN-gram作成ツール mkbingram
mkbinhmm/ バイナリHMM作成ツール mkbinhmm
mkgshmm/ GMS用音響モデル変換ツール mkgshmm
mkss/ ノイズ平均スペクトル算出ツール mkss
support/ 開発用スクリプト
jclient-perl/ A simple perl version of module mode client
plugin/ プラグインソースコードのサンプルと仕様文書
man/ マニュアル類
msvc/ Microsoft Visual Studio 2013 用ファイル
dnntools/ Sample programs for dnn and vecnet client
binlm2arpa/ バイナリN-gramからARPAへの変換ツール
00readme-ja.txt 最初に読む文書(このファイル)
LICENSE.txt ライセンス条項
Release-ja.txt リリースノート/変更履歴
00readme-DNN.txt DNN-HMM の使い方説明
configure configureスクリプト
configure.in
Sample.jconf jconf 設定ファイルサンプル
Sample.dnnconf DNN 設定ファイルのサンプル
julius/ Julius ソース
libjulius/ JuliusLib コアエンジンライブラリ ソース
libsent/ JuliusLib 汎用ライブラリ ソース
adinrec/ 録音ツール adinrec
adintool/ 音声録音/送受信ツール adintool
generate-ngram/ N-gram文生成ツール
gramtools/ 文法作成ツール群
jcontrol/ サンプルネットワーククライアント jcontrol
mkbingram/ バイナリN-gram作成ツール mkbingram
mkbinhmm/ バイナリHMM作成ツール mkbinhmm
mkgshmm/ GMS用音響モデル変換ツール mkgshmm
mkss/ ノイズ平均スペクトル算出ツール mkss
support/ 開発用スクリプト
jclient-perl/ A simple perl version of module mode client
plugin/ プラグインソースコードのサンプルと仕様文書
man/ マニュアル類
msvc/ Microsoft Visual Studio 2013 用ファイル
dnntools/ Sample programs for dnn and vecnet client
binlm2arpa/ バイナリN-gramからARPAへの変換ツール


ライセンスおよび引用
@@ -169,6 +170,6 @@ Julius 開発に関するご質問・お問い合わせは主に GitHub 上で
あるいは下記のメールアドレスまでお問い合わせ下さい
('at' を '@' に読み替えてください)

julius-info at lists.sourceforge.jp
julius-info at lists.sourceforge.jp

以上
@@ -27,9 +27,8 @@ specifying "--prefix=..." to configure script.

% ./configure --prefix=/opt


-----------------------------------------------
Linux (tested on Ubuntu-14.04)
Linux (tested on Ubuntu-14.04 and later)

% sudo apt-get install build-essential zlib1g-dev libsdl2-dev
% sudo apt-get libasound2-dev (or libpulse-dev, whichever you want to enable)
@@ -43,6 +42,23 @@ If you want only one audio interface, use `--with-mictype=xxx`.
% make
% (optional) make install

-----------------------------------------------
Linux with CUDA support (tested on Ubuntu-16.04 and CUDA-9.0, but later should work)

Just compile with nvcc, by giving CC and CFLAGS like this for configure script:

% CC=/usr/local/cuda-x.x/bin/nvcc CFLAGS=-O3 ./configure

"configure" will automatically detects using nvcc and enables specific CUDA codes.
Then will build julius and other tools with CUDA runtime.

Whole process: after installing CUDA toolkit under /usr/local/cuda-x.x,
% sudo apt-get install build-essential zlib1g-dev libsdl2-dev
% sudo apt-get libasound2-dev (or libpulse-dev, whichever you want to enable)
% CC=/usr/local/cuda-x.x/bin/nvcc CFLAGS=-O3 ./configure
% make
% (optional) make install

-----------------------------------------------
Mingw on Ubuntu (tested on 16.04)

@@ -1,3 +1,29 @@
4.6 (2020.09.02)
=================
○新機能
- GPU サポート(DNN-HMM計算部)
- CUDA toolkit をインストールし nvcc でビルドすることで有効化 詳しくは INSTALL.txt の対応する項目を。
- .dnnconf で "cuda_mode=..." で詳細なパラメータを設定可能 詳しくは Sample.dnnconf の末尾を。
- 動作確認: Linux のみ
- 1パス文法認識の実装
- 第1パスからフルの文法制約を適用することで、1パス文法認識を行うモードを新規追加
- モードのON/OFFは文法単位:".dfa.forward" ファイルが存在する文法はこの機能が有効になり、なければ従来バージョン通り(単語対制約のみ)
- ".dfa.forward" は前向き文法ファイルで、これ以降のバージョンの "mkdfa" で自動生成される。
- DNN-HMM で出力が log10 化されている/いないモデルに両対応
- .dnnconf で "state_prior_log10nize=yes/no" で指定する
- 新たな特徴量正規化モードを追加:平均は入力自身、分散は固定値を使うモード
- 新たなオプション "-cvnstatic" で指定可能
- 新モードを含めた全体的な動作の説明が "doc/Normalize.md" にまとめられた
○更新
- 修正BSDライセンスへ移行
- Python バージョンの文法コンパイラ "mkdfa.py" を gramtools/mkdfa に追加
- .vcproj を Visual Studio 2017 に更新。それ以前のバージョンでは "JuliusLib_vs2013_v120.sln" を使うこと
- 最新版に合わせたドキュメントを markdown 形式で doc/ 以下に執筆中(フロントエンドまで記述)
- GitHubで見やすいよう各ディレクトリに README.md を置き、*.txt を廃止
○バグ修正
- "mkbingram" で文字コード変換を指定しても無視される不具合を修正
- その他の軽微な修正

4.5 (2019.01.02)
=================
○新機能
@@ -13,7 +39,7 @@
化。値は 0 から 3 で大きいほどアグレッシブな VAD を行う。(WebRTCの仕
様のまま)
- 新VAD と関連オプションは julius, adinrec, adintool にて使用可能
- 使い方の例:
- 使い方の例:
- "-fvad -1" で旧モジュールのみ使用(以前のバージョンと等価)
- "-fvad 3 -lv 1" で新モジュールのみ使用。 "-lv 1" とすることで
旧モジュールを常にトリガ状態にすることで、VAD結果が新モジュール
@@ -37,7 +63,7 @@
[-fvad mode] libfvadベースVADの有効/無効およびモードの設定。 mode
が -1 だと無効化、0 から 3 だと有効化。0 以上の値は強度を表し、値が
大きいほどアグレッシブなVADになる(= speech-like noise でも落とそうと
する)。デフォルト値は -1 (無効)
する)。デフォルト値は -1 (無効)

[-fvad_param nFrame thres] libfvad ベースVADの詳細パラメータを変更
する。nFrame はスムージングフレーム数、thres は音声トリガ検知閾値で
@@ -120,7 +146,7 @@

○新機能
- 辞書のリロード: j_reload_adddict()
- 音声入力の振幅のスケーリング:"-lvscale factor" および
- 音声入力の振幅のスケーリング:"-lvscale factor" および
"j_adin_change_input_scaling_factor()"
- 長い入力の棄却:"-rejectlong msec"
- バイナリN-gramの文字コード変換をサポート: "mkbingram"
@@ -280,7 +306,7 @@
○新規
- 新たな MSVC サポート:"msvc/00README.txt" を読んでください。
- 任意長の N-gram をサポート
- システムに portaudio ライブラリとヘッダがあれば、Julius 内蔵の
- システムに portaudio ライブラリとヘッダがあれば、Julius 内蔵の
portaudio の代わりにそれを使用するようになった。外部ライブラリは
V19 にも対応する。その場合、録音デバイスを PORTAUDIO_DEV で指定可能。
書式は起動時のログを見ること。
@@ -377,7 +403,7 @@
- MSD-HMM のサポート(HTS ツールキットで学習したモデルを使用可能)
- CVN サポート
- VTLN 用 frequency warping (パラメータ推定は無し)
- "-input alsa", "-input oss" および "-input esd"
- "-input alsa", "-input oss" および "-input esd"
- モジュールモード用クライアントの perl 版 "jclient-perl" の同梱

■仕様変更:
@@ -568,7 +594,7 @@
- 任意の次元数に対応
- 抽出される特徴量のタイプおよび次元数は,音響モデルのヘッダから自動判断
- 細かい特徴量抽出のパラメータを指定可能になった:
-preemph, -fbank, -ceplif, -rawe / -norawe,
-preemph, -fbank, -ceplif, -rawe / -norawe,
-enormal / -noenormal, -escale, -silfloor
- 新オプション "-zmeanframe": フレームごとの DC offset 除去 (HTK互換)

@@ -779,7 +805,7 @@
- ALSA-0.9.x に対応.
自動検出では OSS が優先されるので,使用するには configure 時に
"--with-mictype=alsa" を明示的に指定すること.

3.3p2 (2002.11.18)
===================
- [マルチパス版] モデルスキップ遷移に対応した.音響モデルの初期状態か
@@ -1,3 +1,27 @@
4.6 (2020.09.02)
=================
New features:
- CUDA support for DNN computation
- build by nvcc to enable it
- detailed parameter can be given by .dnnconf option "cuda_mode=...". See Sample.dnnconf for details.
- 1-pass grammar recognition
- Per-grammar basis: can be enabled for each grammar only when it has additional ".dfa.forward" file.
- The ".dfa.forward" file will be generated by "mkdfa" of recent version. Leave it to enable, or delete it to let Julius work as previous version.
- Support non-log10nized state priors in DNN model
- New .dnnconf option "state_prior_log10nize=yes/no" to switch the behavior
- Another feature normalization pattern (mean = input self, variance = static) support
- New option "-cvnstatic" to choose this behavior
- See the updated doc "doc/Normalize.md" to know how to set feature normalization in Julius.
Updates:
- Now delivered under simplified BSD License
- added Python version "mkdfa.py" in gramtools/mkdfa
- Update .vcproj for Visual Studio 2017, use "JuliusLib_vs2013_v120.sln" for older version.
- re-write documentations in markdown format under "doc" (WIP)
- Place README.md in each directory, remove *.txt instead
Bug fix
- "mkbingram" ignores charset conversion options, performs no conversion


4.5 (2019.01.02)
=================
New features:
@@ -41,7 +65,7 @@ Bug fixes:
- fix several memory leaks
- fix mis-compilation on some OS

[New run-time options]
[New run-time options]
[-fvad mode] set libfvad mode. "mode" is an integer value from -1 to 3, -1 to disable,
0 for moderate detection, 3 for aggressive detection (more likely to
drop speech-like noises). Default value is -1 (disabled)
@@ -281,7 +305,7 @@ New features:
- new MSVC support: please read "msvc/00README.txt"
- extended N-gram to support arbitrary N
- portaudio external library (V19) can be used instead of internal V18.
When configure detects portaudio library installed in your system,
When configure detects portaudio library installed in your system,
Julius will use it instead of internal V18. You can also choose
input device by "PORTAUDIO_DEV" env. var. at V19library. See the
log text at start up to know how to set it.
@@ -377,15 +401,15 @@ New plugin extension:
Newly supported features:
- multi-stream feature input
- MSD-HMM (compatible with "HTS" toolkit)
- CVN
- CVN
- frequency warping for VTLN (no estimation yet)
- "-input alsa", "-input oss" and "-input esd"
- perl version of jcontrol client "jclient-perl"

Modified:
- Restrict option orders when multiple instances defined (-AM, -LM, -SR):
- Option should be just after correspondence instance declaration.
(ex. LM options should be placed after "-LM" and before other
- Option should be just after correspondence instance declaration.
(ex. LM options should be placed after "-LM" and before other
instance declaration.)
- Global option should be before any instance declaration, or
just after "-GLOBAL" option.
@@ -452,7 +476,7 @@ Fixed bugs:
- incorrect 1-gram prob for unknown words.
- fail to read some ARPA files with no back-off compaction.
- read failure or segfault on big N-gram with over 24bit entries.
- redundant index for back-off weights in some case.
- redundant index for back-off weights in some case.
Word recognition
- incorrect N-best output with "-output N" on word recognition.
Installation
@@ -502,7 +526,7 @@ For more detail about new features in 4.0, please see other document.

o Embedding HTK Acoustic Parameters:
- add option to load HTK Config file to set correct acoustic parameter
configuration at recognition time.
configuration at recognition time.
- the acoustic parameter configuration can be embedded into
header of a binary HMM file.

@@ -575,12 +599,12 @@ For more detail about new features in 4.0, please see other document.
- Added extraction of acceleration coefficients (_A). Now you
can recognize waveform or microphone input with AM trained with _A.
- Support all MFCC qualifiers (_0, _E, _N, _D, _A, _N, _Z) and their
combination
combination
- Support for any vector lenth (will be guessed from AM header)
- New option: "-accwin"
- New option "-zmeanframe": frame-wise DC offset removal, like HTK
- New options to specify detailed analysis parameters (see manual):
-preemph, -fbank, -ceplif, -rawe / -norawe,
-preemph, -fbank, -ceplif, -rawe / -norawe,
-enormal / -noenormal, -escale, -silfloor

o Improved microphone / network recognition by MAP-CMN:
@@ -612,7 +636,7 @@ For more detail about new features in 4.0, please see other document.
- Input verification / rejection using GMM (-gmm, -gmmnum, -gmmreject)
- Word graph output (--enable-graphout, --enable-graphout-nbest)
- Pruning on 2nd pass based on local posterior CM (--enable-cmthres)
- Multiple/per-grammar recognition (-gram, -gramlist, -multigramout)
- Multiple/per-grammar recognition (-gram, -gramlist, -multigramout)
- Can specify multiple grammars at startup: "-gram prefix1,prefix2,..."
or "-gramlist listfile" where listfile contains list of prefixes.
- General output character set conversion "-charconv from to"
@@ -640,7 +664,7 @@ For more detail about new features in 4.0, please see other document.
- No output of "maxcodebooksize" at startup.
- No output of the number of sentences found when stack exhausted.
- No output of "-separatescore" on module mode.
- Beam width does not adjusted when grammar has been changed and
- Beam width does not adjusted when grammar has been changed and
full beam options (-b 0) is specified in Julian.
- Wrong update of category-aware cross-word triphones when
dynamically switching grammar on Julian.
@@ -659,7 +683,7 @@ For more detail about new features in 4.0, please see other document.
into one source. The multi-path version of Julius/Julian, that
allows any transitions of HMMs including model skip transition,
can be compiled by "--enable-multipath" option. The part of
source codes for the multi-path version can be identified
source codes for the multi-path version can be identified
by the definition "MULTIPATH_VERSION".

o Other improvements:
@@ -790,9 +814,9 @@ New configure option: "--disable-lmfix", "--enable-visualize"
- Would not block when other process is using the audio device, but
just output error and exit.
- Update support for libsndfile-1.0.x.
- Update support for ALSA-0.9.x
- Update support for ALSA-0.9.x
(to use this, add "--with-mictype=alsa" to configure option.)

3.3p2 (2002.11.18)
===================
- [multi-path version] Supports model-skip transition. From

0 comments on commit 0297df3

Please sign in to comment.