Skip to content

Commit

Permalink
Merge branch 'master' into 1.0RC3
Browse files Browse the repository at this point in the history
  • Loading branch information
Takeshi Morita committed Mar 20, 2019
2 parents 4f642b2 + a6f4c17 commit 8f4de95
Showing 1 changed file with 12 additions and 14 deletions.
26 changes: 12 additions & 14 deletions docs/source/modules.rst
Expand Up @@ -152,37 +152,35 @@ DODDLE-OWLでは,階層関係構築支援を行うために,参照オント

Input Modules
========================
入力モジュールは,領域専門文書集合を入力として,参照オントロジーを参照し,入力概念集合を出力する.入力モジュールは,入力文書選択モジュール,入力語選択モジュール,入力概念選択モジュールから構成される.:numref:`input_module` に入力モジュールのシステムフローを示す.以下では,各モジュールについて説明する.
In the Input Module, the users select input concepts which are significant concepts in a domain. Input Module consists of the following three sub-modules: Input Document Selection Module, Input Term Selection Module, and Input Concept Selection Module. :numref:`input_module` shows the flow of the Input Module. The detail of each sub module is described below.

.. _input_module:
.. figure:: figures/input-module.png
:scale: 50 %
:alt: 入力モジュールのシステムフロー
:alt: System flow of Input Module
:align: center

入力モジュールのシステムフロー
System flow of Input Module

Input Document Selection Module
--------------------------------
入力文書選択モジュールでは,英語または日本語で記述された領域に関する専門文書集合(入力文書集合)をユーザが選択し,入力文書集合の中から領域にとって重要な語(入力語)の候補となる用語集合を抽出する.入力文書選択モジュールでは,形態素解析器を用いて,専門文書中のユーザが指定した品詞(名詞,動詞,その他の品詞など)の語を抽出できる.また,専門用語自動抽出システム [Nakagawa03]_ や日本語係り受け解析器 Cabocha を用いて複合語の抽出を行うこともできる.テキスト文書だけでなく,PDF,Microsoft Word, Excel,PowerPoint など様々な形式のファイルからテキストを抽出することもできる.

入力文書選択モジュールのもう一つの役割として,入力文書中の1 文の区切りの同定がある.1 文の区切りの同定は,オントロジーにおけるその他の関係構築支援手法の一つである相関ルールを適用する際に必要となる.1 文の区切りを丸(。),ピリオド(.),改行などから自動的に入力文書選択モジュールは判別するが,丸やピリオドが入力文書に含まれない場合は,誤って1 文を判別してしまう.このことは,相関ルールを用いた関係構築の精度の低下をもたらす.上記の問題を解決するため入力文書選択モジュールでは,1文の区切りをユーザが手動で修正することができるようになっている.
First, in the Input Document Selection Module, the users select domain specific documents described in English or Japanese. At this step, the users can select part of speech (POS) for extraction of words from the documents. The Input Document Selection Module automatically distinguishes one sentence from another referring to the period punctuation. However, when the input document consists of sentences with no period punctuation marks, the Input Document Selection Module cannot distinguish where to punctuate the sentence. These input documents cause the decrease in the accuracy of other relationships constructed by using association rule learner in the Relationship Construction Module. Considering such a case, the users can edit manually the punctuation of one sentence in the documents using the Input Document Selection Module.

Input Term Selection Module
--------------------------------
入力語選択モジュールでは,入力文書選択モジュールにより自動抽出された用語集合から,複合語,品詞,TF (Term Frequency), IDF(Inverse Document Frequency), TF-IDF,上位概念を考慮しながら,ユーザは入力語を選択する.ここで上位概念とは,参照オントロジーにおける概念階層の上位部分に存在する概念を表す.上位概念は,あらかじめユーザが手動で設定する.用語とその上位概念を同時に参照することにより,自動抽出された用語を抽象化してユーザは理解することができる.例えば,EDR を参照オントロジーとして,「具体物」を上位概念に設定した場合,「具体物」の下位概念の見出しと一致した自動抽出された用語については,その用語の上位概念として「具体物」を表示する.
Second, the Input Term Selection Module shows a list of extracted terms including compound words, POS, Term Frequency (TF), Inverse Document Frequency (IDF), TF-IDF, and upper concepts of the terms in the documents. Here, the uppser concepts are in the reference ontologies and the users can set them in an upper concept list file. For example, if EDR is set as a reference ontology and the users set the "concrete object" concept as one of the upper concepts, input terms which match labels of sub concepts of the "concrete object" concept are shown with the concept.

入力文書中に入力語が含まれていない場合や,入力文書選択モジュールが自動抽出し損ねた入力語については,入力語選択モジュールでは,ユーザが手動で追加できるようになっている.また,入力文書からの入力語の選択漏れを防ぐために,抽出した入力語と入力文書中の出現箇所の対応関係がわかるようになっている.
Domain specific documents contain many significant compound words. Therefore, accurate extraction of compound words is necessary to construct domain ontologies. At this step, while considering POS, TF, and so on, the user selects input terms which are significant terms for the domain. For certain domains, important terms do not occur in the documents. In such a case, Input Term Selection Module has a function allowing the manual addition of important terms as input terms by the user. In order to prevent the leakage of the selection of input terms from the documents, Input Term Selection Module maintains the relationships between the extracted terms and the place where the terms appear in the documents.

Input Concept Selection Module
--------------------------------
入力概念選択モジュールでは,ユーザはオントロジー選択モジュールで選択した参照オントロジー中の概念と入力語を対応づけることによって,入力語の意味を同定する.用語は複数の意味を持つ場合があるため,ある用語を見出しとしてもつ概念が複数存在する.入力概念選択モジュールでは,入力語とそれに対応する概念の候補をユーザに提示する.ユーザはその中から入力語に対応する,領域にとって最も適切な概念(入力概念)を選択する.
Finally, in the Input Concept Selection Module, the user identifies the word sense of input terms to map those terms to the concepts in the reference ontologies selected with the Ontology Selection Module. A particular single term may have many word senses. Therefore, there may be many concepts that correspond to the word. Input Concept Selection Module shows the input terms and the concepts that correspond to the input terms. While considering the domain, the users select the most appropriate concept for the term from the list of concepts. In order to decrease the cost for input concepts selection, the Input Concept Selection Module has a function enabling automatic word disambiguation (input concept selection). This function shows the list of concepts, which is ordered by some criteria, corresponding to the selected input term.

大部分の複合語は,それを見出しとして持つ概念が参照オントロジー中に存在しない.入力概念選択モジュールでは部分照合を行うことによって,より多くの複合語の入力概念選択を可能にしている.入力概念選択モジュールの入力概念選択方法は完全照合と部分照合の2 種類がある.完全照合は,入力語と参照オントロジー中の概念の見出しが完全に一致することを意味する.部分照合は,入力語と参照オントロジー中の概念の見出しが部分的に一致することを意味する.完全照合しなかった入力語については,形態素解析を行い,先頭の形態素を順に除いて参照オントロジー中の概念と対応付けを試みる.ここで,先頭の形態素を順に除く理由は,複合名詞の語尾にあたる語のほうが,語頭にあたる語よりも重要(複合名詞の中心的な意味を表す)であると仮定しているためである.これは,複合名詞では一般的に,語尾にあたる語を,語尾以前の語が修飾することが多いという経験則を参考にしている.つまり,入力語中の語尾を含むように参照オントロジー中の概念の見出しと部分照合するようにしている.最終的に,最長一致した用語に対応する概念と対応付けを行う.部分照合した複合語については,対応する概念の下位概念または別見出し(同義語)として階層構築を行う.
Input Concept Selection Module uses **perfectly matching** and **partially matching** to disambiguate input terms. Though, labels of most concepts do not contain compound words. Therefore, it is difficult to select the appropriate concept for compound words. To deal with this, **partially matching** is used to disambiguate most of the compound words of the input terms. **Perfectly matching** and **partially matching** mean an input term perfectly or partially corresponds to labels of a concept. The priority of **perfectly matching** is higher than that of **partially matching**. If an input term does not correspond perfectly to any labels of concepts in the reference ontologies, the Input Concept Selection Module analyzes the morphemes of the input term. The input term can be considered to be a list of the morphemes. Input Concept Selection Module tries to correspond the sub lists (example shown below) to the concepts of the reference ontologies. Of the matched concepts corresponding to the sub lists, the longest concept is selected as the concept of the input term, and the input term becomes the sub concept of the concept.

例えば,「ロケット発射装置」という入力語について入力概念選択を行うことを考える.「ロケット発射装置」が完全照合しない場合,形態素解析を行い,「ロケット」と「発射」と「装置」に分解する.はじめに,「発射装置」について照合を試みる.次に「装置」について照合を試みる.この例では,「発射装置」を見出しとしてもつ概念は参照オントロジー中に存在せず,「装置」を見出しとして持つ概念が参照オントロジー中に存在する.よって,「ロケット発射装置」の意味として,「装置」を見出しとして持つ概念を候補としてユーザに提示する.その際に,「ロケット発射装置」を「装置」概念の下位概念とするか,「装置」概念の別見出しとするかをユーザは選択できる.
For example, the input term **rocket delivery system** does not perfectly correspond to the labels of concepts in the reference ontologies. The Input Concept Selection Module analyzes morphemes of **rocket delivery system**. **Rocket delivery system** is resolved to **rocket**, **delivery**, and **system**. The sub lists for this input term becomes **delivery system** and **system**. First, Input Concept Selection Module disambiguates **delivery system**. Then, the Input Concept Selection Module disambiguates **system**. In this example, **delivery system** does not correspond to the labels of concepts in the reference ontologies. On the other hand, **system** corresponds to the labels of concepts in the reference ontologies. Consequently, in order to disambiguate **rocket delivery system**, Input Concept Selection Module shows the concepts which have **system** as their label.

参照オントロジー中の概念に照合しなかった入力語は未定義語に分類され,オントロジー洗練モジュールにおいて階層中の適切な位置にユーザが手動で階層関係の定義を行う.また,参照オントロジー中の概念に照合はしたが,意味的に一致する概念が存在しない入力語が存在する.そのような入力語は,入力概念選択時に「該当なし」を選択することによって,未定義語に分類され,参照オントロジー中の概念に照合しなかった入力語と同様に,ユーザが階層中の適切な位置に手動で階層関係の定義を行う.
Input terms which do not correspond to the labels of concepts in the reference ontologies are **undefined terms**. The input terms are also undefined terms if the concept exists but there are no appropriate concepts in the reference ontologies. The user defines the undefined terms manually in the Refinement Module.

Semi-automation of input concept selection
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Expand All @@ -205,9 +203,9 @@ Semi-automation of input concept selection

Ontology Construction Modules
=======================================
オントロジー構築モジュールは,階層構築モジュールおよび関係構築モジュールから構成される.階層構築モジュールでは,参照オントロジーの概念階層を参照し,概念階層初期モデルを構築する(階層構築).関係構築モジュールでは,入力文書および入力概念集合から,共起性に基づく手法により概念対集合を獲得する(関係構築).概念階層初期モデルおよび概念対集合は,初期領域オントロジーであり,オントロジー洗練モジュールにおいてユーザインタラクションを通して洗練される.
The Construction Module automatically generates the basis of an ontology, an initial concept hierarchy and set of concept pairs, by referring to reference ontologies and documents. An initial concept hierarchy is constructed as taxonomic relationships. Set of concept pairs are extracted by using co-occurrency based statistic methods. These pairs are considered to be closely related and that they will be used as candidates to refine and add other relations. The users identify some relationships between concepts in the pairs.

以下では,階層構築モジュールおよび関係構築モジュールについて説明する.
The Construction Module consists of the Hierarchy Construction and the Relationship Construction Module. The detail of each module is described below.

Hierarchy Construction Module
-----------------------------------
Expand Down

0 comments on commit 8f4de95

Please sign in to comment.