Skip to content

Commit

Permalink
Fix for CONNECTORS-461. Committed on behalf of Erlend Garason.
Browse files Browse the repository at this point in the history
git-svn-id: https://svn.apache.org/repos/asf/manifoldcf/trunk@1353758 13f79535-47bb-0310-9956-ffa450edef68
  • Loading branch information
kwrightapache committed Jun 25, 2012
1 parent 73877e1 commit e9b6632
Show file tree
Hide file tree
Showing 7 changed files with 21 additions and 6 deletions.
4 changes: 4 additions & 0 deletions CHANGES.txt
Expand Up @@ -7,6 +7,10 @@ CONNECTORS-484: The FileNet connector UI has been broken since
the i18n work was done on it.
(Joe Becknell, Karl Wright)

CONNECTORS-461: Mime types and document length restrictions and
commit option for Solr output connector need documentation
(Erlend Gar�sen)

CONNECTORS-483: Add NTLM proxy support for Web Connector.
(Karl Wright)

Expand Down
Expand Up @@ -438,7 +438,7 @@
<p>Unfortunately, this lack of specificity comes at a cost. Unless you take care to filter documents properly in each job, large movie files or other opaque
content may well be picked up and sent to Solr for indexing, which will greatly increase the dead load on the overall system. It is therefore a good idea to review
all crawls done through a Solr connection while they are underway, to be sure there isn't a misconfiguration of this kind.</p>
<p>When you create a Solr output connection, three configuration tabs appear. The "Server" tab allows you to configure the HTTP target of the connection:</p>
<p>When you create a Solr output connection, five configuration tabs appear. The "Server" tab allows you to configure the HTTP target of the connection:</p>
<br/><br/>
<figure src="images/en_US/solr-configure-server.PNG" alt="Solr Configuration, Server tab" width="80%"/>
<br/><br/>
Expand All @@ -450,14 +450,19 @@
<figure src="images/en_US/solr-configure-schema.PNG" alt="Solr Configuration, Schema tab" width="80%"/>
<br/><br/>
<p>The third tab is the "Arguments" tab, which allows you to specify arbitrary arguments to be sent to Solr. All valid Solr update request parameters
can be specified here. A popular example is <a href="http://wiki.apache.org/solr/CommitWithin">commitWithin=60000</a>, which tells Solr to automatically commit documents behind the scenes, ensuring
an indexing latency of maximum 60000ms (1m). Another example is <a href="http://wiki.apache.org/solr/UpdateRequestProcessor">update.chain=myChain</a> to select the document processing pipeline/chain to use for
can be specified here. You can for instance add <a href="http://wiki.apache.org/solr/UpdateRequestProcessor">update.chain=myChain</a> to select the document processing pipeline/chain to use for
processing documents in Solr. See the Solr documentation for more valid arguments. The tab looks like:</p>
<br/><br/>
<figure src="images/en_US/solr-configure-arguments.PNG" alt="Solr Configuration, Arguments tab" width="80%"/>
<br/><br/>
<p>Fill in the argument name and value, and click the "Add" button. Bear in mind that if you add an argument with the same name as an existing one, it will replace the
existing one with the new specified value. You can delete existing arguments by clicking the "Delete" button next to the argument you want to delete.</p>
<p>The fourth tab is the "Documents" tab, which allows you to do document filtering based on size and mime types. By specifying a maximum document length in bytes, you can filter out documents which exceed that size (e.g. 10485760 which is equivalent to 10 MB). If you only want to add documents with specific mime types, you can enter them into the "included mime types" field (e.g. "text/html" for filtering out all documents but HTML). The "excluded mime types" field is for excluding documents with specific mime types (e.g. "image/jpeg" for filtering out JPEG images). The tab looks like:</p>
<figure src="images/en_US/solr-configure-documents.PNG" alt="Solr Configuration, Documents tab" width="80%"/>
<br/><br/>
<p>The fifth tab is the "Commits" tab, which allows you to control the commit strategies. As well as committing documents at the end of every job, an option which is enabled by default, you may also commit each document within a certain time in milliseconds (e.g. "10000" for committing within 10 seconds). The <a href="http://wiki.apache.org/solr/CommitWithin">commit within</a> strategy will leave the responsibility to Solr instead of ManifoldCF. The tab looks like:</p>
<figure src="images/en_US/solr-configure-commits.PNG" alt="Solr Configuration, Documents tab" width="80%"/>
<br/><br/>
<p>When you are done, don't forget to click the "Save" button to save your changes! When you do, a connection summary and status screen will be presented, which
may look something like this:</p>
<br/><br/>
Expand Down
@@ -1,4 +1,4 @@
<?xml version="1.0" encoding="utf-8"?>
<?xml version="1.0" encoding="utf-8"?>

<!--
Licensed to the Apache Software Foundation (ASF) under one or more
Expand Down Expand Up @@ -324,7 +324,7 @@
<title>Solr出力コネクション</title>
<p>Solr出力コネクションタイプは、Solr HTTP APIを介してSolrにコンテンツを送ります。コネクションはSolrのデフォルト値にデフォルトで設定されます。Solrコネクションは索引可否に関係なく、すべてのコンテンツを処理します。設定されたパイプラインがコンテンツを利用するか判断するはずです。</p>
<p>ただし、すべてのコンテンツが送られるため映像のような大きなファイルもフィルタを設定しないと送られてしまい、システムに大きな負荷を掛けてしまいます。不足/間違っている設定を発見してこのような問題を回避するために、Solrコネクションのすべてのクロール結果をレビューすることを推奨します。</p>
<p>Solr出力コネクションを選択すると、3つのタブが表示されます。「サーバ」タブからHTTPターゲットを指定することができます:</p>
<p>Solr出力コネクションを選択すると、5つのタブが表示されます。「サーバ」タブからHTTPターゲットを指定することができます:</p>
<br/><br/>
<figure src="images/ja_JP/solr-configure-server_ja_JP.PNG" alt="Solr Configuration, Server tab" width="80%"/>
<br/><br/>
Expand All @@ -333,11 +333,17 @@
<br/><br/>
<figure src="images/ja_JP/solr-configure-schema_ja_JP.PNG" alt="Solr Configuration, Schema tab" width="80%"/>
<br/><br/>
<p>「引数」タブからはSolrに送る任意の引数を指定することができます。Solrの更新リクエストに利用できる任意の引数を利用することができます。例えば、<a href="http://wiki.apache.org/solr/CommitWithin">commitWithin=60000</a>はコンテンツを最大遅延60000msで自動的にコミットするように指定します。<a href="http://wiki.apache.org/solr/UpdateRequestProcessor">update.chain=myChain</a>はSolrでコンテンツを処理するパイプライン/チェインを指定します。その他に指定可能な引数に付いてはSolrのマニュアルを参照にしてください。タブは以下のように表示されます:</p>
<p>「引数」タブからはSolrに送る任意の引数を指定することができます。Solrの更新リクエストに利用できる任意の引数を利用することができます。あなたは、たとえば、Solrのドキュメントを処理するために使用する文書処理パイプライン/チェーンを選択するupdate.chain= myChainを追加することができます。その他に指定可能な引数に付いてはSolrのマニュアルを参照にしてください。タブは以下のように表示されます:</p>
<br/><br/>
<figure src="images/ja_JP/solr-configure-arguments_ja_JP.PNG" alt="Solr Configuration, Arguments tab" width="80%"/>
<br/><br/>
<p>引数名と値を入力して、「追加」ボタンを押下してください。名前が既に存在する場合は、既存の値は新しく指定した値で置き換わります。引数を削除する場合は、削除する引数の左に表示されている「削除」ボタンを押下してください。</p>
<p>4番目のタブは、ドキュメントのサイズやMIMEタイプに基づいてフィルタリングを行うことができます"ドキュメント"タブです。バイト単位の最大ドキュメントの長さを指定することによって、あなたはそのサイズ(10 MBと同等です例えば10485760)を超えてドキュメントをフィルタリングすることができます。あなたが特定のMIMEタイプを使用してドキュメントを追加したい場合は、(すべての文書が、HTMLをフィルタリングするために必要な、例えば "text / htmlの")"が含まれてMIMEタイプ"フィールドにそれらを入力することができます。 "MIMEタイプの除外"フィールドは、特定のMIMEタイプ(JPEG画像をフィルタリングする例: "image / jpeg"に)を使って文書を除くためのものです。タブは以下のように表示されます:</p>
<figure src="images/ja_JP/solr-configure-documents_ja_JP.PNG" alt="Solr Configuration, Documents tab" width="80%"/>
<br/><br/>
<p>5番目のタブでは、コミットの戦略を制御することができます"コミット"タブです。同様にすべてのジョブの終了時にドキュメントをコミットするように、デフォルトで有効になっているオプションは、また、ミリ秒単位で一定時間(10秒以内にコミット例えば"10000")内の各ドキュメントをコミットすることができます。戦略にコミットではなくManifoldCFのSolrに責任を残します。あなたはSolrの出力接続を作成するときに、5つのコンフィギュレーションタブが表示されます。</p>
<figure src="images/ja_JP/solr-configure-commits_ja_JP.PNG" alt="Solr Configuration, Documents tab" width="80%"/>
<br/><br/>
<p>設定の入力を完了した場合は、「保存」ボタンを押下してください。次のような入力した設定一覧が表示します:</p>
<br/><br/>
<figure src="images/ja_JP/solr-status_ja_JP.PNG" alt="Solr Status" width="80%"/>
Expand Down
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit e9b6632

Please sign in to comment.