Test Data Repository for Crawling/Parsing
Shell HTML C C++ Java JavaScript
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
archive
authentication
autocad
docuworks
html
ichitaro
ldap
msoffice
mysql
other
pdf
source_code
text
tools
xml
README.md

README.md

検索システム用テストデータリポジトリ

概要

検索システムがクロールおよびインデックスされるかどうかを検証するデータを集めたリポジトリです。 検証したいファイルがあれば、プルリクエストしてください。

ファイルの作成方法

ファイル名

「test」の接頭詞を付加して、適切な拡張子を付けてください。

ファイルの内容

ファイルのコンテンツ部分に「Lorem ipsum. (ロレム・イプサム) 吾輩は猫である。」を記述してください。 メタデータのような場所にはこの文を記述しないでください(抽出箇所がわからなくなるため)。

ディレクトリ

ファイルは適切なディレクトリを作成して置いてください。

ファイル一覧

種類 場所
テキスト text/test_utf8.txt
XML xml/test_utf8.xml
XML xml/test.mm
XML xml/test_sjis.xml
XML xml/test_entity.xml
HTML html/test_hankaku.html
HTML html/test.html
HTML html/test_utf8.html
HTML html/test_sjis.html
HTML html/test_nocharset.html
MS Office msoffice/test.ppt
MS Office msoffice/test.doc
MS Office msoffice/test.pptx
MS Office msoffice/test.xls
MS Office msoffice/test.xlsx
MS Office msoffice/test.docx
PDF pdf/test.pdf
ソースコード source_code/test.js
ソースコード source_code/test.c
ソースコード source_code/test.h
ソースコード source_code/test.java
ソースコード source_code/test.hpp
ソースコード source_code/test.cpp
圧縮ファイル archive/test.tar.gz
圧縮ファイル archive/test.tar
圧縮ファイル archive/test.zip

その他

種類 場所
旧字体 other/old_style.txt