Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP
tree: 855931fa87
Fetching contributors…

Cannot retrieve contributors at this time

120 lines (106 sloc) 4.916 kb
<?xml version="1.0" ?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>DetectCharset</title>
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<link rev="made" href="mailto:meettya@acer.local" />
</head>
<body style="background-color: white">
<!-- INDEX BEGIN -->
<div name="index">
<p><a name="__index__"></a></p>
<ul>
<li><a href="#name">NAME</a></li>
<li><a href="#version">VERSION</a></li>
<li><a href="#synopsis">SYNOPSIS</a></li>
<li><a href="#description">DESCRIPTION</a></li>
<li><a href="#autor">AUTOR</a></li>
<li><a href="#bugs">BUGS</a></li>
<li><a href="#see_also">SEE ALSO</a></li>
<li><a href="#copyright">COPYRIGHT</a></li>
</ul>
<hr name="index" />
</div>
<!-- INDEX END -->
<p>
</p>
<hr />
<h1><a name="name">NAME</a></h1>
<p>DetectCharset - auto detector for Russion text.</p>
<p>
</p>
<hr />
<h1><a name="version">VERSION</a></h1>
<p><strong>$VERSION 0.7.1</strong></p>
<p>
</p>
<hr />
<h1><a name="synopsis">SYNOPSIS</a></h1>
<p>DetectCharset - auto detector for Russion text in UTF-8 CP1251 KOI8-R ISO-8859-5 CP866 encoding</p>
<pre>
use DetectCharset;
my $obj = new DetectCharset;
# in $unknown_text we are have somthing in Russin
my $rez = $obj-&gt;detect_text($unknown_text);
# more sophisticated with $files as full filepath
my $rez2 = $obj-&gt;detect_file($files);</pre>
<p>
</p>
<hr />
<h1><a name="description">DESCRIPTION</a></h1>
<p>Модуль призван обеспечить облегчение вычисления кодировки текста или файла</p>
<p>Используется следующим образом:</p>
<pre>
use DetectCharset;
my $obj = new DetectCharset;
...
# in $unknown_text we are have somthing in Russin
my $rez = $obj-&gt;detect_text($unknown_text);
...
# more sophisticated with $files as full filepath
my $rez2 = $obj-&gt;detect_file($files);
При создании объекта возможно присваить 2 свойства</pre>
<pre>
min_file_size {def 2_000_000} - для настройки минимальной глубины прохода по файлу значение задается в B&lt;баллах&gt;, используейте более 2_000_000 в случае возникновения ошибок при распозновании или менее, если файл невелик.
min_diff {def 1.5} - для настройки минимальной разницы в баллах между разными интерпретациями кодировок, используйте более 1.5 в случае нечеткого распознования или менее 1.5 в случае нулевого возврата</pre>
<pre>
$obj-&gt;set_multi( min_diff =&gt; 2.5, min_file_size =&gt; 4_000_000 );
Реализовано 2 метода:</pre>
<p>1.) detect_text - для работы с текстами</p>
<pre>
my $rez = $obj-&gt;detect_text($unknown_text);</pre>
<p>Можно использовать в списковом контексте, в этом случае второе значение - набранные баллы. Реализовано в основном для использования в обработке файлов</p>
<p>2.) detect_file - для работы с файлами</p>
<pre>
my $rez2 = $obj-&gt;detect_file($files);
Этот метод предпочтительнее при работе с файлами, т.к. теоретически не будет просматривать ВЕСЬ файл.</pre>
<p>Оба метода возвращают в скалярном значении имя кодировки из набора</p>
<pre>
UTF-8 CP1251 KOI8-R ISO-8859-5 CP866
для дальнейшего использования с Encode::from_to() или иными целями</pre>
<p>или</p>
<p>-1 - в случае невозможности опознать кодировку - например нет русских слов в тексте</p>
<pre>
0 - в случае невозможности опознать кодировку, однако в тексте есть русские слова или что-то их напоминающее</pre>
<p>
</p>
<hr />
<h1><a name="autor">AUTOR</a></h1>
<p>Meettya &lt;<em><a href="mailto:meettya@gmail.com">meettya@gmail.com</a></em>&gt;</p>
<p>
</p>
<hr />
<h1><a name="bugs">BUGS</a></h1>
<p>
</p>
<hr />
<h1><a name="see_also">SEE ALSO</a></h1>
<p>Lingua::DetectCharset</p>
<p>
</p>
<hr />
<h1><a name="copyright">COPYRIGHT</a></h1>
<p><strong>Moscow</strong>, snow 2009</p>
</body>
</html>
Jump to Line
Something went wrong with that request. Please try again.