Skip to content
This repository has been archived by the owner on Aug 8, 2021. It is now read-only.

Meettya/DetectCharset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NAME

DetectCharset - auto detector for Russion text.

VERSION

$VERSION 0.7.1

SYNOPSIS

DetectCharset - auto detector for Russion text in UTF-8 CP1251 KOI8-R ISO-8859-5 CP866 encoding

        use DetectCharset;
        my $obj = new DetectCharset;
        # in $unknown_text we are have somthing in Russin 
        my $rez = $obj->detect_text($unknown_text);
        # more sophisticated with $files as full filepath
        my $rez2 = $obj->detect_file($files);
DESCRIPTION

Модуль призван обеспечить облегчение вычисления кодировки текста или файла

Используется следующим образом:

        use DetectCharset;
        my $obj = new DetectCharset;
        ...
        # in $unknown_text we are have somthing in Russin 
        my $rez = $obj->detect_text($unknown_text);
        ...
        # more sophisticated with $files as full filepath
        my $rez2 = $obj->detect_file($files);
        
При создании объекта возможно присваить 2 свойства
        min_file_size {def 2_000_000} - для настройки минимальной глубины прохода по файлу значение задается в B<баллах>, используейте более 2_000_000 в случае возникновения ошибок при распозновании или менее, если файл невелик.
        min_diff {def 1.5} - для настройки минимальной разницы в баллах между разными интерпретациями кодировок, используйте более 1.5 в случае нечеткого распознования или менее 1.5 в случае нулевого возврата
        $obj->set_multi( min_diff => 2.5, min_file_size => 4_000_000 );
        
Реализовано 2 метода:
1.) detect_text - для работы с текстами

        my $rez = $obj->detect_text($unknown_text);
Можно использовать в списковом контексте, в этом случае второе значение - набранные баллы. Реализовано в основном для использования в обработке файлов

2.) detect_file - для работы с файлами

        my $rez2 = $obj->detect_file($files);
        
Этот метод предпочтительнее при работе с файлами, т.к. теоретически не будет просматривать ВЕСЬ файл.
Оба метода возвращают в скалярном значении имя кодировки из набора

        UTF-8 CP1251 KOI8-R ISO-8859-5 CP866
        
для дальнейшего использования с Encode::from_to() или иными целями
или

-1 - в случае невозможности опознать кодировку - например нет русских слов в тексте

 0 - в случае невозможности опознать кодировку, однако в тексте есть русские слова или что-то их напоминающее
AUTOR

Meettya <meettya@gmail.com>

BUGS

SEE ALSO

Lingua::DetectCharset

COPYRIGHT

Moscow, snow 2009

About

Detect Russian Charset from text OR file

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published