NAME

perlunicook - Perl 縺ｧ Unicode 繧呈桶縺�◆繧√�繧ｯ繝�け繝悶ャ繧ｯ鬚ｨ縺ｮ萓�

DESCRIPTION

縺薙� man 繝壹�繧ｸ縺ｫ縺ｯ縲￣erl 縺ｧ荳�闊ｬ逧�↑ Unicode 謫堺ｽ懊ｒ謇ｱ縺�婿豕輔ｒ隱ｬ譏弱☆繧� 遏ｭ縺�Ξ繧ｷ繝斐→縲∵怙蠕後↓荳�縺､縺ｮ螳悟�縺ｪ繝励Ο繧ｰ繝ｩ繝�縺悟性縺ｾ繧後※縺�∪縺吶�� 蛟九��繝ｬ繧ｷ繝泌�縺ｮ螳｣險�縺輔ｌ縺ｦ縺�↑縺�､画焚縺ｯ縲√◎繧御ｻ･蜑阪↓驕ｩ蛻�↑蛟､縺� 險ｭ螳壹＆繧後※縺�ｋ縺薙→繧剃ｻｮ螳壹＠縺ｦ縺�∪縺吶��

EXAMPLES

邃� 0: Standard preamble

(邃� 0: 讓呎ｺ悶�蜑肴署)

迚ｹ縺ｫ豕ｨ險倥′縺ｪ縺�剞繧翫�∽ｻ･荳九�縺吶∋縺ｦ縺ｮ萓九〒縺ｯ縲√％縺ｮ讓呎ｺ悶�蜑肴署縺梧ｭ｣縺励￥蜍穂ｽ懊＠縲� #! 縺後す繧ｹ繝�Β荳翫〒蜍穂ｽ懊☆繧九ｈ縺�↓隱ｿ謨ｴ縺輔ｌ縺ｦ縺�ｋ蠢�ｦ√′縺ゅｊ縺ｾ縺吶��

#!/usr/bin/env perl

use utf8;      # 蠕薙▲縺ｦ繝ｪ繝�Λ繝ｫ縺ｨ隴伜挨蟄舌〒 UTF-8 繧剃ｽｿ縺医ｋ
use v5.12;     # 縺ｾ縺溘�縺昴ｌ莉･髯�; "unicode_strings" 讖溯�繧呈怏蜉ｹ縺ｫ
use strict;    # 譁�ｭ怜�繧偵け繧ｩ繝ｼ繝医�∝､画焚繧貞ｮ｣險�
use warnings;  # 繝�ヵ繧ｩ繝ｫ繝医〒繧ｪ繝ｳ
use warnings  qw(FATAL utf8);    # 繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ繧ｨ繝ｩ繝ｼ繧定�蜻ｽ逧�お繝ｩ繝ｼ縺ｫ
use open      qw(:std :encoding(UTF-8)); # 譛ｪ螳｣險�繧ｹ繝医Μ繝ｼ繝�繧� UTF-8 縺ｫ
use charnames qw(:full :short);  # v5.16 縺ｧ縺ｯ荳崎ｦ�

縺薙ｌ縺ｯ Unix 繝励Ο繧ｰ繝ｩ繝槭〒縺輔∴繝舌う繝翫Μ繧ｹ繝医Μ繝ｼ繝�繧� binmode 縺励◆繧翫�� :raw 縺ｧ髢九＞縺溘ｊ 縺励※縺�∪縺� 縺後�√◎繧後′縺ｨ縺ｫ縺九￥縺薙ｌ繧峨ｒ遘ｻ讀肴�ｧ縺ｮ縺ゅｋ繧ゅ�縺ｫ縺吶ｋ蜚ｯ荳�縺ｮ譁ｹ豕輔〒縺吶��

隴ｦ蜻�: use autodie(2.26 繧医ｊ蜑�)縺ｨ use open 縺ｯ蜷梧凾縺ｫ菴ｿ縺医∪縺帙ｓ縲�

邃� 1: Generic Unicode-savvy filter

(邃� 1: 荳�闊ｬ逧�↑ Unicode 縺御ｽｿ縺医ｋ繝輔ぅ繝ｫ繧ｿ)

蟶ｸ縺ｫ縲∝�繧雁哨縺ｧ蛻�ｧ｣縺励�∝�蜿｣縺ｧ蜀榊粋謌舌＠縺ｾ縺吶��

use Unicode::Normalize;

while (<>) {
    $_ = NFD($_);   # decompose + reorder canonically
    ...
} continue {
    print NFC($_);  # recompose (where possible) + reorder canonically
}

邃� 2: Fine-tuning Unicode warnings

(邃� 2: Unicode 隴ｦ蜻翫�蠕ｮ隱ｿ謨ｴ)

v5.14 縺九ｉ縲￣erl 縺ｯ UTF-8 隴ｦ蜻翫�荳峨▽縺ｮ繧ｵ繝悶け繝ｩ繧ｹ繧貞玄蛻･縺励※縺�∪縺吶��

use v5.14;                  # subwarnings unavailable any earlier
no warnings "nonchar";      # the 66 forbidden non-characters
no warnings "surrogate";    # UTF-16/CESU-8 nonsense
no warnings "non_unicode";  # for codepoints over 0x10_FFFF

邃� 3: Declare source in utf8 for identifiers and literals

(邃� 3: 隴伜挨蟄舌→繝ｪ繝�Λ繝ｫ縺ｮ縺溘ａ縺ｫ繧ｽ繝ｼ繧ｹ縺� utf8 縺ｧ縺ゅｋ縺ｨ螳｣險�縺吶ｋ)

譛�繧る㍾隕√↑ use utf8 螳｣險�縺ｪ縺励�蝣ｴ蜷医�√Μ繝�Λ繝ｫ縺ｨ隴伜挨蟄舌↓ UTF-8 繧貞�繧後ｋ縺ｨ豁｣縺励￥蜍穂ｽ懊＠縺ｾ縺帙ｓ縲� 蜑崎ｿｰ縺励◆讓呎ｺ悶�蜑肴署繧剃ｽｿ縺｣縺溷�ｴ蜷医�√％繧後�譌｢縺ｫ蜷ｫ縺ｾ繧後※縺�∪縺吶�� 縺昴�蝣ｴ蜷医�∽ｻ･荳九�繧医≧縺ｪ縺薙→縺後〒縺阪∪縺�:

use utf8;

my $measure   = "ﾃ�gstrﾃｶm";
my @ﾎｼsoft     = qw( cp852 cp1251 cp1252 );
my @眇耐�ﾎｭﾏ∃ｼﾎｵﾎｳﾎｱﾏ� = qw( 眇耐�ﾎｭﾏ�  ﾎｼﾎｵﾎｳﾎｱﾏ� );
my @魃�        = qw( koi8-f koi8-u koi8-r );
my $motto     = "測 苧 征"; # FAMILY, GROWING HEART, DROMEDARY CAMEL

use utf8 繧貞ｿ倥ｌ繧九→縲∽ｸ贋ｽ阪ヰ繧､繝医�蛻･縲��譁�ｭ励→縺励※隱､隗｣縺輔ｌ縲� 菴輔ｂ豁｣縺励￥蜍穂ｽ懊＠縺ｾ縺帙ｓ縲�

邃� 4: Characters and their numbers

(邃� 4: 譁�ｭ励→縺昴�逡ｪ蜿ｷ)

ord 髢｢謨ｰ縺ｨ chr 髢｢謨ｰ縺ｯ縲√☆縺ｹ縺ｦ縺ｮ隨ｦ蜿ｷ菴咲ｽｮ縺ｧ騾城℃逧�↓蜍穂ｽ懊＠縺ｾ縺�; ASCII 縺�縺代〒縺ｯ縺ｪ縺上�∝ｮ滄圀縺ｫ縺ｯ Unicode 縺�縺代〒繧ゅ≠繧翫∪縺帙ｓ縲�

# ASCII characters
ord("A")
chr(65)

# characters from the Basic Multilingual Plane
ord("ﾎ｣")
chr(0x3A3)

# beyond the BMP
ord("騒")               # MATHEMATICAL ITALIC SMALL N
chr(0x1D45B)

# beyond Unicode! (up to MAXINT)
ord("\x{20_0000}")
chr(0x20_0000)

邃� 5: Unicode literals by character number

(邃� 5: 譁�ｭ礼分蜿ｷ縺ｫ繧医ｋ Unicode 繝ｪ繝�Λ繝ｫ)

螻暮幕繝ｪ繝�Λ繝ｫ縺ｧ縺ｯ縲√ム繝悶Ν繧ｯ繧ｩ繝ｼ繝医〒蝗ｲ縺ｾ繧後◆譁�ｭ怜�縺区ｭ｣隕剰｡ｨ迴ｾ縺九↓縺九°繧上ｉ縺壹�� \x{HHHHHH} 繧ｨ繧ｹ繧ｱ繝ｼ繝励ｒ菴ｿ逕ｨ縺励※逡ｪ蜿ｷ縺ｧ譁�ｭ励ｒ謖�ｮ壹〒縺阪∪縺吶��

String: "\x{3a3}"
Regex:  /\x{3a3}/

String: "\x{1d45b}"
Regex:  /\x{1d45b}/

# even non-BMP ranges in regex work fine
/[\x{1D434}-\x{1D467}]/

邃� 6: Get character name by number

(邃� 6: 逡ｪ蜿ｷ縺ｧ譁�ｭ怜錐繧貞叙蠕励☆繧�)

use charnames ();
my $name = charnames::viacode(0x03A3);

邃� 7: Get character number by name

(邃� 7: 蜷榊燕縺ｧ譁�ｭ礼分蜿ｷ繧貞叙蠕励☆繧�)

use charnames ();
my $number = charnames::vianame("GREEK CAPITAL LETTER SIGMA");

邃� 8: Unicode named characters

(邃� 8: Unicode 蜷阪↓繧医ｋ譁�ｭ�)

螻暮幕繝ｪ繝�Λ繝ｫ(繝�繝悶Ν繧ｯ繧ｩ繝ｼ繝医〒蝗ｲ縺ｾ繧後◆譁�ｭ怜�縺ｨ豁｣隕剰｡ｨ迴ｾ)縺ｧ逕ｨ縺�ｋ縲� 蜷榊燕縺ｧ譁�ｭ励ｒ蠕励ｋ縺溘ａ縺ｫ <\N{charname}> 陦ｨ險倥ｒ菴ｿ縺�∪縺吶�� v5.16 縺ｧ縺ｯ縲√％繧後�證鈴ｻ吶↓謖�ｮ壹＆繧後∪縺�:

use charnames qw(:full :short);

縺励°縺励�」5.16 繧医ｊ蜑阪�繝舌�繧ｸ繝ｧ繝ｳ縺ｧ縺ｯ縲√←縺ｮ charnames 縺ｮ髮�粋繧剃ｽｿ逕ｨ縺吶ｋ縺九ｒ譏守､ｺ逧�↓謖�ｮ壹＠縺ｪ縺代ｌ縺ｰ縺ｪ繧翫∪縺帙ｓ縲� :full 縺ｮ蜷榊燕縺ｯ縲ゞnicode 縺ｮ豁｣蠑上↑譁�ｭ怜錐縲∝挨蜷阪�√∪縺溘� 荳ｦ縺ｳ縺ｧ縺ゅｊ縲√☆縺ｹ縺ｦ蜷榊燕遨ｺ髢薙ｒ蜈ｱ譛峨＠縺ｾ縺吶��

use charnames qw(:full :short latin greek);

"\N{MATHEMATICAL ITALIC SMALL N}"      # :full
"\N{GREEK CAPITAL LETTER SIGMA}"       # :full

縺昴ｌ莉･螟悶�縲￣erl 蝗ｺ譛峨�萓ｿ蛻ｩ縺ｪ逵∫払蠖｢縺ｧ縺吶�� 逕ｨ蟄怜崋譛峨�遏ｭ縺�錐蜑阪′蠢�ｦ√↑蝣ｴ蜷医�縲∽ｸ�縺､莉･荳翫�逕ｨ蟄励ｒ蜷榊燕縺ｧ謖�ｮ壹＠縺ｾ縺吶��

"\N{Greek:Sigma}"                      # :short
"\N{ae}"                               #  latin
"\N{epsilon}"                          #  greek

v5.16 繝ｪ繝ｪ繝ｼ繧ｹ縺ｧ縺ｯ縲∵枚蟄怜錐縺ｮ邱ｩ繧�°縺ｪ繝槭ャ繝√Φ繧ｰ縺ｮ縺溘ａ縺ｮ :loose 繧､繝ｳ繝昴�繝医↓繧ょｯｾ蠢懊＠縺ｦ縺�∪縺�; 縺薙ｌ縺ｯ迚ｹ諤ｧ蜷阪�邱ｩ繧�°縺ｪ繝槭ャ繝√Φ繧ｰ縺ｨ蜷後§繧医≧縺ｫ讖溯�縺励∪縺�: 縺､縺ｾ繧翫�∝､ｧ譁�ｭ怜ｰ乗枚蟄励�∫ｩｺ逋ｽ縲∽ｸ狗ｷ壹�辟｡隕悶＆繧後∪縺�:

"\N{euro sign}"                        # :loose (from v5.16)

邃� 9: Unicode named sequences

(邃� 9: Unicode 蜷阪↓繧医ｋ荳ｦ縺ｳ)

縺薙ｌ繧峨�譁�ｭ怜錐縺ｮ繧医≧縺ｫ隕九∴縺ｾ縺吶′縲∬､�焚縺ｮ隨ｦ蜿ｷ菴咲ｽｮ繧定ｿ斐＠縺ｾ縺吶�� printf 縺ｮ %vx 繝吶け繝医Ν陦ｨ遉ｺ讖溯�縺ｫ豕ｨ逶ｮ縺励※縺上□縺輔＞縲�

use charnames qw(:full);
my $seq = "\N{LATIN CAPITAL LETTER A WITH MACRON AND GRAVE}";
printf "U+%v04X\n", $seq;
U+0100.0300

邃� 10: Custom named characters

(邃� 10: 繧ｫ繧ｹ繧ｿ繝�蜷阪↓繧医ｋ譁�ｭ�)

:alias 繧剃ｽｿ逕ｨ縺励※縲∵里蟄倥�譁�ｭ励↓蟇ｾ縺励※繝ｬ繧ｭ繧ｷ繧ｫ繝ｫ繧ｹ繧ｳ繝ｼ繝励� 迢ｬ閾ｪ縺ｮ繝九ャ繧ｯ繝阪�繝�繧剃ｻ倥￠縺溘ｊ縲∫┌蜷阪�遘∫畑譁�ｭ励↓譛臥畑縺ｪ蜷榊燕繧� 莉倥￠繧九％縺ｨ縺後〒縺阪∪縺吶��

use charnames ":full", ":alias" => {
    ecute => "LATIN SMALL LETTER E WITH ACUTE",
    "APPLE LOGO" => 0xF8FF, # private use character
};

"\N{ecute}"
"\N{APPLE LOGO}"

邃� 11: Names of CJK codepoints

(邃� 11: CJK 隨ｦ蜿ｷ菴咲ｽｮ縺ｮ蜷榊燕)

縲梧擲莠ｬ縲阪�繧医≧縺ｪ荳ｭ蝗ｽ貍｢蟄励�縲√�悟錐蜑阪�阪′逡ｰ縺ｪ繧九◆繧√�� CJK UNIFIED IDEOGRAPH-6771 縺ｨ CJK UNIFIED IDEOGRAPH-4EAC 縺ｨ縺�≧譁�ｭ怜錐縺ｧ謌ｻ縺｣縺ｦ縺阪∪縺吶�� CPAN 縺ｮ Unicode::Unihan 繝｢繧ｸ繝･繝ｼ繝ｫ縺ｯ縲√◎縺ｮ蜃ｺ蜉帙ｒ逅�ｧ｣縺吶ｋ譁ｹ豕輔ｒ遏･縺｣縺ｦ縺�ｌ縺ｰ縲√％繧後ｉ(縺翫ｈ縺ｳ縺輔ｉ縺ｫ螟壹￥縺ｮ)譁�ｭ励ｒ繝�さ繝ｼ繝峨☆繧九◆繧√� 螟ｧ隕乗ｨ｡縺ｪ繝��繧ｿ繝吶�繧ｹ繧呈戟縺｡縺ｾ縺吶��

# cpan -i Unicode::Unihan
use Unicode::Unihan;
my $str = "譚ｱ莠ｬ";
my $unhan = Unicode::Unihan->new;
for my $lang (qw(Mandarin Cantonese Korean JapaneseOn JapaneseKun)) {
    printf "CJK $str in %-12s is ", $lang;
    say $unhan->$lang($str);
}

縺薙ｌ縺ｯ谺｡縺ｮ繧ゅ�繧定｡ｨ遉ｺ縺励∪縺�:

CJK 譚ｱ莠ｬ in Mandarin     is DONG1JING1
CJK 譚ｱ莠ｬ in Cantonese    is dung1ging1
CJK 譚ｱ莠ｬ in Korean       is TONGKYENG
CJK 譚ｱ莠ｬ in JapaneseOn   is TOUKYOU KEI KIN
CJK 譚ｱ莠ｬ in JapaneseKun  is HIGASHI AZUMAMIYAKO

迚ｹ螳壹�繝ｭ繝ｼ繝槫ｭ怜喧繧ｹ繧ｭ繝ｼ繝�繧定��∴縺ｦ縺�ｋ蝣ｴ蜷医�縲∫音螳壹�繝｢繧ｸ繝･繝ｼ繝ｫ繧剃ｽｿ縺�∪縺�:

# cpan -i Lingua::JA::Romanize::Japanese
use Lingua::JA::Romanize::Japanese;
my $k2r = Lingua::JA::Romanize::Japanese->new;
my $str = "譚ｱ莠ｬ";
say "Japanese for $str is ", $k2r->chars($str);

縺薙ｌ縺ｯ谺｡縺ｮ繧ゅ�繧定｡ｨ遉ｺ縺励∪縺�:

Japanese for 譚ｱ莠ｬ is toukyou

邃� 12: Explicit encode/decode

(邃� 12: 譏守､ｺ逧�↑繧ｨ繝ｳ繧ｳ繝ｼ繝�/繝�さ繝ｼ繝�)

縺ｾ繧後↓縲√ョ繝ｼ繧ｿ繝吶�繧ｹ縺ｮ隱ｭ縺ｿ蜿悶ｊ縺ｪ縺ｩ縲√ョ繧ｳ繝ｼ繝峨☆繧句ｿ�ｦ√′縺ゅｋ繧ｨ繝ｳ繧ｳ繝ｼ繝峨＆繧後◆繝�く繧ｹ繝医ｒ蜿励￠蜿悶ｋ縺薙→縺後≠繧翫∪縺吶��

use Encode qw(encode decode);

my $chars = decode("shiftjis", $bytes, 1);
 # OR
my $bytes = encode("MIME-Header-ISO_2022_JP", $chars, 1);

蜷後§繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺ｮ繧ｹ繝医Μ繝ｼ繝�縺ｫ蟇ｾ縺励※縺ｯ縲‘ncode/decode 繧� 菴ｿ繧上↑縺�〒縺上□縺輔＞; 莉｣繧上ｊ縺ｫ縲∝ｾ瑚ｿｰ縺吶ｋ繧医≧縺ｫ縲√ヵ繧｡繧､繝ｫ繧帝幕縺上→縺阪�√∪縺溘�縺昴�逶ｴ蠕後↓ binmode 縺ｧ繝輔ぃ繧､繝ｫ繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ繧定ｨｭ螳壹＠縺ｦ縺上□縺輔＞縲�

邃� 13: Decode program arguments as utf8

(邃� 13: 繝励Ο繧ｰ繝ｩ繝�蠑墓焚繧� utf8 縺ｨ縺励※繝�さ繝ｼ繝峨☆繧�)

$ perl -CA ...
 or
$ export PERL_UNICODE=A
 or
    use Encode qw(decode);
    @ARGV = map { decode('UTF-8', $_, 1) } @ARGV;

邃� 14: Decode program arguments as locale encoding

(邃� 14: 繝励Ο繧ｰ繝ｩ繝�蠑墓焚繧偵Ο繧ｱ繝ｼ繝ｫ繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺ｨ縺励※繝�さ繝ｼ繝峨☆繧�)

# cpan -i Encode::Locale
use Encode qw(locale);
use Encode::Locale;

# use "locale" as an arg to encode/decode
@ARGV = map { decode(locale => $_, 1) } @ARGV;

邃� 15: Declare STD{IN,OUT,ERR} to be utf8

(邃� 15: STD{IN,OUT,ERR} 繧� utf8 縺ｨ縺励※螳｣險�縺吶ｋ)

繧ｳ繝槭Φ繝峨Λ繧､繝ｳ繧ｪ繝励す繝ｧ繝ｳ繧�腸蠅�､画焚繧剃ｽｿ縺�°縲∵�遉ｺ逧�↓ binmode 繧貞他縺ｳ蜃ｺ縺励∪縺吶��

$ perl -CS ...
 or
$ export PERL_UNICODE=S
 or
use open qw(:std :encoding(UTF-8));
 or
binmode(STDIN,  ":encoding(UTF-8)");
binmode(STDOUT, ":utf8");
binmode(STDERR, ":utf8");

邃� 16: Declare STD{IN,OUT,ERR} to be in locale encoding

(邃� 15: STD{IN,OUT,ERR} 繧偵Ο繧ｱ繝ｼ繝ｫ繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺ｨ縺励※螳｣險�縺吶ｋ)

# cpan -i Encode::Locale
use Encode;
use Encode::Locale;

# or as a stream for binmode or open
binmode STDIN,  ":encoding(console_in)"  if -t STDIN;
binmode STDOUT, ":encoding(console_out)" if -t STDOUT;
binmode STDERR, ":encoding(console_out)" if -t STDERR;

邃� 17: Make file I/O default to utf8

(邃� 17: 繝輔ぃ繧､繝ｫ I/O 縺ｮ繝�ヵ繧ｩ繝ｫ繝医ｒ utf8 縺ｫ縺吶ｋ)

encoding 蠑墓焚縺ｪ縺励〒髢九°繧後◆繝輔ぃ繧､繝ｫ縺ｯ UTF-8 縺ｫ縺ｪ繧翫∪縺�:

$ perl -CD ...
 or
$ export PERL_UNICODE=D
 or
use open qw(:encoding(UTF-8));

邃� 18: Make all I/O and args default to utf8

(邃� 18: 蜈ｨ縺ｦ縺ｮ I/O 縺ｨ蠑墓焚縺ｮ繝�ヵ繧ｩ繝ｫ繝医ｒ utf8 縺ｫ縺吶ｋ)

$ perl -CSDA ...
 or
$ export PERL_UNICODE=SDA
 or
use open qw(:std :encoding(UTF-8));
use Encode qw(decode);
@ARGV = map { decode('UTF-8', $_, 1) } @ARGV;

邃� 19: Open file with specific encoding

(邃� 19: 迚ｹ螳壹�繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺ｧ繝輔ぃ繧､繝ｫ繧帝幕縺�)

繧ｹ繝医Μ繝ｼ繝�繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ繧呈欠螳壹＠縺ｾ縺吶�� 縺薙ｌ縺ｯ縲∽ｽ弱Ξ繝吶Ν髢｢謨ｰ繧貞他縺ｳ蜃ｺ縺吶�縺ｧ縺ｯ縺ｪ縺上�√お繝ｳ繧ｳ繝ｼ繝峨＆繧後◆繝�く繧ｹ繝医ｒ蜃ｦ逅�☆繧矩�壼ｸｸ縺ｮ譁ｹ豕輔〒縺吶��

# input file
    open(my $in_file, "< :encoding(UTF-16)", "wintext");
OR
    open(my $in_file, "<", "wintext");
    binmode($in_file, ":encoding(UTF-16)");
THEN
    my $line = <$in_file>;

# output file
    open($out_file, "> :encoding(cp1252)", "wintext");
OR
    open(my $out_file, ">", "wintext");
    binmode($out_file, ":encoding(cp1252)");
THEN
    print $out_file "some text\n";

縺薙％縺ｧ謖�ｮ壹〒縺阪ｋ縺ｮ縺ｯ縲√お繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺�縺代〒縺ｯ縺ゅｊ縺ｾ縺帙ｓ縲� 萓九∴縺ｰ縲∝測譁� ":raw :encoding(UTF-16LE) :crlf" 縺ｫ縺ｯ證鈴ｻ咏噪縺ｪ CRLF 蜃ｦ逅�′蜷ｫ縺ｾ繧後※縺�∪縺吶��

邃� 20: Unicode casing

(邃� 20: Unicode 縺ｮ螟ｧ譁�ｭ怜ｰ乗枚蟄�)

Unicode 縺ｮ螟ｧ譁�ｭ怜ｰ乗枚蟄励� ASCII 縺ｮ螟ｧ譁�ｭ怜ｰ乗枚蟄励→縺ｯ螟ｧ縺阪￥逡ｰ縺ｪ繧翫∪縺吶��

uc("henry 竇ｷ")  # "HENRY 竇ｧ"
uc("tschﾃｼﾃ�")   # "TSCHﾃ彜S"  notice ﾃ� => SS

# both are true:
"tschﾃｼﾃ�"  =~ /TSCHﾃ彜S/i   # notice ﾃ� => SS
"ﾎ｣ﾎｯﾏρ��ｿﾏ�" =~ /ﾎ｣ﾎ莞｣ﾎ･ﾎｦﾎ湮｣/i   # notice ﾎ｣,ﾏ�,ﾏ� sameness

邃� 21: Unicode case-insensitive comparisons

(邃� 21: Unicode 縺ｮ螟ｧ譁�ｭ怜ｰ乗枚蟄励ｒ辟｡隕悶＠縺滓ｯ碑ｼ�)

CPAN 縺ｮ Unicode::CaseFold 繝｢繧ｸ繝･繝ｼ繝ｫ縺ｧ繧ょ茜逕ｨ蜿ｯ閭ｽ縺ｪ縲」5.16 縺ｮ譁ｰ縺励＞ fc "foldcase" 髢｢謨ｰ縺ｯ縲�/i 繝代ち繝ｼ繝ｳ菫ｮ鬟ｾ蟄舌′蟶ｸ縺ｫ菴ｿ縺｣縺ｦ縺阪◆縺ｮ縺ｨ蜷後§ Unicode 螟ｧ譁�ｭ怜ｰ乗枚蟄礼糞縺ｿ霎ｼ縺ｿ縺ｸ縺ｮ繧｢繧ｯ繧ｻ繧ｹ繧剃ｸ弱∴縺ｾ縺吶��

use feature "fc"; # fc() function is from v5.16

# sort case-insensitively
my @sorted = sort { fc($a) cmp fc($b) } @list;

# both are true:
fc("tschﾃｼﾃ�")  eq fc("TSCHﾃ彜S")
fc("ﾎ｣ﾎｯﾏρ��ｿﾏ�") eq fc("ﾎ｣ﾎ莞｣ﾎ･ﾎｦﾎ湮｣")

邃� 22: Match Unicode linebreak sequence in regex

(邃� 22: 豁｣隕剰｡ｨ迴ｾ荳ｭ縺ｮ Unicode 謾ｹ陦御ｸｦ縺ｳ縺ｮ繝槭ャ繝√Φ繧ｰ)

Unicode 縺ｮ謾ｹ陦後�縲�2 譁�ｭ励� CRLF 譖ｸ險倡ｴ�縺ｾ縺溘�荳�▽縺ｮ蝙ら峩遨ｺ逋ｽ譁�ｭ励� 縺�★繧後°縺ｫ繝槭ャ繝√Φ繧ｰ縺励∪縺吶�� 逡ｰ縺ｪ繧九が繝壹Ξ繝ｼ繝�ぅ繝ｳ繧ｰ繧ｷ繧ｹ繝�Β縺九ｉ騾√ｉ繧後※縺上ｋ繝�く繧ｹ繝医ヵ繧｡繧､繝ｫ繧� 謇ｱ縺��縺ｫ驕ｩ縺励※縺�∪縺吶��

\R

s/\R/\n/g;  # normalize all linebreaks to \n

邃� 23: Get character category

(邃� 23: 譁�ｭ励き繝�ざ繝ｪ繧貞ｾ励ｋ)

謨ｰ蛟､隨ｦ蜿ｷ菴咲ｽｮ縺ｮ荳�闊ｬ繧ｫ繝�ざ繝ｪ繧定ｦ九▽縺代∪縺吶��

use Unicode::UCD qw(charinfo);
my $cat = charinfo(0x3A3)->{category};  # "Lu"

邃� 24: Disabling Unicode-awareness in builtin charclasses

(邃� 24: 邨�∩霎ｼ縺ｿ譁�ｭ励け繝ｩ繧ｹ縺ｧ Unicode 蛻､螳壹ｒ辟｡蜉ｹ縺ｫ縺吶ｋ)

縺薙�繧ｹ繧ｳ繝ｼ繝励∪縺溘�荳�縺､縺ｮ豁｣隕剰｡ｨ迴ｾ縺ｧ縲�\w縲�\b縲�\s縲�\d縲� 縺翫ｈ縺ｳ POSIX 繧ｯ繝ｩ繧ｹ縺� Unicode 縺ｧ豁｣縺励￥蜍穂ｽ懊＠縺ｪ縺�ｈ縺�↓縺励∪縺吶��

use v5.14;
use re "/a";

# OR

my($num) = $str =~ /(\d+)/a;

縺ｾ縺溘�縲�\p{ahex} 繧� \p{POSIX_Digit} 縺ｪ縺ｩ縺ｮ迚ｹ螳壹�髱� Unicode 迚ｹ諤ｧ繧� 菴ｿ縺�∪縺吶�� 縺ｩ縺ｮ譁�ｭ鈴寔蜷井ｿｮ鬟ｾ蟄� (/d /u /l /a /aa) 縺梧怏蜉ｹ縺ｧ縺ゅ▲縺ｦ繧ゅ�� 迚ｹ諤ｧ縺ｯ豁｣蟶ｸ縺ｫ蜍穂ｽ懊＠縺ｾ縺吶��

邃� 25: Match Unicode properties in regex with \p, \P

(邃� 25: 豁｣隕剰｡ｨ迴ｾ荳ｭ縺ｫ \p, \P 繧剃ｽｿ縺｣縺ｦ Unicode 迚ｹ諤ｧ縺ｫ繝槭ャ繝√Φ繧ｰ縺吶ｋ)

縺薙ｌ繧峨�縺吶∋縺ｦ縲∵欠螳壹＆繧後◆迚ｹ諤ｧ繧呈戟縺､荳�縺､縺ｮ隨ｦ蜿ｷ菴咲ｽｮ縺ｫ繝槭ャ繝√Φ繧ｰ縺励∪縺吶�� \p 縺ｮ莉｣繧上ｊ縺ｫ \P 繧剃ｽｿ逕ｨ縺吶ｋ縺ｨ縲√◎縺ｮ迚ｹ諤ｧ繧呈戟縺溘↑縺�ｸ�縺､縺ｮ隨ｦ蜿ｷ菴咲ｽｮ縺ｫ繝槭ャ繝√Φ繧ｰ縺励∪縺吶��

\pL, \pN, \pS, \pP, \pM, \pZ, \pC
\p{Sk}, \p{Ps}, \p{Lt}
\p{alpha}, \p{upper}, \p{lower}
\p{Latin}, \p{Greek}
\p{script_extensions=Latin}, \p{scx=Greek}
\p{East_Asian_Width=Wide}, \p{EA=W}
\p{Line_Break=Hyphen}, \p{LB=HY}
\p{Numeric_Value=4}, \p{NV=4}

邃� 26: Custom character properties

(邃� 26: 繧ｫ繧ｹ繧ｿ繝�譁�ｭ礼音諤ｧ)

豁｣隕剰｡ｨ迴ｾ縺ｧ菴ｿ逕ｨ縺吶ｋ迢ｬ閾ｪ縺ｮ繧ｫ繧ｹ繧ｿ繝�譁�ｭ礼音諤ｧ繧偵さ繝ｳ繝代う繝ｫ譎ゅ↓螳夂ｾｩ縺励∪縺吶��

# using private-use characters
sub In_Tengwar { "E000\tE07F\n" }

if (/\p{In_Tengwar}/) { ... }

# blending existing properties
sub Is_GraecoRoman_Title {<<'END_OF_SET'}
+utf8::IsLatin
+utf8::IsGreek
&utf8::IsTitle
END_OF_SET

if (/\p{Is_GraecoRoman_Title}/ { ... }

邃� 27: Unicode normalization

(邃� 27: Unicode 豁｣隕丞喧)

騾壼ｸｸ縺ｯ縲∝�蜉帙〒縺ｯ NFD 縺ｫ縲∝�蜉帙〒縺ｯ NFC 縺ｫ繝ｬ繝ｳ繝�繝ｪ繝ｳ繧ｰ縺輔ｌ縺ｾ縺吶�� NFKC 縺ｾ縺溘� NFKD 髢｢謨ｰ繧剃ｽｿ縺�％縺ｨ縺ｧ縲∵､懃ｴ｢蟇ｾ雎｡縺ｮ蜷後§繝�く繧ｹ繝医↓蟇ｾ縺励※ 譌｢縺ｫ螳溯｡後＠縺ｦ縺�ｋ縺薙→繧貞燕謠舌→縺励※縲∵､懃ｴ｢譎ゅ�蜀榊他縺ｳ蜃ｺ縺励′謾ｹ蝟�＆繧後∪縺吶�� 縺薙ｌ縺ｯ蜊倥↓莠句燕邨仙粋縺輔ｌ縺滉ｺ呈鋤繧ｰ繝ｪ繝穂ｻ･荳翫�繧ゅ�縺ｧ縺ゅｋ縺薙→縺ｫ豕ｨ諢上＠縺ｦ縺上□縺輔＞; 豁｣貅也ｵ仙粋繧ｯ繝ｩ繧ｹ縺ｫ蠕薙▲縺ｦ繝槭�繧ｯ繧剃ｸｦ縺ｳ譖ｿ縺医�√す繝ｳ繧ｰ繝ｫ繝医Φ繧貞炎髯､縺励∪縺吶��

use Unicode::Normalize;
my $nfd  = NFD($orig);
my $nfc  = NFC($orig);
my $nfkd = NFKD($orig);
my $nfkc = NFKC($orig);

邃� 28: Convert non-ASCII Unicode numerics

(邃� 28: 髱� ASCII Unicode 謨ｰ蟄励ｒ螟画鋤縺吶ｋ)

/a 繧� /aa 繧剃ｽｿ逕ｨ縺励※縺�↑縺�剞繧翫��\d 縺ｯ ASCII 謨ｰ蟄嶺ｻ･荳翫�繧ゅ�縺ｫ繝槭ャ繝√Φ繧ｰ縺励∪縺吶′縲� Perl 縺ｮ證鈴ｻ咏噪縺ｪ譁�ｭ怜�縺九ｉ謨ｰ蛟､縺ｸ縺ｮ螟画鋤縺ｧ縺ｯ縲∫樟蝨ｨ縺ｮ縺ｨ縺薙ｍ縺薙ｌ繧峨ｒ隱崎ｭ倥〒縺阪∪縺帙ｓ縲� 縺薙�繧医≧縺ｪ譁�ｭ怜�繧呈焔蜍輔〒螟画鋤縺吶ｋ譁ｹ豕輔ｒ莉･荳九↓遉ｺ縺励∪縺吶��

use v5.14;  # needed for num() function
use Unicode::UCD qw(num);
my $str = "got 竇ｫ and 爭ｪ爭ｫ爭ｬ爭ｭ and 竇� and here";
my @nums = ();
while ($str =~ /(\d+|\N)/g) {  # not just ASCII!
   push @nums, num($1);
}
say "@nums";   #     12      4567      0.875

use charnames qw(:full);
my $nv = num("\N{RUMI DIGIT ONE}\N{RUMI DIGIT TWO}");

邃� 29: Match Unicode grapheme cluster in regex

(邃� 29: 豁｣隕剰｡ｨ迴ｾ荳ｭ縺ｮ Unicode 譖ｸ險倡ｴ�繧ｯ繝ｩ繧ｹ繧ｿ縺ｫ繝槭ャ繝√Φ繧ｰ縺吶ｋ)

繝励Ο繧ｰ繝ｩ繝槭°繧芽ｦ九∴繧九�梧枚蟄励�阪�縲�/./s 縺後�繝�メ縺吶ｋ隨ｦ蜿ｷ菴咲ｽｮ縺ｧ縺吶′縲� 繝ｦ繝ｼ繧ｶ縺九ｉ隕九∴繧九�梧枚蟄励�阪�縲�/\X/ 縺後�繝�メ縺吶ｋ譖ｸ險倡ｴ�縺ｧ縺吶��

# Find vowel *plus* any combining diacritics,underlining,etc.
my $nfd = NFD($orig);
$nfd =~ / (?=[aeiou]) \X /xi

邃� 30: Extract by grapheme instead of by codepoint (regex)

(邃� 30: 隨ｦ蜿ｷ菴咲ｽｮ縺ｫ繧医▲縺ｦ縺ｧ縺ｯ縺ｪ縺上�∵嶌險倡ｴ�縺ｫ繧医▲縺ｦ螻暮幕縺吶ｋ (豁｣隕剰｡ｨ迴ｾ))

# match and grab five first graphemes
my($first_five) = $str =~ /^ ( \X{5} ) /x;

邃� 31: Extract by grapheme instead of by codepoint (substr)

(邃� 31: 隨ｦ蜿ｷ菴咲ｽｮ縺ｫ繧医▲縺ｦ縺ｧ縺ｯ縺ｪ縺上�∵嶌險倡ｴ�縺ｫ繧医▲縺ｦ螻暮幕縺吶ｋ (substr))

# cpan -i Unicode::GCString
use Unicode::GCString;
my $gcs = Unicode::GCString->new($str);
my $first_five = $gcs->substr(0, 5);

邃� 32: Reverse string by grapheme

(邃� 32: 譁�ｭ怜�繧呈嶌險倡ｴ�蜊倅ｽ阪〒蜿崎ｻ｢縺吶ｋ)

隨ｦ蜿ｷ菴咲ｽｮ縺ｫ繧医ｋ蜿崎ｻ｢縺ｯ繝�繧､繧｢繧ｯ繝ｪ繝�ぅ繧ｫ繝ｫ繝槭�繧ｯ繧呈ｷｷ荵ｱ縺輔○縲∬ｪ､縺｣縺ｦ crﾃｨme brﾃｼlﾃｩe 繧� eﾃｩlﾃｻrb emﾃｨrc 縺ｧ縺ｯ縺ｪ縺� ﾃｩelﾌＶrb emﾌ�erc 縺ｫ螟画鋤縺励∪縺�; 縺昴％縺ｧ縲∽ｻ｣繧上ｊ縺ｫ譖ｸ險倡ｴ�縺ｫ繧医ｋ蜿崎ｻ｢繧定｡後＞縺ｾ縺吶�� 縺薙ｌ繧峨�謇区ｳ輔�縺ｩ縺｡繧峨ｂ縲∵枚蟄怜�縺ｮ豁｣隕丞喧縺後←縺ｮ繧医≧縺ｪ繧ゅ�縺ｧ縺ゅ▲縺ｦ繧� 豁｣縺励￥讖溯�縺励∪縺吶��

$str = join("", reverse $str =~ /\X/g);

# OR: cpan -i Unicode::GCString
use Unicode::GCString;
$str = reverse Unicode::GCString->new($str);

邃� 33: String length in graphemes

(邃� 33: 譖ｸ險倡ｴ�縺ｧ縺ｮ譁�ｭ怜�髟ｷ)

譁�ｭ怜� brﾃｼlﾃｩe 縺ｯ蜈ｭ縺､縺ｮ譖ｸ險倡ｴ�繧呈戟縺｡縺ｾ縺吶′縲∵怙螟ｧ蜈ｫ縺､縺ｮ隨ｦ蜿ｷ菴咲ｽｮ繧呈戟縺｡縺ｾ縺吶�� 縺薙ｌ縺ｯ縲∫ｬｦ蜿ｷ菴咲ｽｮ縺ｧ縺ｯ縺ｪ縺上�∵嶌險倡ｴ�縺ｫ繧医▲縺ｦ繧ｫ繧ｦ繝ｳ繝医＆繧後∪縺�:

my $str = "br璉馥";
my $count = 0;
while ($str =~ /\X/g) { $count++ }

 # OR: cpan -i Unicode::GCString
use Unicode::GCString;
my $gcs = Unicode::GCString->new($str);
my $count = $gcs->length;

邃� 34: Unicode column-width for printing

(邃� 34: 陦ｨ遉ｺ縺ｮ縺溘ａ縺ｮ Unicode 譯∝ｹ�)

Perl 縺ｮ printf縲�sprintf縲�format 縺ｯ縲√☆縺ｹ縺ｦ縺ｮ隨ｦ蜿ｷ菴咲ｽｮ縺� 荳�縺､縺ｮ陦ｨ遉ｺ譯√ｒ蜊�譛峨☆繧九→閠�∴縺ｦ縺�∪縺吶′縲∝､壹￥縺ｮ隨ｦ蜿ｷ菴咲ｽｮ縺ｯ 0 縺九ｉ 2 繧� 蜊�譛峨＠縺ｾ縺吶�� 縺薙％縺ｧ縺ｯ縲∵ｭ｣隕丞喧縺ｫ驕輔＞縺後↑縺�％縺ｨ繧堤､ｺ縺吶◆繧√↓縲∽ｸ｡譁ｹ縺ｮ蠖｢蠑上ｒ蜃ｺ蜉帙＠縺ｾ縺吶��

use Unicode::GCString;
use Unicode::Normalize;

my @words = qw/cr鑪e br璉馥/;
@words = map { NFC($_), NFD($_) } @words;

for my $str (@words) {
    my $gcs = Unicode::GCString->new($str);
    my $cols = $gcs->columns;
    my $pad = " " x (10 - $cols);
    say str, $pad, " |";
}

縺薙ｌ縺ｯ縲∵ｭ｣隕丞喧縺ｫ髢｢菫ゅ↑縺乗ｭ｣縺励￥繝代ャ繝�ぅ繝ｳ繧ｰ縺輔ｌ縺ｦ縺�ｋ縺薙→繧堤､ｺ縺吶◆繧√↓ 谺｡縺ｮ繧医≧縺ｫ逕滓�縺輔ｌ縺ｾ縺吶��

crﾃｨme      |
creﾌ�me      |
brﾃｻlﾃｩe     |
bruﾌＭeﾌ‘     |

邃� 35: Unicode collation

(邃� 35: Unicode 縺ｮ辣ｧ蜷磯��ｺ�)

謨ｰ蛟､隨ｦ蜿ｷ菴咲ｽｮ縺ｧ繧ｽ繝ｼ繝医＆繧後◆繝�く繧ｹ繝医�縲∝粋逅�噪縺ｪ繧｢繝ｫ繝輔ぃ繝吶ャ繝磯��〒縺ｯ縺ゅｊ縺ｾ縺帙ｓ; 繝�く繧ｹ繝医�繧ｽ繝ｼ繝医↓縺ｯ UCA 繧剃ｽｿ逕ｨ縺励※縺上□縺輔＞縲�

use Unicode::Collate;
my $col = Unicode::Collate->new();
my @list = $col->sort(@old_list);

縺薙�繝｢繧ｸ繝･繝ｼ繝ｫ縺ｸ縺ｮ萓ｿ蛻ｩ縺ｪ繧ｳ繝槭Φ繝峨Λ繧､繝ｳ繧､繝ｳ繧ｿ繝輔ぉ繝ｼ繧ｹ縺ｫ縺､縺�※縺ｯ縲� Unicode::Tassil CPAN 繝｢繧ｸ繝･繝ｼ繝ｫ縺ｮ ucsort 繝励Ο繧ｰ繝ｩ繝�繧貞盾辣ｧ縺励※縺上□縺輔＞縲�

邃� 36: Case- and accent-insensitive Unicode sort

(邃� 36: 螟ｧ譁�ｭ怜ｰ乗枚蟄� 縺翫ｈ縺ｳ 繧｢繧ｯ繧ｻ繝ｳ繝医ｒ辟｡隕悶＠縺� Unicode 縺ｮ繧ｽ繝ｼ繝�)

辣ｧ蜷亥ｼｷ蠎ｦ繝ｬ繝吶Ν 1 繧呈欠螳壹＠縺ｦ縲∝､ｧ譁�ｭ怜ｰ乗枚蟄励→繝�繧､繧｢繧ｯ繝ｪ繝�ぅ繧ｫ繝ｫ繝槭�繧ｯ繧� 辟｡隕悶＠縲∝渕譛ｬ譁�ｭ励□縺代ｒ蜿ら�縺吶ｋ繧医≧縺ｫ縺励∪縺吶��

use Unicode::Collate;
my $col = Unicode::Collate->new(level => 1);
my @list = $col->sort(@old_list);

邃� 37: Unicode locale collation

(邃� 37: Unicode 繝ｭ繧ｱ繝ｼ繝ｫ縺ｮ辣ｧ蜷磯��ｺ�)

荳�驛ｨ縺ｮ繝ｭ繧ｱ繝ｼ繝ｫ縺ｫ縺ｯ縲∫音蛻･縺ｪ繧ｽ繝ｼ繝郁ｦ丞援縺後≠繧翫∪縺吶��

# either use v5.12, OR: cpan -i Unicode::Collate::Locale
use Unicode::Collate::Locale;
my $col = Unicode::Collate::Locale->new(locale => "de__phonebook");
my @list = $col->sort(@old_list);

荳願ｨ倥� ucsort 繝励Ο繧ｰ繝ｩ繝�縺ｯ縲�--locale 繝代Λ繝｡繝ｼ繧ｿ繧貞女縺台ｻ倥￠縺ｾ縺吶��

邃� 38: Making `cmp` work on text instead of codepoints

(邃� 38: 隨ｦ蜿ｷ菴咲ｽｮ縺ｧ縺ｯ縺ｪ縺上ユ繧ｭ繧ｹ繝医〒g cmp 縺悟虚菴懊☆繧九ｈ縺�↓縺吶ｋ)

谺｡縺ｮ繧医≧縺ｫ縺帙★縺ｫ:

@srecs = sort {
    $b->{AGE}   <=>  $a->{AGE}
                ||
    $a->{NAME}  cmp  $b->{NAME}
} @recs;

谺｡繧剃ｽｿ縺�∪縺�:

my $coll = Unicode::Collate->new();
for my $rec (@recs) {
    $rec->{NAME_key} = $coll->getSortKey( $rec->{NAME} );
}
@srecs = sort {
    $b->{AGE}       <=>  $a->{AGE}
                    ||
    $a->{NAME_key}  cmp  $b->{NAME_key}
} @recs;

邃� 39: Case- and accent-insensitive comparisons

(邃� 39: 螟ｧ譁�ｭ怜ｰ乗枚蟄� 縺翫ｈ縺ｳ 繧｢繧ｯ繧ｻ繝ｳ繝医ｒ辟｡隕悶＠縺滓ｯ碑ｼ�)

辣ｧ蜷医が繝悶ず繧ｧ繧ｯ繝医ｒ菴ｿ逕ｨ縺励※縲ゞnicode 繝�く繧ｹ繝医ｒ隨ｦ蜿ｷ菴咲ｽｮ縺ｧ縺ｯ縺ｪ縺� 譁�ｭ励〒豈碑ｼ�＠縺ｾ縺吶��

use Unicode::Collate;
my $es = Unicode::Collate->new(
    level => 1,
    normalization => undef
);

 # now both are true:
$es->eq("Garc僘",  "GARCIA" );
$es->eq("M疵quez", "MARQUEZ");

邃� 40: Case- and accent-insensitive locale comparisons

(邃� 40: 螟ｧ譁�ｭ怜ｰ乗枚蟄� 縺翫ｈ縺ｳ 繧｢繧ｯ繧ｻ繝ｳ繝医ｒ辟｡隕悶＠縺溘Ο繧ｱ繝ｼ繝ｫ縺ｧ縺ｮ豈碑ｼ�)

蜷後§縺ｧ縺吶′縲∫音螳壹�繝ｭ繧ｱ繝ｼ繝ｫ縺ｧ縺吶��

my $de = Unicode::Collate::Locale->new(
           locale => "de__phonebook",
         );

# now this is true:
$de->eq("tsch�", "TSCHUESS");  # notice � => UE, ﾟ => SS

邃� 41: Unicode linebreaking

(邃� 41: Unicode 縺ｮ謾ｹ陦�)

Unicode 隕丞援縺ｫ蠕薙▲縺ｦ繝�く繧ｹ繝医ｒ陦後↓蛻�牡縺励∪縺吶��

# cpan -i Unicode::LineBreak
use Unicode::LineBreak;
use charnames qw(:full);

my $para = "This is a super\N{HYPHEN}long string. " x 20;
my $fmt = Unicode::LineBreak->new;
print $fmt->break($para), "\n";

邃� 42: Unicode text in DBM hashes, the tedious way

(邃� 42: DBM 繝上ャ繧ｷ繝･縺ｮ荳ｭ縺ｮ Unicode 繝�く繧ｹ繝医��螻医↑譁ｹ豕�)

DBM 繝上ャ繧ｷ繝･縺ｮ繧ｭ繝ｼ縺ｾ縺溘�蛟､縺ｨ縺励※騾壼ｸｸ縺ｮ Perl 譁�ｭ怜�繧剃ｽｿ逕ｨ縺吶ｋ縺ｨ縲� 隨ｦ蜿ｷ菴咲ｽｮ縺� 1 繝舌う繝医↓蜿弱∪繧峨↑縺��ｴ蜷医↓繝ｯ繧､繝画枚蟄嶺ｾ句､悶′逋ｺ逕溘＠縺ｾ縺吶�� 谺｡縺ｫ縲∵焔蜍輔〒螟画鋤繧堤ｮ｡逅�☆繧区婿豕輔ｒ遉ｺ縺励∪縺�:

use DB_File;
use Encode qw(encode decode);
tie %dbhash, "DB_File", "pathname";

 # STORE

# assume $uni_key and $uni_value are abstract Unicode strings
my $enc_key   = encode("UTF-8", $uni_key, 1);
my $enc_value = encode("UTF-8", $uni_value, 1);
$dbhash{$enc_key} = $enc_value;

 # FETCH

# assume $uni_key holds a normal Perl string (abstract Unicode)
my $enc_key   = encode("UTF-8", $uni_key, 1);
my $enc_value = $dbhash{$enc_key};
my $uni_value = decode("UTF-8", $enc_value, 1);

邃� 43: Unicode text in DBM hashes, the easy way

(邃� 43: DBM 繝上ャ繧ｷ繝･縺ｮ荳ｭ縺ｮ Unicode 繝�く繧ｹ繝医�∫ｰ｡蜊倥↑譁ｹ豕�)

谺｡縺ｫ縲∝､画鋤繧呈囓鮟咏噪縺ｫ邂｡逅�☆繧区婿豕輔ｒ遉ｺ縺励∪縺�; 縺吶∋縺ｦ縺ｮ繧ｨ繝ｳ繧ｳ繝ｼ繝峨→繝�さ繝ｼ繝峨�縲∫音螳壹�繧ｨ繝ｳ繧ｳ繝ｼ繝�ぅ繝ｳ繧ｰ縺御ｻ伜刈縺輔ｌ縺� 繧ｹ繝医Μ繝ｼ繝�縺ｨ蜷後§繧医≧縺ｫ閾ｪ蜍慕噪縺ｫ陦後ｏ繧後∪縺�:

use DB_File;
use DBM_Filter;

my $dbobj = tie %dbhash, "DB_File", "pathname";
$dbobj->Filter_Value("utf8");  # this is the magic bit

 # STORE

# assume $uni_key and $uni_value are abstract Unicode strings
$dbhash{$uni_key} = $uni_value;

  # FETCH

# $uni_key holds a normal Perl string (abstract Unicode)
my $uni_value = $dbhash{$uni_key};

邃� 44: PROGRAM: Demo of Unicode collation and printing

(邃� 44: 繝励Ο繧ｰ繝ｩ繝�: Unicode 縺ｮ辣ｧ蜷医→陦ｨ遉ｺ縺ｮ繝�Δ)

莉･荳九�螳悟�縺ｪ繝励Ο繧ｰ繝ｩ繝�縺ｧ縺ｯ縲√Ο繧ｱ繝ｼ繝ｫ繧定ｪ崎ｭ倥☆繧九た繝ｼ繝医�� Unicode 縺ｮ螟ｧ譁�ｭ怜ｰ乗枚蟄励�√◎縺励※縺�￥縺､縺九�譁�ｭ励′ 1 譯√〒縺ｯ縺ｪ縺� 0 縺ｾ縺溘� 2 譯√ｒ蜊�繧√ｋ蝣ｴ蜷医�蜊ｰ蛻ｷ蟷��邂｡逅�ｒ縺ｩ縺ｮ繧医≧縺ｫ蛻ｩ逕ｨ縺吶ｋ縺九ｒ遉ｺ縺励※縺�∪縺吶�� 谺｡縺ｮ繝励Ο繧ｰ繝ｩ繝�繧貞ｮ溯｡後☆繧九→縲∵ｬ｡縺ｮ繧医≧縺ｪ縺�∪縺乗紛蛻励＠縺溷�蜉帙′逕滓�縺輔ｌ縺ｾ縺�:

Crﾃｨme Brﾃｻlﾃｩe....... 竄ｬ2.00
ﾃ営lair............. 竄ｬ1.60
Fideuﾃ�............. 竄ｬ4.20
Hamburger.......... 竄ｬ6.00
Jamﾃｳn Serrano...... 竄ｬ4.45
Linguiﾃｧa........... 竄ｬ7.00
Pﾃ｢tﾃｩ............... 竄ｬ4.15
Pears.............. 竄ｬ2.00
Pﾃｪches............. 竄ｬ2.25
Smﾃｸrbrﾃｸd........... 竄ｬ5.75
Spﾃ､tzle............ 竄ｬ5.50
Xoriﾃｧo............. 竄ｬ3.00
ﾎ苫済∃ｿﾏ�.............. 竄ｬ6.50
�賀ｱｸ�ｬ............. 竄ｬ4.00
縺翫ｂ縺｡............. 竄ｬ2.65
縺雁･ｽ縺ｿ辟ｼ縺�......... 竄ｬ8.00
繧ｷ繝･繝ｼ繧ｯ繝ｪ繝ｼ繝�..... 竄ｬ1.85
蟇ｿ蜿ｸ............... 竄ｬ9.99
蛹�ｭ�............... 竄ｬ7.50

縺薙ｌ縺後�繝ｭ繧ｰ繝ｩ繝�縺ｧ縺�; v5.14 縺ｧ繝�せ繝医＆繧後※縺�∪縺吶��

#!/usr/bin/env perl
# umenu - demo sorting and printing of Unicode food
#
# (obligatory and increasingly long preamble)
#
use utf8;
use v5.14;                       # for locale sorting
use strict;
use warnings;
use warnings  qw(FATAL utf8);    # fatalize encoding faults
use open      qw(:std :encoding(UTF-8)); # undeclared streams in UTF-8
use charnames qw(:full :short);  # unneeded in v5.16

# std modules
use Unicode::Normalize;          # std perl distro as of v5.8
use List::Util qw(max);          # std perl distro as of v5.10
use Unicode::Collate::Locale;    # std perl distro as of v5.14

# cpan modules
use Unicode::GCString;           # from CPAN

# forward defs
sub pad($$$);
sub colwidth(_);
sub entitle(_);

my %price = (
    "ﾎｳﾏ済∃ｿﾏ�"             => 6.50, # gyros
    "pears"             => 2.00, # like um, pears
    "linguiﾃｧa"          => 7.00, # spicy sausage, Portuguese
    "xoriﾃｧo"            => 3.00, # chorizo sausage, Catalan
    "hamburger"         => 6.00, # burgermeister meisterburger
    "ﾃｩclair"            => 1.60, # dessert, French
    "smﾃｸrbrﾃｸd"          => 5.75, # sandwiches, Norwegian
    "spﾃ､tzle"           => 5.50, # Bayerisch noodles, little sparrows
    "蛹�ｭ�"              => 7.50, # bao1 zi5, steamed pork buns, Mandarin
    "jamﾃｳn serrano"     => 4.45, # country ham, Spanish
    "pﾃｪches"            => 2.25, # peaches, French
    "繧ｷ繝･繝ｼ繧ｯ繝ｪ繝ｼ繝�"    => 1.85, # cream-filled pastry like eclair
    "�賀ｱｸ�ｬ"            => 4.00, # makgeolli, Korean rice wine
    "蟇ｿ蜿ｸ"              => 9.99, # sushi, Japanese
    "縺翫ｂ縺｡"            => 2.65, # omochi, rice cakes, Japanese
    "crﾃｨme brﾃｻlﾃｩe"      => 2.00, # crema catalana
    "fideuﾃ�"            => 4.20, # more noodles, Valencian
                                 # (Catalan=fideuada)
    "pﾃ｢tﾃｩ"              => 4.15, # gooseliver paste, French
    "縺雁･ｽ縺ｿ辟ｼ縺�"        => 8.00, # okonomiyaki, Japanese
);

my $width = 5 + max map { colwidth } keys %price;

# So the Asian stuff comes out in an order that someone
# who reads those scripts won't freak out over; the
# CJK stuff will be in JIS X 0208 order that way.
my $coll  = Unicode::Collate::Locale->new(locale => "ja");

for my $item ($coll->sort(keys %price)) {
    print pad(entitle($item), $width, ".");
    printf " 竄ｬ%.2f\n", $price{$item};
}

sub pad($$$) {
    my($str, $width, $padchar) = @_;
    return $str . ($padchar x ($width - colwidth($str)));
}

sub colwidth(_) {
    my($str) = @_;
    return Unicode::GCString->new($str)->columns;
}

sub entitle(_) {
    my($str) = @_;
    $str =~ s{ (?=\pL)(\S)     (\S*) }
             { ucfirst($1) . lc($2)  }xge;
    return $str;
}

AUTHOR

Tom Christiansen <tchrist@perl.com> 縺後�� 譎ゅ�� Larry Wall 縺ｨ Jeffrey Friedl 縺ｫ蠕後ｍ縺九ｉ蜿｣蜃ｺ縺励＆繧後↑縺後ｉ譖ｸ縺阪∪縺励◆縲�

COPYRIGHT AND LICENCE

This program is free software; you may redistribute it and/or modify it under the same terms as Perl itself.

縺薙ｌ繧峨�萓九�縺ｻ縺ｨ繧薙←縺ｯ縲�"Camel Book"縺ｮ迴ｾ蝨ｨ縺ｮ迚医°繧牙ｼ慕畑縺輔ｌ縺ｦ縺�∪縺�: 縺吶↑繧上■縲�4盞量ｰ迚�Programming Perl, Copyright ﾂｩ 2012 Tom Christiansen <et al.>, 2012-02-13 by O'Reilly Media縲� 繧ｳ繝ｼ繝芽�菴薙�閾ｪ逕ｱ縺ｫ蜀埼�蟶�庄閭ｽ縺ｧ縺ゅｊ縲√％縺ｮ man 繝壹�繧ｸ縺ｮ萓九ｒ遘ｻ讀阪＠縺溘ｊ縲� 謚倥ｊ縺溘◆繧薙□繧翫�∫ｴ｡骭伜ｽ｢縺ｫ縺励◆繧翫�∝�譁ｭ縺励◆繧翫☆繧九％縺ｨ縺梧耳螂ｨ縺輔ｌ縺ｾ縺吶′縲� 縺ゅ↑縺溯�霄ｫ縺ｮ繝励Ο繧ｰ繝ｩ繝�縺ｫ蜷ｫ繧√ｋ縺溘ａ縺ｫ縺ｯ縲∽ｽ輔ｂ豌励↓縺帙★縺ｫ陦後▲縺ｦ縺上□縺輔＞縲� 繧ｳ繝ｼ繝峨さ繝｡繝ｳ繝医↓繧医ｋ隰晁ｾ槭�荳∝ｯｧ縺ｧ縺吶′縲∝ｿ��医〒縺ｯ縺ゅｊ縺ｾ縺帙ｓ縲�

REVISION HISTORY

v1.0.0 - 譛�蛻昴�荳�闊ｬ蜈ｬ髢九��2012-02-27

Files

perlunicook.pod

Latest commit

History