perlcn

NAME

perlcn - �������� Perl ָ��

DESCRIPTION

��ӭ��� Perl �����!

�� 5.8.0 �濪ʼ, Perl �߱������Ƶ� Unicode (ͳһ��) ֧Ԯ, Ҳ���֧Ԯ����������ϵ����ı��뷽ʽ; CJK (���պ�) �������е�һ����. Unicode �ǹ���Եı�׼, ��ͼ������������е��ַ�: �����, �������, �Լ���߼��һ�� (ϣ���, ��������, �������, ϣ�����, ӡ����, ӡ�ذ���, �ȵ�). ��Ҳ�����˶�����ҵϵͳ��ƽ̨ (�� PC �������).

Perl ������ Unicode ���в���. ���ʾ Perl �ڲ����ַ���ݿ��� Unicode ��ʾ; Perl �ĺ�ʽ����� (��������ʾʽ�ȶ�) Ҳ�ܶ� Unicode ���в���. �����뼰���ʱ, Ϊ�˴����� Unicode ֮ǰ�ı��뷽ʽ��ŵ����, Perl �ṩ�� Encode ���ģ��, �����������׵ض�ȡ��д����еı������.

Encode ����ģ��֧Ԯ���м������ĵı��뷽ʽ ('gb2312' ��ʾ 'euc-cn'):

     euc-cn      Unix �����ַ�, Ҳ�����׳ƵĹ����
     gb2312-raw  δ������� (�ͱ���) GB2312 �ַ��
     gb12345     δ��������й��÷������ı���
     iso-ir-165  GB2312 + GB6345 + GB8565 + �����ַ�
     cp936       ����ҳ 936, Ҳ������ 'GBK' (�������) ָ��
     hz          7 �����ݳ�ʽ GB2312 ����
 
 

�����˵, �� EUC-CN ����ĵ���ת�� Unicode, �����������ָ��:

     perl -Mencoding=euc-cn,STDOUT,utf8 -pe1 < file.euc-cn > file.utf8
 
 

Perl Ҳ�ڸ��� ``piconv'', һ֧��ȫ�� Perl д�ɵ��ַ�ת�����߳���, �÷�����:

     piconv -f euc-cn -t utf8 < file.euc-cn > file.utf8
     piconv -f utf8 -t euc-cn < file.utf8 > file.euc-cn
 
 

����, ���� encoding ģ��, ���������д�����ַ�Ϊ��λ�ij�����, ������ʾ:

     #!/usr/bin/env perl
     # �� euc-cn �ִ�����; ��׼����뼰��׼������Ϊ euc-cn ����
     use encoding 'euc-cn', STDIN => 'euc-cn', STDOUT => 'euc-cn';
     print length("����");            #  2 (˫��ű�ʾ�ַ�)
     print length('����');            #  4 (����ű�ʾ�ֽ�)
     print index("׻׻�̻�", "�׻�"); # -1 (��������ַ�)
     print index('׻׻�̻�', '�׻�'); #  1 (�ӵڶ����ֽڿ�ʼ)
 
 

�����һ��������, ``׻'' �ĵڶ����ֽ��� ``׻'' �ĵ�һ���ֽڽ�ϳ� EUC-CN ��� ``��''; ``׻'' �ĵڶ����ֽ����� ``��'' �ĵ�һ���ֽڽ�ϳ� ``��''. ��������ǰ EUC-CN ��ȶԴ����ϳ��������.

��������ı���

�����Ҫ�������ı���, ���Դ� CPAN (<http://www.cpan.org/>) ���� Encode::HanExtra ģ��. ��Ŀǰ�ṩ���б��뷽ʽ:

     gb18030     ��������, ��������
 
 

����, Encode::HanConvert ģ�����ṩ�˼�ת���õ���ֱ���:

     big5-simp   Big5 ���������� Unicode �������Ļ�ת
     gbk-trad    GBK ���������� Unicode �������Ļ�ת
 
 

������ GBK �� Big5 ֮�以ת, ��ο���ģ���ڸ��� b2g.pl �� g2b.pl �֧����, ���ڳ�����ʹ������д��:

     use Encode::HanConvert;
     $euc_cn = big5_to_gb($big5); # �� Big5 תΪ GBK
     $big5 = gb_to_big5($euc_cn); # �� GBK תΪ Big5
 
 

��һ������Ϣ

��ο� Perl �ڸ��Ĵ��˵���ļ� (����ȫ����Ӣ��д��), �ѧϰ������ Perl ��֪ʶ, �Լ� Unicode ��ʹ�÷�ʽ. ����, �ⲿ����Դ�൱�ḻ:

�ṩ Perl ��Դ����ַ

<http://www.perl.com/>
Perl ����ҳ (��ŷ���˾ά��)
<http://www.cpan.org/>
Perl �ۺϵ���� (Comprehensive Perl Archive Network)
<http://lists.perl.org/>
Perl �ʵ���̳һ��

ѧϰ Perl ����ַ

<http://www.oreilly.com.cn/html/perl.html>
�������İ��ŷ��� Perl ���

Perl ʹ���߼���

<http://www.pm.org/groups/asia.shtml#China>
�й� Perl �ƹ���һ��

Unicode �����ַ

<http://www.unicode.org/>
Unicode ѧ��ѧ�� (Unicode ��׼���ƶ���)
<http://www.cl.cam.ac.uk/%7Emgk25/unicode.html>
Unix/Linux �ϵ� UTF-8 �� Unicode �����

SEE ALSO

Encode, Encode::CN, encoding, perluniintro, perlunicode

AUTHORS

Jarkko Hietaniemi <jhi@iki.fi>

Autrijus Tang (���ں�) <autrijus@autrijus.org>