• 内容讲解

汉字处理是我国计算机推广应用中必须解决的问题。汉字的字数繁多,字形复杂,读音多变,常用汉字就有7000个左右。要在计算机中表示汉字,最方便的方法是为每个汉字设计一个编码,而且要使这些编码与西文字符和其他字符有明显的区别。

目前,在我国使用的计算机汉字操作平台中常见的有以下4种汉字字符集。

1. GB2312 字符集

GB2312即国标码字符集GB2312-80,全称为《信息交换用汉字编码字符集-基本集》,由中国国家标准总局发布,1981年5月1日起实施,是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。

2. BIG5 字符集

BIG5又称大五码,1984年由台湾财团法人信息工业策进会和5家软件公司宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众(FIC)创立,故称大五码。BIG5码的产生,一方面是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾当时尚未推出官方的汉字编码,而GB2312编码亦未收录繁体中文字。BIG5字符集共收录13053个中文字,该字符集在中国台湾使用。

尽管BIG5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物学科等用字,没有包含日文平假名及片假名字母。

3. GBK字符集

1995年底推出的GBK(汉字内码扩展规范)编码是中文编码扩展国家标准,该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。

GBK字符集主要扩展了对繁体中文字的支持。

4. GB18030 字符集

GB18030的全称是GB18030-2000《信息交换用汉字编码字符集-基本集的扩充》,是中国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合该标准。

GB18030字符集标准解决了汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准采用单字节、双字节和四字节三种编码方式,字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字,能满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求,并且与Unicode 3.0版本兼容,与以前的国家字符编码标准兼容。