汉字编码意思解释
汉字编码( Chinese character encoding),为汉字设计的便于输入计算机的代码。汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。
汉字输入途径
①机器自动识别汉字。计算机通过“视觉”装置(光学字符阅读器等),用光电扫描等方法识别汉字。②通过语音识别输入。计算机利用其“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同的汉字。③通过汉字编码输入。根据一定的编码方法,由人借助输入设备将汉字输入计算机。
编码方法
主要有四种:①数字编码。使用一串数字表示汉字的编码方法,例如电报码、区位码等。这种码难以记忆,不易推广。②字音编码。基于汉语拼音的编码方法,简单易学,适合于非专业人员。缺点是同音字引起的重码多,需增加选择操作。③字形编码。将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,但编码规则不易掌握,五笔字型法和表形码属于这一类。④音和形结合的音形码或形音码。它吸取了字音编码和字形编码的优点,使编码规则适当简化,重码减少,但掌握起来也不容易。
在上述编码输入方法的基础上,利用计算机的高速处理和存储能力,发挥计算机的统计与学习功能,实现字词联想、词语联想来输入汉字,以及能自动记忆新词、自动调整词语频率等智能汉字输入法,受到广大用户的欢迎。
汉字的输入编码与汉字的内码是不同范畴的概念,不能把它们混淆起来。使用不同的编码方法向计算机输入同一个汉字,它们的内码是相同的。
汉字编码字符集
中国已经公布并广泛使用的汉字编码字符集国家标准主要有3种:①《信息交换用汉字编码字符集·基本集》(GB2312–1980),中国于1980年颁布的第一个汉字编码国家标准,选出6 763个常用汉字字符和682个非汉字字符,为每个字符规定了标准代码。汉字分两级,一级常用汉字3 755个,以汉语拼音字母为序排列;二级常用字3 008个,以部首、部首外笔画数排列。为了使用繁体汉字,1990年中国制订了繁体汉字字符集的国家标准《信息交换用汉字编码字符集·辅助集》(GB12345–1990),与GB2312–1980相对应,含6 866个汉字。其中简、繁体相同的汉字字形与编码均不变;简体汉字对应1个繁体字的编码不变,但字形替换为对应的繁体字;一个简体汉字对应多个繁体字的,原简体字替换为最常用的那个繁体字,其他对应的繁体字放在扩充区,这样的简体字有300多个。②《汉字内码扩展规范》(GBK),中国于1995年颁布的汉字编码的指导性规范。GBK在字汇一级共有21 003个汉字和883个图形符号,除GB2312–1980中的全部汉字和符号外,还收入了繁体字和日本、韩国使用的大量汉字和符号,为人名、地名的处理以及古籍整理、古典文献研究等提供了条件。③《信息交换用汉字编码字符集·基本集的扩充》(GB18030–2000),在GB2312–1980和GBK的基础上进行了扩充,增加了4字节的编码,使码位总数达到160多万个,能完全映射国际标准通用多八位编码字符集(UCS/Unicode)的基本平面和辅助平面中的字符集,支持多文种信息处理。包含的汉字数目增加到27 000多个,包括全部中、日、韩(CJK)统一汉字字符集和CJK汉字扩充A和扩充B中的所有字符,还收入了藏文、蒙古文、维吾尔文等主要的少数民族文字,能适应出版、邮政、户政、金融、地理信息系统等领域的用字问题。2001年开始执行。
中国台湾地区使用的《通用汉字交换码》(CNS11643–1992),共收入汉字13 053个(不使用简化汉字)。其中有5 401个常用汉字和7 652个次常用汉字,都按总笔画数、部首排列。与之对应的内码为Big5码(大五码),Big5码与GB2312–1980、GBK、GB18030–2000的内码不兼容,需要进行转换才能显示、打印汉字。
带汉字编码字词语
带汉字编码字成语