新闻资讯
咨询热线
020-08980898传真:020-08980898
为啥要有中文编码格式?常用中文编码格式优缺点大揭秘
你可曾思索过,为何借助电脑开启一个陈旧文档会瞧见满屏乱象字符,为何有些网页呈现中文正常,切换成另一种系统就全是问号,背后实则是中文编码格式发挥作用。要是没有统一的中文编码标准,我们所见到的每个汉字都有可能变为无法辨识的符号,整个中文互联网的交流都将会跌入混乱。
从ASCII到中文编码的必然跨越
美国人主导开发了早期计算机,他们设计的ASCII编码只用了129个字符中的128个位置,涵盖了英文字母、数字以及常用符号,这套方案在英文的世界里完全适用,恰好一个字母占据一个字节。
可一旦计算机进入中国,问题马上就暴露出来了。汉字的数量超过了五万多个,就连常用汉字也有几千个,区区128个位置,哪怕是一个偏旁部首想要塞进去都不行。这样的情况就使得我们不得不去开发全新的编码方案,采用更多的字节用来表示每个汉字。
GB2312 简体中文的基石
20世纪将尽的1980年当年期间所发布的国家标准GB2312编码,无疑乃是中文信息之处理领域的具有重大意义的里程碑所在。它采用要以两个方面的字节用于进行某个汉字的相应表示,从理论角度剖析而言能够去容纳超出七个一万数量级乃至尚有余的字符位置的数目范围内。而这套编码实际所收纳进来的汉字数量为6763个且属于常用类型的汉字范畴,其涉及覆盖掉日常方面所运用的文字比例在达到99%超过以上的程度。
在那个硬盘容量仅有几十兆、内存是以KB来计算、年代久远的时候,GB2312运用固定的两个字节去显现汉字,不但确保了汉字的显示效果,而且还节省了存储空间。直至今日,好多老系统依旧在使用这一套编码,它确立了中国计算机普及方向的文字基础,奠定此基础。
BIG5 繁体中文的另一条路
就在大陆推行GB2312之际,台岛地区发展出了BIG5编码标准,同样以双字节表示汉字,不过收录的是繁体字,字符集与编码规则全然不同。
在早期两岸进行交流之际,由此导致的情况是,用BIG5所撰写编写编排的邮件置于简体系统上时会呈现出显示显示出乱码的尴尬难堪局面氛围状况。用户只得必须不得不去安装各种各样种类的转码软件程序,又或者是来回反复地切换转变替换系统区域设置设定才能得以正常顺利地阅读。而这种分裂状态情形一直持续直到Unicode得到普及推广才逐渐慢慢地得到并向缓解。
GBK 向更多汉字的扩展
随着使用的不断深入,GB2312所包含的6763个字步入捉襟见肘之境。众多人名、地名以及古籍之中的用字,都无法得以显示,鉴于此微软在Windows系统里推出了GBK编码。它朝着下的方向完全具备兼容性于GB2312,与此同时增添了更多的简体字、繁体字以及生僻字。
GBK能够表示两万有余之多个字符,基本上将日常运用其内的缺少的字之问题得以处理。于当时,好多用户发觉了,在系统升级之后,曾先前显示作方块的那些生僻的字忽然间就能够正常进行显示了,而此番情况那便是GBK所立下的功绩啊。
GB18030 国家强制标准
2000年被推出的GB18030,属于国家强制性标准,其采用变长编码这个方案,它既能够运用一个字节,以此来表示ASCII字符,又能够使用两个或四个字节,用来表示那些汉字,这套编码会向下兼容GB2312以及GBK,同时还加进了中日韩统一表意文字。
尤为关键的是,GB18030属于依法规定的理应予以支持的标准,所有于中国进行销售的操作系统以及软件,均必须对这个编码施行支持,不然的话便无法顺利通过入网检测,这切实保障了不同设备之间中文交流路径的顺畅。
UTF-8 走向世界的通行证
网站随着互联网发展,要同时显示中文、英文、日文等好多语言,这时,突出的是UTF - 8编码,它以变长方式表示字符,其中英文仍占一个字节,至于中文通常占三个字节。
UTF - 8 将多语种同一屏幕显示切实达成了,把编码切换的难处予以避免了。当下超出 95% 的网页运用了 UTF - 8 编码,能够于同一个页面一并见到简体中文、繁体中文以及日韩文字,这些情形在二十年前是根本无法想象到的事情之所在。
瞧见诸多编码的演变历程,你可曾碰到因编码的缘故致使文件无法打开亦或是出现乱码的状况呢?欢迎于评论区讲述你的经历,进行点赞转发以使更多人知晓中文编码背后掩藏的故事。


