订阅博客
收藏博客
微博分享
QQ空间分享

乌鸡,Java一个汉字占几个字节,可可西里

频道:娱乐消息 标签:天国拯救酒泉 时间:2019年05月05日 浏览:207次 评论:0条

先说定论

不同的编码格局占字节数是不同的,UTF-8编码下一个中文所占字节也是不确定的,或许是2个、3个、4个字节;

几种编码格局的简略介绍

几种编码格局。

  • ASCII 码

学过核算机的人都知道 ASCII 码,一共有 128 个,用一个字节的低 7 位表明,0~31 是操控字符如换行回车删去等;32~126 是打印字符,能够经过键盘输入并且能够显现出来。

  • ISO-8859-1

128 个字符显然是不行用的,所以 ISO 安排在 ASCII 码根底上又拟定了一些列规范用来扩展 ASCII 编码,它们是 ISO-8859-1~ISO-8859-15,其间 ISO-8859-1 涵盖了大多数西欧言语字符,一切运用的最广泛。IS乌鸡,Java一个汉字占几个字节,可可西里O-8859-1 仍然是单字节编码,它一共能表明 256 个字符。

  • GB2312

它的全称是《信息交流用汉字编码字符集 根本集》,它是双字节编码,总的编码规模是 A1-F7,其间从 A1-A9 是符号区,一共包含 682 个符号,从 B0-F7 是汉字区,包含 6763 个汉字。

  • GBK

全称叫《汉字内码扩展规范》,是国家技能监督局为 windows95 所拟定的新的汉字内码规范,它的呈现是为了扩展 GB2312,参加更多的汉字,它的编码规模是 8140~FEFE(去掉 XX7F)一共有 23940 个码位,它能表明 21003 个汉字,它的编码是和 GB2312 兼容的,也便是说用 GB2312 编码的汉字可轶以用 GBK 来解码,并且不会有乱码。

  • GB18030

全称是《信息交流用汉字编码字符集》,是我国的强制规范,它或许是单字节、双字节或许四字节编码,它的编码与 GB2312 编码兼容,这个尽管是国家规范,可是实践运用体系中运用的并不广泛。

  • UTF-16

说到 UTF 必需求说到 Unicode(Universal C乌鸡,Java一个汉字占几个字节,可可西里ode 共同码),ISO 企图想创立一个全新的超言语字典,世界上一切的言语都能够经过这本字典来彼此翻译。可想而知这个字典是多么的杂乱,关于 Unicode 的详细规范能够参阅相应文档。Unicode 是 Java 和 XML 的根底,下面详细介绍 Unicode 在核算机中的存储办法。

UTF-16 详细界说了 Unicode 字符在核算机中存取办法。UTF-16 用两个字节来表明 Unicode 转化格局,这个是定长的表明办法,不论什么字符都能够用两个字节表明,两个字节是 16 个 bit,所以叫 UTF-16。UTF-16 表明字符十分便利,每两个字节表明一个字符,这个在字符串操作时就大大简化了操作,这也是 Java 以 UTF-16 作为内存的字符存储格局的一个很重要的原因。

  • UTF-8

UTF-16 共同选用两个字节表明一个字符,尽管在表明上十分简略便利,可是也有其缺陷,有很大一部分字符用一个字节就能够表明的现在要两个字节表明,存储空间扩大了一倍,在现在的网络带宽还十分有限的今日,这样会增大网络传输的流量王雅捷,并且也没必要。而 UTF-8 选用了一种变长技能,每个编码区域有不同的字码长度。不同类型的字符能够是由 1~6 个字节组成。

UTF-8 有以下编码规矩:

  1. 假如一个字节,最高位(第 8 位)为 0,表明这是一个 ASCII 字符(00 - 7F)。可见,一切 ASCII 编码现已是 UTF-8 了。
  2. 假如一个字节,以 跑车排行榜11 最初,接连的 1 的个数暗示这个字符的字节数,例如:110xxxxx 代表它是双字节 UTF-8 字符的首字节。
  3. 假如一个字节,以 10 开端,表明它不是首字节,需求向前查找才干得到其时字符的首字节

字符编码的前史故事

好久好久曾经,有一群人,他们决议用8个能够开合的晶体管来组合成不同的状况,以表明世界上的万物。他们以为8个开关状况作为原子单位很好,所以他们把这称为"字节"。

再后来,他们又做了一些能够处理这些字节的机器,机器开动了,能够用字节来组合出更多的状况,状况开端变来变去。他们看到这样是好的,所以它们就这机器称为"核算机"。

开端核算机只在美国用。八位的字节一共能够组合出256(2的8次方)种不同的状况。

他们把其间的编号从0开端的32种状况别离规矩了特别的用处,一但终端设备或许打印机遇上这些约好好的字节时,就要做一些约好的动作。遇上 00x10, 终端就换行,遇上0x07, 终端就向人们嘟嘟叫,例好遇上0x1b, 打印机就打印反白的字,关于终端就用彩色显现字母。他们看到这样很好,所以就把这些0x20(十进制32)以下的字节状况称为"操控码"。

他们又把一切的空格、标点符号、数字、大小写字母别离用接连的字节状况表明,一向编到了第127号,这样核算机就能够用不同字节来存储英语的 文字了。咱们看到这样,都感觉很好,所以咱们都把这个计划叫做 ANSI 的"Ascii"编码(American Standard Code for Information Interchange,美国信息交流规范代码)。其时世界上一切的核算机都用相同的ASCII计划来保存英文文字。

后来,就像缔造巴比伦塔相同,世界各地的都开端运用核算机,可是许多国家用的不是英文,他们用到的许多字母在ASCII中底子没有,为了也能够在核算机中保存他们的文森林狼字,他们决议选用127号之后的空位来表明这些新的字母、符号,还参加了许多画表格时需求用下到的横线、竖线、穿插等形状,一向把序号编到了最终一个状况255。从128到255这一页的字符集被称"扩展字符集"。从此之后,贪婪的人类再没有新的状况能够用了,美帝国主义或许没有想到还有第三世界国家的人们也期望能够用到核算机吧!

等我国人们得到核算机时,现已没有能够乌鸡,Java一个汉字占几个字节,可可西里运用的字节状况来表明汉字,何况有6000多个常用汉字需求保存呢。可是这难不倒才智的我国公民,咱们不客气地把那些127号之后的奇特符号们直接取消掉,并且规矩:一个小于127的字符的含义与原本相同,但两个大于127的字符连在一同时,就表明一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后边一个字节(低字节)从0xA1到0xFE,这样咱们就能够组合出大约7000多个简体汉字了。在这些编码里,咱们还把数学符号、罗马希腊的字母、日文的化名们都编进去了,连在 ASCII 里原本就有的数字、标点、字母都通通从头编了两个字节长的编码重铸大商,这便是常说的"全角"字符,而原本在127号以下的那些就叫"半角"字符了。

我国公民看到这样很不错,所以就把这种汉字计划叫做"GB2312"。GB2312 是对 ASCII 的中文扩展。

可是我国的汉字太多了,咱们很快就就发现有许多人的人名没有办法在这儿打出来,特别是某些很会费事他人的国家领导人(如朱镕基的“镕”字)。所以咱们不得不持续把 GB2312 没有用到的码位找出来厚道不客气地用上。

后来仍是不行用,所以爽性不再要求低字节必定是127号之后的内码,只需榜首个字节是大于127就固定表明这是一个汉字的开端,不论后边跟的是不是扩展字符集里的内容。成果扩展之后的编码计划被称为 GBK 规范,GBK 包含了 GB2312 的一切内容,一同又增加了近20000个新的汉字(包含繁体字)和符号。

后来少数民族也要用电脑了,所以咱们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。从此之后,中华民族的文明就能够在核算机年代中传承了。

我国的程序员们看到这一系列汉字编码的规范是好的,所以通称他们叫做 "DBCS"(Double Byte Charecter Set 双字节字符集)。在DBCS系列规范里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于熏鱼的做法同一套编码计划里,因而他们写的程序为了支撑中文处理,必需求注意字串里的每一个字节的值,假如这个值是大于127的,那么就以为一个双字节字符集里的字符呈现了。那时候但凡受过加持,会编程的核算机僧侣们都要每天念下面这个咒语数百遍:

"一个汉字算两个英文字符!一个汉字算两个英文字符……"

由于其时各个国家都像我国这样搞出一套自己的编码规范,成果相互之间谁也不明白谁的编码,谁也不支撑他人的编码,连大陆和台湾这样只相隔了150海里双氯芬酸钠肠溶片,运用着同一种言语的兄弟区域,也别离选用了不同的 DBCS 编码计划——其时的我国人想让电脑显现汉字,就有必要装上一个"汉字体系",专门用来处理汉字的显现、输入的问题,可是那个台湾的愚蠢封建人士写的算命程序就有必要加装另一套支撑 BIG5 编码的什么"倚天汉字体系"才干够用,装错了字符体系,显现就会乱了套!这怎么办?并且世界民族之林中还有那些一时用不上电脑的困苦公民,他们的文字又怎么办?

真是核算机的巴比伦塔出题啊!

正在这时,大天使加百列及时呈现了——一个叫 ISO (世界标谁化安排)的世界安排决议着手处理这个问题。他们选用的办法很简略:废了一切的区域性编码计划,从头搞一个包含了地球上一切文明、一切字母和符号的编码!他们计划叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE"。

UNICODE 开端拟定时,核算机的存储器容量极大地开展了,空间再也不成为问题了。所以 ISO 就直接规矩有必要用两个字节,也便是16位来共同表明一切的字符,关于ascii里的那些"半角"字符,UNICODE 包持其原编码不变,仅仅将其长度由原本的8位扩展为16位,而其他文明和言语的字符则悉数从头共同编码。由于"半角"英文符号只需求用到低8位,所以其高 8位永久是0,因而这种大麂皮气的计划在保存英文文本时会多糟蹋一倍的空间。

这时候,从旧社会里走过来的程序员开端发现一个古怪的现象:他们的strlen函数靠不住了,一个汉字不再是相当于两个字符了,而是一个!是 的,从 UNICODE 开端,无论是半角的英文字母,仍是全角的汉字,它们都是共同的"一个字符"!一同,也都是共同的"两个字节",请注意"字符"和"字节"两个术语的不同, "字节"是一个8位的物理存贮单元,而"字符乌鸡,Java一个汉字占几个字节,可可西里"则是一个文明相关杨天宝什么梗的符号。在UNICODE 中,一个字符便是两个字节。一个汉字算两个英文字符的年代现已快过去了。

早年多种字符集存在时,那些做多言语软件的公司遇上过很大费事,他们为了在不同的国家出售同一套软件,就不得不在区域化软件时也加持那个双字节字符集咒语,不只要处处当心不要搞错,还要把软件中的文字在不同的字符会集转来转去。UNICODE 关于他们来说是一个很好的一揽子处理计划,所以从 Windows NT 开端,MS 趁机把它们的操作体系改了一遍,把一切的中心代码都改成了用 UNICODE 办法作业的版别,从这时开端,WINDOWS 体系总算无需求加装各种本乡言语体系,就能够显现全世界上一切文明的字符了。

可是,UNICODE 在拟定时没有考虑与任何一种现有的编码计划坚持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不相同的,没有一种简略的算术办法能够把文本内容从UNICODE编码和另一种编码进行转化,这种转化有必要经过查表来进行。

如前所述,UNICODE 是用两个字节来表明为一个字符,他一共能够组合出65535不同的字符,这大约现已能够掩盖世界上一切文明的符号。假如还不行也没有联系,ISO现已预备了UCS-4计划,说简略了便是四个字节来表明一个字符,这样咱们就能够组合出21亿个不同的字符出来(最高位有其他用处),这大约能够用到银河联邦建立那一天吧!

UNICODE 来届时,一同到来的还有核算机网络的鼓起,UNICODE 怎么在网络上传输也是一个有必要考虑的问题,所以面向传输的许多 UTF(UCS Transfer Format)规范呈现了,望文生义,UTF8便是每次8个位传输数据,而UTF16便是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规矩来转化。

受到过网络编程加持的核算机僧侣们都知道,在网络里传递信息时有一个很重要的问题,便是关于数据高低位的解读办法,一些核算机是选用低位先发送的办法,例如咱们PC机选用的 INTEL 架构;而另一些是选用高位先发送的办法。在网络中交流数据时,为了核对两边关于高低位的知道是否是共同的,选用了一种很简洁的办法,便是在文本流的开端时向对方发送一个标志符——假如之后的文本是高位在位,那就发送"FEFF",反之,则发送"FFFE"。不信你能够用二进制办法翻开一个UTF-X格局的文件,看看最初两个字节是不是这两个字节?

下面是Unicode和UTF-8转化的规矩

 1 Unicode 
2
3 UTF-8
4
5 0000 - 007F
6
7 0xxxxxxx
8
9 0080 - 07FF
10
11 110xxxxx 10xxxxxx
12
13 0800 - FFFF
14
15 1110xxxx 10xxxxxx 10xxxxxx

例如"汉"字的Unicode编码是6C49。6C49在0800-FFFF之间,所以要用3字节模板:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110乌鸡,Java一个汉字占几个字节,可可西里 1100 0100 1001,将这个比特流按三字节模板的分段办法分为0110 110001 001001,顺次替代模板中的x,得到:1110-0110 10-110001 10-0010陈文媛01,即E6 B1 89,这便是其UTF8的编码。

讲到这儿,咱们再趁便说说一个很闻名的古怪现象:当你在 windows 的记事本里新建一个文件,输入"联通"两个字之后,保存,封闭,然后再次翻开,你会发现这两个字现已消失了,代之的是几个乱码!呵呵,有人说这便是联通之所以拼不过移动的原因。

其实这是由于GB2312编码与UTF8编码发生了编码抵触的原因。

当一个软件翻开一个文本时,它要做的榜首件事是决议这个文本究竟是运用哪种字符集的哪种编码保存的。软件一般选用三种办法来决议文本的字符集和编码:

检测文件头标识,提示用户挑选,根金沙遗址据必定的规矩猜想

最规范的途径是检测文本最最初的几个大冢千弘字节,最初字节 Charset/encoding,如下表:

1 EF BB BF UTF-8 
2
3 FF FE UTF-16/UCS-2, little endian
4
5 FE FF UTF-16/UCS-2, big endian
6
7 FF FE 00 00 UTF-32/UCS-4, little endian.
8
9 00 00 FE FF UTF-32/UCS-4, big-endian.

当你新建一个文本文件时,记事本的编码默许是ANSI(代表体系默许编码,在中文体系中一般是GB系列编码), 假如你在ANSI的编码输入汉字,那么他实践便是GB系列的编码办法,在这种编码下,"联通"的内码是:

1 c1 1100 0001 
2
3 aa 1010 1010
4
5 cd 1100 1101
6
7 a8 1010 1000

注意到了吗?榜首二个字节、第三四个字节的开端部分的都是"110"和"10",正好与UTF8规矩里的两字节模板是共同的,乌鸡,Java一个汉字占几个字节,可可西里

所以当咱们再次翻开记事本时,记事本就误以为这是一个UTF8编码的文件,让咱们把榜首个乌鸡,Java一个汉字占几个字节,可可西里字节的110和尖锐湿疣图片第二个字节的10去掉,咱们就得到了"00001 101010",再把各位对齐,补上前导的0,就得到了"0000 0000 0110 1010",欠好意思,这是UNICODE的006A,也便是小写的字母"j",而之后的两字节用UTF8解码之后是0368,这个字符什么也不是。这便是只要"联通"两个字的文件没有办法在记事本里正常显现的原因。

而假如你在"联通"之后多输入几个字,其他的字的编码不见得又刚好李治是110和10开端的字节,这样再次翻开时,记事本就不会坚持这是一个utf8编码的文件,而会用ANSI的办法解读之,这时乱码又不呈现了。

一个字符为什么占两个字节

1 public static void main(String[] args) {
2 System.out.printf("The max value of type char is %d.%n",
3 (int)Character.MAX_VALUE);
4 System.out.printf("The min value of type char is %d.%n",
5 (int)Character.MIN_VALUE);
6 }

运转上面的程序,输出

The max value of type char is 65535.

The min value of type char is 0.

阐明char的规模从0到65535,那么正好是两个字节所能表明的规模(65535十六进制便是0xFFFF,一个字节能表明0~0xFF,两个字节能表明0~0xFFFF),所以说一个char占两个字节。

那么char的值究竟是什么呢?比方当我这样写char c = '放';

 1 public static void main(String[] args) throws Exception {
2 char c = '放';
3 System.out.printf("The value of char %c is %d.%n", c, (int)c);
4
5 String str = String.valueOf(c);
6 byte[] bys 虿盆= str.getBytes("Unicode");
7 for (int i = 0; i < bys.length; i++) {
8 System.out.printf("%X ", bys[i]);
9 }
10 System.out.println();
11
12 int unicode = (bys[2] & 0xFF) << 8 | (bys[3 & 0xFF]);
13 System.out.printf("The unicode value of %c is %d.%n", c, unicode);
14 }

运转输出:

The value of char 放 is 25918.

FE FF 65 3E

The unicode value of 放 is 25918.

首要你看到,这个char的值是25918,那他是什么呢?先不论它,接着我把这个char放在一个String里,并进行Unicode编码,得到四个字节FE FF 65 3E,前面两个实践上与内容无关,是BOM,即字节序标识,FE FF表明是Big Endian,也便是高位在前,低位在后,所以依照这个规矩,讲653E转化为10进制int,发现最终输出259三线仓鼠18,也便是这个字符的Unicode值是25918,所以你现在知道一个char究竟存储的是什么了吧。

至于GBK,UTF-8,UTF-16的联系,我先抛开GBK,由于它有点特别。

首要你要知道UTF-8和UTF-16还有UTF-32是为了便利传输和存储的而发生的对Unicode字符的编码办法。

先说UTF-8,跟着全球化Unicode流行起来,不论你做什么,支撑Unicode都将是潮流,就算你或许永久也用不到,但这对西方国家就不太好,由于曾经ASCII字符集,一个字符只需求一个字节,而现在用Unicode一个英文字母也需求两个字节,假如需求传输和存储,那会糟蹋一半的空间或流量,所以就想出了一种变长编码办法,那便是UTF-8,它对ASCII字符集内的字符,只用一个字节编码,而其他字符依照必定规矩进行两、三、四字节编码,详细规矩是:

Unicode编码(十六进制) UTF-8 字节省(二进制)

000000 - 00007F 0xxxxxxx

000080 - 0007FF 110xxxxx 10xxxxxx

000800 - 00FFFF 1110xxxx 10xxxxxx 10xxxxxx

010000 - 10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

但这样做一些东物是人非是什么意思方国家不干了,由于他们的字符根本都是在000800 - 00FFFF这个区间,用UTF-8反倒要多用一个字节,一共需求三个字节才干表明,并且用UTF-8处理他们的字符,不能直接转化,需求做一些运算,以‘放’为例,它的Unicode码是25918,二进制表明是0110010100111110,假如要转成UTF-8,首要取高四位0110,和1110拼接,组成11100110,然后中心六位010100,与10拼接构成10010100,最终低六位111110,与10拼接构成10111110,所以三个字节是11100110 10010100 10111110,也便是十六进制的E6 94 BE,也便是你上面写的-26 -capacity108 -66。能够看到这个运算量尽管不大,根本是位操作,但假如你每个字符都要这么操作实在是有损功率,归纳这几点考虑,所以又弄了一个UTF-16,不谨慎地来说它等价于Unicode原生编码,它共同选用双字节表明一个字符(其实有四字节区域,但现在一般没有用到),而由于它用多字节表明,和Unicode相同需求字节序标识,你上面代码里发现它得到-2, -1, 101, 62,转为十六进制便是FE FF 65 3E,和我第二个实例程序中相同,阐明UTF-16的码值(如表明‘放’的65 3E)和Unicode原生编码是相同的。

UTF-32的诞生其实也不古怪,由于UTF-16仍是一个变长编码办法,一个字符或许由两个或四个字节表明,有些有强迫症的人总觉得欠好,所以为了他们就有了UTF-32,它共同运用四字节表明一个字符,由于用得不多所以不详细说了。

最终说说GBK是个什么东西。GBK是国标扩(展)的拼音首字母,是我国在1995年拟定的专门针对汉语和一些少数名族言语的编码办法,和Unicode之间没有一一对应的联系,也便是说Unic解救马疯子ode中有的字符GBK不必定有,GBK有的字符Unicode也不必定有,并且GBK和Unicode中共有字符,他们的编码值没有一种简略的对应联系,也便是无法经过简略核算得到,只能经过查表转化。为什么会有GBK这种奇葩呢?其实是其时Unicode还没拟定好,更没在全球规模内推行,而我国人要用电脑总不或许永久用英语吧?所以我国就自行拟定了一个国标,其时是GB2312,(其实台湾区域针对繁体还有一个Big5,但这儿就不胪陈了),GB2312后来增加了许多字符,包含许多少数名族的言语,成为了一个新的编码规范,那便是GBK。

声明:这是在网站上看到一篇很有意思的文章, 这儿转载共享下, 侵权删