字节顺序:大端字节(big-endian)和小端字节(little-endian)
今天碰一个关于字节顺序的问题,虽然看起来很简单,但一直都没怎么完全明白这个东西,索性就找了下资料,把它弄清楚. 因为现行的计算机都是以八位一个字节为存储单位,那么一个16位的整数,也就是C语言中的short,在内存中可能有两种存储顺序big-endian和litte-endian。考虑一个short整数0x3132(0x32是低位,0x31是高位),把它赋值给一个short变量,那么它在内存中的存储可能有如下两种情况:
可以做个实验 在windows上有如下程序:
#include#include void main(void) { short test; FILE* fp; test = 0x3132; //(31 ASCII码的’1’,32 ASCII码的’2’) if((fp=fopen("test.txt", "wb")) == NULL) assert(0); fwrite(&test, sizeof(short), 1, fp); fclose(fp); }
然后在打开test.txt文件,可以看见内容是21,而test等于0x3132,可以明显的看出来x86的字节顺序是低位在前.如果我们把这段同样的代码放到(big-endian)的机器上执行,那么打出来的文件就是12。这在本机中使用是没有问题的。但当你把这个文件从一个big-endian机器复制到一个little-endian机器上时就出现问题了。如上述例子,我们在big-endian的机器上创建了这个test文件,把其复制到little-endian的机器上再用fread读到一个short里面,我们得到的就不再是0x3132而是0x3231了,这样读到的数据就是错误的,所以在两个字节顺序不一样的机器上传输数据时需要特别小心字节顺序,理解了字节顺序可以帮助我们写出移植性更高的代码.
正因为有字节顺序的差别,所以在网络传输的时候定义了所有字节顺序相关的数据都使用big-endian。BSD的代码中定义了四个宏来处理:
#define ntohs(n) //网络字节顺序到主机字节顺序 n代表net, h代表host, s代表short
#define htons(n) //主机字节顺序到网络字节顺序 n代表net, h代表host, s代表short
#define ntohl(n) //网络字节顺序到主机字节顺序 n代表net, h代表host, l代表 long
#define htonl(n) //主机字节顺序到网络字节顺序 n代表net, h代表host, l代表 long
举例说明下其中一个宏的实现:
#define sw16(x) \
((short)( (((short)(x) & (short)0x00ffU)<<8) | \
(((short)(x) & (short)0xff00U)>>8) ))
这里实现的是一个交换两个字节顺序。其他几个宏类似。
我们改写一下上面的程序
#include#include #define sw16(x) \ ((short)((((short)(x) & (short)0x00ffU)<<8) | \ (((short)(x) & (short)0xff00U)>>8) )) //因为x86下面是低位在前,需要交换一下变成网络字节顺序 #define htons(x) sw16(x) void main(void) { short test; FILE* fp; test = htons(0x3132); //(31 ASCII码的’1’,32ASCII码的’2’) if ((fp = fopen ("test.txt", "wb")) == NULL) assert(0); fwrite(&test, sizeof(short), 1, fp); fclose(fp); }
如果在高字节在前的机器上,由于与网络字节顺序一致,所以我们什么都不干就可以了,只需要把#define htons(x) sw16(x)宏替换为 #define htons(x) (x)。 一开始我在理解这个问题时,总在想为什么其他数据不用交换字节顺序?比如说我们write一块buffer到文件,最后终于想明白了,因为都是unsigned char类型一个字节一个字节的写进去,这个顺序是固定的,不存在字节顺序的问题,够笨啊..
判断小端大端模式
题目:
请写一个C函数,若处理器是Big_endian的,则返回0;若是Little_endian的,则返回1。
解答:
int checkCPU() { union w { int a; char b; }c; c.a = 1; return (c.b == 1); }
剖析:
嵌入式系统开发者应该对Little-endian和Big-endian模式非常了解。采用Little-endian模式的CPU对操作数的存放方式是从低字节到高字节,而Big-endian模式对操作数的存放方式是从高字节到低字节。
例如,16bit宽的数0x1234在Little-endian模式CPU内存中的存放方式(假设从地址0x4000开始存放)为:
32bit宽的数0x12345678在Little-endian模式CPU内存中的存放方式(假设从地址0x4000开始存放)为:
联合体union的存放顺序是所有成员都从相同的低地址开始存放,内存长度以最大的数据类型为准,面试者的解答利用该特性,轻松地获得了CPU对内存采用Little-endian还是Big-endian模式读写。如果谁能当场给出这个解答,那无疑是一个出色的程序员。