JVM系列(七)-- 类文件结构
概述
在 Java 中,JVM 可以理解的代码就叫做字节码
(即扩展名为 .class
的文件),它不面向任何特定的处理器,只面向虚拟机。
Java 语言通过字节码的方式,在一定程度上解决了传统解释型语言执行效率低的问题,同时又保留了解释型语言可移植的特点。
所以 Java 程序运行时比较高效,而且,由于字节码并不针对一种特定的机器,因此,Java 程序无须重新编译便可在多种不同操作系统的计算机上运行。
可以说.class
文件是不同的语言在 Java 虚拟机之间的重要桥梁,同时也是支持 Java 跨平台很重要的一个原因。
Class文件结构总结
根据 Java 虚拟机规范,类文件由单个 ClassFile 结构组成:
1 | ClassFile { |
Class文件字节码结构组织示意图
魔数
1 | u4 magic; //Class 文件的标志 |
每个 Class 文件的头四个字节称为魔数(Magic Number),也就是0xCAFEBABE
,它的唯一作用是确定这个文件是否为一个能被虚拟机接收的 Class 文件。
程序设计者很多时候都喜欢用一些特殊的数字表示固定的文件类型或者其它特殊的含义。
Class文件版本
1 | u2 minor_version;//Class 的小版本号 |
紧接着魔数的四个字节存储的是 Class 文件的版本号:第五和第六是次版本号,第七和第八是主版本号。
高版本的 Java 虚拟机可以执行低版本编译器生成的 Class 文件,但是低版本的 Java 虚拟机不能执行高版本编译器生成的 Class 文件。所以,我们在实际开发的时候要确保开发的的 JDK 版本和生产环境的 JDK 版本保持一致。
常量池
1 | u2 constant_pool_count;//常量池的数量 |
紧接着主次版本号之后的是常量池,常量池的数量是 constant_pool_count-1**(常量池计数器是从1开始计数的,将第0项常量空出来是有特殊考虑的,索引值为0代表“不引用任何一个常量池项”**)。
常量池主要存放两大常量:字面量和符号引用。字面量比较接近于 Java 语言层面的的常量概念,如文本字符串、声明为 final 的常量值等。而符号引用则属于编译原理方面的概念。包括下面6类常量:
- 被模块导出或者开放的包(Package)
- 类和接口的全限定名(Fully Qualified Name)
- 字段的名称和描述符(Descriptor)
- 方法的名称和描述符
- 方法句柄和方法类型(Method Handle、Method Type、Invoke Dynamic)
- 动态调用点和动态常量(Dynamically-Computed Call Site、Dynamically-Computed Constant)
常量池中每一项常量都是一个表,这17种表有一个共同的特点:开始的第一位是一个 u1 类型的标志位 -tag 来标识常量的类型,代表当前这个常量属于哪种常量类型.
.class
文件可以通过javap -v class类名
指令来看一下其常量池中的信息(javap -v class类名-> temp.txt
:将结果输出到 temp.txt 文件)。
访问标志
在常量池结束之后,紧接着的两个字节代表访问标志,这个标志用于识别一些类或者接口层次的访问信息,包括:这个Class
是类还是接口,是否为 public
或者 abstract
类型,如果是类的话是否声明为 final
等等。
类访问和属性修饰符:
我们定义了一个 Employee 类
1 | package top.snailclimb.bean; |
通过javap -v class类名
指令来看一下类的访问标志。
当前类索引,父类索引与接口索引集合
1 | u2 this_class;//当前类 |
类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名,由于 Java 语言的单继承,所以父类索引只有一个,除了 java.lang.Object
之外,所有的 java 类都有父类,因此除了 java.lang.Object
外,所有 Java 类的父类索引都不为 0。
接口索引集合用来描述这个类实现了那些接口,这些被实现的接口将按implents
(如果这个类本身是接口的话则是extends
) 后的接口顺序从左到右排列在接口索引集合中。
字段表集合
1 | u2 fields_count;//Class 文件的字段的个数 |
**字段表(field info)用于描述接口或类中声明的变量。**字段包括类级变量以及实例变量,但不包括在方法内部声明的局部变量。
access_flags:
字段的作用域(public
,private
,protected
修饰符),是实例变量还是类变量(static
修饰符),可否被序列化(transient
修饰符),可变性(final
),可见性(volatile
修饰符,是否强制从主内存读写)。name_index:
对常量池的引用,表示的字段的名称;descriptor_index:
对常量池的引用,表示字段和方法的描述符;attributes_count:
一个字段还会拥有一些额外的属性,attributes_count 存放属性的个数;attributes[attributes_count]:
存放具体属性具体内容。
上述这些信息中,各个修饰符都是布尔值,要么有某个修饰符,要么没有,很适合使用标志位来表示。而字段叫什么名字、字段被定义为什么数据类型这些都是无法固定的,只能引用常量池中常量来描述。
方法表集合
1 | u2 methods_count;//Class 文件的方法的数量 |
methods_count
表示方法的数量,而 method_info
表示的方法表。
**Class 文件存储格式中对方法的描述与对字段的描述几乎采用了完全一致的方式。**方法表的结构如同字段表一样,依次包括了访问标志、名称索引、描述符索引、属性表集合几项。
方法表的 access_flag 取值:
属性表集合
1 | u2 attributes_count;//此类的属性表中的属性数 |
**在 Class 文件,字段表,方法表中都可以携带自己的属性表集合,以用于描述某些场景专有的信息。**与 Class 文件中其它的数据项目要求的顺序、长度和内容不同,属性表集合的限制稍微宽松一些,不再要求各个属性表具有严格的顺序,并且只要不与已有的属性名重复,任何人实现的编译器都可以向属性表中写 入自己定义的属性信息,Java 虚拟机运行时会忽略掉它不认识的属性。
Free Talk
这篇文章的写作顺序有点太靠后了,应该推前到前面阅读。同时我自己写完之后也只是了解了个大概,我觉得应该举一个.class文件的例子,层层分析下来的效果最好。同时这篇文章整合JavaGuide博客和《深入理解Java虚拟机》,最后推荐大家进一步阅读这篇博客。