String底层实现从char数组到byte数组的转变

Java中String的底层实现从早期的char[]数组转向后来的byte[]数组，主要是为了优化内存使用和支持更广泛的字符编码。

###为什么会发生转变？

早期的Java版本（Java 8及更早）中，String内部是使用char[]数组来存储字符的。char类型在Java中是16位的，这意味着它占用2个字节，并且设计初衷是为了直接表示Unicode字符（特别是UTF-16编码）。

然而，这种设计存在一个效率问题：

内存浪费： 世界上绝大多数的文本，特别是西方语言，都可以用单字节的字符集（如Latin-1）来表示。即使是多字节字符，许多常用的字符也可以用一个字节或两个字节来表示。但无论字符实际占用多少字节，char[]数组都会为每个字符分配2个字节。这意味着对于大量使用ASCII或Latin-1字符的字符串，一半的内存空间被浪费了。
编码灵活性不足： 虽然char是UTF-16编码，但在处理其他编码（如UTF-8）时，需要在内部进行转换，这增加了额外的开销。

为了解决这些问题，从Java 9开始，String的底层实现发生了重大改变，引入了**紧凑字符串（Compact Strings）**的概念。现在，String内部使用byte[]数组来存储字符，并且通过一个额外的字段（coder）来标识字符串的编码方式，通常是LATIN1（单字节编码）或UTF16（双字节编码）。

转变带来的影响

这一转变对Java应用程序产生了以下几个主要影响：

内存效率显著提升：
- 对于包含大部分Latin-1字符（如英文、数字、常见符号）的字符串，每个字符只需要占用1个字节的内存，相比之前的2个字节，内存占用减少了一半。
- 对于包含UTF-16字符（如中文、日文、韩文等）的字符串，仍然会占用2个字节，但整体而言，对于大量以Latin-1编码为主的应用程序，可以显著降低内存消耗。这对于内存敏感的应用程序（如大规模数据处理、Web服务）尤其重要。
GC（垃圾回收）性能提升：
- 内存占用的减少直接导致堆内存中需要管理的对象大小变小，从而减少了垃圾回收器的工作量。更少的内存意味着更短的GC停顿时间，有助于提高应用程序的响应速度和吞吐量。
潜在的性能影响（通常是积极的）：
- 在大多数情况下，由于内存效率的提升，CPU缓存命中率也可能提高，从而间接提升了字符串操作的性能。
- 然而，在极端情况下，如果涉及到频繁地在LATIN1和UTF16编码之间切换，或者需要对编码进行判断，可能会引入微小的额外开销。但总体而言，这种开销通常远低于内存优化带来的收益。
对API使用的影响（用户无感知）：
- 对于Java开发者而言，String类的公共API保持不变。这意味着开发者不需要修改任何现有代码来适应底层实现的变化。所有的String方法（如length(), charAt(), substring()等）仍然按照预期工作。
- 这种改变是JVM内部的优化，对上层应用是透明的。
序列化兼容性：
- 虽然底层变了，但Java的序列化机制通常会处理这些内部细节，确保不同Java版本之间的String序列化和反序列化兼容性。

总的来说，String底层从char[]到byte[]的转变是Java平台为了更好地适应现代计算环境和多种字符集而进行的重要优化，核心目标是提高内存效率。