MySQL :: MySQL 8.4 Reference Manual :: 12.14.1 Collation Implementation Types

version 8.4

8.0 current
5.7

8.0 Japanese

MySQL 8.4 Reference Manual / ... / Collation Implementation Types

12.14.1 排序规则实现类型

MySQL 实现了多种排序规则类型：

8位字符集的简单排序规则

这种排序规则使用一个包含 256 个权重的数组来定义字符代码到权重的映射关系。latin1_swedish_ci 是一个例子。它是一个不区分大小写的排序规则，所以字符的大写和小写版本都具有相同的权重，比较结果为等值。

mysql> SET NAMES 'latin1' COLLATE 'latin1_swedish_ci';
Query OK, 0 rows affected (0.01 sec)

mysql> SELECT HEX(WEIGHT_STRING('a')), HEX(WEIGHT_STRING('A'));
+-------------------------+-------------------------+
| HEX(WEIGHT_STRING('a')) | HEX(WEIGHT_STRING('A')) |
+-------------------------+-------------------------+
| 41                      | 41                      |
+-------------------------+-------------------------+
1 row in set (0.01 sec)

mysql> SELECT 'a' = 'A';
+-----------+
| 'a' = 'A' |
+-----------+
|         1 |
+-----------+
1 row in set (0.12 sec)

实现说明见第 12.14.3 节，“添加一个简单排序规则到 8 位字符集”。

8 位字符集的复杂排序规则

这种排序规则使用 C 源文件中的函数来定义如何排序字符，见第 12.13 节，“添加一个字符集”。

非 Unicode 多字节字符集的排序规则

对于这种排序规则，8 位（单字节）和多字节字符被处理 differently。对于 8 位字符，字符代码映射到权重中不区分大小写。（例如，单字节字符 'a' 和 'A' 都具有权重 0x41。）对于多字节字符，有两个关系类型之间的关系：

权重等于字符代码。sjis_japanese_ci 是这种类型的排序规则。多字节字符 'ぢ' 的字符代码为 0x82C0，权重也为 0x82C0。

mysql> CREATE TABLE t1
       (c1 VARCHAR(2) CHARACTER SET sjis COLLATE sjis_japanese_ci);
Query OK, 0 rows affected (0.01 sec)

mysql> INSERT INTO t1 VALUES ('a'),('A'),(0x82C0);
Query OK, 3 rows affected (0.00 sec)
Records: 3  Duplicates: 0  Warnings: 0

mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
+------+---------+------------------------+
| c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
+------+---------+------------------------+
| a    | 61      | 41                     |
| A    | 41      | 41                     |
| ぢ    | 82C0    | 82C0                   |
+------+---------+------------------------+
3 rows in set (0.00 sec)

字符代码一对一映射到权重，但代码不一定等于权重。gbk_chinese_ci 是这种类型的排序规则。多字节字符 '膰' 的字符代码为 0x81B0，权重为 0xC286。

mysql> CREATE TABLE t1
       (c1 VARCHAR(2) CHARACTER SET gbk COLLATE gbk_chinese_ci);
Query OK, 0 rows affected (0.33 sec)

mysql> INSERT INTO t1 VALUES ('a'),('A'),(0x81B0);
Query OK, 3 rows affected (0.00 sec)
Records: 3  Duplicates: 0  Warnings: 0

mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
+------+---------+------------------------+
| c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
+------+---------+------------------------+
| a    | 61      | 41                     |
| A    | 41      | 41                     |
| 膰    | 81B0    | C286                   |
+------+---------+------------------------+
3 rows in set (0.00 sec)

实现说明，请参见第12.13节，“添加字符集”。

Unicode多字节字符集的排序规则

这些排序规则中的一些基于 Unicode 排序算法（UCA），其他不基于。

非 UCA 排序规则在 MySQL 中是大小写敏感和音调敏感的。utf8mb4_general_ci 是一个例子：'a'、'A'、'À' 和 'á' 每个都有不同的字符代码，但所有权重为 0x0041，比较等价。

mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_general_ci';
Query OK, 0 rows affected (0.00 sec)

mysql> CREATE TABLE t1
       (c1 CHAR(1) CHARACTER SET UTF8MB4 COLLATE utf8mb4_general_ci);
Query OK, 0 rows affected (0.01 sec)

mysql> INSERT INTO t1 VALUES ('a'),('A'),('À'),('á');
Query OK, 4 rows affected (0.00 sec)
Records: 4  Duplicates: 0  Warnings: 0

mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
+------+---------+------------------------+
| c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
+------+---------+------------------------+
| a    | 61      | 0041                   |
| A    | 41      | 0041                   |
| À    | C380    | 0041                   |
| á    | C3A1    | 0041                   |
+------+---------+------------------------+
4 rows in set (0.00 sec)

基于 UCA 排序规则的 MySQL 排序规则具有以下属性：

如果一个字符有权重，每个权重使用 2 字节（16 位）。
一个字符可能没有权重（或空权重）。在这种情况下，字符是忽略的。例如：“U+0000 NULL” 没有权重，是忽略的。

一个字符可能只有一个权重。例如：'a' 的权重为 0x0E33。

mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_unicode_ci';
Query OK, 0 rows affected (0.05 sec)

mysql> SELECT HEX('a'), HEX(WEIGHT_STRING('a'));
+----------+-------------------------+
| HEX('a') | HEX(WEIGHT_STRING('a')) |
+----------+-------------------------+
| 61       | 0E33                    |
+----------+-------------------------+
1 row in set (0.02 sec)

一个字符可能有多个权重。这是一个扩展。例如，德国字母'ß'(SZ ligature，或者SHARP S)的权重是0x0FEA0FEA。

mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_unicode_ci';
Query OK, 0 rows affected (0.11 sec)

mysql> SELECT HEX('ß'), HEX(WEIGHT_STRING('ß'));
+-----------+--------------------------+
| HEX('ß')  | HEX(WEIGHT_STRING('ß'))  |
+-----------+--------------------------+
| C39F      | 0FEA0FEA                 |
+-----------+--------------------------+
1 row in set (0.00 sec)

许多字符可能只有一个权重。这是一个收缩。例如，'ch'在捷克语中是一个字母，权重为0x0EE2。

mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_czech_ci';
Query OK, 0 rows affected (0.09 sec)

mysql> SELECT HEX('ch'), HEX(WEIGHT_STRING('ch'));
+-----------+--------------------------+
| HEX('ch') | HEX(WEIGHT_STRING('ch')) |
+-----------+--------------------------+
| 6368      | 0EE2                     |
+-----------+--------------------------+
1 row in set (0.00 sec)

多个字符到多个权重的映射也可能（这是收缩与扩展），但是MySQL不支持。

实现说明，请参见第12.13节，“添加字符集”。对于UCA排序，请参见第12.14.4节，“将 Unicode 字符集添加到 UCA 排序”。

其他排序

此外，还有几个不落入前面类别的排序。

PREV HOME UP NEXT