Documentation Home
MySQL 8.3 Reference Manual
Related Documentation Download this Manual
PDF (US Ltr) - 40.8Mb
PDF (A4) - 40.9Mb
Man Pages (TGZ) - 294.0Kb
Man Pages (Zip) - 409.0Kb
Info (Gzip) - 4.0Mb
Info (Zip) - 4.0Mb
Excerpts from this Manual

12.14.1 排序实现类型

MySQL 实现了多种排序类型:

简单的 8 位字符集排序

这种排序类型使用一个 256 权重数组来定义从字符代码到权重的一对一映射。latin1_swedish_ci 是一个示例。它是一个不区分大小写的排序,因此大写和小写版本的字符具有相同的权重并且比较相等。

mysql> SET NAMES 'latin1' COLLATE 'latin1_swedish_ci';
Query OK, 0 rows affected (0.01 sec)

mysql> SELECT HEX(WEIGHT_STRING('a')), HEX(WEIGHT_STRING('A'));
+-------------------------+-------------------------+
| HEX(WEIGHT_STRING('a')) | HEX(WEIGHT_STRING('A')) |
+-------------------------+-------------------------+
| 41                      | 41                      |
+-------------------------+-------------------------+
1 row in set (0.01 sec)

mysql> SELECT 'a' = 'A';
+-----------+
| 'a' = 'A' |
+-----------+
|         1 |
+-----------+
1 row in set (0.12 sec)

有关实现说明,请参阅 第 12.14.3 节,“向 8 位字符集添加简单排序”

复杂的 8 位字符集排序

这种排序类型使用 C 源文件中的函数来定义字符的顺序,如 第 12.13 节,“添加字符集” 所述。

非 Unicode 多字节字符集的排序

对于这种排序类型,8 位(单字节)和多字节字符被区别对待。对于 8 位字符,字符代码映射到权重,以不区分大小写的方式进行。(例如,单字节字符 'a''A' 都具有权重 0x41。)对于多字节字符,有两种字符代码和权重之间的关系:

  • 权重等于字符代码。sjis_japanese_ci 是这种排序类型的一个示例。多字节字符 'ぢ' 具有字符代码 0x82C0,权重也是 0x82C0

    mysql> CREATE TABLE t1
           (c1 VARCHAR(2) CHARACTER SET sjis COLLATE sjis_japanese_ci);
    Query OK, 0 rows affected (0.01 sec)
    
    mysql> INSERT INTO t1 VALUES ('a'),('A'),(0x82C0);
    Query OK, 3 rows affected (0.00 sec)
    Records: 3  Duplicates: 0  Warnings: 0
    
    mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
    +------+---------+------------------------+
    | c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
    +------+---------+------------------------+
    | a    | 61      | 41                     |
    | A    | 41      | 41                     |
    | ぢ    | 82C0    | 82C0                   |
    +------+---------+------------------------+
    3 rows in set (0.00 sec)
  • 字符代码映射到权重,但代码不一定等于权重。gbk_chinese_ci 是这种排序类型的一个示例。多字节字符 '膰' 具有字符代码 0x81B0 但权重是 0xC286

    mysql> CREATE TABLE t1
           (c1 VARCHAR(2) CHARACTER SET gbk COLLATE gbk_chinese_ci);
    Query OK, 0 rows affected (0.33 sec)
    
    mysql> INSERT INTO t1 VALUES ('a'),('A'),(0x81B0);
    Query OK, 3 rows affected (0.00 sec)
    Records: 3  Duplicates: 0  Warnings: 0
    
    mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
    +------+---------+------------------------+
    | c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
    +------+---------+------------------------+
    | a    | 61      | 41                     |
    | A    | 41      | 41                     |
    | 膰    | 81B0    | C286                   |
    +------+---------+------------------------+
    3 rows in set (0.00 sec)

有关实现说明,请参阅 第 12.13 节,“添加字符集”

Unicode 多字节字符集的排序

其中一些排序基于 Unicode 排序算法(UCA),其他不是。

非 UCA 排序具有从字符代码到权重的一对一映射。在 MySQL 中,这些排序都是不区分大小写和不区分重音的。utf8mb4_general_ci 是一个示例:'a''A''À''á' 都具有不同的字符代码,但所有权重都是 0x0041 并且比较相等。

mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_general_ci';
Query OK, 0 rows affected (0.00 sec)

mysql> CREATE TABLE t1
       (c1 CHAR(1) CHARACTER SET UTF8MB4 COLLATE utf8mb4_general_ci);
Query OK, 0 rows affected (0.01 sec)

mysql> INSERT INTO t1 VALUES ('a'),('A'),('À'),('á');
Query OK, 4 rows affected (0.00 sec)
Records: 4  Duplicates: 0  Warnings: 0

mysql> SELECT c1, HEX(c1), HEX(WEIGHT_STRING(c1)) FROM t1;
+------+---------+------------------------+
| c1   | HEX(c1) | HEX(WEIGHT_STRING(c1)) |
+------+---------+------------------------+
| a    | 61      | 0041                   |
| A    | 41      | 0041                   |
| À    | C380    | 0041                   |
| á    | C3A1    | 0041                   |
+------+---------+------------------------+
4 rows in set (0.00 sec)

MySQL 中的 UCA 排序具有以下属性:

  • 如果字符具有权重,每个权重使用 2 字节(16 位)。

  • 字符可能具有零权重(或空权重)。在这种情况下,字符是可忽略的。示例:"U+0000 NULL" 没有权重且是可忽略的。

  • 一个字符可能只有一个权重。示例:'a' 的权重为 0x0E33

    mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_unicode_ci';
    Query OK, 0 rows affected (0.05 sec)
    
    mysql> SELECT HEX('a'), HEX(WEIGHT_STRING('a'));
    +----------+-------------------------+
    | HEX('a') | HEX(WEIGHT_STRING('a')) |
    +----------+-------------------------+
    | 61       | 0E33                    |
    +----------+-------------------------+
    1 row in set (0.02 sec)
  • 一个字符可能有多个权重。这是扩展。示例:德语字母 'ß' (SZ 连字,或者 SHARP S) 的权重为 0x0FEA0FEA

    mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_unicode_ci';
    Query OK, 0 rows affected (0.11 sec)
    
    mysql> SELECT HEX('ß'), HEX(WEIGHT_STRING('ß'));
    +-----------+--------------------------+
    | HEX('ß')  | HEX(WEIGHT_STRING('ß'))  |
    +-----------+--------------------------+
    | C39F      | 0FEA0FEA                 |
    +-----------+--------------------------+
    1 row in set (0.00 sec)
  • 多个字符可能只有一个权重。这是收缩。示例:'ch' 是捷克语中的单个字母,权重为 0x0EE2

    mysql> SET NAMES 'utf8mb4' COLLATE 'utf8mb4_czech_ci';
    Query OK, 0 rows affected (0.09 sec)
    
    mysql> SELECT HEX('ch'), HEX(WEIGHT_STRING('ch'));
    +-----------+--------------------------+
    | HEX('ch') | HEX(WEIGHT_STRING('ch')) |
    +-----------+--------------------------+
    | 6368      | 0EE2                     |
    +-----------+--------------------------+
    1 row in set (0.00 sec)

多个字符到多个权重的映射也是可能的(这是收缩与扩展的组合),但 MySQL 不支持。

有关实现说明,请参阅 第 12.13 节,“添加字符集”。对于 UCA 排序,请参阅 第 12.14.4 节,“将 UCA 排序添加到 Unicode 字符集”

杂项排序

还有几个排序不属于前面的任何类别。