MySQL 8.4 Release Notes
25.6.2.1 NDB 集群:集群日志中的消息
以下表格列出了最常见的NDB
集群日志消息。关于集群日志、日志事件和事件类型,请见第25.6.3节,“NDB 集群中的事件报告”。这些日志消息还对应于MGM API中的日志事件类型;见Ndb_ logevent_type 类型,了解Cluster API 开发人员感兴趣的相关信息。
表25.25:常见 NDB 集群日志消息
Log Message | Description | Event Name | Event Type | Priority | Severity |
---|---|---|---|---|---|
Node |
拥有节点 ID node_ id 的数据节点已经连接到管理服务器(节点mgm_node_id )。 |
Connected |
Connection |
8 | INFO |
Node |
拥有节点 ID data_node_id 的数据节点已经从管理服务器(节点mgm_node_id )断开连接。 |
Disconnected |
Connection |
8 | ALERT |
Node |
拥有节点 ID api_node_id 的 API 节点或 SQL 节点已经不再与数据节点data_node_id 通讯。 |
CommunicationClosed |
连接 |
8 | 信息 |
Node |
API 节点或 SQL 节点,拥有节点 ID api_node_id 正在与数据节点 data_node_id 通信。 |
通信打开 |
连接 |
8 | 信息 |
Node |
API 节点,拥有节点 ID api_node_id 已经连接到管理节点 mgm_node_id ,使用 NDB API 版本 version (通常与 MySQL 版本号相同)。 |
连接API版本 |
连接 |
8 | 信息 |
Node |
一个全局检查点,拥有 ID gci 已经启动;节点 node_id 是负责这个全局检查点的主节点。 |
全局检查点启动 |
检查点 |
9 | 信息 |
Node |
已经完成的全局检查点,拥有 ID gci ;节点 node_id 是负责这个全局检查点的主节点。 |
全局检查点完成 |
检查点 |
10 | 信息 |
Node |
节点 node_id 上启动了具有序列 ID lcp 的本地检查点。最新可用的 GCI 索引为 current_gci ,从而可以恢复的最老 GCI 索引为 old_gci 。 |
LocalCheckpointStarted |
检查点 |
7 | INFO |
Node |
节点 node_id 上的本地检查点具有序列 ID lcp 已经完成。 |
LocalCheckpointCompleted |
检查点 |
8 | INFO |
Node |
节点无法确定最新可用的 GCI。 | LCPStoppedInCalcKeepGci |
检查点 |
0 | 警告 |
Node |
节点 node_id 上的表格碎片已经写入磁盘。当前进行中的 GCI 索引为 started_ gci ,最新完成的 GCI 索引为 completed_gci 。 |
LCPFragmentCompleted |
检查点 |
11 | INFO |
Node |
undo 日志被阻塞,因为日志缓冲区即将溢出。 | UndoLogBlocked |
检查点 |
7 | INFO |
Node |
数据节点 node_id ,运行NDB 版本version ,正在启动其启动过程。 |
NDBStartStarted |
StartUp |
1 | INFO |
Node |
数据节点 node_id ,运行NDB 版本version ,已经成功启动。 |
NDBStartCompleted |
StartUp |
1 | INFO |
Node |
节点已经接收到一个信号,表示集群重启已经完成。 | STTORRYRecieved |
StartUp |
15 | INFO |
Node |
节点已经完成了phase 阶段的type 启动。关于NDB集群启动阶段的列表,请见第25.6.4节,“NDB集群启动阶段总结”。(type 是initial 、system 、node 、initial node 或<Unknown> 之一。) |
StartPhaseCompleted |
启动 |
4 | INFO |
Node |
节点 president_id 已被选为““总裁””。own_id 和 dynamic_id 应该始终与报告节点的 ID (node_id ) 相同。 |
CM_REGCONF |
启动 |
3 | INFO |
Node |
报告节点(ID node_id ) 无法接受节点 president_id 作为总裁。问题的原因是 Busy、Election with wait = false、Not president、Election without selecting new candidate 或 No such cause 之一。 |
CM_REGREF |
启动 |
8 | INFO |
Node |
节点已经发现了集群中的邻居节点(节点 id_1 和节点 id_2 )。node_id 、own_id 和 dynamic_id 应该始终相同;如果它们不同,这表明集群节点的严重配置错误。 |
FIND_NEIGHBOURS |
启动 |
8 | 信息 |
Node |
节点已经接收到关闭信号。关闭的类型是 either 集群 或 节点 。 |
NDBStopStarted |
启动 |
1 | 信息 |
Node [, ] [Initiated by signal ] |
节点已经关闭。这份报告可能包括一个动作 ,如果存在,那么它将是 重启 、不启动 或 初始 之一。报告也可能包括一个对NDB 协议的信号 引用;关于可能的信号,请参阅操作和信号。 |
NDBStopCompleted |
启动 |
1 | 信息 |
Node [, action ]. [Occurred during startphase ] [ Initiated by ] [Caused by error [(extra info ]] |
节点已被强制关闭。随后可能采取的动作(其中之一为restarting 、no start 或initial )也将报告。如果关闭发生在节点启动期间,该报告还将包括节点失败时的start_phase 。如果这是由于向节点发送的signal 导致的,这些信息也将提供(请参阅Operations and Signals,了解更多信息)。如果知道导致失败的错误,这也将包括;关于NDB 错误消息和分类,请参阅NDB Cluster API Errors。 |
NDBStopForced |
StartUp |
1 | ALERT |
Node |
用户终止了节点关闭过程。 | NDBStopAborted |
StartUp |
1 | INFO |
Node |
这报告了节点启动期间引用到的全局检查点。redo日志前的keep_ pos 将被删除。last_pos 是数据节点参与的最后一个全局检查点;restore_pos 是实际用于恢复所有数据节点的全局检查点。 |
StartREDOLog |
StartUp |
4 | INFO |
startup_message [Listed separately; see below.] |
有多种可能的启动信息可以在不同的情况下被记录。这些信息单独列出;请参见第25.6.2.2节,“NDB Cluster Log Startup Messages”。 | StartReport |
StartUp |
4 | INFO |
Node |
数据字典信息复制到重启节点已经完成。 | NR_CopyDict |
NodeRestart |
8 | INFO |
Node |
数据分布信息复制到重启节点已经完成。 | NR_CopyDistr |
NodeRestart |
8 | INFO |
Node |
将碎片复制到启动数据节点node_id 开始了 |
NR_CopyFragsStarted |
NodeRestart |
8 | INFO |
Node |
从表table_id 中碎片fragment_id 复制到数据节点node_id 已经完成 |
NR_CopyFragDone |
NodeRestart |
10 | INFO |
Node |
所有表碎片复制到重启数据节点node_id 已经完成 |
NR_CopyFragsCompleted |
NodeRestart |
8 | INFO |
Node |
数据节点node1_id 检测到数据节点node2_id 的故障 |
NodeFailCompleted |
NodeRestart |
8 | ALERT |
All nodes completed failure of Node |
所有(剩余)数据节点都检测到数据节点node_id 的故障 |
NodeFailCompleted |
NodeRestart |
8 | ALERT |
Node failure of |
数据节点node_id 在NDB 内核块中检测到故障,该块是DBTC 、DBDICT 、DBDIH 或DBLQH 之一;欲知更多信息,请参阅NDB Kernel Blocks |
NodeFailCompleted |
NodeRestart |
8 | ALERT |
Node |
数据节点已故障。其在故障时的状态由仲裁状态代码state_code 描述:可能的状态代码值可以在文件include/kernel/signaldata/ArbitSignalData.hpp 中找到。 |
NODE_FAILREP |
NodeRestart |
8 | ALERT |
President restarts arbitration thread [state= or Prepare arbitrator node or Receive arbitrator node or Started arbitrator node or Lost arbitrator node or Lost arbitrator node or Lost arbitrator node |
当前集群仲裁状态报告。 node_id 是管理节点或 SQL 节点的 ID,选择为仲裁者的节点 ID。 state_code 是仲裁状态代码,见 include/kernel/signaldata/ArbitSignalData.hpp 。当出现错误时,将提供一个 error_message ,定义在 ArbitSignalData.hpp 中。 ticket_id 是仲裁者选择时向参与选择的所有节点分配的唯一标识符,这用于确保每个请求仲裁的节点都是参与选择过程中的节点。 |
仲裁状态 |
节点重启 |
6 | 信息 |
Arbitration check lost - less than 1/2 nodes left or Arbitration check won - all node groups and more than 1/2 nodes left or Arbitration check won - node group majority or Arbitration check lost - missing node group or Network partitioning - arbitration required or Arbitration won - positive reply from node or Arbitration lost - negative reply from node or Network partitioning - no arbitrator available or Network partitioning - no arbitrator configured or Arbitration failure - |
这个消息报告仲裁结果。在仲裁失败时,将提供一个 error_message 和一个仲裁 state_code ,定义在 include/kernel/signaldata/ArbitSignalData.hpp 中。 |
仲裁结果 |
节点重启 |
2 | 警告 |
Node |
这个节点正在尝试成为下一个全局检查点的负责人(即它将成为主节点) | GCP_TakeoverStarted |
节点重启 |
7 | 信息 |
Node |
该节点已经成为主节点,并且承担了下一个全局检查点的责任 | GCP_TakeoverCompleted |
NodeRestart |
7 | INFO |
Node |
该节点正在尝试承担下一个本地检查点的责任(即它将成为主节点) | LCP_TakeoverStarted |
NodeRestart |
7 | INFO |
Node |
该节点已经成为主节点,并且承担了下一个本地检查点的责任 | LCP_TakeoverCompleted |
NodeRestart |
7 | INFO |
Node |
每隔约10秒,这个报告将提供事务活动的信息 | TransReportCounters |
Statistic |
8 | INFO |
Node |
该节点每隔约10秒提供的操作数 | OperationReportCounters |
Statistic |
8 | INFO |
Node |
具有显示的表ID的表已经被创建 | TableCreated |
Statistic |
7 | INFO |
Node |
JobStatistic |
Statistic |
9 | INFO |
|
Mean send size to Node = |
该节点向节点node_id 发送平均bytes 字节 |
SendBytesStatistic |
统计信息 |
9 | INFO |
Mean receive size to Node = |
该节点从节点node_id 接收平均bytes 字节数据 |
ReceiveBytesStatistic |
统计信息 |
9 | INFO |
Node / Node |
当在集群管理客户端中发出DUMP 1000 命令时生成该报告 |
MemoryUsage |
统计信息 |
5 | INFO |
Node |
与节点node2_id 通信时发生了传输器错误;关于传输器错误代码和消息的列表,请参见NDB Transporter Errors,在MySQL NDB Cluster Internals Manual |
TransporterError |
错误信息 |
2 | ERROR |
Node |
与节点node2_id 通信时可能出现的传输问题警告;关于传输错误代码和消息,请见NDB 传输错误,了解更多信息。 |
TransporterWarning |
Error |
8 | 警告 |
Node |
节点node2_id 未发送心跳信号到本节点。 |
MissedHeartbeat |
Error |
8 | 警告 |
Node |
节点node2_id 已missed至少3个心跳信号,本节点因此宣布该节点“死亡”。 |
DeadDueToHeartbeat |
Error |
8 | 警告 |
Node |
本节点已发送心跳信号到节点node2_id 。 |
SentHeartbeat |
Info |
12 | 信息 |
Node |
在事件缓冲区使用率高时,例如,在短时间内应用了许多更新操作时,这个报告将显示事件缓冲区内存的字节数和百分比、已分配的字节数和百分比,以及最新的缓冲和消费 epoch;更多信息,请见第25.6.2.3节,“事件缓冲区报告在集群日志中” | EventBufferStatus2 |
Info |
7 | INFO |
Node , Node , Node |
这些报告将在进入和退出单用户模式时写入集群日志;API_node_id 是 API 或 SQL 对集群的独占访问节点 ID(更多信息,请见第25.6.6节,“NDB 集群单用户模式”);消息Unknown single user report 表示错误已经发生并且在正常操作中应该从不出现 |
SingleUser |
Info |
7 | INFO |
Node |
已经使用管理节点mgm_node_id 启动备份,这个信息也将在集群管理客户端中显示,当执行START BACKUP 命令时;更多信息,请见第25.6.8.2节,“使用 NDB 集群管理客户端创建备份” |
BackupStarted |
Backup |
7 | INFO |
Node |
拥有 ID backup_id 的备份已经完成;更多信息,请见第25.6.8.2节,“使用 NDB 集群管理客户端创建备份” |
BackupCompleted |
Backup |
7 | INFO |
Node |
备份启动失败;错误代码,请见MGM API Errors | BackupFailedToStart |
Backup |
7 | ALERT |
Node |
备份被终止,可能是由于用户干预 | BackupAborted |
Backup |
7 | 警报 |