延迟模型¶

是什么 / 解决什么问题¶

低延迟系统关注的不是平均耗时，而是一次请求从进入系统到产生结果的完整路径，以及这条路径的尾部延迟。交易系统里，p99、p999、jitter 和最大延迟通常比平均值更能暴露问题。

平均延迟可能掩盖尾部问题。例如 99% 请求 5us，1% 请求 2ms，平均值看起来可能仍然可接受，但交易链路里这 1% 可能已经错过价格。

常见来源：

低延迟系统通常会牺牲部分通用性：

因为平均值无法说明尾部请求的表现。交易链路里，慢的少数请求可能正好对应关键行情、下单或撤单路径。回答时要主动提 p99/p999、直方图、最大值和测试噪声。

batching 可以提高吞吐，但会引入等待时间；busy polling 可以降低延迟，但会占满 CPU；减少锁可以降低尾延迟，但可能增加实现复杂度。重点是根据 SLA 明确优化目标。

# 不要只用 time，看分布
perf stat ./app

# 观察调度和上下文切换
perf stat -e context-switches,cpu-migrations,page-faults ./app

练习：写一个 ping-pong 程序，分别用 pipe、eventfd、TCP loopback 测量 p50/p99/p999，并解释差异。