v2.9.0
主要功能
- 新增面向 Huawei Ascend 设备的 HAMi-core 模式,支持用户态虚拟化,实现更细粒度的显存与算力共享。
- 优化 HAMi-core 性能,并补充最新 HAMi-core benchmark 数据。
- HAMi-DRA 的 NVIDIA 支持已可用。
- Volcano vGPU Device Plugin 同步至 0.19 版本,并支持 CDI。
- 新增用于调试和开发 HAMi 的 skills。
- 支持 Huawei Ascend 910C 设备在 SuperPod 环境中的 module-pair 分配,作者 (@ashergaga),PR #1610
- 新增 Vast.ai 设备支持,作者 (@DSFans2014),PR #1645
- 新增 Huawei Ascend
ResourceCoreName与Ascendxxx-core资源,用于支持 hami-vnpu-core 虚拟化,作者 (@ashergaga) 和 (@DSFans2014),PR #1771 与 #1804 - 支持基于 hami-vnpu-core 注解的节点过滤,并支持启用 hami-vnpu-core 后的多设备请求,作者 (@ashergaga),PR #1812 与 #1837
主要 bug 修复
- 修复在 vLLM 0.18 以上版本使用张量并行时的初始化错误。
- 修复 schedulerName 检查中的优先级问题,作者 (@hoteye),PR #1627
- 增加 nil 检查以避免 leader election panic,作者 (@haitwang-cloud),PR #1603
- 修复调度器评分过程中 resource requests 为 nil 导致的 panic,作者 (@yxxhero),PR #1626
- 修复 Iluvatar 设备 binpack 与 spread 调度策略反向的问题,作者 (@qiangwei1983),PR #1631
- 修复
Device_memory_desc_of_container指标基数膨胀问题,作者 (@maishivamhoo123),PR #1628 - 处理统一内存 GPU 上
GetMemoryInfo返回ERROR_NOT_SUPPORTED的场景,作者 (@jsl9208),PR #1637 - 通过指数退避与 lister 优化 nodelock 的可扩展性,作者 (@maishivamhoo123),PR #1663
- 修复副本数大于 1 时 readiness probe 失败的问题,作者 (@Shouren),PR #1677
- 修复调度器 slot 使用量预测与设备类型过滤问题,作者 (@maishivamhoo123),PR #1700
- 在缓存中保留 terminating Pod,避免过早驱逐,作者 (@maishivamhoo123),PR #1719
- 修复包含 init containers 的多容器场景设备分配问题,作者 (@haitwang-cloud),PR #1650
- 对齐 kubelet 设备分配与调度器注解,作者 (@xrwang8),PR #1743
- 处理 Linux kernel 6.17 下 NVIDIA 健康检查握手边界场景,作者 (@maishivamhoo123),PR #1810
- 修复 CDI 模式下 MIG 分配失败的问题,作者 (@DSFans2014),PR #1826









