v2.9.0

2026年5月9日

主要功能

新增面向 Huawei Ascend 设备的 HAMi-core 模式，支持用户态虚拟化，实现更细粒度的显存与算力共享。
优化 HAMi-core 性能，并补充最新 HAMi-core benchmark 数据。
HAMi-DRA 的 NVIDIA 支持已可用。
Volcano vGPU Device Plugin 同步至 0.19 版本，并支持 CDI。
新增用于调试和开发 HAMi 的 skills。
支持 Huawei Ascend 910C 设备在 SuperPod 环境中的 module-pair 分配，作者 (@ashergaga)，PR #1610
新增 Vast.ai 设备支持，作者 (@DSFans2014)，PR #1645
新增 Huawei Ascend ResourceCoreName 与 Ascendxxx-core 资源，用于支持 hami-vnpu-core 虚拟化，作者 (@ashergaga) 和 (@DSFans2014)，PR #1771 与 #1804
支持基于 hami-vnpu-core 注解的节点过滤，并支持启用 hami-vnpu-core 后的多设备请求，作者 (@ashergaga)，PR #1812 与 #1837

主要 bug 修复

修复在 vLLM 0.18 以上版本使用张量并行时的初始化错误。
修复 schedulerName 检查中的优先级问题，作者 (@hoteye)，PR #1627
增加 nil 检查以避免 leader election panic，作者 (@haitwang-cloud)，PR #1603
修复调度器评分过程中 resource requests 为 nil 导致的 panic，作者 (@yxxhero)，PR #1626
修复 Iluvatar 设备 binpack 与 spread 调度策略反向的问题，作者 (@qiangwei1983)，PR #1631
修复 Device_memory_desc_of_container 指标基数膨胀问题，作者 (@maishivamhoo123)，PR #1628
处理统一内存 GPU 上 GetMemoryInfo 返回 ERROR_NOT_SUPPORTED 的场景，作者 (@jsl9208)，PR #1637
通过指数退避与 lister 优化 nodelock 的可扩展性，作者 (@maishivamhoo123)，PR #1663
修复副本数大于 1 时 readiness probe 失败的问题，作者 (@Shouren)，PR #1677
修复调度器 slot 使用量预测与设备类型过滤问题，作者 (@maishivamhoo123)，PR #1700
在缓存中保留 terminating Pod，避免过早驱逐，作者 (@maishivamhoo123)，PR #1719
修复包含 init containers 的多容器场景设备分配问题，作者 (@haitwang-cloud)，PR #1650
对齐 kubelet 设备分配与调度器注解，作者 (@xrwang8)，PR #1743
处理 Linux kernel 6.17 下 NVIDIA 健康检查握手边界场景，作者 (@maishivamhoo123)，PR #1810
修复 CDI 模式下 MIG 分配失败的问题，作者 (@DSFans2014)，PR #1826

变更内容

其他变更

新增 vGPUmonitor --metrics-bind-address 参数，作者 (@dongjiang1989)，PR #1613
在 Helm charts 与 device plugin 中增加 Prometheus ServiceMonitor 支持，作者 (@dongjiang1989)，PR #1614 与 #1633
在 webhook 中检查 resource quota，作者 (@DSFans2014)，PR #1605
为 webhook Helm chart 增加 namespaceSelector 与 objectSelector 配置，作者 (@haitwang-cloud)，PR #1653
按最佳实践对齐 Prometheus 指标和 label 名称，作者 (@MyoungHaSong)，PR #1644
优化日志详细程度并添加单元测试，作者 (@haitwang-cloud)，PR #1710
新增面向 minikube 与 kind 集群的 local-deploy target，作者 (@anandj91)，PR #1760
新增 hami_vgpu_metrics_summarizer 与 k8s-debug-gpu-pod skills，作者 (@haitwang-cloud)，PR #1755 与 #1654
为 DeviceUsage 及其嵌套类型增加 DeepCopy 函数，作者 (@Shouren)，PR #1818
新增 enableGetPreferredAllocation 参数，作者 (@DSFans2014)，PR #1824
为指标增加设备类型 label，作者 (@xiyichan)，PR #1612
为 scheduler routes 增加 io.LimitReader，降低拒绝服务风险，作者 (@maishivamhoo123)，PR #1620
移除已废弃的 scheduler policy ConfigMap，作者 (@haitwang-cloud)，PR #1651
更新 NVIDIA device plugin 与 NVIDIA container runtime 模块，作者 (@archlitchi)，PR #1731
升级 Go 至 1.26.2 并处理相关安全问题，作者 (@luohua13) 与 (@Shouren)，PR #1791 与 #1772
禁用 device plugin 的 host network，作者 (@luohua13)，PR #1789
将 HAMi-DRA 版本升级至 v0.2.0，作者 (@FouoF)，PR #1845

新贡献者

maishivamhoo123 (@maishivamhoo123)
hoteye (@hoteye)
jsl9208 (@jsl9208)
ashergaga (@ashergaga)
Atroxgod (@Atroxgod)
MyoungHaSong (@MyoungHaSong)
charford (@charford)
jcustenborder (@jcustenborder)
Nov11 (@Nov11)
ilia-medvedev (@ilia-medvedev)
Yonsun-w (@Yonsun-w)
CFH2436 (@CFH2436)
kenwoodjw (@kenwoodjw)
anandj91 (@anandj91)
ManishSharma1609 (@ManishSharma1609)
maverick123123 (@maverick123123)
almazkhalikov (@almazkhalikov)
lin121291 (@lin121291)
mesutoezdil (@mesutoezdil)

贡献者

anandj91 (@anandj91)
archlitchi (@archlitchi)
ashergaga (@ashergaga)
Atroxgod (@Atroxgod)
CFH2436 (@CFH2436)
charford (@charford)
CoderTH (@CoderTH)
dongjiang1989 (@dongjiang1989)
DSFans2014 (@DSFans2014)
FouoF (@FouoF)
haitwang-cloud (@haitwang-cloud)
hoteye (@hoteye)
ilia-medvedev (@ilia-medvedev)
jcustenborder (@jcustenborder)
jsl9208 (@jsl9208)
kenwoodjw (@kenwoodjw)
lin121291 (@lin121291)
luohua13 (@luohua13)
maishivamhoo123 (@maishivamhoo123)
ManishSharma1609 (@ManishSharma1609)
maverick123123 (@maverick123123)
mesutoezdil (@mesutoezdil)
MyoungHaSong (@MyoungHaSong)
Nov11 (@Nov11)
peachest (@peachest)
qiangwei1983 (@qiangwei1983)
saiyam1814 (@saiyam1814)
Shouren (@Shouren)
wawa0210 (@wawa0210)
xiyichan (@xiyichan)
xrwang8 (@xrwang8)
Yonsun-w (@Yonsun-w)
yxxhero (@yxxhero)

完整更新日志: https://github.com/Project-HAMi/HAMi/compare/v2.8.0...v2.9.0

主要功能​

主要 bug 修复​

变更内容​

其他变更​

新贡献者​

贡献者​

主要功能

主要 bug 修复

变更内容

其他变更

新贡献者

贡献者