英特尔发布Project Battlematrix（战斗阵列）推理工作站软件更新

0次浏览发布时间：2025-08-14 11:51:00

今年5月，英特尔发布了代号为Project Battlematrix（战斗阵列）的推理工作站。推理工作站具有广阔的发展前景，主要表现在：一是安全部署，数据可在本地进行处理；二是易于设置，将所有软件置于容器中，提供一站式解决方案；三是易扩展，可灵活配置不同数量的显卡；四是在成本效益上具有显著优势。Project Battlematrix推理工作站最多可支持八块英特尔锐炫Pro B60 24GB GPU，提供高达192GB的VRAM，运行高达1500亿参数的中等规模且精度高的AI模型。

英特尔采用容器化方案来帮助客户解决软件部署的复杂性问题。在容器内部，对大语言模型进行了大量的优化，包括Linux软件栈的支持、验证以及分阶段的软件发布。基于全新的推理优化软件栈，Project Battlematrix还能够简化英特尔锐炫Pro B系列GPU的部署，加速英特尔GPU和AI战略的落实。

全新的软件栈在设计时充分考虑了易用性和行业标准，是专为Linux环境构建的容器化解决方案。经过优化，该方案能够借助多GPU扩展和PCIe P2P数据传输，带来卓越的推理性能。与此同时，该方案还具备企业级的可靠性和可管理性，如ECC、SRIOV、遥测和远程固件更新等。

LLM Scaler容器1.0版本对于前期客户支持至关重要，我们进行了以下更新：

vLLM：

针对长输入长度（>4K）的TPOP性能优化：在32B KPI模型上，40K序列长度的性能提升高达1.8倍；在70B KPI模型上，40K序列长度的性能提升高达4.2倍

与上一版本相比，8B-32B KPI模型的输出吞吐量性能优化约10%

逐层在线量化，减少所需的GPU内存

支持vLLM中的PP（流水线并行）（实验性）

支持torch.compile（实验性）

推测解码（实验性）

支持嵌入和重排序模型

增强的多模态模型支持

最大长度自动检测

数据并行支持

OneCCL基准测试工具支持

XPU Manager：

GPU功耗

GPU固件更新

GPU诊断

GPU内存带宽

此版本将按照5月初发布时公开的时间表顺利交付，并计划在第三季度末发布功能更全面的强化版LLM Scaler，同时积极争取在第四季度发布完整版本。

(10304967)

本文分类：实时讯息
本文标签：英特尔模型容器实验性工作站性能长度软件
浏览次数：0 次浏览
发布日期：2025-08-14 11:51:00
本文链接：https://m.rxwz.net/news/AKXvYWdlpq.html

上一篇 > 赣州旅投成功发行5亿元人民币境外债券！

栏目导航

英特尔发布Project Battlematrix（战斗阵列）推理工作站软件更新