趋境科技与清华共同开源的高性能异构推理框架KTransformers,其论文《KTransformers:Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》近日顺利入选 “规画机系统帅域奥斯卡”SOSP 2025。这符号着其异构规画本领获得公共顶尖学术与工业界的认同。

KTransformers专注于高效期骗底层GPU、CPU、内存等各种化算力,让大模子在更低算力、更天果然硬件架构上高效启动。在大模子推理中,趋境科技建议了一条不同以往的说念路:一套面向CPU+GPU异构架构的MoE推理系统决策,让原来只可依赖豪迈多卡GPU的大模子,能在CPU参与的硬件环境中已矣接近同等性能的推理体验。本领层面上,它通过一系列系统级翻新,让GPU讲求瞩眼光和骨干网罗的高并行规画,CPU则承担稀少民众模块的推理任务,已矣了高效的CPU+GPU协同推行。
11月6日,月之暗面发布Kimi-K2-Thinking模子后,KTransformers已完成对该模子的全面适配,救助用户在单卡环境下完成推理任务。同期,趋境科技也已完成了该模子在昇腾NPU上的全面适配,提供了完善的世界产化推交融决决策。
针对模子微调,KTransformers与LLaMA-Factory深度集成,救助用户使用LoRA等轻量级微调范例,在极一丝GPU资源下完成模子定制。传统上,LoRA微调千亿模子资本高达数百万,趋境科技提供的异构微调才气将资源需求裁汰到单个耗尽级GPU(如RTX 4090)起,这使得高校、中袖珍实验室、初创公司甚而个东说念主建设者王人有契机参与进来。该微调决策在较小领域的MoE模子(DeepSeek-14B)上头也展现了向上传统决策1.8倍的婉曲、显存占用裁汰 82%,成为耗尽级显卡上微调超大参数MoE模子的唯独可行决策。
KTransformers已成为一个被建设者、厂商与开源社区平方复用的共建式底层框架。公共头部开源模子方面,如Qwen、Kimi、智谱AI等多个主流大模子,王人在模子发布首日就保举KTransformers动作推理引擎救助;其工程推行与兼容性也被多家一体机产物线取舍。趋境科技是异构道路的中枢推动者,已与多个国产CPU、GPU硬件平台伙同,共同鼓吹世界产高性价比决策;为数十家行业建设伙伴提供算力底座,缓缓已矣算力普惠。趋境但愿。让AI才气不再专属于少数企业,让大模子信得过为业务所用。
南边+记者 郜小平