三、DeepSeek-R1模型测试:iGPU算力也可流畅运行本地部署的14B模型
Ollama是一个开源的大语言部署服务工具,只需iGPU即可部署大模型。
我们这次测试就是基于Ollama框架,在本地部署DeepSeek-R1的蒸馏版模型,测试使用iGPU的运行效率。
Ollama作为一个开源软件,功能依赖全球开发者的共同维护,自然也会有一些特别的分支。
我们此次测试,专门找来了针对 intel 推理框架和AMD ROCm推理框架分别优化过的Ollama版本,更能体现Intel和AMD硬件在各自最佳环境下的运行效率。
(左侧为Intel酷睿Ultra 9 285H运行截图,右侧为AMD锐龙AI 9 HX370运行截图)
为了避免图形UI造成的延迟和对性能的影响,我们直接在命令行中同DeepSeek-R1:14B模型进行对话,我们准备了4个问题,分别是:
你是谁?
最简单的问题,用来检查DeepSeek大模型是否正确工作。
模仿李白的风格,写一首七律·登月。
简单的文字写作能力。
一亿之内最大的质数是多少?
数学能力其实不是DeepSeek这种推理模型的长处,但也可以测试一下。
帮我写一份5月份前往南疆的旅行攻略。
对DeepSeek的语义理解/推理能力和文字写作能力进行测试。
同样我们对DeepSeek-R1大模型另外两个更小规模的蒸馏版本7B和1.5B,也都进行了测试,测试成绩汇总如下:
模型规模越小,执行速度越快,但相对的AI智力下降也非常明显,经常会出现无法回答或者先入死循环的状态。
14B规模的模型的反应速度和回答准确率表现都比较优秀,在测试平台上运行效果非常好(但数学问题的回答准确度还是不太行)。
从测试结果上来看,Intel酷睿Ultra 9 285H在针对Intel优化过的Ollama上的每秒token输出更高一些,在14B和7B规模模型中,对比AMD锐龙AI 9 HX370都有40%左右的领先,而在1.5B规模模型中,双方性能表现都很强,但Intel平台仍有5%左右的优势。
当然这个测试也并不能代表Intel处理器在AI性能上就一定比AMD处理器强很多,每秒输出的Token数也不是决定AI性能表现的唯一评价维度,但至少从实际测试的结果上来看,针对Intel 优化过的框架确实拥有更好的支持,让Intel处理器的性能表现更强。