博客
选 CPU 看核心数量还是时钟速度?
在配置系统时,CPU 或计算机的大脑是首要任务。对于 AMD Ryzen 和 Intel Core,产品堆栈很容易理解:处理器越好,内核和时钟速度就越高。但是,使用工作站(AMD Threadripper 和 Intel Xeon W)和服务器处理器(Intel Xeon Scalable 和 AMD EPYC),产品堆栈很长,令人困惑。核心数量、时钟速度和功能旨在适应特定的目标工作负载。
核心数量和时钟速度对于确定目标应用程序的性能和效率至关重要。了解核心数量和时钟速度的优缺点和权衡对于确定所需的系统至关重要,以实现最佳的计算性能。
我们将探讨核心计数、时钟速度以及下一个工作负载的优先级等细节。这些建议是通用的,特定软件的功能可能与下一个不同。
核心计数-加速单个任务
核心计数是 CPU 中的处理单元或核心的数量。每个核心独立执行指令以进行并行处理,其中多条指令同时执行。
CPU 拥有的内核越多,它可以同时处理的任务就越多,这对 HPC 应用程序至关重要,这些应用程序可以分为数据分析和云虚拟化等小任务。然而,单线程和顺序工作负载(依赖于之前的计算步骤)无法通过额外的内核来加速。
时钟速度-按任务加速
时钟速度对于严重依赖顺序单线程任务的应用程序很重要,在这些应用程序中,工作负载无法有效地划分为并行进程。
时钟速度以千兆赫(GHz)为单位,表示 CPU 核心执行指令的频率。它表示一个核心在给定时间内可以处理多少条指令。更高的时钟速度可以更快地执行指令,从而加快计算速度。
某些 HPC 应用程序,如使用单线程代码的模拟或数学计算,不容易并行化。在这些情况下,时钟速度变得至关重要,因为它直接影响完成每项任务所需的时间。更高的时钟速度可以更快地执行单个指令,从而更快地完成单线程工作负载。
制造市场上最密集的 CPU 的趋势已成为制造商的目标。近年来,AMD 发布了其最新的96核 EPYC 9654 CPU 和128核 AMD EPYC 9454,这是当今最密集的 x86 处理器。更多的内核允许并行处理,其中任务可以在内核之间分配并同时执行。
更多并不总是更好
然而,并非在每个用例中都有更多的内核更好。128核 AMD EPYC 9495 的基本时钟低于平均值 2.25GHz。但它不是为每核速度而设计的;它考虑了云原生和虚拟化工作负载以及数据中心密度。
云提供商为轻云工作负载分发核心组,如获取数据、web 应用程序、托管和微服务,这些工作负载的计算量不大。在微服务工作负载中,更多的组意味着完成了更多的工作。如果工作负载需要像视频渲染这样计算量更大的任务,这些低时钟速度的内核将难以跟上,从而留下宝贵的时间。
为了在任何工作负载中实现最佳性能,请平衡内核数量和时钟速度,并确定满足需求的理想配置。视频渲染中需要平衡的方法;选择具有中等到高内核数量和相对较高时钟速度的处理器。我们将介绍每种工作负载的一般推荐 CPU。
一些应用程序还按每个核心对其许可模式进行定价;对于 Ansys 来说,启用更多内核需要购买额外的许可包。选择时钟速度最高的处理器,以保持竞争领先地位,同时将成本降至最低。
GPU 本机工作负载
半岛.综合体育入口为任何工作负载中心构建数据中心和企业工作站以及解决方案,但我们的主要业务是 GPU 加速计算。NVIDIA 率先在游戏中使用 GPU 的并行计算能力,并将其应用于模拟和深度学习等高性能计算工作负载。如果不使用 GPU 并行计算,人工智能、药物发现和工程模拟的进步是不可能的。
CPU 为计算复杂任务而设计的内核有限,而 GPU 则严格负责数学计算。当应用程序是 GPU 原生时,所有计算都会卸载到 GPU,CPU 内核会保持空闲,直到它接收和导出数据点。只有高时钟速度才能加快这些数据点的检索速度。用于分子动力学的 AMBER、用于 CFD 模拟的 Ansys Fluent 和训练 AI 等应用程序都主要使用 GPU 计算,对 CPU 功率的依赖程度较低。更快、更少内核的 CPU 最适合工作负载。
然而,一些工作负载是 GPU 加速的(与本机相反),在工作负载的某些进程中利用 GPU,同时仍然依赖 CPU 进行大部分计算。这包括有限元分析或数据分析等工作负载,两者都需要处理数据、运行计算并顺序分析所有数据。
半岛.综合体育入口与数千名客户合作的过程中,遇到了大量的工作负载需求。这就是为什么我们提供定制的可配置解决方案,以提高生产力,激发创造力,并推动任何类型计算的创新。我们的销售工程师将帮助您根据工作负载配置合适的系统。
某些应用程序和工作负载受益于高时钟速度和充足的内核数量。假设您的系统配备了 GPU,以下是关于 CPU 优先级的建议。
CPU 建议 | 高时钟速度 | 均衡型 | 高磁心数 |
---|---|---|---|
AMD Threadripper | 7965WX 24 Cores | 4.2GHz |
7985WX 64 Cores | 3.2GHz |
7995WX 96 Cores | 2.5GHz |
AMD EPYC | 9274F 24 Cores | 4.1GHz |
9474F 48 Cores | 3.6GHz |
9654 96 Core | 2.4GHz |
Intel Xeon W | W5-3425X 12 Cores | 3.20GHz |
W9-3475X 36 Cores | 2.2GHz |
W9-3495X 56 Core | 1.9GHz |
Intel Xeon Scalable | Gold 6444Y 16 Cores | 3.6GHz |
Platinum 8558P 48 Cores | 2.7GHz |
Platinum 8592V 64 Cores | 2.0GHz |
分子动力学和低温电磁 CPU
如果你是 GPU 加速的,那么在 CPU 中优先考虑更高的时钟速度。在内核和时钟速度之间取得平衡可以获得最佳结果。如果您的应用程序是完全 GPU 原生的,如 AMBER 或 GROMACS,那么每个 GPU 2或4个 CPU 内核就足够了。
如果你的工作负载像 Cryo EM 一样是 GPU 加速的,那么选择一个内核和时钟速度平衡的处理器。以下是 MD 和 Cryo-EM 的一些推荐 CPU。选择平衡或高时钟。
FEA 工程仿真 CPU
在有限元分析机械变形模拟中,由于 GPU 的顺序性,GPU 没有被用作计算模拟的主要加速器。CPU 占据了大部分工作负载。因此,平衡的核心数量和高时钟速度最适合这项任务。虽然更多的内核可以加速工作负载,但应优先考虑快速内核,因为 CPU 的数量可以随着工作负载的增加而减少。选择平衡型或高核心型。
CFD 工程模拟 CPU
在计算流体动力学中,有 CPU 求解器和 GPU 求解器,后者的性能要高得多。GPU 可以将模拟速度提高10倍以上,单个 GPU 的性能相当于100个 CPU 内核。使用 GPU 运行 CFD 模拟时,应优先考虑时钟速度更高的 CPU。保留在此系统上执行的其他工作负载,因为您可能需要一个平衡的 CPU 来处理其他不太使用 GPU 的模拟工作负载。
用于人工智能训练和推理的 CPU
优先考虑核心数量,即使更多的核心对于加速人工智能训练并不重要。例如,如果数据被拉到其他地方以覆盖数据处理开销,则具有8个 GPU 的服务器可以有32个内核甚至更多。适当的时钟速度仍然有助于提高数据处理的速度。
人工智能训练可以是分布式的,并且可以高度并行化。因此,更多的 CPU 核意味着服务器可以同时处理更多的任务。更多同时执行的任务允许更大的可扩展性和更大模型的训练。选择高核心。
用于视频和 3D 渲染的 CPU
我们优先考虑时钟速度,同时仍然拥有充足的内核。如果你有太多的内核和较低的时钟,你的实时查看会卡顿,速度会比预期的慢。更高的时钟将提高编辑软件的响应速度,并加快实时预览。额外的核心将有助于导出、编码和渲染。选择平衡或高核心。
用于 HPC 云服务和虚拟化的 CPU
集群中可用的内核越多,可以作为独立服务运行的实例就越多。如果虚拟化客户端部署用于密集的工作负载,则应考虑时钟速度。然而,最大化核心可以启动更多的云实例和虚拟化 web 应用程序。选择 AMD EPYC 和 Intel Xeon Scalable 等服务器处理器,实现全天候运行,并选择高核心。
重要的是要考虑到,时钟速度和核心数量之间的理想平衡可能会因具体的工作负载和软件优化而异。不同的应用程序有不同的要求,评估工作负载特性以确定最佳配置至关重要。这些处理器是帮助您朝着正确方向前进的建议,并引导您为工作负载选择合适的处理器。
您可以自己检查基准测试、阅读文档、与应用程序用户交谈,当然,还可以咨询像我们半岛.综合体育入口团队这样的专业人士,更节约时间精力。在半岛.综合体育入口,我们的团队不仅能解决各种工作负载需求,而且我们可以推荐更适合您的系统,使其以最佳和更优化的方式运行工作负载。
相关贴子
-
技术分享
为何最新的大型语言模型(LLM)倾向于采用 MoE(Mixture of Experts, MoE)架构作为其设计核心?
2024.09.06 41分钟阅读 -
技术分享
AlphaFold 更新显著提高了对接、核酸和 PTMS 的准确性
2024.04.12 14分钟阅读 -
技术分享
如何安装 ColabFold 并在本地运行 AI 蛋白质折叠
2024.04.28 31分钟阅读