Análise Comparativa: PCIe vs. SXM5 em GPUs NVIDIA H100 Tensor Core

COMPARTILHE

Publicado em 09 de dezembro de 2024

PCIe (Peripheral Component Interconnect Express) é um padrão de interface de alta velocidade usado para conectar vários componentes de hardware à placa-mãe de um computador. PCI foi desenvolvido originalmente pela Intel e introduzido em 1992. PCIe (onde “e” significa express) foi lançado em 2003. 

O PCIe opera usando lanes, que são pares de fios que transferem dados entre a placa-mãe e o dispositivo periférico. Cada slot PCIe pode ter múltiplas lanes (x1, x4, x8, x16, etc.), com x16 sendo o mais comum para GPUs, fornecendo a maior largura de banda. 

SXM é um fator de forma de soquete personalizado projetado pela NVIDIA especificamente para computação de alto desempenho e cargas de trabalho intensas de aprendizado de máquina. Originalmente introduzido com as GPUs P100 em 2016, ele oferece maior densidade e desempenho ao integrar as GPUs mais de perto com a placa do sistema. 

SXM significa Server PCI Express Module. Ele foi projetado para funcionar com as interconexões NVLink da NVIDIA para comunicação direta de GPU para GPU com maior largura de banda, até 900 GB/s por conexão. Até 8 GPUs podem ser conectadas a uma única placa SXM. 

A versão PCIe do H100 foi projetada para encaixar em racks de servidores padrão, tornando-a uma opção versátil para muitos data centers. É uma placa de comprimento total, altura total e largura dupla que você pode integrar facilmente à infraestrutura existente. 

Um dos recursos de destaque do H100 PCIe é seu suporte ao PCIe Gen 5. Este padrão mais recente oferece largura de banda significativamente melhorada em relação às gerações anteriores de GPUs, como a A100 ou V100, permitindo velocidades de transferência de até 120 GB/s entre a GPU e o restante do sistema. 

Muitos dos elementos do fator de forma PCIe H100 são idênticos ao SXM, incluindo 80 bilhões de transistores, 50 MB L2 Cache e 80 GB de memória GPU. A versão PCIe do H100 vem com interface de memória HBM2e e tem uma largura de banda de memória menor de 2 TB/s e 300-350 Thermal Design Power. 

O módulo SXM5 é projetado para ser integrado diretamente em placas de servidor especializadas. Com uma interface de memória HBM3 de 5120 bits, o H100 SXM5 é capaz de até 3,35 TB/s de largura de banda de memória. 

Ele suporta a tecnologia NVLink de quarta geração da NVIDIA, permitindo uma largura de banda de interconexão GPU-para-GPU de 900 GB/s. Quando combinado com o NVSwitch de terceira geração, você pode criar sistemas multi-GPU incrivelmente poderosos que alavancam um TDP máximo de 700 W. 

As especificações de desempenho de pico do SXM5 não são substancialmente melhores do que as do PCIe. A principal diferença vem quando você aproveita a tecnologia NVLink e a interconexão de 900 GB/s para permitir que até 8 GPUs H100 SXM funcionem efetivamente como uma GPU massiva.  

Para treinamento de modelo de linguagem grande, onde mais de uma GPU será provavelmente usada, a versão SXM5 tem desempenho consideravelmente melhor do que a PCIe. Em cargas de trabalho com uso intensivo de memória, como treinamento de modelo de IA, a largura de banda de memória de 3,35 TB/s do SXM5 também resulta em velocidades de treinamento muito mais rápidas.  

A versão SXM5 do H100 é ideal para computação de alto desempenho (HPC) e cargas de trabalho de treinamento de IA em larga escala que exigem o pico absoluto de desempenho da GPU. Ela prospera em dimensionamento computacional multi-GPU e comunicações inter-GPU de alta largura de banda. 

Para aplicações HPC, o desempenho superior do SXM5 em tarefas como QCD de rede e FFT 3D o torna a melhor escolha. A capacidade de alavancar o NVLink para comunicação rápida de GPU para GPU pode acelerar significativamente cálculos científicos complexos que exigem troca frequente de dados entre GPUs. 

Em treinamento de IA e casos de uso relacionados a inferência, o SXM5 é muito mais poderoso ao treinar modelos de IA massivos, particularmente em processamento de linguagem natural. Por exemplo, ao trabalhar com modelos de linguagem muito grandes, os recursos aprimorados de dimensionamento multi-GPU do SXM5 podem reduzir drasticamente os tempos de treinamento.  

O SXM5 também é bem adequado para aplicações de IA que exigem o processamento de enormes conjuntos de dados ou o manuseio de múltiplas tarefas de IA simultaneamente. Sua maior largura de banda de memória e melhor dimensionamento o tornam ideal para essas cargas de trabalho computacionalmente complexas e intensivas em dados. 

A OPEN usa exclusivamente a tecnologia SXM nas séries de GPU A100 e H100.

A versão PCIe do H100, embora ainda extremamente poderosa, é mais adequada para cenários de implantação mais flexíveis e diversos. É uma excelente escolha para organizações que precisam atualizar sua infraestrutura existente sem uma revisão completa de sua arquitetura de servidor. 

Para cargas de trabalho de inferência de IA, particularmente aquelas que não exigem comunicação multi-GPU extensiva, a versão PCIe pode oferecer equilíbrio entre desempenho e custo-benefício. Ela é bem adequada para implantar modelos de IA de produção em cenários como sistemas de recomendação, compreensão de linguagem natural ou aplicativos de visão computacional onde o desempenho de GPU única é bom o suficiente. 

O fator de forma PCIe também pode ser adequado para tarefas de treinamento de IA de menor escala ou para organizações que precisam distribuir seus recursos de computação em vários locais. Por exemplo, é uma boa opção para cenários de computação de ponta em que uma computação de GPU poderosa é necessária mais perto da fonte de dados, como em plantas de fabricação inteligentes ou instalações de teste de veículos autônomos. 

RecursoH100 PCIeH100 SXM5
Fator de formaPCIe geração 5SXM5
Largura de banda de memória2 TB/s3,35 TB/s
Cache L250 MB50 MB
Transistores80 bilhões80 bilhões
Memória GPU80 GB80 GB
Interface de memóriaHBM2e de 5120 bitsHBM3 de 5120 bits
InterconexãoNVLink: 600 GB/s
PCIe Gen5 128 GB/s
NVLink: 900 GB/s
PCIe Gen5 128 GB/s
Potência máxima de projeto térmico (TDP)300-350 WAté 700 W

EspecificaçãoNVIDIA H100 PCIeNVIDIA H100 SXM5
Pico FP6424 TFLOPs30 TFLOP
Núcleo tensor Peak FP6448 TFLOPs60 TFLOP
Pico FP3248 TFLOPs60 TFLOP
Pico FP1696 TFLOPs120 TFLOP
Pico BF1696 TFLOPs120 TFLOP
Núcleo tensor Peak TF32400 TFLOPS | 800 TFLOPS*500 TFLOPS | 1000 TFLOPS*
Núcleo tensor Peak FP16800 TFLOPS | 1600 TFLOPS*1000 TFLOPS | 2000 TFLOPS*
Núcleo tensor Peak BF16800 TFLOPS | 1600 TFLOPS*1000 TFLOPS | 2000 TFLOPS*
Núcleo tensor Peak FP81600 TFLOPS | 3200 TFLOPS*2000 TFLOPS | 4000 TFLOPS*
Núcleo tensor INT8 de pico1600 TOPS | 3200 TOPS*2000 TOPS | 4000 TOPS*

A demanda por GPUs de alto desempenho está em alta. Parece que todos, desde empresas corporativas a hiperescaladores e novas startups de IA, estão buscando as mesmas GPUs para alimentar suas necessidades computacionais. Como resposta, a NVIDIA trouxe ao mercado os formatos PCIe e SXM do H100. 

Ao dar mais flexibilidade a diferentes casos de uso, a NVIDIA tornou a H100 a GPU de melhor desempenho em muitos casos de uso, incluindo computação de alto desempenho (HPC) e treinamento e inferência de IA. 

Em última análise, a escolha entre SXM5 e PCIe depende de suas necessidades de desempenho, infraestrutura, requisitos de escalabilidade e orçamento. O SXM5 oferece desempenho superior para as cargas de trabalho mais exigentes, enquanto o PCIe fornece uma opção mais flexível e amplamente compatível que ainda oferece desempenho impressionante em uma ampla gama de aplicativos de IA e HPC. 

Vamos terminar com algumas boas notícias. A disponibilidade das GPUs Tensor Core da NVIDIA, como a A100 e a H100, está melhorando em plataformas de GPU de nuvem premium. Você não precisa fazer um investimento massivo em infraestrutura para testar a capacidade de uma ou mais H100 para suas necessidades. Conheça as soluções da OPEN DATACENTER para o seu negócio.