Benchmark DeepSeek V3 com NVIDIA H200: por que essa GPU redefine a inferência em larga escala?

COMPARTILHE

Publicado em 23 de abril de 2025

A imagem atual não possui texto alternativo. O nome do arquivo é: CAPA-BLOG-SITE-OPEN-4.png

A chegada da NVIDIA H200 trouxe avanços não apenas em memória e largura de banda, mas também em viabilidade prática para rodar modelos massivos em menos nós. No mais recente estudo da DataCrunch, a GPU foi posta à prova com o modelo DeepSeek V3, um dos LLMs mais exigentes em recursos de inferência atualmente.

Neste artigo, destrinchamos os resultados desse benchmark e explicamos como a H200 se posiciona frente à H100 na hora de servir grandes modelos como o DeepSeek V3 — e por que isso importa para quem roda IA em produção.

O DeepSeek V3 é um modelo LLM de código aberto com 671 bilhões de parâmetros (MoE – Mixture of Experts), com 37 bilhões ativos por forward pass. Ele é referência em eficiência de inferência e capacidade linguística. Com destaque para os diferenciais:

  • Arquitetura MoE com roteamento eficiente de especialistas
  • Uso de Multi-head Latent Attention (MLA), evolução da atenção tradicional
  • Suporte completo a FP8 nativo durante treinamento (sem necessidade de pós-quantização)
  • Estratégia de treinamento com Multi-token Prediction (MTP), que acelera o decodificador autorregressivo

Embora as duas GPUs compartilhem a arquitetura Hopper e o mesmo poder computacional (mesmo número de CUDA e Tensor Cores), os diferenciais da H200 estão em capacidade e throughput de memória:

EspecificaçãoNVIDIA H100NVIDIA H200
Memória80 GB HBM3141 GB HBM3e
Largura de banda3,35 TB/s4,8 TB/s
Performance FP83.958 TFLOPS3.958 TFLOPS
Performance FP16/BF161.979 TFLOPS1.979 TFLOPS
TDPAté 700WAté 700W

Essa diferença permite à H200 executar modelos que simplesmente não cabem na H100, mesmo com quantização FP8.

Durante a inferência de modelos como o DeepSeek V3 ou Llama 405B, dois fatores determinam a viabilidade de execução:

  • A capacidade total de memória GPU, que precisa comportar não só os pesos do modelo, mas os caches (KV) usados em decodificação autorregressiva.
  • A largura de banda da memória, que limita a taxa de tokens por segundo (TPS), especialmente em batch sizes altos

No teste com o DeepSeek V3, o modelo foi executado com sucesso em 8x H200 (single-node) com BF16 sem necessidade de distribuir entre múltiplos nós, o que não é possível com 8x H100, nem mesmo em FP8.

  • Precision: BF16 e FP8
  • Tokens por segundo (TPS): superior à H100 graças à banda de 4,8 TB/s
  • Latência de primeiro token (TTFT): semelhante à H100 (compute-bound)
  • KV Cache Management: mais eficiente graças à maior memória disponível
  • Mesmo com duplicação do cluster, o ganho de performance em TPS é proporcional e o overhead de intercomunicação é minimizado
  • FP8 entrega maior throughput que BF16, especialmente com otimizadores como FusedMoE

O DeepSeek V3 é um dos primeiros LLMs open source treinados diretamente em FP8 (E4M3), sem precisar quantizar após o treinamento. Isso:

  • Aumenta o rendimento de inferência
  • Reduz custo operacional
  • Mantém qualidade de resposta próxima ao BF16

A H200 é otimizada para essa precisão — e os benchmarks mostram que o ganho de performance em FP8 é replicável com H200 como já era na H100.

  • A H200 é a melhor opção atual para servir LLMs com +400B parâmetros sem distribuição entre nós
  • Seu aumento de memória e banda de memória resolve gargalos reais de produção
  • Ela entrega vantagem competitiva em velocidade, custo por token e latência — principalmente com modelos MoE

Na OPEN DATACENTER, oferecemos ambientes otimizados com GPUs H100 e H200, com infraestrutura sob demanda para projetos de inferência, fine-tuning e clusters de LLMs em produção.

Quer testar o desempenho da H200 com seu modelo? Fale com nosso time e agende um benchmark real com sua aplicação.