역시 엔비디아 ‘블랙웰 울트라’?...벤치마크 전 부문 ‘최고 성능’
‘MLPerf’ AI 학습 벤치마크 7개 모델 학습 부문, ‘싹쓸이’ 블랙웰 울트라 기반 GB300 NVL72 플랫폼, 최고의 AI 학습 성능
[중소기업투데이 이상영 기자] 엔비디아 ‘블랙웰(GPU 플랫폼) 울트라’가 최근 또 다시 권위있는 ‘MLPerf’ AI 학습 벤치마크 7개 부문을 싹쓸이해 위세를 다시금 발휘하고 있다. 해당 벤치마크 테스트는 지난 2018년부터 지속된 것이다. 매년 엔비디아가 우승한 경우가 많은데, 올해에는 특히 모든 ‘학습’ 부문 테스트에서 우승, 눈길을 끌고 있다.
이번 엔비디아 블랙웰을 적용한 테스트 모델은 모두 7개다. 메타의 오픈웨이트(무료 공개) 모델 라마 3.1(Llama 3.1 405B)을 비롯, Llama 2 70B LoRA, Llama 3.1 8B, Black Forest Labs의 FLUX.1, DLRM-dcnv2, R-GAT, RetinaNet 등이다.
그 중 블랙웰 울트라를 이용한 ‘Llama 3.1 405B’의 학습과정은 최고 기록인 10분만에 끝났다. Llama 2 70B LoRA에선 불과 40초, Llama 3.1 8B에선 5분 20초만에 학습을 완료했다. FLUX.1은 12분 30초, DLRM-dcnv2에서 42초, R-GAT는 1분 6초, RetinaNet에선 1번 24초만에 끝났다. 모든 모델에서 최고 기록을 경신한 것이다.
‘MLPerf’는 국제적으로 널리 사용되는 AI 사용 사례 전반에서 표준화되고 입증된 AI 성능 측정 기준이다. 이번 테스트에선 엔비디아가 모든 MLPerf 학습 테스트에서 우승을 차지했다. 특히 블랙웰 울트라 기반 GB300 NVL72 플랫폼은 최고의 AI 학습 성능을 다시금 과시했다는게 엔비디아의 설명이다.
엔비디아 GPU는 최고의 AI 성능을 과시하며, 글로벌 업계 선두를 지켜왔다. 이번 MLPerf 테스트에선 특히 최신의 GB300 NVL72 랙 스케일 시스템이 여전히 집약적인 AI 워크로드에 가장 적합한 선택임을 입증했다는 평가다.
엔비디아는 보도자료와 블로그 게시물 등을 통해 “모든 MLPerf 테스트를 신청한 유일한 기업으로서, (AMD, 인텔 등) 경쟁사와의 성능 격차를 더욱 벌리는 계기가 되었다”주장했다. 이미 엔비디아의 GB200 및 GB300 플랫폼은 2025년 들어서 MLPerf 학습 추론 부문 벤치마크에서 줄곧 우승을 차지하곤 했다. 이번에도 예외없이 최고의 성능임을 과시했다.
엔비디아는 새삼 2018년부터 2025년까지 MLPerf 학습 및 추론 성과를 비교한 차트를 공개했다. 이는 엔비디아 GPU는 구글 TPU(텐서 플로우 유닛) 등을 앞지르고 있음을 보여주면서, 벤치마크 모델과 학습 시간도 함께 표시하고 있다.
벤치마크 결과에 따르면 NVIDIA는 (자사의 구 버전인) 호퍼(Hopper) 기반 GPU와 동일한 수의 블랙웰 울트라 GPU를 랙 시스템에 사용했을 때 훨씬 더 우수한 결과를 달성했다.
메타의 오픈웨이트(대중적 공개) 모델인 라마3(Llama 3.1 40B) AI 사전 학습에 엔비디아 GPU를 적용했을 때가 대표적이다. GB300 GPU는 (구형) H100보다 4배 이상, 블랙웰 GB200보다는 거의 2배의 성능을 과시했다. 마찬가지로 라마2(Llama 2 70B) AI모델의 미세 조정 과정에선 8개의 GB300 GPU가 H100보다 5배의 성능을 과시했다.
‘학습 성능’이라는 제목의 비교 차트를 보면, 엔비디아 H100 v5.0(5세대)를 기준으로 GB200 v5.0이 약 2배, GB300 v5.1이 4배 이상의 성능을 보였다. 특히 GB300 v5.1은 다양한 AI 작업에서 약 5배의 성능에 달한 것으로 나타났다.
엔비디아는 또한 경쟁사보다 큰 영향력을 가진 (AI 개발 도구) CUDA(쿠다) 생태계를 자랑하고 있다. 그 중 “‘쿠다’ 소프트웨어 스택이 탁월하지만, 랙 시스템과 800GB/s 네트워킹을 지원하는 ‘퀀텀-X800(Quantum-X800) InfiniBand’ 도구 역시 타의 추종을 불허한다”고 자랑한다.
합니다. GB300 NVL72는 GPU당 279GB HBM3e 메모리 용량을 제공한다. GPU와 CPU 메모리를 합치면 전체 용량은 무려 40TB(테라바이트)에 달한다. 이런 엄청난 메모리 구성은 AI 워크로드 속도를 크게 높여준다. 그 뿐 아니라, 적은 메모리로도 정확한 학습 성능을 유지할 수 있는 FP4(4비트 부동 소수점 방식의 데이터 형식) 정밀도를 학습에 활용하는 성능 또한 탁월하다.
MLPerf의 ‘라마 3.1(Llama 3.1) 405B’에 대한 테스트에선 블랙웰 GPU가 지난 6월에 비해 11월에는 전체적으로 최대 2.7배 향상된 성능에 도달했음을 확인케했다.
엔비디아는 모든 블랙웰 계층에서 LLM 학습에 FP4 정밀도를 도입, (엄청난 메모리 학습 과정에서) FP8에 비해 계산 속도를 2배 이상 높였다고 밝혔다. 특히 블랙웰 울트라는 이 성능을 3배까지 향상시켰다. 치열한 추격전을 벌이고 있는 AMD나 인텔, 퀄컴 등을 압도하며, GPU 수를 늘리지 않고도 획기적으로 뛰어난 성능을 제공할 수 있었던 이유다.
지난 6월의 벤치마크와 비교했을 때, 이번 테스트는 5,120개의 블랙웰 GPU를 사용한 것이다. 한 마디로 ‘라마 3.1 405B’ 매개변수를 학습하는 데 단 10분밖에 걸리지 않을 정도로 엄청난 기술 향상을 이룬 셈이다.