fbpx 메인으로 이동

NVIDIA Bluefield DPU의 AI 워크로드 최적화 전략

NVIDIA BlueField DPU는 AI 시대의 데이터 센터 혁신을 주도하는 핵심 기술로 자리잡고 있습니다. 성능, 효율성, 보안 측면에서 클라우드 서비스 제공 업체부터 엔터프라이즈 고객까지, 많은 고객들에게 다양한 가치를 제공하고 있죠.

AI 기술이 빠르게 발전하면서, 데이터 센터에 대한 요구사항도 크게 변화하고 있습니다. AI 워크로드를 최적화하기 위해서는 대규모 비정형 데이터 처리부터 초고속 데이터 접근, 강력한 데이터 보안 등의 과제가 아직 많이 남아있죠.

이 글에서는 VAST Data Platform이 NVIDIA BlueField DPU를 활용하여 데이터 플랫폼 혁신에 성공한 사례를 분석해 보겠습니다. NVIDIA BlueField DPU의 자세한 정의와 장점, 성능이 궁금하신 분들은 <NVIDIA BlueField란 무엇인가요?>를 참고해 주세요.

 

 

NVIDIA BlueField DPU × Vast Data Platform

Vast Platform이란?

VAST Platform은 데이터 집약적인 컴퓨팅과 AI 애플리케이션을 위해 설계된 종합 소프트웨어 인프라입니다.

비정형 및 정형 데이터 관리와 실시간 심층 데이터 분석 및 딥 러닝을 지원하며, 온프레미스, 퍼블릭 클라우드, 엣지 컴퓨팅 등 다양한 환경에 배포할 수 있습니다.

구독 기반 서비스로 제공하며, 주로 클라우드 서비스 제공업체를 위해 설계된 소프트웨어 인프라입니다.

 

기존 아키텍처의 한계를 극복하다

VAST Platform의 기존 아키텍처는 x86 서버인 CNode(Compute Node)가 스토리지 프로토콜과 관리 서비스를 실행하고 있었습니다. 이 구조는 스토리지 작업이 CPU에 과도한 부하를 주기 때문에, 애플리케이션 성능이 떨어질 수밖에 없다는 문제점이 있었죠.

또한 기존 네트워크 인프라로는 AI 워크로드가 요구하는 대역폭을 충족시킬 수 없었습니다. 데이터 암호화, 패킷 검사 등의 보안 작업이 CPU 리소스를 추가로 소모하는 것도 큰 문제였죠. 만약 트래픽이 증가한다면 CNode를 선형적으로 확장해야 하기 때문에, 비용 효율성도 떨어졌습니다.

이에 따라 VAST Data Platform은 NVIDIA BlueField DPU를 도입하고, 이러한 한계를 극복하여 새로운 차원의 성능 향상을 달성하고자 했습니다.

 

NVIDIA BlueField DPU 도입으로 인한 아키텍처 변화 요약

NVIDIA BlueField DPU 도입으로 인한 아키텍처 변화
(출처: Spotlight: NVIDIA BlueField DPUs Power the VAST Data Platform for AI Workload Optimization)

 

VAST Data Platform은 NVIDIA BlueField DPU 도입을 통해, 근본적인 아키텍처 혁신에 성공할 수 있었습니다.

  • 스토리지 작업이 CPU에서 DPU로 완전히 오프로딩되었습니다. BlueField-3 DPU는 초당 최대 1,600억 개의 패킷을 처리할 수 있어, 스토리지 I/O 처리 능력이 대폭 향상되었습니다.
  • BlueField-3 DPU는 400GbE 연결을 지원하여 네트워크 대역폭을 크게 확장했습니다. 이는 AI 워크로드의 대규모 데이터 전송 요구를 충족시킵니다.
  • 암호화, 딥 패킷 검사 등의 보안 작업이 DPU에서 처리되어 CPU 부하가 크게 감소했습니다. 이는 전체 시스템 성능 향상으로 이어졌습니다.
  • DPU가 스토리지 작업을 효율적으로 처리함에 따라 필요한 CNode의 수가 크게 줄었습니다. 이로 인해 시스템 복잡성이 감소하고 관리가 용이해졌습니다.
  • CNode 감소로 외부 네트워크 스위치에 대한 의존도가 낮아졌습니다. 이는 네트워크 구성을 단순화하고 관련 비용을 절감하는 효과를 가져왔습니다.

이러한 아키텍처 변화는 VAST Data Platform이 AI 워크로드에 최적화된 고성능, 고효율 인프라를 제공할 수 있게 만들었습니다.

 

 

NVIDIA BlueField DPU 핵심 기능 활용

NVMe 스토리지 액세스 최적화

NVIDIA BlueField DPU는 NVMe 스토리지 액세스를 지원하여, 60GB/s 이상의 데이터 처리 속도를 제공합니다. 이를 통해 AI 워크로드 처리에 있어 다양한 이점을 제공하고 있는데요.

먼저, NVMe over Fabrics(NVME-oF) 기술을 활용하여 네트워크를 통한 스토리지 접근 시 지연시간을 크게 줄였습니다. 이는 실시간 AI 추론처럼 네트워크 지연에 민감한 작업에서 특히 중요한 역할을 합니다.

또한, 다수의 NVMe 드라이브에 대한 동시 접근을 효율적으로 관리하는 방식으로 병렬 처리 성능을 극대화했습니다. 대규모 AI 모델 훈련 시, 데이터 로딩 병목을 해소하는 데 큰 도움이 될 수 있었죠.

더불어 인공지능 학습에 필요한 대용량 데이터셋을 빠르게 로딩하고 처리할 수 있어, 모델 학습 시간을 크게 단축시킬 수 있었습니다.

 

네트워크 성능 향상

NVIDIA BlueField DPU 핵심 기능 활용

 

400Gbps를 지원하는 NVIDIA BlueField DPU는 데이터의 처리량을 크게 증가시키고, I/O 효율성을 개선하는 효과가 있습니다.

GPUDirect Storage 기술은 GPU와 스토리지 간의 직접 데이터 전송을 지원합니다. 이를 통해 CPU 개입을 최소화하고 데이터 전송 속도를 극대화할 수 있었죠. 이로 인해 대규모 AI 모델을 훈련할 때 가장 큰 한계였던 데이터 병목 현상을 직접적으로 해소할 수 있었습니다.

RDMA over Converged Ethernet(RoCE) 기술이란, 이더넷 네트워크를 통해 원격 직접 메모리 액세스(RDMA)를 가능하게 하는 네트워크 프로토콜입니다. 이 기술을 통해 분산 AI 학습 환경에서 노드 간 통신 효율을 크게 증가시킬 수 있었죠.

또한 NVIDIA BlueField DPU는 스마트 NIC 기능을 통해 네트워크 가상화, 패킷 처리 등을 하드웨어 수준에서 가속화하여 네트워크 성능을 최적화했습니다. 계속해서 복잡해지고 있는 현대의 AI 인프라 환경에서 네트워크 관리의 효율성을 높일 수 있다는 점에서 큰 주목을 받고 있습니다.

 

병렬 데이터 서비스 최적화

GPU 서버별 전용 DPU 할당

병렬 데이터 서비스 최적

 

VAST Data Platform은 각 GPU 서버에 전용 NVIDIA BlueField-3 DPU를 할당했습니다. 이 구조에서 각 DPU는 VAST 병렬 서비스 운영 체제를 실행할 수 있죠.

먼저, 각 DPU가 컨테이너 간 I/O 조정 없이 VAST data platform의 공유 네임스페이스에 직접 읽기/쓰기를 할 수 있게 되었습니다. 이는 데이터 접근 시 발생하는 오버헤드를 크게 줄이고, 병렬 처리 효율을 극대화하는 효과가 있습니다. 특히 AI 모델 훈련 과정에서, 대량의 데이터를 동시에 처리해야할 때 큰 역할을 합니다.

또한 이 구조는 각 GPU 서버가 독립적으로 데이터에 접근할 수 있도록 하는데요. 분산 학습 환경에서 데이터 병렬성을 높이고, 전체 시스템의 확장성을 개선하는 효과가 있었습니다. 대규모 AI 모델을 여러 GPU에 걸쳐 학습시켜야 하는 경우에, 이러한 확장성이 갖춰진다면 학습 시간을 크게 단축시킬 수 있습니다.

 

데이터 서비스 경합 제거

전용 DPU 할당 방식의 또 다른 중요한 이점은, 데이터 서비스 간 경합을 효과적으로 제거한다는 것인데요. 전통적인 아키텍처에서는 여러 서비스가 동일한 스토리지 리소스에 접근할 때 경합이 발생하면서 성능 저하를 초래하는 경우가 많았습니다.

하지만 NVIDIA BlueField DPU를 활용하면, 각 서비스가 독립적인 DPU 리소스를 사용하기 때문에 기존의 한계를 극복할 수 있습니다. 이로 인해 데이터 접근 시에 지연 시간이 감소하고, 전체적인 시스템 성능도 향상될 수 있었죠.

특히 AI 워크로드처럼, 대량의 데이터를 빠르게 처리해야 하는 환경일수록 이 특징이 중요한 이점을 가지는데요. 모델 학습 중에 데이터 로딩 속도가 향상되면 GPU 활용도가 높아지고, 결과적으로 전체 학습 시간이 단축되기 때문입니다.

 

보안 아키텍처를 혁신하는 NVIDIA BlueField DPU

커널 드라이버 의존도 감소

NVIDIA BlueField DPU를 사용함으로써 I/O 처리를 위한 커널 드라이버의 필요성이 크게 감소되었습니다. 커널 드라이버는 종종 사이버 범죄나 위협의 타겟이 되기 쉬웠는데요. 드라이버 의존도를 줄임으로써, 해킹과 같은 사이버 보안에 대한 취약점을 크게 줄일 수 있었죠.

특히 멀티 테넌트 환경에서 호스트 기반 취약점의 영향을 크게 감소했다는 것이 주목 받고 있습니다. 여러 AI 프로젝트나 팀이 동일한 인프라를 공유하는 경우, 한 테넌트의 보안 문제가 다른 테넌트에 영향을 미치는 것을 방지할 수 있기 때문입니다.

 

제로 트러스트 보안 모델 구현

제로 트러스트 보안 모델
(출처: What Is Zero Trust? | NVIDIA Blogs)

“신뢰하지 말고 항상 확인하라”는 원칙은, 제로 트러스트 보안 모델의 핵심 슬로건입니다. NVIDIA BlueField DPU는 제로 트러스트 보안 모델을 구현한 솔루션으로, 모든 네트워크 트래픽을 검사하고 검증할 수 있습니다.

VAST Data Platform은 이러한 접근 방식을 통해, 내부 네트워크가 위협 받는 상황에 대한 내성을 어느정도 갖출 수 있게 되었습니다. AI 환경에서 다루는 데이터는 매우 민감하기 때문에 보안이 굉장히 중요한데요. 모델 파라미터나 학습 데이터의 유출을 효과적으로 방지하는 효과가 있습니다.

더불어, 스토리지나 보안 처리 서비스를 AI 서버에 직접 통합함으로써 보안성을 더욱 높였습니다. 데이터가 이동하는 경로를 최소화하는 것은 물론, 각 단계에서의 보안 검증을 가능하게 했죠.

 

 

NVIDIA BlueField DPU를 통한 성능 및 효율성 개선 결과

VAST Data Platform은 NVIDIA BlueField DPU 도입 후 전력 소비가 77% 감소했다고 밝혔습니다. 또한 랙 공간 요구사항도 73% 줄일 수 있었죠. 결과적으로 데이터 센터 운영 비용을 크게 절감했음을 알 수 있습니다.

또한 지연 시간을 줄임으로써 I/O 작업을 더욱 효율적으로 수행할 수 있게 되었습니다. 대규모 데이터 처리를 하는 과정에서도 최소한의 지연으로 작업을 처리할 수 있게 되었죠. 이러한 성능 개선 효과는 AI 모델의 학습 및 추론 과정에서, 전체 처리 시간을 줄이는 효과를 가져오고 있습니다.

NVIDIA BlueField DPU을 통한 성능 개선은, VAST Data Platform이 AI 워크로드에 최적화된 인프라를 가질 수 있는 데에 가장 핵심적인 역할을 했습니다. 이제 연구자와 개발자들은 더 빠르고 효율적으로 AI 모델을 개발하고 배포할 수 있게 되었죠.

앞으로 NVIDIA BlueField DPU는 새로운 AI 및 데이터 관리의 기준으로 부상할 것입니다. 기존에 사용하고 계신 AI 워크로드, NVIDIA의 최신 기술을 통해 더 개선될 수 있습니다. 지금 NVIDIA의 고급 DPU 기술을 데이터 센터 아키텍처에 통합하고, AI 시대의 혁신을 경험해 보시길 바랍니다.

 

함께 읽으면 좋은 콘텐츠