네트워크 기술은 현대 컴퓨팅의 핵심이라고 해도 과언이 아닙니다. 특히 데이터 센터 및 고성능 컴퓨팅 환경에서는 더욱 그렇습니다. 오늘날 가장 널리 사용하는 네트워크 기술을 고르라면, 이더넷과 인피니밴드가 가장 먼저 떠오르실 것입니다.
인피니밴드는 일반적으로 이더넷보다 더 높은 대역폭과 더 낮은 지연시간을 가지고 있습니다. 고성능 컴퓨팅이나 대규모 데이터 처리가 필요한 산업에서는 환영할 만한 이야기죠. 하지만 구현 및 유지 관리 비용이 높고, 대규모 네트워크 인프라를 구축할 때 이더넷과 비용 차이가 상당하다보니 망설이시는 분들이 많습니다.
이 글에서는 NVIDIA 인피니밴드와 이더넷의 정의와 특징, 차이점에 대해서 구체적으로 살펴보겠습니다.
NVIDIA 인피니밴드(InfiniBand)무엇인가요?
NVIDIA 인피니밴드의 정의
인피니밴드는 고성능 컴퓨팅 환경을 위해 특별히 설계된 고속 네트워크 기술입니다. 단순한 네트워크 프로토콜을 넘어, 컴퓨터 간 통신을 위한 완전한 아키텍처라고 할 수 있죠.
NVIDIA가 인피니밴드 기술에 참여한 것은 2019년 Mellanox Technologies를 인수하면서부터인데요. Mellanox가 인피니밴드 기술의 선두주자였기 때문입니다. 이 인수로 인해 NVIDIA는 인피니밴드 기술과 자사의 GPU 기술과 결합하여 더욱 강력한 솔루션을 제공할 수 있게 되었죠.
주요 특징과 차별점
고성능 컴퓨팅 환경에 최적화된 네트워크 기술인만큼, NVIDIA의 최신 인피니밴드 솔루션은 400Gbps의 속도를 지원합니다. 향후에는 최대 800Gbps의 속도까지 지원할 수 있도록 확장할 계획이라고 밝혀졌죠.
또한 NVIDIA의 GPU와 직접 통신할 수 있기 때문에, CPU의 개입 없이도 GPU 메모리만으로 직접 데이터를 전송할 수 있습니다.
특히 NVIDIA의 AI 소프트웨어 스택과 완벽하게 호환되는데요. NVIDIA의 다른 기술들과의 시너지를 통해, End-to-end 솔루션을 제공한다는 점에서 AI 워크로드 최적화에 가장 특화된 성능을 자랑합니다.
주요 활용 분야
NVIDIA 인피니밴드는 주로 다음과 같은 분야에서 활용되고 있습니다.
- 대규모 AI 모델 학습 및 추론에 필수적인 고성능 네트워킹 제공
- 기후 모델링, 입자 물리학 등 복잡한 과학적 계산
- 초저지연 트레이딩 시스템 구축에 용이하여 금융업계에서의 활용
- 유전체 분석, 신약 개발 등에서 좋은 성과
이더넷이란 무엇인가요?
정의
이더넷은 우리에게 가장 친숙한 네트워크 기술입니다. 인터넷을 사용해서 이 글을 보고 계시다면, 여러분도 이더넷에 연결되어 있을 확률이 높습니다. 이더넷은 1970년대에 개발된 이후로 지금까지 꾸준히 사용되고, 개발되어 왔습니다.
이더넷의 가장 큰 장점은 범용성입니다. 가정용 인터넷부터 대형 데이터 센터까지 거의 모든 곳에서 이더넷을 사용하고 있습니다. 마치 영어가 세계 공용어인 것처럼, 이더넷은 네트워크 세계의 공용어라고 할 수 있겠죠.
NVIDIA 이더넷
NVIDIA에서도 이더넷 기술을 제공하고 있습니다. NVIDIA의 이더넷 솔루션은RoCE(RDMA over Converged Ethernet) 기술을 통해 RDMA(Remote Direct Memory Access)를 지원하고 있습니다.인피니밴드와 마찬가지로 GPU 직접 통신도 가능하죠.
다만 인피니밴드보다는 아직 지연 시간이 높다는 평가가 있는데요. 그럼에도 불구하고, AI 및 HPC 워크로드에 최적화되어 있기 때문에 여전히 많은 데이터센터 및 일반 기업 네트워크 등에서 범용적으로 사용하는 선택지이기도 합니다.
인피니밴드 VS. 이더넷 전격 비교
속도와 대역폭
실제로 인피니밴드와 이더넷 모두 시간이 지나면서 속도에서 큰 차이점이 없다고 봐도 무방할 정도가 되었습니다.
물론 그럼에도 불구하고, 인피니밴드가 약간 앞서가는 것은 사실인데요. 이더넷의 현재 가장 빠른 표준은 400Gbps입니다. 예외적으로 NVIDIA의 이더넷이 800Gbps의 대역폭을 제공하면서, 인피니밴드의 성능을 빠르게 쫓아가고 있었죠.
하지만 인피니밴드의 최신 버전은 무려 1.64Tbps의 속도를 자랑합니다. 이는 1초에 1.64TB로, 이더넷의 4배 이상의 데이터를 전송할 수 있는 정도까지 발전했습니다.
지연시간
지연시간은 데이터가 출발지에서 목적지까지 도달하는 데 걸리는 시간을 의미합니다.
일반적으로 이더넷은 마이크로초(백만 분의 1초) 단위의 지연시간을 가집니다. 반면 인피니밴드는 나노초(10억 분의 1초) 단위의 지연시간을 가지고 있죠. 수치로 비교해보면 인피니밴드의 지연 시간이 이더넷의 약 1,000분의 1 수준이라는 것을 알 수 있습니다. 실시간 금융 거래나 과학 계산과 같은 분야에서는 이런 차이가 엄청난 경쟁력이 될 수 있습니다.
CPU 부하
네트워크 작업을 처리할 때 CPU가 얼마나 관여하느냐의 차이인데요. 이 CPU의 부하에 따라 애플리케이션 성능의 차이가 벌어지기도 합니다. 특히 고성능 컴퓨팅이나 AI 워크로드와 같이 대량의 데이터를 빠르게 처리해야 하는 환경에서는 성능 저하의 원인이 될 수도 있습니다.
이더넷은 데이터를 주고받을 때마다 CPU의 개입이 필요합니다. 이더넷은 TCP/IP 프로토콜 스택을 사용하는데, 이 프로토콜의 처리가 CPU에서 이루어지기 때문입니다. 데이터 패킷의 조립이나 분해, 오류 검사, 재전송 요청 등의 작업이 CPU에 의해 수행되죠.
이 과정을 쉽게 설명해 보겠습니다. 먼저 애플리케이션이 보낼 데이터를 준비합니다. 데이터는 애플리케이션에서 운영체제 커널로, 다시 네트워크 카드로 여러 번 복사되는 과정을 거칩니다.
데이터가 도착하면 네트워크 카드가 CPU에 알림을 보내는데요. CPU는 받은 데이터를 메모리로 옮기고, 네트워크 스택의 각 단계에서 처리합니다. 이 모든 데이터의 이동과 처리 과정을 CPU가 관여하기 때문에, 다른 중요한 작업을 수행할 때는 제한이 걸리는 경우가 많습니다.
반면 NVIDIA 인피니밴드처럼 RDMA 기술을 사용하는 네트워킹 솔루션의 경우, 이러한 CPU 개입을 최소화하여 더 높은 성능과 더 낮은 지연 시간을 제공할 수 있습니다. CPU를 거치지 않고 직접 메모리에 접근하여 데이터를 전송하기 때문이죠.
확장성
이더넷은 대부분 모든 네트워킹 솔루션의 공용 장비라고 해도 과언이 아닐 정도로, 다양한 장비와 호환이 가능합니다. 하지만 대규모 확장 시에 성능이 저하될 수 있다는 연구 결과가 있었는데요.
이더넷 기반 네트워킹 솔루션을 과도하게 확장할 경우 네트워크 성능이 저하되고, 충돌이 증가할 수 있습니다. 복잡성이 증가할수록 장애 발생 가능성이 높아지는 것은 물론, 단일 장애 지점이 전체 네트워크에 영향을 미치는 경우도 부지기수죠.
구조적으로 이더넷은 일정 규모 이상으로 확장하기 어려운 한계가 있기 때문에, 대규모 네트워크에는 부적합하다고 볼 수 있습니다.
하지만 애초에 인피니밴드는 대규모 확장을 고려해서 설계된 네트워킹 솔루션입니다. 따라서 수천 대의 컴퓨터를 연결해도 성능 저하가 거의 없죠. 슈퍼컴퓨터를 사용하는 곳이나, 대형 데이터 센터에서 인피니밴드를 선호하는 이유도 여기에 있습니다.
비용
인피니밴드는 널리 사용하는 만큼 장비 가격이 상대적으로 저렴합니다. 반대로 인피니밴드는 고성능을 제공하는 만큼, 초기 투자 비용이 높은 편에 속합니다.
다만 장기적인 관점에서 인피니밴드를 도입하는 것이 오히려 비용을 절감할 수 있는 방법이라 할 수도 있는데요. 더 높은 성능을 가지고 있는 만큼, 더 적은 수의 서버로 같은 작업을 처리할 수 있기 때문입니다.
인피니밴드, 지금 전환해야 할까?
인피니밴드 → 이더넷, 오히려 역행하는 트렌드?
지금까지 살펴본 바에 따르면 인피니밴드는 속도나 지연시간, CPU 효율성, 확장성 등 대부분의 측면에서 이더넷보다 뛰어난 성능을 보여주고 있습니다. 하지만 그럼에도 불구하고, 최근에는 오히려 인피니밴드에서 이더넷으로 전환하는 경우도 더러 보인다고 하는데요.
AI 인프라의 핵심인 GPU의 성능을 높이기 위해서는 여러 GPU를 연결하는 네트워킹 기술이 필요합니다. 예를 들어, NVIDIA의 표준 아키텍처는 전용 서버 한 대에 GPU를 8개씩 장착하는 기능을 제공하죠. GPU 서버를 연결하는 노드 외 연결은 고대역폭 인피니밴드나 이더넷 스위치를 사용하는 것이 일반적입니다.
다만 인피니밴드는 기술적 난이도도 굉장히 높은 편에 속할 뿐더러, 이더넷 기술의 진화 역시 뚜렷하게 발전하고 있기 때문이기도 합니다. 예를 들어, NVIDIA 이더넷을 사용하면 인피니밴드의 대역폭과 지연시간이 동등하거나 약간의 차이만 보일 정도까지 개선되었기 때문이죠.
또한 이더넷은 개방형 표준 기술이기 때문에, 호환성 측면에서는 인피니밴드와 비교할 수 없을 정도인데요. 기존 네트워크 인프라와 통합이 필요한 경우, 인피니밴드로 이전하지 않고 이더넷을 그대로 유지하는 경우도 많아졌습니다.
속도와 효율성이 중요한 산업에 특화
하지만 분명한 것은, 아주 적은 지연 시간도 경쟁력과 민감하게 연결되는 특정 산업에서는 인피니밴드가 독보적인 위치에 있다는 것입니다. 고성능 컴퓨팅, 빅데이터 분석, AI 학습 등 대규모 데이터 처리가 필요한 환경에서는 인피니밴드의 장점이 더욱 빛을 발합니다.
따라서 어떤 상황에서든 인피니밴드가 무조건 정답인 것은 아니지만, 이 글을 읽으시는 여러분의 시스템이 다음과 같은 상황이라면 인피니밴드로의 전환을 진지하게 고려해볼 수 있습니다.
- 데이터 처리 속도가 중요한 경우
- 실시간 응답이 필요한 애플리케이션을 운영하는 경우
- 대규모 클러스터 환경에서 작업하는 경우
- 현재 이더넷 네트워크의 성능에 병목 현상이 발생하는 경우
네트워크 인프라 컨설팅, 아이크래프트가 함께합니다
만약 네트워킹 사양을 부족하게 구성한다면, 아무리 많은 GPU를 구비한다고 해도 LLM 학습이나 추론의 성능이 떨어질 수밖에 없습니다. 빠른 인공지능 서비스를 출시하기 위해서는, 고비용의 대규모 AI 인프라 도입이 중요한데요. 특히 각 연산 요소 사이의 통신에 필요한 네트워킹 솔루션을 최적화하는 것이 중요합니다.
고성능 AI 인프라 수용을 위한 네트워킹은 기존의 워크로드에 비하면 훨씬 더 거대하고, 구축 비용이 높을 수밖에 없습니다. 이 과정에서 전문가의 도움이 필요한데요.
아이크래프트는 고객사의 현재 시스템과 워크로드를 분석하여 실제 필요한 네트워크 성능을 파악한 뒤, 고객사의 요구사항과 실제 데이터를 기반으로 고객사에 최적화된 트워킹 솔루션을 설계하고 있습니다.
또한 필요에 따라 기존 이더넷 인프라를 유지하면서, 점진적으로 인피니밴드를 도입하는 전략도 적극적으로 활용하고 있죠.
아이크래프트는 NVIDIA의 엘리트 파트너로써, 기술적 난이도가 높아 전문가가 거의 없는 NVIDIA 인피니밴드에 대해서도 전문성을 가지고 있습니다.
네트워크 인프라는 AI 시스템의 성능과 확장성을 좌우하는 핵심 요소로, 신중하고 전문적인 접근이 필요합니다. 아이크래프트는 특히 이런 네트워크 인프라에 대한 많은 경험과 전문성을 갖추고 있습니다. 장기적인 비용 절감과 성능 최적화를 동시에 달성할 수 있도록, 꼭 전문가와 상담 받아보시기를 권합니다.
함께 읽으면 좋은 콘텐츠