조회 수 34 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

anand1-01.png

 

오늘 아침은 서버 시장에 매우 흥미로운 전환점이 되었다. 스카이레이크-SP 아키텍처 기반의 새로운 제온 스케일러블 프로세서 (제온 SP) 제품군이 정식으로 발표된 것이다. 이들은 새로운 플랫폼과 옴니패스 인터커넥트 패브릭 등 풍성한 신기술로 무장하고 있다. 코어 수가 더욱 늘어난 것은 물론이다.

 

한편 지난 달에는 AMD가 그들의 EPYC 7000 시리즈 프로세서를 발표한 바 있다. Zen 아키텍처를 기반으로 하여 코어 개수 및 I/O 인터페이스를 서버급으로 확장한 EPYC은 AMD에게 있어 기념비적인 작품이다. 거의 10년 가까이 공백으로 남아 있던 고성능 서버시장에 다시 경쟁을 불어넣게 되었기 때문이다. 출시는 다소 빨랐지만 EPYC 역시 제온 SP가 출시된 오늘을 전후로 선적이 진행 중이다.

 

anand1-02.jpg

 

인텔은 몇년만에 처음으로 실질적인 대체제가 존재하는 상태에서 신제품을 출시하게 되었고, 따라서 이들은 직전 세대의 제온 E5 V4보다도 AMD의 EPYC을 더욱 의식할 수밖에 없게 되었다. 이들은 아키텍처부터 채용한 명령어 세트, 메모리 계층구조, 내부 연결구조 등 어느 것 하나 닮은 구석이 없다. 그러나 잠시 후 리뷰를 통해 보게 되듯, 결국 돌고 돌아 매우 서로에 대해 경쟁력있는 일장일단을 갖게 되었단 점은 분명 흥미로울 것이다.

 

 

    AMD의 서버 CPU : EPYC

 

앞서 소개한 바 있는 Zen 및 EPYC 관련 기사를 읽었다면 이 장은 건너뛰어도 괜찮다. 그렇지 않은 이들을 위해 간단히 정리해보자. 우선 EPYC과 라이젠 모두를 관통하는 ‘최소 단위’는 4개의 코어를 묶은 CCX라는 단위이다. 비약적으로 향상된 Zen 코어 4개와 코어당 2MB씩의 L3 캐시 슬라이스를 묶어 하나의 CCX는 4코어, 8MB L3 캐시를 갖는다. CCX 내부에서는 L3 캐시를 액세스하는 데 최소 13ns(코어에 가장 인접한 L3 캐시 슬라이스인 경우), 인접하지 않은 슬라이스라도 15-19ns 내로 액세스가 가능해 매우 빠르게 접근할 수 있는 편이다. L3 캐시는 L2 캐시에 대해 exclusive하다.

 

anand2-01.jpg

 

두 개의 CCX가 모여 하나의 제플린 다이를 구성한다. 이때 AMD의 독자 인터커넥트 기술인 인피니티 패브릭이 두 CCX를 연결하게 되는데, CCX 내부에서 L3 캐시 접근이 매우 신속했던 것과 달리 다른 CCX의 L3 캐시에 접근하려면 유의미한 정도의 레이턴시가 발생하게 된다.

 

캐시 스눕 디렉토리 역시 각 CCX마다 별도로 존재한다. 따라서 개념상 16MB의 단일 L3 캐시를 공유한다기보다는 8MB씩의 L3 캐시가 별개로 존재하는 것에 가깝다. 하나의 제플린 다이 내에서도 그러할진대 EPYC은 심지어 4개의 제플린 다이를 MCM구조로 묶은 것이다.

 

anand2-02.png

 

다행히 각각의 다이는 모든 다이와 일대일로 연결되어 있어, 액세스를 위해 둘 이상의 다이를 건너가야 하는 일은 피할 수 있게 되었다. 다이 밖에서의 레이턴시를 최소화하려는 노력의 일환일 것이다. 어쨌든 이런 구조로 인해, EPYC은 2소켓으로 구성하더라도 내부적으로는 이미 가상의 8소켓이나 마찬가지인 셈이 된다.

 

anand2-03.png

 

AMD는 이런 ‘가상의 8소켓’에 충분한 대역폭을 제공하기 위해 각 소켓을 4개의 양방향 인피니티 패브릭으로 연결하는데 (역자 주 : 각 다이가 동일한 위상에 있는 다이와 일대일 연결) 하나의 연결은 다시 16개의 PCIe 라인을 점유하므로 무려 128개의 PCIe 라인이 소켓 사이의 통신에 사용되는 것이다.

 

이러한 구조로 인해 EPYC은 독립적으로 작동하는 여러 스레드를 활용하는 작업 -예를 들면 VM이나 HPC- 에는 매우 적합하지만 (코어와 캐시 사이의) 데이터 싱크가 중요시되는 트랜잭션 DB 등의 작업에는 상대적으로 덜 적합하다. 후자의 경우 데이터가 다이 사이를 오가는 경우, 또는 한 다이 내에서라도 CCX를 오가기만 하더라도 단일 다이 구성인 경우에 비해 불필요한 레이턴시가 추가로 발생하기 때문이다.

 

 

    AMD EPYC 7000 시리즈 SKU 소개

 

최대 32코어를 탑재한다는 점 외에도 EPYC은 2TB의 메모리와 128개의 PCIe 라인 등을 공통적으로 지원한다. 또한 최하위 2개 모델을 제외하고는 코어 개수 구성에 관계없이 모든 SKU에 걸쳐 제플린 4개분에 해당하는 64MB의 L3 캐시를 온전히 지원한다. (최하위 2개 모델은 32MB) 7000 시리즈가 있는 만큼 어쩌면 다이 수를 줄여 5000, 3000 시리즈를 낼 가능성도 있다. SKU별 스펙표는 아래와 같다.

 

anand3-01.png

 

최상위 모델인 EPYC 7601은 32코어, TDP 180W에 4200달러로 제공된다. 아래로 내려오면서 차례로 24, 16, 8코어 모델이 등장하는데 이들은 각각 CCX 내부에서 1, 2, 3개씩의 코어를 비활성화한 것이다.

 

EPYC의 풀 칩 구성에서 정확히 절반씩을 비활성화(16코어, 32MB L3)한 EPYC 7281은 650달러로 매겨졌는데 매우 흥미로운 2소켓 옵션이 될 것 같다. 최하위 모델인 8코어 EPYC 7251마저도 2TB 메모리와 128개의 PCIe 라인을 온전히 지원하고 있어 메모리 워크스테이션 구성에 있어서는 거의 인텔이 대응 가능한 모델이 없는 수준이다.

 

싱글소켓 전용으로는 아래의 3가지 SKU가 제공된다.

 

anand3-02.png

 

이들은 각각 같은 모델넘버를 갖는 2소켓용 EPYC과 똑같은 사양을 갖고 있지만 가격은 거의 절반 수준이다.

 

 

    스카이레이크-SP의 개요

 

스카이레이크-X/SP는 오리지널 스카이레이크와 비교해 큰 변화가 있는 아키텍처이다. 우선 L2 캐시 용량이 4배로 증가했으며 L3 캐시는 45% 작아진 대신 작동 방식이 non-inclusive로 달라졌고, AVX-512 명령어 세트를 지원하게 되었다.

 

anand4-01.png

 

Zen의 FPU가 2개의 128비트 FMAC만을 지원하는데 비해 (4개의 레거시 FP/SSE 연산을 지원하므로 이것 자체는 매우 강력한 편이다) 스카이레이크는 2개의 256비트 FMAC를 지원한다는 점을 인텔은 강박적으로 강조해 왔다. 스카이레이크-X/SP는 여기에 더해 1개의 512비트 FMAC를 추가 지원하게 된 것이다. 액면 그대로만 놓고 보면 AMD가 대단히 큰 결점을 가진 것 같다. 당장 256비트 AVX/AVX 2.0 연산(역자 주 : 앞으로 이들을 뭉뚱그려 AVX라 하겠다)에서 AMD의 스루풋은 인텔의 절반, AVX-512로 넘어갈 경우 4분의 1수준에 그치기 때문이다.

 

그러나 실제 성능발휘는 그리 간단하지 않다. AVX-512 명령어 세트가 현업 어플리케이션에 이식되려면 매우 오랜 시간이 걸릴 것이다. ANSYS 같은 매우 고가의 소프트웨어에는 많은 엔지니어가 달라붙어 (심지어 인텔의 조력을 받아서까지) 최신 명령어 세트에 최적화하는 작업을 거치겠지만 대다수의 소프트웨어는 그렇지 않다.

 

anand4-02.png

 

일단 최적화할 경우 AVX-512는 AVX보다 60%가량 더 빨라진다고 한다. 베스트 시나리오에서마저 정확히 2배의 스루풋을 달성하지 못하는 것은 AVX / AVX-512 등을 구동할 때 소비전력이 증가하므로 CPU의 작동 속도가 낮아지도록 설정되었기 때문이다. 일례로 제온 8176은 올 코어 터보클럭이 2.8GHz라고 명기해 두었지만 AVX 구동시에는 2.4GHz, AVX-512 구동시에는 1.9GHz로 상당히 낮아지는 것을 관찰할 수 있다.

 

anand4-03.png

 

마지막으로 AVX-512를 사용해야 할 정도로 부동소수점 연산을 빡세게 필요로 하는 어플리케이션은 오늘날 대부분 GPU 가속으로 넘어가는 추세라는 점, 부동소수점 어플리케이션의 상당수는 (CPU의 부동소수점 연산성능 자체뿐만 아니라) 메모리 대역폭에도 큰 영향을 받는다는 점을 고려해야 할 것이다.

 

 

    링 구조를 대체하는 메쉬 구조

 

링 구조에는 많은 장점이 있었다. 우선 고속화하기 쉽다. 오늘날 인텔의 CPU에서 구현되는 링 구조는 3GHz의 작동 속도를 가진다. 또한 특정한 코어가 자신에 인접한 L3 캐시 슬라이스를 접근하는 경우 레이턴시는 단 한 클럭 사이클밖에 소요되지 않는다. 오늘날 하나의 링이 가장 크게 확장된 브로드웰-EP/EX에는 12개의 코어가 한 링으로 연결되어 있는데 이떄 최악의 경우라도 12사이클 이내에는 접근할 수 있다. 평균적으로는 6사이클 정도가 소요될 것이다.

 

그러나 링 도메인이 2개 이상으로 불어나면서 예기치 못한 문제가 발생했다. 인텔은 하스웰-EP/EX부터 두 링 도메인을 버퍼 스위치로 접속하는 방식을 도입했는데, 이에 따라 링 도메인 사이를 오갈 때의 레이턴시가 증가하게 되었고 한 다이 내에서 캐시 일관성을 관리하기가 점점 복잡해졌다. (역자 주 : 정확히 지금의 AMD CCX 문제와 같다) 만약 현 수준보다 코어 수가 더 증가해, 3개의 링 도메인을 넣어야 하는 상황이 되기라도 했다면 문제는 더욱 심각해졌을 것이다.

 

anand5-01.png

 

따라서 인텔의 엔지니어들이 링 구조를 대체할 제3의 구조를 스카이레이크-X/SP에 도입한 것은 전혀 놀라울 일이 아니다. 이것이 바로 메쉬 구조이다.

 

anand5-02.png

 

링 구조와 비교해 메쉬 구조는 고속화가 어렵다는 단점이 있다. 오늘날 인텔의 언코어는 1.8-2.4GHz로 이전까지와 비교해 상당히 저속화되어 있다. 그럼에도 코어 개수를 전세대보다 더욱 늘릴 수 있게 되었다는 무시 못할 장점이 있고, 인텔에 따르면 L3 캐시 레이턴시 역시 10%밖에 늘지 않았다고 한다. 코어 개수의 증가 자체가 레이턴시 증가 요인이 되는 점과 전세대보다 코어 수가 늘었다는 (22개 -> 28개) 점을 감안하면 선방한 것이다.

 

anand5-03.png

 

물론 메쉬 구조 하에서도 최악의 경우 -가령 맨 위 최우측에서 맨 아래 최좌측으로 접근하는 경우- 레이턴시가 길어지는 것을 막을 수는 없지만 어쨌든 다이 자체를 넘어다녀야 하는 MCM의 경우보다는 낫다. 구체적으로 스카이레이크-X/SP의 레이턴시는 EPYC의 10분의 1정도에 불과하다. 따라서 스케일아웃에는 AMD보다 인텔의 솔루션이 더욱 나을 것이다.

 

anand5-04.png

 

다이 구조를 유심히 살펴보면 메쉬 구조 내에서도 크게 왼쪽 절반과 오른쪽 절반이 대칭적으로 구성되었음을 알 수 있다. 과거 두 개의 링 도메인에서 발생하는 문제를 해결하기 위해 이를 별개의 논리적 소켓으로 쪼개는 클러스터 온 다이(COD) 모드를 제공했던 인텔은, 제온 SP에서도 그것과 유사한 서브-NUMA 클러스터(SNC) 모드를 제공한다. 이를 통해 낮은 레이턴시를 중시하는 어플리케이션 하에서 성능을 더 높일 수 있다.

 

 

    인텔 제온 SP 시리즈 SKU 소개

 

인텔은 종전까지 사용해 오던 네이밍 규칙을 폐기하고 제온 E5 / E7의 전 라인업을 브론즈 / 실버 / 골드 / 플래티넘으로 일원화했다.

 

anand6-01.png

 

슬라이드에도 언급되어 있지만 접미사에 대해서만 간단히 다시한번 정리해 보겠다.

 

- M : 일반 모델 대비 2배의 메모리 용량 지원 (768GB -> 1.5TB)
- T : 더 긴 보증기간 지원
- F : 옴니패스 커넥터 지원

 

 

제온 플래티넘

 

anand6-02.png

 

“그동안 고객들 중에는 E7-8000 시리즈 한정으로 제공되는 특정 SKU가 최적인 경우가 있었다. 코어 개수는 적고 L3 캐시를 다량 탑재한 특수한 SKU 등이 그것이다. (4코어, 45 MB L3 등) 그러나 이들이 8소켓 구성을 염두에 두고 있지 않다면 아예 8로 시작하는 모델넘버엔 관심조차 갖지 않아 고려대상조차 되지 않는 맹점이 있었다. 네이밍 규칙을 바꾼 것에는 이러한 점도 작용했다.”

 

비록 제온 E7 라인업은 사라졌지만 제온 플래티넘은 정확히 그 가격대를 계승하고 있다. 차이점이 있다면 기존 E5 라인업을 통해서도 제공되었던 최대 다이 구성(XCC)이 모두 플래티넘에 흡수되었단 점이다. (역자 주 : E5 상위 모델로 인해 E7 하위 모델이 안 팔리니 E5 상위 모델을 없애고 모두 플래티넘이라는 이름 아래 구 E7의 가격을 매겨둔 것으로 해석할 수 있다)

 

anand6-03.png

 

최상위 모델인 제온 8180의 가격은 무려 10000달러를 돌파하며 기존 E7-8000 시리즈(7-8000달러)보다도 비싸졌다. 게다가 메모리 확장 모델인 제온 8180M은 그보다도 30%가 더 비싸다. 다만 기존의 가격대 안에서 28코어 플래그십을 원하는 고객들을 위해 8176이 제공되며, 코어 수를 조금 희생한다면 8170도 좋은 대안이 될 것이다.

 

 

제온 골드

 

anand6-04.png

 

제온 골드는 6100과 5100 시리즈라는 두 그룹으로 나뉘는 것이 특징이다. 이들은 지원하는 메모리 클럭과 UPI 인터커넥트의 수, 그리고 AVX-512 유닛의 개수로 구분된다. 제온 골드 자체는 플래티넘과 비교해 최대 4소켓까지만 구성 가능하며 최대 22코어 모델까지만 제공하는 차이가 있다.

 

제온 6100 시리즈는 AVX-512 FMA 유닛이 2개인 반면 5100 시리즈는 1개로 제한되어 있다. 또한 6100 시리즈는 최대 DDR4-2666 메모리를 지원하지만 5100 시리즈는 DDR4-2400 까지로 제한되어 있다. 마지막으로 6100 시리즈는 3개의 UPI 인터커넥트를 갖지만 5100 시리즈는 2개로 제한되어 있다.

 

UPI 인터커넥트의 수로부터 발생하는 차이로, 5100 시리즈는 4소켓 구성시 링 형태로밖에 연결할 수 없다. 따라서 모든 대각선이 이어지는 6100 시리즈에 비해 레이턴시에서 다소 불리할 수 있다.

 

anand6-05.png

 

anand6-06.png

 

이러한 특성으로 인해 제온 6100과 5100 시리즈는 사실상 별도의 티어로 봐도 무방할 만큼 큰 차이를 갖게 되었다. 굳이 이들을 하나로 묶을 공통점이 있다면 최대 4소켓 구성이 가능하다는 점뿐일 것이다.

 

 

제온 실버 및 브론즈

 

anand6-07.png

 

지금까지 제온 플래티넘에서 16종의 SKU, 골드에서 32종의 SKU를 살펴보았다. 그러나 이제부터 살펴볼 실버 및 브론즈 시리즈는 둘을 합쳐 10종의 SKU밖에 없으며 최대 12코어, 구성 가능한 최대 소켓 수도 2소켓에 불과하다. 전세대의 2소켓용 SKU 중 최상위 모델인 제온 E5-2699A V4가 최대 22코어까지 지원했던 것과 비교하면 현격히 낮아진 것인데, 코어 개수와 멀티소켓 지원을 묶어팔기하는 것으로 전략을 크게 바꾸었다고 볼 수 있다.

 

제온 5100 시리즈와 마찬가지로 이들은 AVX-512 FMA 유닛을 코어당 단 하나만 지원한다. 여기에 더해 실버는 UPI 속도가 9.6GT/s로 하향되었으며 (골드 위로는 10.4GT/s), 브론즈는 메모리가 DDR4-2133으로 한층 더 제한되어 있고 하이퍼스레딩을 지원하지 않는다. 후술하겠지만 이들은 AVX-512 구동시 클럭 역시 800MHz로 크게 낮아진다.

 

anand6-08.png

 

 

    새로운 터보 모드

 

<스카이레이크-SP의 개요> 장에서 잠시 언급했듯 제온 SP는 통상적인 경우, AVX를 구동하는 경우, 그리고 AVX-512를 구동하는 경우의 클럭 프로파일이 모두 다르다. 예컨대 제온 8180의 경우 아래와 같다.

 

anand7-01.png

 

똑같이 28코어를 탑재한 제온 8180과 8176을 비교해 보면 아래와 같다.

 

anand7-02.png

 

아래의 표는 거의 모든 라인업에 대해 통상적인 경우의 클럭 프로파일을 나타낸 것이다.

 

anand7-03.png

 

위 표에 따르면, 제온 골드 라인업의 6154는 18코어를 탑재하고 3.0GHz의 베이스 클럭을 갖지만 특이하게도 올 코어 터보와 최대 터보클럭이 모두 3.7GHz로 동일하다. 반면 TDP가 205W로 높은 편인데, 그보다 하위 모델인 6150은 똑같이 18코어를 탑재하고 있으면서 TDP가 165W로 (출시가 예고된) 코어 i9-7980XE와 같다.

 

AVX 및 AVX-512 구동시의 클럭 프로파일은 아래와 같다.

 

anand7-04.png

 

anand7-05.png

 

 

    AMD EPYC과 인텔 제온 SP 라인업 비교

 

표면상 일대일로 엇비슷한 코어 수 등에 불구하고, EPYC은 최대 2소켓까지 지원하지만 제온 SP는 8소켓까지 지원하는 등의 차이가 있다. 이를 반영해 전체적으로 인텔의 SKU 가격이 높게 분포해 있는데, 이를 가격대별로 비교해 보면 아래와 같다.

 

anand8-01.png

 

<AMD EPYC 7000 시리즈 SKU> 장에서 살펴본 싱글소켓 전용 SKU를 기억한다면 제온 실버 라인업과의 비교가 흥미로울 것이다. 2개의 (12코어) 제온 5118은 1개의 EPYC 7551P와 엇비슷한 가격인데 후자의 코어 수가 무려 8개나 더 많다. IPC가 다소 떨어지더라도 클럭이 비슷하므로 코어 수로 상쇄하고 남을 것이다. 게다가 보드 역시 (싱글소켓이므로) 훨씬 단순할 것이고 PCIe 라인 수도 더 많으며, 결정적으로 소비전력도 더 적다.

 

 

    벤치마크 결과

 

AMD는 EPYC의 출시에 발맞춰 최상위 SKU인 EPYC 7601을 보내 왔다. 반면 인텔은 제온 8180가 8176 중 하나를 선택하게 했는데, 양측의 TDP 규모를 비슷하게 맞춰 테스트하기 위해 우리는 제온 8176을 선택했다. (역자 주 : 그러고도 여전히 AMD측 대조군보다 인텔측 대조군이 2배 이상 비싸다)

 

 

메모리-대역폭

 

anand-mem01.png

 

AMD는 인텔 컴파일러(ICC) 하에서 자사 CPU의 성능이 잘 나오지 않는다고 불평해 왔지만 EPYC은 많은 메모리 채널수에 걸맞게 ICC 하에서도 가장 높은 대역폭을 보이고 있다. 쿼드채널인 제온 E5 V4보다는 약 45%, 6채널인 제온 SP보다도 25%가 높다. 다만 MCM 구조인 탓에 코어 개수별 스케일링에서는 다소 석연찮은 모습을 보인다.

 

anand-mem02.png

 

(역자 주 : 결론부터 말해 EPYC은 가능한 모든 다이가 활성화되어 있을 때만 온전히 8채널의 성능을 낼 수 있다. 특히 인텔측 대조군 2종이 모두 코어/스레드 수에 비례해 대역폭이 오르는 것과 달리, EPYC은 4스레드가 한 소켓에 몰려 있는 것보다 2스레드를 서로 다른 소켓에 배분한 때의 대역폭이 더 높다. 다이 사이를 넘나드는 레이턴시가 크기 때문에 스레드가 한 소켓/다이에 몰린 경우 다른 소켓/다이의 메모리컨트롤러를 굳이 접근할 실익이 없기 때문이다. 이는 하스웰-EP/EX에서도 지적된 바 있다.)

 


 

메모리-레이턴시

 

anand-mem03.png

 

EPYC의 L3 캐시 레이턴시에 주목하자. 처음 8MB 구간은 인텔측 대조군보다도 더 좋은(낮은) 레이턴시를 보이고 있지만 그 이후는 오히려 메모리에 접근하는 것과 별반 다르지 않은 레이턴시를 갖는다. 하나의 CCX가 관할하는 L3 캐시가 8MB인 것을 생각하면 납득가는 결과이다. 즉 CCX/다이를 넘나드는 경우 레이턴시가 급격히 증가하는 것이다. 따라서 단일한 64MB L3 캐시로 기능한다고 보기는 어렵고, 적어도 (8개의 CCX마다 하나씩) 8개의 스레드를 구동하는 경우 병렬로 8MB씩의 L3 캐시를 사용한다고 보는 편에 가까울 것이다.

 

anand-mem04.png

 

위와 동일하게, 첫 8MB 이내까지는 EPYC이 모든 대조군 가운데 가장 좋은 특성을 보이나 이후 레이턴시가 급격히 증가한다. 다만 DRAM 영역으로 넘어가면 비슷한 레이턴시를 보일 것이다.

 


 

메모리-데이터베이스 성능 : MySQL

 

db01.png

db02.png

 

<AMD의 서버 CPU : EPYC> 장에서 언급했듯, EPYC의 이러한 메모리 성능 특성으로 인해 데이터 트랜잭션이 자주 일어나는 데이터베이스 서버에서는 그리 좋은 성능을 보이지 못한다. (역자 주 : 벤치마크에서 가장 좋은 성능을 보인 제온 8176도 응답 속도는 6년 전의 제온 E5-2690에게 밀리는 모습을 보였는데, 8코어 단일 링 구조를 갖는 샌디브릿지-EP가 가장 짧은 레이턴시를 갖는 것으로 보인다)

 


 

정수연산-SMT on/off 비교

 

int-01.png

 

위 표는 SPEC CPU2006 벤치마크를 1스레드만 활성화한 상태로 진행한 것이다.

 

int-02.png

 

위 표는 같은 벤치마크를 1코어 / 2스레드만 활성화한 상태로 진행한 것이다. 앞서 얻은 결과와 비교하면 SMT 효율을 구할 수 있다.

 

int-03.png

 

종합해 보면 제온 E5 V4의 경우 SMT 적용시 20.1%, 제온 SP의 경우 19.6%의 성능향상을 보였고 EPYC은 28.3%의 성능향상을 보여 EPYC쪽이 SMT 효율이 더 높은 것으로 나타났다. 두가지 원인을 추정해볼 수 있는데, 첫째는 (앞서 메모리 항목에서 살펴본 이유로) EPYC이 싱글스레드만 구동할 때보다 2스레드를 구동할 때 메모리 대역을 더 높게 활용할 가능성이 있어서이고, 두번째는 Zen 자체가 병렬성을 도출하기 더 최적화된 아키텍처이기 때문이다. (역자 주 : 스카이레이크는 8-width, Zen은 10-width 백엔드를 갖고 있다)

 

어느 쪽이건, AMD의 엔지니어가 자사의 첫 SMT 기술을 도입한 결과로는 대단히 좋은 성과를 거뒀다.

 


 

정수연산-SPEC CPU2006

 

int-04.png

 

위 테스트 항목 중 <471.omnetpp>의 경우 EPYC에서 128스레드 구동이 불가능해 64스레드로 테스트한 것이다. SMT를 정상적으로 적용할 경우 20%가량 향상이 있을 것이라 짐작된다. 이를 제외하고라도 EPYC 7601은 같은 가격의 현세대 경쟁자인 제온 E5-2699A V4보다 무려 42% (문제의 항목을 포함하더라도 40%), 심지어 (미래의 경쟁자이자 두 배 비싼) 제온 8176보다도 6-7% 더 높은 정수 성능을 보여주고 있다.

 


 

정수연산-파일 압축 : LZMA

 

lzma01.png

lzma02.png

 

LZMA 벤치마크는 압축과 해제가 서로 다른 결과를 보였다. 파일을 압축할 때에는 캐시, 메모리 성능과 TLB 효율 등이 많은 영향을 미치고 제온 SP가 EPYC보다 높은 성능을 기록한 것은 그런 점이 반영된 것이다. 반면 압축을 해제하는 것은 상대적으로 CPU의 정수연산 성능에 많이 의존하며, 코어 수가 더 많은 EPYC이 거의 그 비율에 비례해 제온들보다 높은 성능을 보이고 있다.

 


 

정수연산-자바 : SPECjbb 2015

 

java01.png

java02.png

 

자바 벤치마크는 CPU 성능을 이상적으로 반영하는 시나리오가 아니다. 내부적으로 4개 그룹의 트랜젝션 인젝터와 백엔드를 테스트하기 때문이다. 즉 AMD에게 이상적인 조건이 아님에도 불구하고 EPYC은 제온 SP를 아주 근소한 차이로 앞서고 있다.

 


 

정수연산-빅데이터 : Apache Spark 2.1

 

bd01.png

 

빅데이터 크런칭은 대체로 정수연산을 활용하며 싱글스레드, 혹은 적은 수의 스레드만 활용하는 경우가 많다. 터보클럭이 더 높은 제온 SP가 경쟁자들을 리드하고 있다.

 


 

부동소수점-C-ray

 

fp-01.png

 

와, 무슨 일이 일어난거지? ("Wow, what just happened?") Zen의 4개의 FP 파이프라인이 빛을 발했다. EPYC은 모든 경쟁 상대를 최소 50% 이상의 격차로 따돌리고 있다. 다만 C-ray는 테스트 항목을 L1 캐시에 로드한 상태에서 진행하는데, L1 캐시 미스가 없는 한 넓은 FP 파이프라인의 병렬성을 활용하는 건 어려운 일이 아니다. 다음 벤치마크를 보자.

 


 

부동소수점-POV-Ray 3.7

 

fp-02.png

 

POV-Ray는 L2 캐시의 성능이 중요시된다. 따라서 EPYC의 특징인 높은 대역폭의 메모리를 활용하지 못하는 핸디캡이 있는데, 그럼에도 불구하고 EPYC은 제온 8176보다 16% 가량 더 높은 성능을 보이고 있다. 하지만 메모리 액세스와 AVX가 적용되면 어떻게 될까? 마지막 벤치마크를 보자.

 


 

부동소수점-NAMD

 

fp-03.png

fp-04.png

 

NAMD 바이너리는 인텔 컴파일러(ICC) 로 작성되고 AVX 명령어 세트를 지원한다. 그럼에도 불구하고 EPYC 7601은 인텔의 28코어 제온을 41% 격차로 앞서가는데, 린팩 등에서 쓰이는 벡터화된 명령어는 인텔이 더 빠르게 처리할 수 있지만 레거시 FP 코드는 Zen이 압도적으로 빠르기 때문이다.

 

더 최신 버전인 2.12에서도 마찬가지 결과를 보인다. 다만 최신 라이브러리를 썼을 때 인텔측 대조군은 일제히 소폭 올랐지만 EPYC은 약 4% 가량 성능이 낮아진 것도 주목할 만하다. 어쨌든 지금까지 살펴본 서로 다른 3종의 부동소수점 연산성능 벤치마크 결과는 한가지 결론을 도출하고 있다. 이론적으로는 Zen의 "피크 플롭스 성능"이 떨어질지 모르지만 아직까지 현업에서 사용되는 많은 FP 코드는 EPYC이 가장 빠르게 처리할 수 있다는 것이다.

 


 

    소비전력

 

power.png

 

(표가 의미하는 내용이 명백하고 이 장 자체가 짧아 번역을 생략했습니다.)

 


 

    결론

 

먼저 테스트 기간이 너무 짧아 서버 하드웨어/소프트웨어의 복잡다단한 면을 다 테스트할 수는 없었다는 점을 짚어 둔다. 그렇지만 전체적인 그림은 명확하다. 인텔의 새로운 메쉬 구조의 우수성과 AMD의 강력한 Zen 아키텍처에 대해 논하자면 끝도 없겠지만, 현업 종사자들을 위해 이론적인 배경 설명을 최소화하고자 한다. 당신이 원하는 키워드 -성능, 전성비, 가성비 등- 에 맞춰 결론을 내려 주는 게 현명하겠지.

 

인텔의 가격정책을 신경쓰지 않을 수 없다. 만약 가성비가 당신네 회사의 최우선 관심이라면 AMD의 EPYC은 매우 경쟁력있다. 데이터베이스 소프트웨어 및 벡터화된 코드를 처리할 용도가 아니라면, EPYC 7601은 단돈 4200달러에 8000달러를 넘는 인텔 제온 8176보다 근소하게 앞서는 성능을 제공한다. 심지어 가격을 생각하면 라이벌을 제온 8160으로 잡는게 더 타당한것 같다. 이쪽은 코어 수가 8176보다 4개 더 적고(24코어) 클럭도 200MHz 더 낮아 15%정도 더 낮은 성능을 보일 것으로 전망되는데, 그러면서도 가격은 가장 좋은 EPYC보다도 500달러가 더 비싸다(4700달러).

 

물론 제온 SP는 8소켓까지 구성 가능하다는 장점이 있다. 그러나 냉정히 말해 이 시장은 급속도로 축소되고 있으며 2소켓 구매자들은 무시할 수 없게 성장하고 있다. 우리가 아직 테스트하진 못했지만 AMD의 싱글소켓 전용 EPYC 역시 매력적이란 점을 언급해야겠다. 짐작컨대 EPYC 7551P 단일 구성은 거의 대부분의 제온 실버 듀얼 구성보다 성능이 좋을 것이다. 게다가 멀티소켓 구성에서 오는 비효율과 더 비싼 보드 등을 감수하지 않아도 된다. 가격에 민감한 이들이라면 대단히 뛰어난 선택이 될 것이다.

 

그러나, 당신이 구동하는 소프트웨어 자체가 비싼 경우에는 이야기가 조금 달라진다. 이 경우 제온 플래티넘을 사더라도 전체 예산에 가격탄력성을 주지 못할 가능성이 있다. 이 경우에는 제온 SP쪽이 최상의 싱글스레드 성능과 높은 스루풋, 인텔의 신뢰할만한 지원 등을 제공하므로 매력적인 선택지가 된다. 만약 HPC 소프트웨어를 구동하는 경우라면 AVX나 AVX-512로 인한 이득을 볼 수도 있다.

 

두번째로 고려해야할 것은 구매자의 특성이다. EPYC이 최고의 성능을 발휘하는 영역에서라도 ‘가상의 8소켓’을 최적화하려면 담당 직원이 상당한 노력을 기울여야 하는데 중소기업에서는 이것을 기대하기 어렵다. 반면 클라우드 벤더라면 이러한 튜닝은 한번 해놓고 나면 두고두고 써먹을 수 있는 투자가 된다. 마이크로소프트는 이미 애저 클라우드 데이터센터에 EPYC을 도입하고 있다.

 

이쯤에서 미래로 시선을 옮겨보자. 인텔은 메쉬 구조라는 진보된 기술을 도입하여 앞으로 코어 수를 더 늘리기 어렵지 않게 되었다. 그러나 한편으로는 ‘강력해진 AMD’ 라는 껄끄러운 상대를 마주하고 있다. 스칼라 부동소수점 연산성능은 단연 AMD가 앞서게 되었고 정수연산 성능은 동클럭일 경우 거의 같으나 인텔이 클럭에서의 우위를 바탕으로 겨우 누른 상황이다. 다만 듀얼 CCX 및 MCM 구조 등으로 낭비되는 성능이 현재로서는 많은데 AMD가 앞으로 이 점을 어떻게 개선해 나갈지가 관전 포인트이다.

 

마지막으로, AMD가 이렇게까지 해낸 것이 정말 대단하다는 이야기를 꼭 해야겠다. 그들은 경쟁력있는 성능의 새로운 서버 CPU를 가져왔을 뿐만 아니라 핵심적인 가격대의 시장에 이들을 배치했다. 인텔 역시 대단히 매력적이고 스케일아웃에 적합한 제품을 선보였지만 스카이레이크-SP의 신기술들이 지나치게 높은 가격에 묻히는 감이 있어 아쉽다.

 

 

이 게시글은 닥터몰라와의 정보교환 협약으로 작성되었습니다.

http://drmola.com/pc_column/211661#user_content_section_7


List of Articles
번호 분류 제목 글쓴이 날짜 조회 수
» 뉴스 스카이레이크-SP 제온 VS EPYC 벤치마크 (아난드텍 기사 번역) 매니아뉴스 2017.07.27 34
248 뉴스 코어 i9-7920X에 관한 또다른 썰 : 2.9-4.0GHz, TDP 140W? file 매니아뉴스 2017.07.27 39
247 뉴스 라이젠 쓰레드리퍼 PIB(정품박스패키지) 고해상도 이미지 2 AMDMANIA 2017.07.26 356
246 뉴스 커피레이크 I7-8700K 시네벤치 유출 file 박두영씨 2017.07.25 169
245 뉴스 AMD Ryzen 스레드리퍼 패키지 공개 file 박두영씨 2017.07.25 177
244 뉴스 마이크로소프트 그림판 32년만에 제거예정 file 박두영씨 2017.07.25 62
243 뉴스 쓰레드리퍼 초기 한국 입고 물량.... 4 AMDMANIA 2017.07.25 854
242 뉴스 인텔 6코어 커피레이크 i7-8700K ES CPU-Z 노출 file 박두영씨 2017.07.24 90
241 뉴스 인텔 커피레이크 i5-8250U GeekBench = i5-7300HQ급 성능 file 박두영씨 2017.07.24 92
240 뉴스 Intel Core i9-7960X 16 코어 / 32 스레드 Geekbench 점수 유출 file 박두영씨 2017.07.24 60
239 뉴스 스카이X VS 브로드웰E VS 하스웰E VS 라이젠 박두영씨 2017.07.24 61
238 뉴스 인텔 수석 엔지니어 프랑수아 피에노넬 퇴사 1 file 박두영씨 2017.07.22 54
237 뉴스 ASUS X399 ROG ZENITH EXTREME 보드 언박싱 1 file 박두영씨 2017.07.22 69
236 뉴스 커세어 RMA 사이트 및 고객지원 개편 file 박두영씨 2017.07.22 21
235 뉴스 일본에서 수냉 버전의 Vega "Radeon Vega Frontier Edition」가 판매 포착 file 박두영씨 2017.07.21 44
234 뉴스 업계동향 | 인텔, 웨어러블 사업부 폐쇄 file 박두영씨 2017.07.21 18
233 뉴스 Corsair의 지분이 또다시 개인 투자자에게 매각? file 박두영씨 2017.07.21 31
232 뉴스 Arctic, Liquid Freezer 시리즈 쿨러 Ryzen Threadripper 공식 지원 4 file 박두영씨 2017.07.20 53
231 뉴스 성능 드러낸 AMD 라데온 RX Vega, GTX 1080보다 100달러 싸다? file 박두영씨 2017.07.19 49
230 뉴스 포터블 게이밍! GIGABYTE AORUS GTX1070 게이밍박스 출시 file 박두영씨 2017.07.19 27
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 14 Next
/ 14
서버에 요청 중입니다. 잠시만 기다려 주십시오...