top of page

엑사스케일(Exascale) 슈퍼컴퓨터는 무엇이고 어떤것을 할 수 있을까요?

엑사스케일(Exascale) 슈퍼컴퓨터는 기존의 어떠한 컴퓨팅 방법으로도 불가능한 속도로 계산을 처리할 수 있는 고성능 시스템입니다.


엑사스케일 슈퍼컴퓨터는 엑사플롭(exaflop) 단위로 작동하는 컴퓨터입니다. "엑사(exa)"는 10경(quintillion)을 의미하며, 이는 10의 18승 (10^18) , 즉 1 뒤에 0이 18개 붙은 수를 의미합니다. 플롭(flop)은 "초당 부동 소수점 연산 (foating point operations per second)"을 의미하며, 컴퓨터의 성능 비교를 위해 벤치마킹에 사용되는 계산 방식입니다.


즉, 엑사스케일 컴퓨터는 초당 최소 1경(1quintillion)의 부동 소수점 연산을 처리할 수 있습니다. 이에 비해 대부분의 가정용 컴퓨터는 테라플롭(Teraflop) 수준(일반적으로 약 5테라플롭)으로 작동하며, 초당 약 5조(5 x 1012) 의 부동 소수점 연산만 처리합니다.


테라(tera)의 1,000배는 페타(peta)이고 페타의 1,000배가 엑사(exa)이므로 엑사 단위는 테라의 100만배가 됩니다. 그러므로 1엑사플롭 성능의 엑사스케일 슈퍼컴퓨터는 5테라플롭의 가정용 컴퓨터보다 20만배 이상이 더 빠르다는 말이 됩니다.

Symbol

Name

Factor

Symbol

Name

Factor

Y

yotta

10^24

y

yokto

10^-24

Z

zetta

10^21

z

zepto

10^-21

E

exa

10^18

a

atto

10^-18

P

peta

10^15

f

femto

10^-15

T

tera

10^12

p

pico

10^-12

G

giga

10^9

n

nano

10^-9

M

mega

10^6

μ

micro

10^−6

k

kilo

10^3

m

milli

10^-3

h

hecto

10^2

c

centi

10^-2

da

deka

10^1

d

deci

10^-1


HPE HPC 및 AI 고객 솔루션 부문 부사장인 제럴드 클레인(Gerald Kleyn)은 Live Science와의 인터뷰에서 "엑사플롭은 초당 10억 번의 연산을 의미합니다. 지구 전체 시뮬레이션처럼 훨씬 더 큰 규모의 문제를 해결할 수도 있고, 훨씬 더 세밀하게 처리할 수도 있습니다." 라고 말했습니다.


컴퓨터가 매초 처리할 수 있는 부동 소수점 연산 (FLOP)이 많을수록 컴퓨터는 더욱 강력해져 더 많은 계산을 훨씬 더 빠르게 처리할 수 있습니다. 엑사스케일 컴퓨팅은 일반적으로 기상 예보, 새로운 유형의 의학 모델링, 엔진 설계의 가상 테스트와 같은 복잡한 시뮬레이션을 수행하는 데 사용됩니다.


엑사스케일 컴퓨터는 몇 대나 존재하며 어떤 용도로 사용되는 걸까?


최초의 엑사스케일 컴퓨터인 프론티어 (Frontier)는 2022년 6월 HPE에서 출시되었습니다. 기록된 작동 속도는 1.102 엑사플롭스(exaflops)입니다. 두 번째 엑사스케일 컴퓨터는 인텔(Intel)과 크레이(Cray)의 1.012 엑사플롭스(exflops)의 오로라(Aurora)입니다. 이후 현재 선두를 달리고 있는 엘 캐피탄(El Capitan)이 1.742 엑사플롭스(exflops)로 작동하며, 2025년 현재, 이렇게 세 대의 엑사스케일 컴퓨터가 존재합니다.


HPE Frontier
Frontier 슈퍼컴퓨터

Aurora
Aurora 슈퍼컴퓨터

El Capitan
El Capitan 슈퍼컴퓨터

코로나19 팬데믹 기간 동안 엑사스케일 슈퍼컴퓨터 는 방대한 양의 데이터를 수집, 처리 및 분석하는 데 사용되었습니다. 이를 통해 과학자들은 바이러스의 유전적 코딩을 이해하고 모델링할 수 있었으며, 역학자들은 슈퍼컴퓨터의 연산 능력을 활용하여 인구 전체에 걸친 질병 확산을 예측할 수 있었습니다. 이러한 시뮬레이션은 고성능 사무용 컴퓨터를 사용했을 때보다 훨씬 짧은 시간 안에 수행되었습니다.


양자 컴퓨터는 슈퍼컴퓨터와 다르다는 점도 주목할 만합니다 . 양자 컴퓨터는 기존 비트를 사용하여 정보를 표현하는 디지털 방식의 고전 컴퓨터와는 다르게, 큐비트 의 양자적 특성을 활용하여 기존 컴퓨터로는 해결하기 어려운 복잡한 문제를 해결합니다.


various quantum computers
여러 타입의 양자 컴퓨터

엑사스케일 컴퓨팅이 작동하려면 수만 개의 고급 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU)가 하나의 공간에 집적되어야 합니다. CPU와 GPU의 근접성은 시스템 내 지연 시간(구성 요소 간 데이터 전송에 걸리는 시간)을 단축하기 때문에 필수적입니다. 지연 시간은 일반적으로 피코초(picoseconds) 단위로 측정되지만, 수십억 개의 계산이 동시에 처리될 경우 이러한 미세한 지연이 합쳐져 전체 시스템 속도를 저하시킬 수 있습니다.


CSC의 과학 기술 책임자인 페카 마니넨(Pekka Manninen)은 Live Science와의 인터뷰에서 "상호 연결(네트워크)은 CPU, GPU, 메모리로 구성된 컴퓨팅 노드를 연결합니다."라고 말했습니다. "그러면 소프트웨어 스택을 통해 노드들의 결합된 컴퓨팅 성능을 단일 컴퓨팅 작업으로 활용할 수 있습니다."


엑사스케일 컴퓨터는 구성 요소를 최대한 빽빽하게 집어넣었음에도 불구하고 여전히 거대한 장치입니다. 예를 들어, 프론티어 슈퍼컴퓨터는 각각 무게가 약 3.5톤인 74개의 캐비닛으로 구성되어 있으며, 면적은 7,300제곱피트(680제곱미터)가 넘습니다. 이는 축구장 약 절반 크기입니다.


엑사스케일 컴퓨팅의 난제점


물론, 너무 많은 부품을 빽빽하게 꽂으면 문제가 발생할 수 있습니다. 컴퓨터는 일반적으로 폐열을 방출하기 위해 냉각이 필요하며, 엑사스케일 컴퓨터에서 매초 수십억 개의 계산이 실행되면서 컴퓨터가 잠재적으로 손상을 줄 수 있는 온도까지 가열될 수 있습니다.


"그렇게 많은 구성 요소를 하나로 통합하여 작동시키는 것이 아마도 가장 어려운 일일 것입니다. 모든 것이 완벽하게 작동해야 하기 때문입니다."라고 HPE의 클레인은 말했습니다. "인간으로서, 가족끼리 저녁 식사를 위해 모이는 것조차 어려운데, 3만 6천 개의 GPU를 동시에 작동시키는 것은 더욱 어렵습니다."


이는 엑사스케일 슈퍼컴퓨터 개발에 열 관리가 필수적임을 의미합니다. 어떤 슈퍼컴퓨터는 북극과 같은 극한 환경을 이용하여 이상적인 온도를 유지하고, 어떤 슈퍼컴퓨터는 수냉식 냉각 장치(liquid water-cooling), 팬(fan) 랙, 또는 이 두 가지를 조합하여 온도를 낮게 유지합니다.


그러나, 환경 제어 시스템은 에너지 관리 과제를 더욱 복잡하게 만듭니다. 엑사스케일 컴퓨팅은 구동해야 하는 프로세서의 수가 많기 때문에 막대한 양의 에너지를 필요로 합니다.


엑사스케일 컴퓨팅은 많은 에너지를 소비하지만, 장기적으로는 프로젝트의 에너지 절감 효과를 가져올 수 있습니다. 예를 들어, 새로운 설계를 반복적으로 개발, 구축, 테스트하는 대신, 컴퓨터를 활용하여 비교적 짧은 시간 안에 설계를 가상으로 시뮬레이션할 수 있습니다.


엑사스케일 컴퓨터의 안정성


엑사스케일 컴퓨팅이 직면한 또 다른 문제는 안정성입니다. 시스템에 구성 요소가 많을수록 시스템은 더욱 복잡해집니다. 일반적인 가정용 컴퓨터는 3년 이내에 어떤 형태로든 고장이 발생할 것으로 예상되지만(연단위), 엑사스케일 컴퓨팅에서는 고장률을 시간 단위로 측정합니다.


이처럼 짧고 빠른 고장률은 엑사스케일 컴퓨팅에 수만 개의 CPU와 GPU가 필요하고, 이들 모두 고용량으로 작동하기 때문입니다. 모든 구성 요소에 동시에 요구되는 높은 성능을 고려하면, 최소 하나의 구성 요소가 몇 시간 내에 고장날 가능성이 높습니다.


엑사스케일 컴퓨팅의 실패율로 인해, 시스템 장애 발생 시 애플리케이션은 계산을 처리할 때 진행 상황을 저장하기 위해 체크포인팅을 사용합니다.


엑사스케일 컴퓨터는 장애 위험을 완화하고 불필요한 가동 중단을 방지하기 위해 모니터링 시스템과 함께 진단 도구를 사용합니다. 이러한 시스템은 시스템의 전반적인 안정성을 지속적으로 감독하고 마모 징후가 있는 부품을 식별하여 가동 중단을 유발하기 전에 교체를 권장합니다.


"진단 시스템과 모니터링 시스템을 통해 기계 작동 상태를 확인할 수 있습니다. 각 부품을 정밀하게 분석하여 고장 원인을 파악하고 사전 예방적 경고를 제공할 수 있습니다. 또한 기술자들은 고장난 부품을 교체하고 기계가 정상적으로 작동하도록 유지하기 위해 끊임없이 노력하고 있습니다."라고 클라인은 말했습니다. "이 기계들을 계속 작동시키려면 정말 세심한 주의가 필요합니다."


엑사스케일 컴퓨팅의 높은 작동 속도는 처리 능력을 최대한 활용하기 위해 전문적인 운영 체제와 애플리케이션이 필요합니다.


"수백만 개의 처리 장치에 걸쳐 계산 알고리즘을 이기종 방식(노드 간, 그리고 GPU 또는 CPU 코어를 통한 노드 내)으로 병렬화할 수 있어야 합니다."라고 마니넨은 말했습니다. "모든 컴퓨팅 문제가 이러한 병렬화에 적합한 것은 아닙니다. 서로 다른 프로세스와 스레드 간의 통신은 신중하게 조율되어야 하며, 입력과 출력을 효율적으로 구현하는 것은 쉽지 않습니다."


수행되는 시뮬레이션의 복잡성으로 인해 결과 검증 또한 어려울 수 있습니다. 엑사스케일 컴퓨터 결과는 기존 사무용 컴퓨터로는 확인할 수 없으며, 적어도 단시간 내에는 확인할 수 없습니다. 대신, 애플리케이션은 예상 오차 바를 사용하는데, 이는 예상 결과에 대한 대략적인 추정치를 나타내며, 이 오차 바를 벗어나는 부분은 무시합니다.


슈퍼컴퓨터의 미래


무어의 법칙(Moore’s Law)에 따르면 , 집적 회로의 트랜지스터 수는 2년마다 두 배로 증가할 것으로 예상됩니다. 영원히 지속될 수는 없으므로 큰 가정이지만, 이러한 발전 속도가 계속된다면, 약 10년 안에 1 뒤에 0이 21개 붙은 제타스케일(zettascale) 컴퓨팅이 가능할 것으로 예상됩니다.


엑사스케일 컴퓨팅은 매우 짧은 시간 안에 엄청난 양의 계산을 동시에 처리하는 데 탁월한 반면, 양자 컴퓨팅은 기존 컴퓨팅으로는 해결하기 어려운 엄청나게 복잡한 문제들을 해결하기 시작했습니다. 양자 컴퓨터는 현재 엑사스케일 컴퓨터만큼 강력하지는 않지만, 결국에는 엑사스케일 컴퓨터를 능가할 것으로 예측됩니다.


한 가지 가능한 개발 방안은 양자 컴퓨팅과 슈퍼컴퓨터의 융합입니다. 이 하이브리드 양자/고전 슈퍼컴퓨터는 양자 컴퓨터의 연산 능력과 고전 컴퓨팅의 고속 처리 능력을 결합합니다. 과학자들은 이미 일본의 후가쿠(Fugaku) 슈퍼컴퓨터에 양자 컴퓨터를 추가하는등의 하이브리드 융합 과정에 착수했습니다 .


Fugaku
Fugaku 슈퍼컴퓨터

클레인은 "우리가 이러한 것들을 계속 소형화하고 냉각 성능을 개선하며 비용을 낮추면 이전에는 해결할 수 없었던 문제를 해결할 수 있는 기회가 될 것입니다."라고 말했습니다.


참고:


pngegg (11)_result.webp

<Raank:랑크 /> 구독 하기 : Subscribe

감사합니다! : Thanks for submitting!

©2024 by <Raank:랑크 /> Knowledge is Power

  • Linkedin
  • Knowledge Arcadia - Icon 8c
  • Raanktone - Icon 16 - 1
  • Qubitronix
  • Naver Blog
bottom of page