GraphML 101: 그래프 머신 러닝 (GML), 그래프 신경망 (GNN) 및 대규모 언어 모델 (LLM) 소개

Frank So
4일 전
6분 분량

빠르게 진화하는 인공지능 환경에서, 서로 다르지만 점점 더 상호 연결성이 높아지는 세 가지 분야, 즉 그래프 머신러닝(GML, GraphML, Graph Machine Learning), 그래프 신경망(GNN, Graph Neural Networks), 그리고 대규모 언어 모델(LLM, Large Language Models)이 데이터 분석 및 추론의 미래를 그려내고 있습니다. LLM은 인간 언어에 대한 탁월한 이해로 대중의 관심을 사로잡았지만, 이러한 모델과 그래프 머신러닝(Graph ML)의 조용한 혁명이 만들어내는 시너지는 AI 연구의 가장 유망한 영역 중 하나입니다. 이 글은 현대 AI의 이러한 핵심 요소들에 대한 기본적인 소개를 제공하며, LLM의 추론 능력과 GNN의 복잡한 관계 기반 데이터에서 통찰력을 도출하는 능력이 어떻게 융합되어 전례 없는 기회를 창출하고 있는지 살펴봅니다.

기술적인 측면에서 GNN은 관계형 데이터 표현을 학습하는 강력한 프레임워크를 제공하여 모델이 네트워크 내의 복잡한 연결을 이해할 수 있도록 합니다. 반면 LLM은 방대한 양의 의미 지식을 포착하여 인간과 유사한 텍스트를 처리하고 생성하는 놀라운 능력을 보여주었습니다. 이러한 기술들의 조합이 왜 그토록 강력한지, 그리고 GNN이 LLM이 때때로 제공하지 못하는 구조화된 네트워크 기반 추론을 어떻게 제공할 수 있는지, 그리고 LLM이 그래프 기반 모델에 사용되는 기능과 맥락을 어떻게 풍부하게 하여 과학, 기술 및 비즈니스 전반에 걸쳐 더욱 강력하고 섬세한 응용 프로그램을 개발할 수 있는지 살펴보겠습니다.

1. 그래프 및 그래프 머신 러닝(GML) 소개

그래프는 "관계로 연결된 항목"을 나타내는 기본적인 데이터 구조입니다. 이러한 항목은 노드(또는 정점)라고 하며, 연결은 에지(또는 링크)라고 합니다. 그래프는 어디에나 존재하며 다음을 포함한 다양한 실제 시나리오를 모델링할 수 있습니다.

소셜 네트워크: 사용자는 노드이고 연결은 엣지입니다.
분자: 노드로서의 원자, 가장자리로서의 화학 결합
지식 그래프: 노드는 엔티티이고, 에지는 관계입니다.
인용 네트워크: 논문/저자는 노드이고, 인용은 에지입니다.
텍스트/NLP: 노드로서의 단어/토큰, 엣지로서의 의미적 관계.
3D 메시: 점은 노드이고 연결은 모서리입니다.

그래프는 다음과 같은 특징으로 더욱 자세히 설명할 수 있습니다.

방향성: 방향 그래프는 특정 방향으로 흐르는 간선을 갖는 반면(예: A -> B), 무방향 그래프는 대칭적 관계를 갖습니다(A <-> B).
가중치: 가중치 그래프는 각 모서리에 숫자 값(가중치)을 부여하여 강도나 비용을 나타냅니다.
속성: 노드, 엣지, 전체 그래프는 스칼라 또는 임베딩 형태로 정보를 저장할 수 있습니다.
복잡성: 다중그래프는 한 쌍의 노드 사이에 여러 유형의 에지를 허용하고, 하이퍼그래프는 에지가 여러 노드에 연결되도록 허용합니다.

2. 그래프 신경망(GNN)

그래프 신경망(GNN, Graph Neural Networks)은 그래프 구조의 데이터를 처리하고 학습하도록 설계된 특수한 인공 신경망입니다. GNN은 메시지 전달 개념을 기반으로 하며, 노드가 이웃 노드의 정보를 수집하여 자신의 표현을 반복적으로 업데이트합니다.

2.1 GNN의 핵심 개념

메시지 전달 신경망(MPNN): GNN의 기본 프레임워크. MPNN에서 "그래프 노드는 이웃 노드로부터 수신된 메시지를 집계하여 자신의 표현을 업데이트합니다." 이 프로세스는 다음과 같습니다.
- 메시지 함수(ψ): 이웃 노드와 연결 에지에서 메시지를 계산합니다.
- 집계 연산자(⊕): 순열 불변 방식(예: 합계, 평균, 최대)으로 모든 이웃으로부터 메시지를 수집합니다.
- 업데이트 함수(𝜙): 노드의 현재 기능을 집계된 메시지와 결합하여 새로운 노드 표현을 생성합니다.
층 쌓기: GNN은 일반적으로 여러 층으로 구성되어 노드가 점점 더 멀리 떨어진 이웃 노드의 정보를 수집할 수 있도록 합니다. "n개의 MPNN 층을 쌓으면 한 노드가 최대 n '홉'만큼 떨어진 노드와 통신할 수 있습니다." 이는 학습된 부분 그래프의 임베딩을 기반으로 동작하는 것으로 볼 수 있습니다.
표현력: 이는 GNN이 비동형 그래프를 구별하는 능력을 말합니다.

많은 MPNN은 1-Weisfeiler-Leman(1-WL) 알고리즘의 분리 능력에 제한을 받습니다.

k차원 WL 알고리즘(k-WL)과 동등하거나 무작위 특징이나 하위 그래프 카운트를 사용하는 것과 같이 표현력이 더 뛰어난 GNN이 개발되었는데, 이는 종종 더 많은 계산 리소스를 희생해서였습니다.

"혼합"과 같은 표현력의 새로운 측정 방법이 등장하고 있습니다. 혼합은 그래프 함수의 결합적이고 비선형적인 종속성을 노드 쌍의 특성에 따라 인코딩하는데, 특히 과도한 압축의 맥락에서 그렇습니다.

2.2 GNN 아키텍처 유형

Graph Convolutional Networks (GCN): 노드 표현이 자체 특징과 이웃 노드의 집계된 특징을 결합하여 업데이트되는 인기 있는 GNN 유형으로, 정규화된 인접 행렬을 사용하는 경우가 많습니다. "다차원 에지 특징을 직접 허용하지 않는다"는 한계가 있습니다.
GCN
Graph Attention Networks (GAT): 메시지 집계 시 인접 노드에 다양한 중요도(어텐션 계수)를 할당하는 어텐션 메커니즘을 도입합니다. 이를 통해 모델은 "전체 데이터 대신 중요한 정보에 집중"할 수 있습니다. 어텐션 계수는 "노드 u가 노드 v에 비해 얼마나 중요한지"를 측정하며, 소프트맥스 함수를 통해 정규화됩니다. GCN은 어텐션 계수가 고정된 GAT의 특수한 사례로 볼 수 있습니다.
GAT
Gated Graph Sequence Neural Networks (GGS-NN): 노드 표현을 업데이트하고 순차적 출력을 허용하기 위해 게이트 순환 유닛(GRU) 셀을 통합하여 GNN 공식을 확장합니다.
GGS-NN

2.3 GNN의 과제

과도한 평활화: 여러 계층을 거치면 노드 표현이 구분 불가능해질 수 있습니다. 이에 대한 대책으로는 연결 건너뛰기, 게이트 업데이트 규칙, 지식 건너뛰기 등이 있습니다.
과도한 압축: "장거리 종속성을 고정 크기 표현으로 압축하여 발생하는 병목 현상". 이는 작업이 "긴 이동 시간"을 가진 노드 간 상호작용에 의존할 때 발생하며, 표현력을 저해할 수 있습니다. 최종 계층을 완전히 인접하도록 수정하면 이 문제를 완화할 수 있습니다. 그래프 재배선은 과도한 압축 문제를 해결하는 효과적인 방법으로 떠오르고 있습니다.
이질성(Heterophily): 연결된 노드들이 서로 다른 특징이나 레이블을 갖는 그래프에서 학습하는 문제입니다. 이는 활발한 연구 분야입니다.
일반화/전이성: GNN이 보이지 않는 그래프나 도메인에서도 좋은 성능을 발휘하도록 보장합니다.
효율성 및 확장성: "수십억 개의 에지가 있는 엔터프라이즈 규모 그래프"에서 GNN을 훈련하려면 PyTorch 기반으로 구축되고 여러 GPU와 머신을 활용할 수 있는 GraphStorm과 같은 특수 프레임워크가 필요합니다.
샘플링 및 배칭: 그래프 구조의 가변성으로 인해 학습을 위한 미니 배치를 생성하는 것은 어렵습니다. 핵심 속성을 유지하는 하위 그래프를 샘플링하는 전략이 필요합니다.

3. GNN의 과제와 응용

GNN은 다양한 수준의 그래프 분석에 적용됩니다.

노드 수준 작업: 개별 노드의 속성이나 역할을 예측합니다.
- 예) 노드 분류(예: 이순신의 태권도 클럽 회원을 충성도에 따라 분류), 분자 내 원자의 3D 좌표 예측(Alphafold).
에지 수준 작업: 기존 에지 또는 누락된 에지의 속성을 예측합니다.
- 예) 약물 부작용 예측(약물 쌍 간의 부작용 예측), 추천 시스템에서의 링크 예측.
그래프 수준 작업: 전체 그래프의 속성 예측
- 예) 분자 특성 예측(예: 독성, 분자의 냄새 예측), 그래프 분류(예: 이미지가 픽셀 그래프로 표현되는 이미지 분류).
하위 그래프 수준 작업: 커뮤니티 식별 또는 하위 그래프 속성 예측.
- 예) 소셜 네트워크에서의 커뮤니티 감지, 여정 시스템에서 도착 시간 추정.

주요 응용 분야:

약물 발견 및 분자 과학: 특정 특성을 가진 새로운 분자 설계, 분자 특성(예: 독성, 냄새, 화학 반응성) 예측, 화학 반응 예측.
추천 시스템: 사용자/아이템의 텍스트 속성 강화, 링크 예측, 소셜 추천.
과학을 위한 AI: GNN은 분자를 넘어 재료 설계와 물리적 시스템의 진화 예측에 사용됩니다.
로봇 작업 계획: LLM과 그래프 정보를 활용하여 특히 복잡한 시나리오에서 로봇 작업을 계획합니다.
사이버 보안: 호스트 기반 위협 탐지 및 추적, 네트워크 측면 이동.
조합 최적화: 칩 설계와 같은 NP-hard 문제를 해결합니다.
자연어 처리(NLP): 그래프 기반 텍스트 표현을 활용하여 의미적 관계를 파악하여 텍스트 분류, 질의응답, 기계 번역, 이벤트 추출을 수행합니다.
컴퓨터 비전: 이미지를 패치 그래프로 표현하여 특징 추출과 이미지 이해를 향상시킵니다.
물 분배망: 물 수요 예측, 메타모델 개발.
소셜 네트워크: 사용자 분류, 커뮤니티 감지.

GNN은 전환적 설정(단일 고정 그래프에서 진화를 예측) 또는 귀납적 설정(다양한 그래프에서 훈련/평가)에서 작동할 수 있습니다.

4. 대규모 언어 모델(LLM) 및 그래프

LLM과 그래프 머신 러닝의 교차점은 두 패러다임의 장점을 활용하여 빠르게 발전하는 분야입니다.

4.1 그래프 모델을 위한 LLM

LLM은 그래프 모델의 한계를 해결하고 다양한 측면을 개선하기 위해 활용되고 있습니다.

기능 품질 향상:
- 기능 표현 향상: LLM은 그래프 요소에 대한 해석이나 증강된 속성을 생성합니다(예: 분자에 대한 SMILES 표기법, 추천 시스템의 사용자/항목에 대한 텍스트 속성).
- 증강 정보 생성: LLM은 더욱 자세한 설명이나 추론(예: 사용자 선호도, 항목에 대한 잠재적 사용자 유형)을 생성할 수 있습니다.
- 기능 공간 정렬: LLM은 다양한 모달리티의 기능을 정렬하는 데 도움이 됩니다.
바닐라 GNN 훈련 한계 해결: LLM은 그래프의 구조적 정보를 처리하는 능력을 탐구하며, 구조적 정보를 무시하는지, 암묵적으로 사용하는지, 명시적으로 사용하는지에 따라 분류합니다.
이질성과 일반화 해결: LLM은 서로 다른 노드 기능과 관련된 문제를 완화하고 모델 일반화를 개선하는 데 도움이 될 수 있습니다.
신속한 튜닝: LLM은 GNN과 함께 신속한 튜닝을 위해 사용됩니다. 신속한 튜닝은 제한된 데이터를 사용하여 사전 훈련된 모델을 특정 작업에 맞게 조정하는 기술입니다.

4.2 LLM에 대한 그래프

지식 그래프(KG, Knowledge Graphs)는 "사실 인식, 환각, 추론 과정의 설명 가능성 제한"과 같은 LLM의 시급한 과제를 완화하는 데 필수적입니다. KG는 "고품질의 인간이 선별한 사실 지식을 구조화된 형식으로 저장"합니다.

KG 강화 LLM 사전 교육: KG는 사전 교육 중에 LLM에 사실적 지식을 주입하여 이해력과 생성 역량을 향상시킵니다.
KG 강화 LLM 추론: KG는 추론 단계에서 구조화된 진실의 소스를 제공하여 LLM이 다음을 수행할 수 있도록 지원합니다.
- 환각 완화: KG의 사실적 데이터를 바탕으로 LLM 반응을 뒷받침합니다.
- 설명 가능성 향상: LLM이 KG에서 인용 정보를 도출하여 답변을 뒷받침하고 추론 경로를 제공할 수 있도록 지원합니다. KaLMA와 같은 벤치마크가 이러한 역량을 평가합니다.
- 추론 강화: LLM은 KG 완성, 질의 응답, 추론 자체 등 KG에 대한 복잡한 추론 작업을 수행할 수 있습니다.
A Scenario of KG

4.3 주요 LLM 모델 및 통합

ChatGPT, LLaMA, GPT-4, Vicuna, PaLM, BERT, ViT를 포함한 다양한 LLM이 다양한 애플리케이션에서 GNN 및 KG와 통합되고 있습니다. GraphGPT 및 GraphLLM과 같은 프레임워크는 특히 LLM과 함께 Graph Transformer를 활용합니다.

5. 미래 방향

LLM과 그래프 머신 러닝의 통합은 아직 탐색 단계에 있으며 미래 방향은 다음과 같습니다.

일반화 및 이전 가능성: LLM으로 강화된 GNN이 다양한 데이터 세트와 도메인에서 일반화될 수 있도록 하는 추가 연구.
다중 모달 그래프 학습: LLM을 사용하여 그래프 데이터를 다른 모달리티(예: 텍스트, 이미지)와 결합합니다.
신뢰성: 적대적 공격에 대한 견고성을 보장하고, 의사 결정에 대한 설명 가능성을 제공하고, 공정성을 증진하고, 특히 의료 및 금융과 같은 중요한 애플리케이션에서 개인 정보를 유지합니다.
관련 그래프 클래스에 대한 표현력: 표현력이 뛰어난 GNN은 대부분 일반적인 그래프를 목표로 하지만, 특정하고 실용적으로 관련성이 있는 그래프 클래스(예: 분자에 대한 평면 그래프, 최적화 문제에 대한 이분 그래프)에 맞춰 제작된 아키텍처를 개발해야 할 필요성이 커지고 있습니다.
그래프를 위한 생성 모델: 약물 설계를 위한 새로운 분자 구조 등 원하는 속성을 가진 새로운 그래프를 생성할 수 있는 모델을 개발합니다.