[Paper Review] GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes
이 포스팅은 Maia et al. (2022)의 논문 “GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes”를 읽고 정리한 글입니다.
Introduction
BART(Bayesian Additive Regression Tree)에 대한 설명은 BART 글을 참고하세요.
Motivation
기존의 BART는 각 Leaf Node에 상수값($\mu_i$)를 부여함으로써 예측 함수를 구성합니다. 이 방식은 단순하고 계산의 효율성이 높지만, 예측 함수가 불연속하게 되어 다음과 같은 한계가 있습니다.
- 입력 변수 공간에서의 Smooth한 함수의 추정이 어려움.
- 공간적, 연속적 상관관계는 모델링하지 못함
- 리프 노드 간의 예측값이 급격히 변하는 현상이 발생함
이러한 점에서 BART는 Spatial Regression, Time Series Analysis 등에서 부적절할 수 있습니다.
Idea
Leaf Node에 상수값이 아닌 Gaussian Process(GP) 를 도입하여, 각 영역에서 부드러운 함수 형태로 예측을 수행하도록 확장해보자!
GP에 대한 글은 Gaussian Process 글을 참고해주세요
Model
GP-BART는 기존 BART의 sum-of-trees framework를 유지하면서,
각 Tree의 Leaf Node 출력값을 상수 $\mu$가 아닌, Gaussian Process(GP)로 대체한 구조입니다.
A mathematical expression
\[f(x) = \sum_{j=1}^m g_j(x), \quad g_j(x) = f^{(j)}(x; T_j, \text{GP}_j)\]- $T_j$: $j$번째 트리 구조 (분할 규칙)
- $\text{GP}_j$: $T_j$의 각 말단 노드에 정의된 GP
Difference between BART and GP-BART
항목 | BART | GP-BART |
---|---|---|
Leaf node 값 | 상수 $\mu$ | GP |
예측 함수 | 계단형 (piecewise constant) | 부드러운 곡선 (smooth) |
연속성 | 없음 | 존재 |
표현력 | 제한적 | 향상됨 |
즉, GP-BART는 각 트리가 “작은 지역 함수 조각(local GP smoother)”를 표현하도록 하며,
전체적으로는 부드럽고 유연한 함수의 합으로 target function $f(x)$를 추정합니다.
Inference
기본적으로는 BART에서 사용하던 Bayesian Backfitting MCMC 방식을 확장합니다.
Posterior Sampling Procedure
- 트리 구조 $T_j$를 grow/prune/change/swap 방식으로 샘플링
- 각 리프 노드에 속한 GP의 하이퍼파라미터 및 함수값을 샘플링
- 전체 예측 함수 $f(x)$를 업데이트
- 오차 분산 $\sigma^2$ 샘플링
Main Changes
- 리프 노드마다 독립적인 GP가 존재하며,
- 각 노드는 자신에게 속한 데이터 포인트만으로 local GP regression을 수행
- 따라서 각 트리를 업데이트할 때마다 해당 영역의 GP posterior도 함께 업데이트
결과적으로, GP-BART는 “sum of local GP models”로 볼 수 있으며,
기존 BART보다 계산량은 늘어나지만 훨씬 부드럽고 정밀한 예측이 가능합니다.
Results
논문에서는 다양한 synthetic data 및 real-world regression task에서 GP-BART의 성능을 평가합니다.
- RMSE 기준으로 기존 BART 대비 일관된 성능 향상
- 특히 연속성이 중요한 domain (e.g. spatial, functional data)에서 강력함
- 예측 곡선이 매우 부드럽고, credible interval이 자연스러움
예측의 부드러움과 불확실성 추정 측면에서 GP-BART는 Random Forest, BART, Gaussian Process 단독 모델보다 우수한 결과를 보임
Discussion
Advantages
- 예측의 연속성 확보: 불연속적이고 경직된 예측을 방지
- 국소 적응성(Local adaptivity): 각 리프마다 GP를 갖기 때문에 지역적 패턴에 민감하게 반응
- 베이지안적 불확실성 추정: 예측과 함께 신뢰 구간도 제공
Disadvantages
- 계산 비용 증가: 모든 리프에서 GP inference를 수행해야 하므로 MCMC 비용 증가
- 하이퍼파라미터 설정: GP의 커널 파라미터를 트리마다 추정해야 하므로 tuning이 중요함