[Paper Review] GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes

2 분 소요

이 포스팅은 Maia et al. (2022)의 논문 “GP-BART: a novel Bayesian additive regression trees approach using Gaussian processes”를 읽고 정리한 글입니다.

Introduction

BART(Bayesian Additive Regression Tree)에 대한 설명은 BART 글을 참고하세요.

Motivation

기존의 BART는 각 Leaf Node에 상수값($\mu_i$)를 부여함으로써 예측 함수를 구성합니다. 이 방식은 단순하고 계산의 효율성이 높지만, 예측 함수가 불연속하게 되어 다음과 같은 한계가 있습니다.

입력 변수 공간에서의 Smooth한 함수의 추정이 어려움.
공간적, 연속적 상관관계는 모델링하지 못함
리프 노드 간의 예측값이 급격히 변하는 현상이 발생함

이러한 점에서 BART는 Spatial Regression, Time Series Analysis 등에서 부적절할 수 있습니다.

Idea

Leaf Node에 상수값이 아닌 Gaussian Process(GP) 를 도입하여, 각 영역에서 부드러운 함수 형태로 예측을 수행하도록 확장해보자!

GP에 대한 글은 Gaussian Process 글을 참고해주세요

Model

GP-BART는 기존 BART의 sum-of-trees framework를 유지하면서,
각 Tree의 Leaf Node 출력값을 상수 $\mu$가 아닌, Gaussian Process(GP)로 대체한 구조입니다.

A mathematical expression

\[f(x) = \sum_{j=1}^m g_j(x), \quad g_j(x) = f^{(j)}(x; T_j, \text{GP}_j)\]

$T_j$: $j$번째 트리 구조 (분할 규칙)
$\text{GP}_j$: $T_j$의 각 말단 노드에 정의된 GP

Difference between BART and GP-BART

항목	BART	GP-BART
Leaf node 값	상수 $\mu$	GP
예측 함수	계단형 (piecewise constant)	부드러운 곡선 (smooth)
연속성	없음	존재
표현력	제한적	향상됨

즉, GP-BART는 각 트리가 “작은 지역 함수 조각(local GP smoother)”를 표현하도록 하며,
전체적으로는 부드럽고 유연한 함수의 합으로 target function $f(x)$를 추정합니다.

Inference

기본적으로는 BART에서 사용하던 Bayesian Backfitting MCMC 방식을 확장합니다.

Posterior Sampling Procedure

트리 구조 $T_j$를 grow/prune/change/swap 방식으로 샘플링
각 리프 노드에 속한 GP의 하이퍼파라미터 및 함수값을 샘플링
전체 예측 함수 $f(x)$를 업데이트
오차 분산 $\sigma^2$ 샘플링

Main Changes

리프 노드마다 독립적인 GP가 존재하며,
각 노드는 자신에게 속한 데이터 포인트만으로 local GP regression을 수행
따라서 각 트리를 업데이트할 때마다 해당 영역의 GP posterior도 함께 업데이트

결과적으로, GP-BART는 “sum of local GP models”로 볼 수 있으며,
기존 BART보다 계산량은 늘어나지만 훨씬 부드럽고 정밀한 예측이 가능합니다.

Results

논문에서는 다양한 synthetic data 및 real-world regression task에서 GP-BART의 성능을 평가합니다.

RMSE 기준으로 기존 BART 대비 일관된 성능 향상
특히 연속성이 중요한 domain (e.g. spatial, functional data)에서 강력함
예측 곡선이 매우 부드럽고, credible interval이 자연스러움

예측의 부드러움과 불확실성 추정 측면에서 GP-BART는 Random Forest, BART, Gaussian Process 단독 모델보다 우수한 결과를 보임

Discussion

Advantages

예측의 연속성 확보: 불연속적이고 경직된 예측을 방지
국소 적응성(Local adaptivity): 각 리프마다 GP를 갖기 때문에 지역적 패턴에 민감하게 반응
베이지안적 불확실성 추정: 예측과 함께 신뢰 구간도 제공

Disadvantages

계산 비용 증가: 모든 리프에서 GP inference를 수행해야 하므로 MCMC 비용 증가
하이퍼파라미터 설정: GP의 커널 파라미터를 트리마다 추정해야 하므로 tuning이 중요함

Reference

X Facebook LinkedIn Bluesky

Junhee Kim

추천 포스트