Moran’s I Statistics
이 포스팅은 공간통계에서 자주 사용하는 공간 자기상관에 대한 통계량 Moran’s I에 대해 설명하는 글입니다.
Introduction: Spatial Autocorreltion
Spatial Autocorreltion, 공간 자기상관은 “가까운 것들은 서로 관련이 있다.” 라는 지리학의 제 1법칙(Tobler’s First Law)을 통계적으로 표현한 개념이라고 볼 수 있습니다.
예를 들어, 인천의 날씨가 부산보단 서울과 유사할 것이라고 판단하는 것도 이에 해당된다고 볼 수 있겠습니다.
통계학에서 이런 두 값, 두 변수의 유사도를 측정하는 지표로 상관계수를 주로 많이 사용합니다.
-1에서 1 사이의 값을 가지며, 1에 가까울 수록 유사하고 -1에 가까울수록 다른 패턴을 보이며, 0은 무상관을 의미하는 통계량입니다.
Definition
공간 통계에서도 지역간의 유사함과 다름을 정의할 필요가 있습니다. 이때 주로 Moran’s I 를 사용합니다. 수식은 다음과 같습니다.
\[I = \dfrac{N}{\sum_{i=1}^N \sum_{j=1}^Nw_{ij}}\dfrac{\sum_{i=1}^N \sum_{j=1}^N w_{ij}(x_i -\bar{x})(x_j-\bar{x})}{\sum_{i=1}^N(x_i-\bar{x})^2}\]뭔가 가중치가 부여된 상관계수같은 느낌이 듭니다.
수식이 복잡해보이지만, 각 항목을 나누어 보면 아이디어는 간단합니다.
- $N$ : 전체 지역의 수
- $x_i$ : $i$번째 지역의 관측값
- $\bar{x}$ : 전체 지역의 평균
- $w_{ij}$ : 공간 가중치 행렬의 $i,j$ 번째 원소
- $i$번째 지역과,$j$번째 지역이 서로 ‘이웃’이면 1(또는 특정 가중치), 아니면 0의 값을 가집니다. 이 행렬을 어떻게 정의하느냐에 따라 분석 결과가 달라질 수 있습니다. (예: 인접하면 1, 아니면 0 또는 거리가 가까울수록 높은 가중치 부여)
핵심은 분자의 $(x_i -\bar{x})(x_j-\bar{x})$ 부분입니다. 두 지역이 모두 평균보다 크거나, 모두 작으면 이 항은 양수가 됩니다. 반대로 두 term의 부호가 다르면 음수가 되겠죠.
$w_{ij}$를 0또는 1이라고 가정한다면 결국 Moran’s I 는 이 term들의 총합을 결정되며, 다음과 같이 해석할 수 있을 것입니다.
-
$I > 0$: 긍정적 공간 자기상관. 유사한 값(고-고, 저-저)들이 서로 뭉쳐있다.
-
$I < 0$: 부정적 공간 자기상관. 다른 값(고-저, 저-고)들이 이웃해 있다.
-
$I \approx 0$: 공간적 패턴이 없다 (무작위 패턴).
Example

위의 그림은 이해를 돕기 위한 간단한 예시입니다. 각 사각형이 하나의 지역이라고 보시면 됩니다. 예를 들어 그림에서 유사한 값(밝은색은 밝은색끼리, 어두운색은 어두운색끼리)이 공간적으로 함께 뭉쳐있는 경우, 우상단 그림처럼 긍정적 공간 자기상관(Positive Autocorrelation) 이 나타나며 Moran’s I 값은 0보다 큰 양수가 됩니다. 도시의 특정 지역에 소득 수준이 높은 가구들이 모여 사는 것과 같은 현상이 이에 해당한다고 볼 수 있겠죠.
반면 특별한 규칙 없이 값들이 무작위로 흩어져 있다면 공간적 패턴이 없다고 보며, Moran’s I 값은 0에 가까워집니다. 체스판처럼 서로 다른 값들이 이웃하여 번갈아 나타나는 분산된 패턴(dispersed pattern)의 경우, 부정적 공간 자기상관(Negative Autocorrelation) 이라고 하며 Moran’s I 값은 음수가 됩니다. 예를 들어보면, 우리나라에 존재하는 프랜차이즈들의 분포를 들 수 있을 것 같습니다. 각 지점은 서로의 상권을 침해하지 않기 위해 일정한 거리를 두고 입점하려는 경향이 있게 되어, 부정적 자기 상관에 해당한다고 볼 수 있습니다.
Hypothesis Testing and Statistical Significance
Moran’s I값이 0이 아니라고 해서 항상 공간 자기상관이 존재한다고 단정할 수 있을까요? 아니죠. 구한 통계량이 얼마나 통계적으로 유의한 값인지 확인하는 가설 검정 과정이 동반되어야 합니다. 귀무가설과 대립가설을 다음과 같이 설정해봅시다.
귀무가설($H_0$): 공간 자기상관이 존재하지 않는다. 즉, 데이터는 공간적으로 무작위 분포를 따른다.
대립가설($H_1$): 공간 자기상관이 존재한다. 데이터 분포는 군집, 분산 또는 특정 패턴을 가진다.
이제 가설 검정을 위해서 남은 것은 귀무가설 하에서 I 통계량이 따르는 분포입니다.
귀무가설하에서, 즉 “데이터가 공간적으로 완전 무작위하게 분포한다”는 가정하에서 Moran’s I 통계량은 표본의 크기($N$)이 충분히 클 때 정규분포에 근사하는 것이 알려져 있습니다.
이를 이용하여 우리는 $Z$-Test를 할 수 있게 됩니다.
검정 통계량은 다음과 같습니다. \(Z = \dfrac{I -\mathbb{E}[I]}{\sqrt{Var(I)}}\)
- $I$ : 샘플로부터 계산한 Moran’s I 값
- $\mathbb{E}[I]$ : 귀무가설 하에서의 Moran’s I의 기댓값
- $Var(I)$ : 귀무가설 하에서의 Moran’s I의 분산
여기서 기댓값은 $\dfrac{-1}{N-1}$이라고 알려져 있습니다. $N$이 매우 크다면 기댓값은 0에 가까워 집니다.
해당하는 $Z$-Score와 상응하는 P-value
를 통해 통계적 유의성을 판단합니다.
P-value
< 0.05: 통계적으로 유의미하다. 관측된 공간 패턴이 우연히 발생했을 가능성은 5% 미만이므로, 귀무가설을 기각하고 공간 자기상관이 존재한다고 결론 내릴 수 있습니다.- 높은 양수의 $Z$-Score: 유사한 값들이 통계적으로 유의미하게 군집(clustered) 해 있음을 의미합니다 (긍정적 자기상관).
- 낮은 음수의 $Z$-Score: 유사한 값들이 통계적으로 유의미하게 분산(dispersed) 되어 있음을 의미합니다 (부정적 자기상관).
Conclusion
이번 글에서는 공간통계에서 매우 중요한 통계량인 Moran’s I를 알아보았습니다. 감사합니다.