Health, Epidemiology

상대 위험도(RR, Relative Risk)의 의미와 해석에 대한 오해

Jonggg 2023. 11. 2. 17:29

목적

역학이나 공중보건학 그리고 예방의학에서는 RR이라는 개념을 사용한다. RR은 상대위험도, 상대위험비, 위험비, Relative Risk, Risk Ratio 등으로 불리곤 한다. RR의 개념 자체는 사실 어렵지는 않은데, 어렵지 않은 이유 때문인지 가끔 충분히 생각하지 않아서, RR의 의미 또는 해석에 대한 오해가 일어나기도 한다. 이러한 오해가 일어나는 지점을 여기에 드러내고자 한다.

 

개념

여기서 위험(Risk)라는 용어가 사용되는데, Risk는 확률을 나타낸다고 보면 되겠다. 어떤 사건 A에 대한 Risk는 그 사건 A에 대한 확률을 의미한다.

 

$$
사건\; A에\; 대한\; Risk\; =\;P(A)
$$

 

보통은 질병으로 인한 사망이나 질병의 발생에 대한 Risk를 이야기하고, RR은 결국 두가지 Risk에 대한 비율을 의미한다.


$$
RR\; =\; Relative\; Risk\; =\; Risk\; Ratio\; =\; \frac{Risk_1}{Risk_2}
$$

 

노출과 사망을 예로 하였을 때 보통 두가지 Risk는 다음과 같다.

 

  1. $Risk1$ = 어떤 노출 수준일 때 사망에 대한 Risk
  2. $Risk2$ = 노출되지 않았을 때 (또는 반사실적-counterfactual- 노출수준일 때, 또는 비교하고자 하는 노출수준일 때) 사망에 대한 Risk

 

여기서 Risk2에 해당하는 "노출되지 않았거나 반사실적 노출수준일 때"라는 것은 학문적 또는 이론적으로 알려졌거나 연구자가 가정할수도 있겠지만, 결국은 연구자가 Risk1에 해당되는 노출수준과 비교하고자 하는 노출수준을 뜻하는 것이다.

 

이때, D를 사망하는 사건, E를 어떤 노출 수준에 노출되는 사건, C를 반사실적 또는 비교하고자하는 노출수준에 노출되는 사건이라고 하면, 각각의 Risk는 조건부 확률을 나타내게 된다.

 

  1. $Risk1$ = 어떤 노출 수준일 때 사망에 대한 Risk = $P(D|E)$
  2. $Risk2$ = 노출되지 않았을 때 (또는 반사실적-counterfactual- 노출수준일 때) 사망에 대한 Risk = $P(D|C)$

 

즉, 우리는 다음과 같음을 안다.

 

$$
RR\; =\; \frac{Risk_1}{Risk_2} =\; \frac{P(D|E)}{P(D|C)}
$$

 

여기서 우리가 알 수 있는 것은 RR은 사건 D, E, C에 대한 함수 값이라는 것이다.


$$
RR(D, E, C)\; =\; \frac{Risk_1 (D, E)}{Risk_2 (D, C)} =\; \frac{P(D|E)}{P(D|C)}
$$

 

이제 우리는 RR이 무엇인지 알았다.

 

오해

우리가 RR에 대해서 이야기 할 때, 의미와 해석에 대한 오해는 사건 D, E, 그리고 C를 이야기 하지 않음으로 써 시작되곤 한다. 대부분 D, E, C를 이야기하기 귀찮기 때문에 그냥 "다음 데이터에서 RR을 구해라" 또는 "분석 결과 RR은 1.2 였다." 라고 해버린다. 그러나 정확히 하자면 어떤 RR을 뜻하는 것인지 명확하지 않은 것이다. 만약 D가 특정 감염병 발생이라는 사건이고, E는 식품a에 노출된 사건, 그리고 C는 식품a에 노출되지 않은 사건이라고 했을 때 RR(D, E, C)라면 이제 RR이 무엇을 뜻하는지 명확해질 것이다.

 

이러한 이유로 가끔 log link를 갖는 GLM poisson regression 결과 RR=exp(베타)값에 대한 해석, 그리고 CR 커브 그래프에서 y축이 Risk 경우와 y축이 RR인 경우에 대한 의미 해석에 대해서 오해가 일어나곤 한다.

 

예를들어 미세먼지의 단기 사망영향에 대하여 시계열자료를 이용하여 일별 사망수를 미세먼지농도로 GLM poisson regression을 수행했다고 해보자. 여기서 미세먼지농도에 대한 RR = exp(베타)가 의미하는 바는 뭘까? 베타는 농도가 0일때 대비 1일때 log(사망수)의 변화량 또는 농도가 c일 때 대비 c+1일때 log(사망수)의 변화량을 뜻한다. 따라서 여기서 말하는 RR = exp(beta)는 미세먼지 농도가 1단위 증가할 때 사망할 risk의 증가 비율을 말하는 것이다.

 

[노출농도-사망] 예시에서 poisson regression을 통해 얻은 단순 RR = exp(베타)의 의미

  • D: 사망하는 사건
  • E: 노출농도 c+1에 노출되는 사건
  • C: 반사실적 또는 비교할 노출 농도 c에 노출되는 사건
  • RR = RR(D, E, C) = P(D|E) / P(D|C): 노출농도 c+1에 노출되었을 때 사망할 확률과 노출농도 c에 노출되었을 때 사망할 확률의 비율

 

 

이러한 regression 또는 다른 여러가지 방법의 regression을 통해 얻은 노출농도와 사망의 어떤 관계에서 y축이 Risk인 CR커브를 그래프로 그렸다고 해보자. 여기서 y축 값이 의미하는 바는 뭘까? y축을 Risk로 표시하였으므로, 특정 노출농도 e에서 y값은 P(D|E)를 의미하는 것이어야 한다. 이것은 확률간의 비율이 아니기 때문에 단위가 없다면 0과 1사이 값을 가져야 한다.

 

[노출농도-사망] 예시에서 y축을 Risk로 표시한 CR 커브 그래프의 y값 의미

  • D: 사망하는 사건
  • E: 노출농도 e에 노출되는 사건
  • 어떤 노출 농도 x=e에서 y값 = Risk= P(D|E): 노출농도 e에 노출되었을 때 사망할 확률

 

그렇다면 y축이 RR로 표시된 경우에 y값의 의미는 어떨까? 이 경우는 y값, 즉 RR이 1인 경우에 해당하는 노출농도가 반사실적 또는 비교할 노출 농도 c가 된다. 왜냐하면 P(D|E) / P(D|C)이 1인 경우는 E=C가 되어야 하기 때문에 그때의 노출농도는 반사실적 또는 비교할 노출값이어야 한다.

 

[노출농도-사망] 예시에서 y축을 RR로 표시한 CR 커브 그래프의 y값 의미

  • D: 사망하는 사건
  • E: 노출농도 e에 노출되는 사건
  • C: 반사실적 또는 비교할 노출 농도 c (=RR이 1일때 x값) 에 노출되는 사건
  • 어떤 노출 농도 x=e에서 y값 = RR = RR(D, E, C) = P(D|E) / P(D|C) = 노출농도 e에 노출되었을 때 사망할 확률과 RR=1일때의 노출농도 c에 노출되었을 때 사망할 확률의 비율

 

마무리

건강영향 분석에서는 때때로 RR의 의미를 해석하는 것이 매우 중요한데, 이런 RR을 해석 할 때 노출이 연속형이던 범주형이던 관계없지 항상 반사실적 또는 비교할 노출 수준이 무엇인지 생각해야 한다. 그렇지 않는 경우에 어떤 RR을 이야기 하는 것인지 서로 오해가 생기기 마련이다.

 

이러한 오해를 줄이고 exp(베타)를 잘못 해석하거나 y축이 Risk 경우와 RR인 경우를 잘못 해석하거나, 또는 Risk로 표시하여야 할 것을 RR로 잘못 표시하거나 그 반대로 그래프를 그리는 일이 없기를 바란다.