작년에 ‘각종 검사의 가치 평가: 스크리닝에서 모니터링까지‘라는 제목의 글을 썼습니다. 디지털 헬스케어 회사들 가운데 적지 않은 수가 새로운 측정 혹은 검사 방법을 개발하려고 노력하는 있는데 비즈니스 관점에서 value proposition을 어떻게 설정해야 하는 지에 대한 내용입니다. 동일한 측정 방법이라고 해도 대상 인구, 대상 질환, 용도에 따라서 가치가 크게 달라질 수 있기 때문에 처음부터 이를 잘 설정해야 한다는 취지의 내용입니다. 제 강의에서 그 내용을 자주 다루고 있습니다. 그만큼 중요하다고 생각했기 때문입니다.
그런데 여러 대표님들과 이야기를 나누면서 아직 이 개념을 어떻게 사업 계획 수립에 적용해야 할 지 이해하지 못한 분이 많다는 느낌을 받았습니다. 이에 좀 더 구체적으로 정리하는게 필요하다고 느꼈습니다.
우리나라의 국민 건강 검진 가운데 폐암 검진을 가지고 이야기를 시작해 보겠습니다. 현재 한국에서 폐암 검진은 제한적으로 시행하고 있습니다. 54세~74세로 흡연력이 30갑년이 넘는 사람만을 대상으로 합니다. (갑년: pack-year. 흡연량에 대한 지표로 하루 한갑씩 일년간 흡연한 것을 1갑년이라고 부릅니다. 30갑년은 하루 한갑씩 30년 혹은 하루 두갑씩 15년 흡연한 것을 의미합니다.) 위암 검진의 경우 40세 이상을 대상으로 2년에 한번 해주는 것과 비교하면 뭔가 쓸데없이 복잡해 보입니다. 이 규정 뒤에는 의료, 특히 새로운 측정, 검사 방법을 만드는 입장에서 알아야 할 중요한 비밀이 숨어 있습니다.
이슈 1: 유병률 높은 대상 집단 선택의 중요성
이 규정의 가장 중요한 의미는 폐암으로 확진될 가능성이 높은 사람으로 검진 대상을 좁히는데 있습니다. 왜 그래야 할까요? 여기서 양성 예측도라는 개념이 등장합니다. 너무너무 중요한 개념이라 제 책 3권 중 두권에서 중복을 무릅쓰고 다루었던 개념입니다. 너무너무 중요하기 때문에 여기서도 다시 설명하도록 하겠습니다.
그럴 일은 없겠지만 만약 거리를 지나가는 사람 100만명을 무작위로 붙잡아서 (진행하면 AIDS를 일으키는) HIV 검사를 실시한다고 가정해 보겠습니다.
HIV에 대한 선별 검사는 ELISA라는 방법을 사용합니다. 이 방법의 특징은 다음과 같습니다.
- 민감도 (HIV 감염된 사람 중 검사에서 양성으로 나온 비율): 99.7%
- 특이도(HIV 비감염된 사람 중 검사에서 음성으로 나온 비율): 98.5%
잘은 모르지만 거의 100%에 가까우니 꽤 정확할 것 같습니다. 여기에 우리나라 15~49세 인구의 HIV 유병율 0.1%를 적용하면 다음과 같은 상황이 생깁니다.

총 100만명이고 이 가운데 0.1%가 HIV 감염자이니까 이는 1,000명입니다. 비감염자는 99만9천명입니다.
민감도의 정의가 감염된 사람 중에 양성으로 나올 비율이니까 감염된 1000명에 99.7%를 곱하면 997명이 됩니다.
특이도의 정의가 감염되지 않은 사람 중에 음성으로 나올 비율이니까 비감염자 99만 9천명에 98.5%를 곱하면 98만 4,015명이 됩니다.
이렇게 검사가 끝나고 나면 환자 또는 의사 입장에서는 무엇이 중요할까요? 검사에서 양성으로 나온 사람들을 어떻게 할까하는 고민이 생길 것입니다. 잘은 모르겠지만 아까 검사 특성 (민감도, 특이도)이 100%가 아니었으니 이들 모두가 감염자는 아닐 것입니다. 양성으로 나온 사람 중에 실제로 HIV에 감염된 사람은 얼마나 될까요?
여기서 중요한 개념이 양성예측도입니다. 글자 그대로 검사에서 양성으로 나온 사람 중 실제로 질병이 있는 사람의 비율입니다.
위의 표에서 보면 HIV 검사 양성으로 나온 사람은 총 1만 5,982명이며 이 중 실제 HIV에 감염된 사람은 997명입니다. HIV 검사의 양성 예측도 (검사에서 양성으로 나온 사람 중 HIV에 실제 감염된 사람 비율)은 997/15,982 = 6.2% 정도밖에 되지 않습니다.
질병마다 다르겠지만 양성 예측도가 이렇게 낮으면 쓸모가 없습니다. 왜 이런 일이 생겼을까요? 바로 검사를 실시한 집단에서 유병률이 낮았기 때문입니다.
유병률이 높아지면 어떻게 될까요?

민감도 95%, 특이도 85%인 검사에서 유병률에 따른 양성 예측도의 변화는 위와 같습니다. 대략 유병률이 20% 정도 되면 양성 예측도가 80%가 됩니다. 유병률이 5% 정도만 되어도 양성 예측도는 대략 40%는 나올 것 같습니다. 질병마다 다르지만 이 정도는 되어야 검사 결과가 쓸모가 있을 것입니다.
현재 HIV 간이 검사 키트는 편의점에서도 판매하고 있는데 이런 상황은 생기지 않습니다. 왜 그럴까요?
아무나 HIV 검사를 받지 않기 때문입니다. 뭔가 의심할만한 일이 있는 사람들이 편의점에 가서 HIV 간이 검사 키트를 사고 검사를 해볼 것입니다. 즉, 자기 돈으로 HIV 간이 검사 키트를 사서 실시해 볼만한 사람들은 기본적으로 HIV 유병률이 높을 것이라고 볼 수 있습니다.
올해 우리나라에서 이와 유사한 상황을 겪었습니다. 기억하시겠지만 코로나 바이러스 오미크론 변이가 퍼지기 전까지 한국에서 코로나 신속 항원 검사를 받아들이지 않았습니다. 왜 그랬을까요? 바로 한국인에서 코로나 유병률이 낮았기 때문에 신속 항원 검사에서 양성이 나와도 그 결과를 믿을 수가 없었기 때문입니다. 이후 오미크론 변이가 빠르게 퍼지면서 유병률이 높아진 후에 신속 항원 검사를 실시했습니다. 유병률이 높아졌고 따라서 검사에서 양성이 나왔을 때 믿을만해졌기 때문입니다.
폐암 검진을 소수의 고위험군만을 대상으로 하는 이유가 여기에 있습니다. 폐암의 위험이 높지 않은 사람까지 포함해서 폐암 검진을 실시하는 경우 양성이 나와도 의미를 부여하기가 힘들어집니다. 이렇게 되면 폐암 검진에 들어가는 비용이 낭비될 것입니다.
여기서 중요하게 다룰 내용은 아니지만 별 필요 없는 것을 찾아내는 것 역시 이슈가 됩니다. 폐암 검진으로 폐CT를 찍었고 거기서 어떤 덩어리가 발견되었다고 가정해보겠습니다. 이것이 폐암일 수도 있지만 별 문제가 되지 않는 양성 종양일 수도 있습니다. 아마 CT를 찍지 않았다면 그런 것이 있었다는 것을 알지 못한 채 다른 문제로 돌아가셨을 것입니다. 근데 뭔가 덩어리가 보인다고 하면 추가 검사를 실시할 가능성이 높아집니다. 추가 의료비가 들어가는 것은 물론 추가 검사의 종류에 따라서는 환자에게 위해가 가해질 수도 있습니다.
반대로 대상 집단의 유병률이 높아지는 경우를 생각해 보겠습니다. 무조건 높을 수록 좋을까요? 그렇지 않습니다. 왜냐하면 대상 집단의 유병률이 매우 높다면 굳이 이 검사를 실시할 필요가 없을 것이기 때문입니다. 예를 들어서 대상 집단의 유병률이 80%정도 된다면 굳이 추가 검사를 안하고 대상 집단이 그 질병에 걸린 것으로 간주하고 치료할 수도 있을 것입니다. 물론 이는 대상 질병의 특성, 치료 방법의 특성에 따라서 차이가 클 것입니다. 예를 들어 복잡한 수술이나 약물을 써야하는 질병 (예: 암)이라면 가급적 진단을 확실하게 한 다음에 치료에 들어갈 것입니다.
진료 환경을 찾아오는 환자들의 유병률을 기준으로 생각해보면 아직 증상도 없는 사람을 대상으로 하는 건강 검진이 가장 낮고 외래가 이보다 높을 것입니다. 그리고 대략 입원 환자, 수술 후 상태 환자, 응급실 환자, 중환자실 환자 순으로 유병률이 올라갈 것입니다. (물론 실제로는 질병의 종류에 따라서 다를 것입니다.) 이때 새로운 검사 방법을 개발한다면 유병률이 어느 수준 이상 되는 집단을 대상으로 해야 양성 예측도가 의미있는 수준으로 올라가며 그래야 그 검사의 가치를 인정받기가 용이해 진다고 할 수 있습니다.
이쯤되면 나오는 질문이 있습니다.
‘근데 검사 건수가 너무 적어지는 것 아닌가요?’
맞습니다.
근데 유병률이 너무 낮은 집단을 대상으로 하면 애시당초 가치 입증이 되지 않아서 아예 보험 적용 등 의료 시스템에 도입되는 것이 요원해 집니다. 또, 유병률이 높은 작은 규모의 집단을 대상으로 하는 경우 검사 건수는 적어지는 대신 가치가 높아지면서 보험 수가가 높아질 수 있습니다. 이를 도식화 하면 다음과 같습니다. (오른쪽에서 다시 0이 되는 것은 뒤에서 설명하겠습니다.)

이를 보여주는 사례가 국내 최초로 비급여 대상으로 인정받은 의료 인공지능이 중환자실 환자를 대상으로 한다는 점입니다. 국내 의료 인공지능 회사인 뷰노가 개발한 딥카스는 중환자실 환자의 데이터를 분석해서 환자 상태 악화를 예측해줍니다. 만약 이 제품을 집에 있는 일반인을 대상으로 하면 가치 입증이 쉽지 않을 것입니다. 중증도가 높은 중환자실 환자를 대상으로 할 때 가치 입증이 수월할 것이며 이후 응급실이나 일반 입원 환자를 대상으로 가치를 입증할 가능성이 있습니다. 물론 항상 그런 것은 아닙니다. 대상 질병, 검사에 따라서 이는 크게 달라질 것입니다.
저희 카카오벤처스에서 투자한 Arpi라는 회사 사례로 생각해 보겠습니다. 이 회사는 심전도 데이터와 환자의 최종 진단 데이터를 연결시켜서 심전도 만으로 중요한 심혈관 질환 진단을 보조해 줄 수 있습니다.


응급실 환자에서 위와 같은 심전도를 찍고 이를 인공지능으로 분석하면 아래와 같은 결과를 보여줍니다. 이를 확인한 응급의학과 의사는 다음 단계로 어떤 검사를 해야할 지 판단하는데 도움을 받을 수 있습니다.
만약 이를 외래 환자를 대상으로 한다면 가치 입증이 쉽지 않을 것입니다. 앞서 언급한 바와 같이 외래 환경에서 ARPI 인공지능이 찾아낼 수 있는 심각한 심혈관 환자의 비율이 낮을 것이기 때문입니다. 응급실 환자는 문제가 생겨서 응급실에 왔을 것이기 때문에 환자들의 유병률은 높을 것이기 때문에 상황이 다릅니다. 게다가 응급실 환경에서는 빠른 시간 내에 의사 결정을 내려야 하기 때문에 이런 검사가 도움이 될 수 있습니다.
양성 예측도 관련한 이슈를 정리하자면 검사 대상 집단을 잘 설정해야 한다라고 볼 수 있습니다.
이슈2: So what이 있는가?
양성 예측도가 전부는 아닙니다.
다시 폐암 검진 대상자 기준으로 돌아가 보겠습니다. ’54세~74세로 흡연력이 30갑년이 넘는 경우’라고 했는데 54세 이상이라는 기준과 흡연력 30갑년이라는 기준은 지금까지 논의한 양성 예측도로 이해할 수 있습니다. 폐암 고위험군을 대상으로 하겠다는 것입니다. 근데 74세로 제한 이유는 무엇일까요? 74세가 넘었을 때 폐암 유병률이 낮아질리는 없을 텐데 말입니다.
여기에 두 번째 이슈가 숨어있습니다.
모든 검사가 맞닥뜨리는 궁극의 문제, 바로 ‘So what (a.k.a 그래서 어쩌라고)?’의 문제입니다.
74세가 넘어가면 폐암으로 진단을 받아도 치료가 힘든 경우가 늘어날 것으로 보입니다. 예를 들어 폐암 수술을 하거나 항암 치료를 받을 만큼 체력이 되지 않을 가능성이 높을 것입니다. 기껏 진단해도 해줄 것이 없다면 굳이 진단 검사에 돈을 쓸 필요가 없어집니다. 개인 입장에서는 ‘그래도 폐암이라는 것을 알면 차근차근 삶을 정리할 수 있다던지 하는 가치’가있을 수 있습니다. 하지만 의료는 기본적으로 보험에서 돈을 내기 때문에 이런 개인의 마음은 고려 대상이 아닙니다.
앞서 중환자실 환자 상태 악화 예측 인공지능에 대해서 언급했습니다. 만약 인공지능이 중환자실 환자 사망을 예측해주는데 너무너무 정확해서 사망 예측된 환자는 모두 사망한다면 어떨까요? 그 제품은 가치가 없을 것입니다. 환자의 건강을 향상시키기 위해서 해줄 수 있는 것이 없기 때문입니다.
‘So what’의 관점에서 자주 비판 받는 것 중 하나가 수면 상태 측정입니다. 많은 스타트업들이 뇌파, 움직임 등 다양한 방법을 통해서 수면 상태를 측정하는 기술을 개발하고 있습니다. 단골로 듣는 얘기가 ‘그래서 어쩌라고’입니다. 측정을 통해서 수면의 질을 향상시켜줄 수 없다면 의료에서 발 붙일 곳이 없다는 관점입니다.
근데 생각해보면 모든 진단 검사가 그렇습니다. 모든 검사의 역할은 무엇인가를 발견해서 다음 단계로 넘겨주는 것입니다. 진료의 각 단계는 앞뒤단계와 긴밀하게 연결되어 있습니다. 따라서 진료 flow 상에서 특정 검사의 역할을 대신해줄 수 있다면 나름의 역할을 충분히 달성하는 것입니다. 예를 들어 새로운 수면 검사가 현재 입원해서 시행하고 있는 수면 다원 검사를 상당 부분 대체할 수 있다면 그것만으로 충분할 수 있습니다.
이슈3: 족보가 아예 없는 기술은 위험하다.
물론, 이렇게 되기는 쉽지 않습니다. 현실적으로 (디지털 헬스케어 스타트업들이 만드는) 검사 기기들은 기존 검사에 비해서 사용하기 간편한 대신 정확도가 떨어질 가능성이 높기 때문입니다. 그러면 어떻게 해야할까요? 이미 의료계에서 널리 받아들여지는 검사를 대체하는 것이 쉽지 않다면 새로운 용도를 찾아봐야할 것입니다.
예를 들어 간편한 수면 검사의 경우 수면 무호흡증 치료 방법으로 널리 사용되고 있는 양압기를 사용하는 환자를 대상으로 병원이 아닌 집 환경에서 추적 검사하는 용도로 사용될 가능성이 있습니다. 물론 디지털 헬스케어 스타트업이 원한다고 대뜸 그렇게 써주지는 않습니다. 의료에서 가장 중요한 것, ‘증거’가 있어야 하기 때문입니다. 연구를 통해서 양압기 환자가 수면 검사를 집에서 지속적으로 시행하는 것이 어떤 의료적인 가치를 만들어 낸다는 것을 입증해야 합니다. 예를 들어 이 검사를 하면 양압기를 더 열심히 쓰게 된다던 지, 검사 결과에 따라서 최적의 양압기 설정값을 찾아낼 수 있다던 지 해서 환자에게 도움이 되어야 합니다.
이때 염두에 두어야 할 것은 기존에 증거가 하나도 없는 상태에서 디지털 헬스케어 회사의 노력만으로 증거를 만들어 내는 것은 어렵다는 점입니다. 이건 단순히 논문 한두편 써서 될 문제가 아니기 때문입니다. 이때 가장 이상적인 경우는 기존에 어느 정도 연구가 되어 있지만 아직 최선의 진료로 자리 잡지 않은 것을 바탕으로 추가 연구를 통해서 가치를 입증하는 것입니다.
디지털 헬스케어 업계에서 가장 성공한 회사 중 하나인 iRhythm 회사의 Zio patch를 생각해 보겠습니다. Zio patch는 웨어러블 심전도로 발작성 심박세동을 진단하는 용도입니다. 여기서 중요한 것은 Zio patch가 발작성 심방세동 진단 시장을 새롭게 개척한 것이 아니라는 점입니다. 이미 옛날부터 Holter monitor라는 검사 방법이 이 용도로 가치를 입증받고 보험 적용을 받아서 사용되고 있습니다. Zio patch는 이를 간편하고 더 오랫동안 측정할 수 있는 방법을 개발했습니다. 이렇게 되면 가치 입증이 쉬워집니다. Zero base에서 입증할 필요 없이 이미 가치가 입증된 기존 기술 대비 얼마나 더 좋아졌는 지만 보여주면 되기 때문입니다.

만약 Holter monitor와 같은 것이 기존에 가치를 입증받아서 사용되고 있지 못했다면 Zio patch가 이정도 속도로 시장에서 자리를 잡지 못했을 것입니다.
이런 취지에서 개인적으로 업계 분들께는 이렇게 말씀드리곤 합니다.
‘쌔끈한 기술로 기존에 헬스케어에서 다루지 않던 문제를 풀려고 하시면 너무 힘들어 집니다. 기존에 어느 정도 입증된 것을 발전시키는 식으로 접근하셔야 제때 의료계로 들어올 수 있을 것입니다.’
이 글에서 다루는 내용의 전제는 ‘헬스케어는 기본적으로 보험이 주로 돈을 내는 제3자 지불 방식에 근간을 둔다’는 점입니다. 의료보험이 보험 적용 여부를 결정할 때 중요한 기준 중 하나는 이 제품이 비용 대비 얼마나 큰 가치를 줄 수 있는 지 하는 점입니다. 이런 전제 하에서 단순히 어떤 측정 방식을 단순화해서 이를 편하게 실시할 수 있도록 해주는 것만으로는 부족합니다. 지금까지 살펴본 바와 같이 측정 결과가 충분한 의미가 있고 그 결과로 환자에게 어떤 조치를 취해서 그 건강을 향상시킬 수 있다는 근거가 있어야 합니다. 그리고 이는 양성 예측도와 같은 헬스케어의 논리를 통해서 증명되어야 합니다.
늘 드리는 말씀이지만 디지털 헬스케어에서 디지털보다 헬스케어가 훨씬 중요하다는 점을 염두에 두시면 좋겠습니다.