[헬스인뉴스] 서울대병원이 흉부 X선만으로 골밀도를 예측할 수 있는 AI 모델을 선보였다. 별도의 DXA 검사 없이도 골감소증과 골다공증을 구분할 수 있어, 일반 건강검진에서 조기 발견 가능성을 크게 높일 수 있다는 점에서 주목된다. 특히 이번 AI는 단순 예측을 넘어, 어떤 뼈 구조를 근거로 판단했는지 확인할 수 있어 임상 적용 가능성을 높였다.

고령화가 진행되면서 골다공증 환자는 빠르게 늘고 있지만, 표준검사인 DXA는 병원 접근성과 비용 문제로 정기 검진이 어려운 경우가 많다. 연구진은 이 한계를 극복하고자, 일상적으로 촬영되는 흉부 X선 영상을 활용한 AI 개발에 나섰다. 기존 AI는 ‘블랙박스’ 문제로 판단 근거가 불분명해 의료 현장 적용이 제한적이었다.

연구팀은 서울대병원 건강증진센터에서 2004~2019년 촬영된 여성 1만4502명의 흉부 X선과 DXA 데이터를 활용했다. 일반 이미지 AI 모델(OpenCLIP, DINOv2)과 의료 영상 특화 모델(CheXagent, RAD-DINO)을 비교하고, 세 가지 학습 방식(선형 검증, 부분 미세조정, LoRA)을 적용해 최적 모델을 찾았다.

AI는 X선에서 척추와 늑골을 중심으로 특징을 추출한 뒤, T-score 기준으로 정상, 골감소증, 골다공증을 판별한다. 판단 근거 검증을 위해 특정 뼈를 가려 성능 변화를 분석하는 ‘차단 분석(Δbone)’과 AI 주목 영역이 실제 뼈와 일치하는 정도를 계산하는 ‘유의성 지도(IoUbone)’ 방법을 도입했다.

(왼쪽부터) 박상민 서울대병원 가정의학과 교수, 김재원 서울대 의과학과 연구원 (사진 제공=서울대병원)
(왼쪽부터) 박상민 서울대병원 가정의학과 교수, 김재원 서울대 의과학과 연구원 (사진 제공=서울대병원)
분석 결과, DINOv2 모델에 LoRA 방식을 적용한 AI가 AUC 0.93으로 가장 안정적인 성능을 기록했다. 이 모델은 핵심 뼈 구조 활용 비중도 높아 예측력과 설명력을 동시에 갖춘 것으로 평가됐다. 의료 영상 기반 모델이 항상 정확도가 높은 것은 아니며, 높은 예측 성능이 자동으로 판단 근거의 신뢰성을 보장하지 않는다는 사실도 확인됐다.
김재원 연구원은 “AI를 의료 영상에 적용할 때는 정확도뿐 아니라 판단 근거를 다각도로 검증해야 한다”고 강조했다. 박상민 교수는 “임상에서 실제로 활용 가능한 모델을 고르려면, 예측력과 근거의 투명성을 함께 고려해야 한다”고 말했다.

이번 연구는 국제 학술지 Osteoporosis International에 게재됐다.

임혜정 헬스인뉴스 기자 press@healthinnews.kr
저작권자 © 헬스인뉴스 무단전재 및 재배포 금지