샘플링 불평등은 신경 영상의 일반화에 영향을 미칩니다
홈페이지홈페이지 > 블로그 > 샘플링 불평등은 신경 영상의 일반화에 영향을 미칩니다

샘플링 불평등은 신경 영상의 일반화에 영향을 미칩니다

Jun 13, 2024

BMC Medicine 21권, 기사 번호: 241(2023) 이 기사 인용

1372 액세스

1 인용

3 알트메트릭

측정항목 세부정보

정신 장애 진단을 돕기 위한 기계 학습 모델의 개발은 정신의학 분야에서 획기적인 발전으로 인식되고 있습니다. 그러나 이러한 모델의 임상 실습은 여전히 ​​어려운 과제로 남아 있으며, 일반화 가능성이 낮다는 점이 주요 제한 사항입니다.

여기에서 우리는 정신과 문헌의 신경영상 기반 모델에 대한 사전 등록된 메타 연구 평가를 수행하여 상대적으로 탐구가 부족한 관점에서 최근 수십 년 동안 글로벌 및 지역 샘플링 문제를 정량적으로 조사했습니다. 현재 평가에는 총 476개 연구(n = 118,137)가 포함되었습니다. 이러한 결과를 바탕으로 우리는 정신과 진단을 위한 기존 기계 학습 모델의 품질을 정량적으로 평가하기 위해 포괄적인 별 5개 등급 시스템을 구축했습니다.

이 모델의 글로벌 샘플링 불평등은 국가(지역)에 따라 다양하며(샘플링 지니 계수(G) = 0.81, p < .01) 정량적으로 드러났습니다(예: 중국, G = 0.47, 미국, G = 0.58, 독일). , G = 0.78, 영국, G = 0.87). 또한 이러한 표본 불평등의 심각성은 국가 경제 수준에 따라 유의하게 예측되었으며(β = − 2.75, p < .001, R2adj = 0.40; r = − .84, 95% CI: − .41 ~ − .97) 더 높은 분류 정확도를 보고하기 위한 더 높은 샘플링 불평등을 통해 모델 성능에 대해 그럴듯하게 예측 가능했습니다. 추가 분석에 따르면 독립적인 테스트 부족(모델의 84.24%, 95% CI: 81.0~87.5%), 부적절한 교차 검증(모델의 51.68%, 95% CI: 47.2~56.2%), 열악한 기술 투명성(87.8)이 나타났습니다. 모델의 %, 95% CI: 84.9–90.8%)/가용성(모델의 80.88%, 95% CI: 77.3–84.4%)은 시간이 지남에 따른 개선에도 불구하고 현재 진단 분류기에서 널리 사용되고 있습니다. 이러한 관찰과 관련하여 독립적인 국가 간 샘플링 검증을 사용한 연구에서 모델 성능이 감소한 것으로 나타났습니다(모두 p < .001, BF10 > 15). 이에 비추어 우리는 이러한 모델의 전체 등급이 출판 연도에 따라 증가했지만 모델 성능과 부정적인 연관이 있음을 보여주는 목적에 맞게 만들어진 정량적 평가 체크리스트를 제안했습니다.

함께, 샘플링의 경제적 평등과 그에 따른 기계 학습 모델의 품질을 향상시키는 것은 신경 영상 기반 진단 분류기를 임상 실습으로 그럴듯하게 전환하는 데 중요한 측면이 될 수 있습니다.

동료 검토 보고서

기계 학습(ML) 모델은 임상 의사 결정을 돕기 위해 정신 질환 환자를 분류하는 데 광범위하게 활용되었습니다[1, 2]. 신경 영상 기반 기능으로 훈련된 기계 학습 모델을 구축함으로써 이러한 객관적이고 고차원적인 바이오마커의 도움으로 진단 결정이 더욱 정확하고 신뢰할 수 있을 수 있습니다[3, 4]. 또한, 뇌 특징의 다변량 특성을 고려할 때 기계 학습 기술은 이러한 장애의 병리생리학적 특징을 밝히기 위해 고용량 종속 복셀에 걸쳐 전체 신경 패턴을 포착할 수 있으며, 신경 영상 기반 ML 모델에서 기계 학습 모델의 개별화된 예측도 가능합니다. 정밀 정신 의학의 증가하는 요구를 해결합니다 [5, 6]. 이를 위해 상당한 노력을 기울였음에도 불구하고 진단 및 치료 권장을 위한 기계 학습 분류를 임상 실습으로 전환하는 것은 여전히 ​​어려운 일입니다[7]. 이는 부분적으로 특정 신경영상 기반 분류기의 일반화 가능성이 낮기 때문에 특정 샘플 내에서 종종 최적화되어 새로운 샘플에서 보이지 않는 환자를 진단하는 일반화에 실패합니다 [8,9,10]. 이러한 분류자는 특정 코호트에서 바람직하게 높은 정확도를 달성하도록 훈련될 수 있지만 의료 센터, 지리적 지역, 사회경제적 지위 및 인종 그룹 전반에 걸쳐 보다 일반적인 인구를 대표하지는 않습니다[11, 12]. 더욱이, 일반화 가능성에 대한 지속적인 우려는 최근 수십 년 동안 데이터 크기가 상당히 증가했음에도 불구하고 잠재적인 샘플링 편향을 의미합니다[13].

 3 for strong evidence. To examine the non-linear associations of these variables of interest, we have built the generalized additive model (GAM) with natural shape-free spline functions by R package (“mgcv”). To obviate overfitting, the shape-free splines (i.e., smooth function) were used in these models. Finally, metrics of model performance (i.e., classification accuracy) for each study were precision-weighted rather than the original ones as reported./p>