深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)
一、適用范圍
本審評(píng)要點(diǎn)適用于深度學(xué)習(xí)輔助決策醫(yī)療器械軟件(含獨(dú)立軟件、軟件組件)的注冊(cè)申報(bào)。深度學(xué)習(xí)輔助決策醫(yī)療器械軟件(以下簡(jiǎn)稱軟件)即基于醫(yī)療器械數(shù)據(jù)(醫(yī)療器械所生成的醫(yī)學(xué)圖像、醫(yī)學(xué)數(shù)據(jù),以下統(tǒng)稱數(shù)據(jù)),使用深度學(xué)習(xí)技術(shù)進(jìn)行輔助決策的軟件。其中,“基于醫(yī)療器械數(shù)據(jù)”是指單獨(dú)使用醫(yī)療器械數(shù)據(jù),或者聯(lián)合使用醫(yī)療器械數(shù)據(jù)與非醫(yī)療器械數(shù)據(jù);“輔助決策”是指通過提供診療活動(dòng)建議輔助醫(yī)務(wù)人員進(jìn)行臨床決策。
使用深度學(xué)習(xí)技術(shù)進(jìn)行前處理(如成像質(zhì)量改善、成像速度提升、圖像重建)、流程優(yōu)化(如一鍵操作)、常規(guī)后處理(如圖像分割、數(shù)據(jù)測(cè)量)等非輔助決策的軟件可參考使用本審評(píng)要點(diǎn)。使用傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的軟件亦可參考使用本審評(píng)要點(diǎn)。
本審評(píng)要點(diǎn)遵循《醫(yī)療器械軟件注冊(cè)技術(shù)審查指導(dǎo)原則》(以下簡(jiǎn)稱軟件指導(dǎo)原則)、《醫(yī)療器械網(wǎng)絡(luò)安全注冊(cè)技術(shù)審查指導(dǎo)原則》(以下簡(jiǎn)稱網(wǎng)絡(luò)安全指導(dǎo)原則)、《移動(dòng)醫(yī)療器械注冊(cè)技術(shù)審查指導(dǎo)原則》(以下簡(jiǎn)稱移動(dòng)器械指導(dǎo)原則)等相關(guān)指導(dǎo)原則要求。
本審評(píng)要點(diǎn)不含人工智能倫理、數(shù)據(jù)產(chǎn)權(quán)等法律法規(guī)層面要求,但生產(chǎn)企業(yè)應(yīng)當(dāng)在軟件全生命周期過程中考慮相關(guān)規(guī)定。
二、審評(píng)關(guān)注重點(diǎn)
從發(fā)展驅(qū)動(dòng)要素角度講,深度學(xué)習(xí)實(shí)為基于海量數(shù)據(jù)和高算力的黑盒算法。本審評(píng)要點(diǎn)重點(diǎn)關(guān)注軟件的數(shù)據(jù)質(zhì)量控制、算法泛化能力、臨床使用風(fēng)險(xiǎn),臨床使用風(fēng)險(xiǎn)應(yīng)當(dāng)考慮數(shù)據(jù)質(zhì)量控制、算法泛化能力的直接影響,以及算力所用計(jì)算資源(即運(yùn)行環(huán)境)失效的間接影響。
基于風(fēng)險(xiǎn)的全生命周期管理是此類軟件監(jiān)管的基本方法,相關(guān)考量詳見軟件指導(dǎo)原則、網(wǎng)絡(luò)安全指導(dǎo)原則、移動(dòng)器械指導(dǎo)原則以及醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨(dú)立軟件附錄。下面結(jié)合審評(píng)關(guān)注重點(diǎn)分別闡述軟件風(fēng)險(xiǎn)管理、軟件設(shè)計(jì)開發(fā)、軟件更新等方面考量。
軟件風(fēng)險(xiǎn)管理活動(dòng)應(yīng)當(dāng)基于軟件的預(yù)期用途(目標(biāo)疾病、臨床用途、重要程度、緊迫程度)、使用場(chǎng)景(適用人群、目標(biāo)用戶、使用場(chǎng)所、臨床流程)、核心功能(處理對(duì)象、數(shù)據(jù)兼容性、功能類型)予以實(shí)施,并貫穿于軟件全生命周期過程。軟件臨床使用風(fēng)險(xiǎn)主要包括假陰性和假陽性,其中假陰性即漏診,可能導(dǎo)致后續(xù)診療活動(dòng)延誤,特別是要考慮快速進(jìn)展疾病的診療活動(dòng)延誤風(fēng)險(xiǎn);假陽性即誤診,可能導(dǎo)致后續(xù)不必要的診療活動(dòng)。進(jìn)口軟件除考慮假陽性和假陰性風(fēng)險(xiǎn)外,還應(yīng)當(dāng)考慮中外人種、流行病學(xué)特征、臨床診療規(guī)范等方面差異的影響及其風(fēng)險(xiǎn)。生產(chǎn)企業(yè)應(yīng)當(dāng)采取充分的、適宜的、有效的風(fēng)險(xiǎn)控制措施以保證軟件的安全性和有效性。
軟件典型設(shè)計(jì)開發(fā)過程通常可分為需求分析、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)等階段。
(一)需求分析
需求分析應(yīng)當(dāng)以軟件的臨床需求與使用風(fēng)險(xiǎn)為導(dǎo)向,結(jié)合軟件的預(yù)期用途、使用場(chǎng)景和核心功能,綜合考慮法規(guī)、標(biāo)準(zhǔn)、用戶、產(chǎn)品、數(shù)據(jù)、功能、性能、接口、用戶界面、網(wǎng)絡(luò)安全、警示提示等方面需求,重點(diǎn)考慮數(shù)據(jù)收集、算法性能、臨床使用限制等方面要求。
數(shù)據(jù)收集應(yīng)當(dāng)考慮數(shù)據(jù)來源的合規(guī)性和多樣性、目標(biāo)疾病流行病學(xué)特征、數(shù)據(jù)質(zhì)量控制要求(詳見下節(jié))。數(shù)據(jù)來源應(yīng)當(dāng)在合規(guī)性基礎(chǔ)上保證數(shù)據(jù)多樣性,以提高算法泛化能力,如盡可能來自多家、不同地域、不同層級(jí)的代表性臨床機(jī)構(gòu),盡可能來自多種、不同采集參數(shù)的采集設(shè)備。目標(biāo)疾病流行病學(xué)特征包括但不限于疾病構(gòu)成(如分型、分級(jí)、分期)、人群分布(如健康、患者,性別、年齡、職業(yè)、地域、生活方式)、統(tǒng)計(jì)指標(biāo)(如發(fā)病率、患病率、治愈率、死亡率、生存率)等情況,以及目標(biāo)疾病并發(fā)癥與類似疾病的影響情況。
算法性能應(yīng)當(dāng)考慮假陰性與假陽性(指標(biāo)、關(guān)系)、重復(fù)性與再現(xiàn)性、魯棒性/健壯性等要求。
臨床使用限制應(yīng)當(dāng)考慮臨床禁用、慎用等場(chǎng)景。
(二)數(shù)據(jù)收集
數(shù)據(jù)收集應(yīng)當(dāng)考慮數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)集構(gòu)建等活動(dòng)的質(zhì)控要求,以保證數(shù)據(jù)質(zhì)量和算法設(shè)計(jì)質(zhì)量。
1.數(shù)據(jù)采集
數(shù)據(jù)采集主要由臨床機(jī)構(gòu)實(shí)施,應(yīng)當(dāng)考慮采集設(shè)備、采集過程以及數(shù)據(jù)脫敏的質(zhì)控要求。
采集設(shè)備質(zhì)控應(yīng)當(dāng)明確采集設(shè)備的兼容性要求和采集要求。兼容性要求應(yīng)當(dāng)基于數(shù)據(jù)生成方式(直接生成、間接生成)提供采集設(shè)備兼容性列表或技術(shù)要求,明確采集設(shè)備的制造商、型號(hào)規(guī)格、性能指標(biāo)等要求,若對(duì)采集設(shè)備無具體要求應(yīng)當(dāng)提供相應(yīng)支持資料。采集要求應(yīng)當(dāng)明確采集設(shè)備的采集方式(如常規(guī)成像、增強(qiáng)成像)、采集協(xié)議(如MRI成像序列)、采集參數(shù)(如CT加載電壓、加載電流、加載時(shí)間、層厚)、采集精度(如分辨率、采樣率)等要求。
采集過程質(zhì)控應(yīng)當(dāng)建立數(shù)據(jù)采集操作規(guī)范,明確采集人員要求和采集過程要求。采集人員要求包括人員的選拔、培訓(xùn)、考核。采集過程要求包括人員職責(zé)、采集流程(如采集步驟、操作要求)。
若使用現(xiàn)有歷史數(shù)據(jù),應(yīng)當(dāng)明確采集設(shè)備要求、數(shù)據(jù)采集質(zhì)量評(píng)估要求(如人員、方法、指標(biāo)、通過準(zhǔn)則)。
采集的數(shù)據(jù)應(yīng)當(dāng)進(jìn)行數(shù)據(jù)脫敏以保護(hù)患者隱私。數(shù)據(jù)脫敏應(yīng)當(dāng)明確脫敏的類型(靜態(tài)、動(dòng)態(tài))、規(guī)則、程度、方法。
2.數(shù)據(jù)預(yù)處理
脫敏數(shù)據(jù)由臨床機(jī)構(gòu)轉(zhuǎn)移至生產(chǎn)企業(yè)形成原始數(shù)據(jù)庫,不同模態(tài)的數(shù)據(jù)在原始數(shù)據(jù)庫中應(yīng)當(dāng)加以區(qū)分(下同)。
數(shù)據(jù)預(yù)處理應(yīng)當(dāng)基于原始數(shù)據(jù)庫考慮數(shù)據(jù)處理、數(shù)據(jù)清洗的質(zhì)控要求。數(shù)據(jù)處理應(yīng)當(dāng)明確處理的方法,如濾波、增強(qiáng)、重采樣、尺寸裁剪、均一化等。數(shù)據(jù)清洗應(yīng)當(dāng)明確清洗的規(guī)則、方法。
數(shù)據(jù)處理和清洗應(yīng)當(dāng)明確選用軟件工具的名稱、型號(hào)規(guī)格、完整版本、供應(yīng)商、運(yùn)行環(huán)境、確認(rèn)等要求,同時(shí)考慮數(shù)據(jù)處理選用方法對(duì)軟件的影響及其風(fēng)險(xiǎn)。
數(shù)據(jù)經(jīng)預(yù)處理后形成基礎(chǔ)數(shù)據(jù)庫,應(yīng)當(dāng)明確樣本類型、樣本量、樣本分布等信息。樣本類型以適用人群為單位可分為數(shù)據(jù)序列(由多個(gè)單一數(shù)據(jù)組成,如結(jié)構(gòu)序列、功能序列、時(shí)間序列)、單一數(shù)據(jù)。樣本量應(yīng)當(dāng)明確樣本規(guī)模及確定依據(jù),需要考慮樣本量不足對(duì)軟件的影響及其風(fēng)險(xiǎn)。樣本分布應(yīng)當(dāng)依據(jù)疾病構(gòu)成、適用人群、數(shù)據(jù)來源機(jī)構(gòu)、采集設(shè)備、樣本類型等因素明確數(shù)據(jù)分布情況,需要考慮數(shù)據(jù)偏性對(duì)軟件的影響及其風(fēng)險(xiǎn)。
3.數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注應(yīng)當(dāng)考慮標(biāo)注資源管理、標(biāo)注過程質(zhì)控、標(biāo)注質(zhì)量評(píng)估等要求。
標(biāo)注資源管理包括人員管理和基礎(chǔ)設(shè)施管理。人員管理應(yīng)當(dāng)明確標(biāo)注人員和仲裁人員的選拔(如職稱、工作年限、工作經(jīng)驗(yàn)、所在機(jī)構(gòu),若有國外人員應(yīng)當(dāng)明確其資質(zhì)要求)、培訓(xùn)、考核(如方法、頻次、指標(biāo)、通過準(zhǔn)則,其中指標(biāo)應(yīng)當(dāng)包括重復(fù)性、再現(xiàn)性)等要求。基礎(chǔ)設(shè)施管理應(yīng)當(dāng)明確標(biāo)注場(chǎng)所(真實(shí)或模擬,環(huán)境、照明條件)、標(biāo)注軟件(名稱、型號(hào)規(guī)格、完整版本、供應(yīng)商、運(yùn)行環(huán)境、確認(rèn))等要求。
標(biāo)注過程質(zhì)控應(yīng)當(dāng)建立數(shù)據(jù)標(biāo)注操作規(guī)范,明確標(biāo)注人員(如資質(zhì)、數(shù)量、職責(zé))、標(biāo)注流程(如標(biāo)注對(duì)象、標(biāo)注形式、標(biāo)注輪次、標(biāo)注步驟、操作要求)、臨床診療規(guī)范(如臨床指南、專家共識(shí))、分歧處理(如仲裁人員、仲裁方式)、可追溯性(如數(shù)據(jù)、操作)等要求。
標(biāo)注質(zhì)量評(píng)估應(yīng)當(dāng)明確人員、方法、指標(biāo)、通過準(zhǔn)則等要求。
數(shù)據(jù)經(jīng)標(biāo)注后形成標(biāo)注數(shù)據(jù)庫,其樣本類型可分為數(shù)據(jù)序列、單一數(shù)據(jù)(由多個(gè)數(shù)據(jù)塊組成)、數(shù)據(jù)塊(圖像區(qū)域、數(shù)據(jù)片段)。樣本量、樣本分布等要求及風(fēng)險(xiǎn)考量與基礎(chǔ)數(shù)據(jù)庫相同。
4.數(shù)據(jù)集構(gòu)建
基于標(biāo)注數(shù)據(jù)庫構(gòu)建訓(xùn)練集(用于算法訓(xùn)練)、調(diào)優(yōu)集[1](若有,用于算法超參數(shù)調(diào)優(yōu))、測(cè)試集(用于算法性能評(píng)估),明確訓(xùn)練集、調(diào)優(yōu)集、測(cè)試集的劃分方法、劃分依據(jù)、數(shù)據(jù)分配比例。訓(xùn)練集應(yīng)當(dāng)保證樣本分布具有均衡性,測(cè)試集、調(diào)優(yōu)集應(yīng)當(dāng)保證樣本分布符合臨床實(shí)際情況,訓(xùn)練集、調(diào)優(yōu)集、測(cè)試集的樣本應(yīng)當(dāng)兩兩無交集。
為解決數(shù)據(jù)樣本分布不滿足預(yù)期目標(biāo)的問題,可對(duì)訓(xùn)練集、調(diào)優(yōu)集小樣本量數(shù)據(jù)進(jìn)行擴(kuò)增;測(cè)試集不宜進(jìn)行數(shù)據(jù)擴(kuò)增,若擴(kuò)增應(yīng)當(dāng)分析對(duì)軟件的影響及其風(fēng)險(xiǎn)。數(shù)據(jù)擴(kuò)增應(yīng)當(dāng)明確擴(kuò)增的方式(離線、在線)、方法(如翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像、平移、縮放、濾波等)、倍數(shù),并考慮擴(kuò)增方法選用以及擴(kuò)增倍數(shù)過大對(duì)軟件的影響及其風(fēng)險(xiǎn)。
數(shù)據(jù)經(jīng)擴(kuò)增后形成擴(kuò)增數(shù)據(jù)庫,應(yīng)當(dāng)列表對(duì)比擴(kuò)增數(shù)據(jù)庫與標(biāo)注數(shù)據(jù)庫在樣本量、樣本分布(注明擴(kuò)增倍數(shù))等方面的差異,以證實(shí)擴(kuò)增數(shù)據(jù)庫樣本量的充分性以及樣本分布的合理性。
(三)算法設(shè)計(jì)
算法設(shè)計(jì)應(yīng)當(dāng)考慮算法選擇、算法訓(xùn)練、網(wǎng)絡(luò)安全防護(hù)、算法性能評(píng)估等活動(dòng)的質(zhì)控要求。建議數(shù)據(jù)驅(qū)動(dòng)與知識(shí)驅(qū)動(dòng)相結(jié)合進(jìn)行算法設(shè)計(jì),以提升算法可解釋性。
1.算法選擇
算法選擇應(yīng)當(dāng)明確所用算法的名稱、結(jié)構(gòu)(如層數(shù)、參數(shù)規(guī)模)、流程圖、現(xiàn)成框架(如Tensorflow、Caffe)、輸入與輸出、運(yùn)行環(huán)境、算法來源依據(jù)(或注明原創(chuàng))等信息。同時(shí)應(yīng)當(dāng)明確算法選擇與設(shè)計(jì)的原則、方法和風(fēng)險(xiǎn)考量,如量化誤差、梯度消失、過擬合、白盒化等。
若使用遷移學(xué)習(xí)技術(shù),除上述內(nèi)容外還應(yīng)當(dāng)補(bǔ)充預(yù)訓(xùn)練模型的數(shù)據(jù)集構(gòu)建、驗(yàn)證與確認(rèn)等總結(jié)信息。
2.算法訓(xùn)練
算法訓(xùn)練需要基于訓(xùn)練集、調(diào)優(yōu)集進(jìn)行訓(xùn)練和調(diào)優(yōu),應(yīng)當(dāng)明確評(píng)估指標(biāo)、訓(xùn)練方法、訓(xùn)練目標(biāo)、調(diào)優(yōu)方法、訓(xùn)練數(shù)據(jù)量-評(píng)估指標(biāo)曲線等要求。
評(píng)估指標(biāo)建議根據(jù)臨床需求進(jìn)行選擇,如敏感性、特異性等。訓(xùn)練方法包括但不限于留出法和交叉驗(yàn)證法。訓(xùn)練目標(biāo)應(yīng)當(dāng)滿足臨床要求,提供ROC曲線等證據(jù)予以證實(shí)。調(diào)優(yōu)方法應(yīng)當(dāng)明確算法優(yōu)化策略和實(shí)現(xiàn)方法。訓(xùn)練數(shù)據(jù)量-評(píng)估指標(biāo)曲線應(yīng)當(dāng)能夠證實(shí)算法訓(xùn)練的充分性和有效性。
3.網(wǎng)絡(luò)安全防護(hù)
網(wǎng)絡(luò)安全防護(hù)應(yīng)當(dāng)結(jié)合軟件的預(yù)期用途、使用場(chǎng)景和核心功能,基于保密性、完整性、可得性等網(wǎng)絡(luò)安全特性,確定軟件網(wǎng)絡(luò)安全能力建設(shè)要求,以應(yīng)對(duì)網(wǎng)絡(luò)攻擊和數(shù)據(jù)竊取等網(wǎng)絡(luò)威脅。相關(guān)要求詳見網(wǎng)絡(luò)安全指導(dǎo)原則。
此類軟件常見網(wǎng)絡(luò)威脅包括但不限于框架漏洞攻擊、數(shù)據(jù)污染,其中框架漏洞攻擊是指利用算法所用現(xiàn)成框架本身漏洞進(jìn)行網(wǎng)絡(luò)攻擊,數(shù)據(jù)污染是指通過污染輸入數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)攻擊。
4.算法性能評(píng)估
算法性能評(píng)估作為軟件驗(yàn)證的重要組成部分,需要基于測(cè)試集對(duì)算法設(shè)計(jì)結(jié)果進(jìn)行評(píng)估,應(yīng)當(dāng)明確假陰性與假陽性、重復(fù)性與再現(xiàn)性、魯棒性/健壯性等評(píng)估要求,以證實(shí)算法性能滿足算法設(shè)計(jì)要求。
同時(shí),應(yīng)當(dāng)分析算法性能影響因素及其影響程度,如采集設(shè)備、采集參數(shù)、疾病構(gòu)成、病變特征等因素影響,以提升算法可解釋性,并作為軟件驗(yàn)證、軟件確認(rèn)的基礎(chǔ)。
(四)驗(yàn)證與確認(rèn)
1.軟件驗(yàn)證
軟件驗(yàn)證是指通過提供客觀證據(jù)認(rèn)定軟件開發(fā)、軟件更新某一階段的輸出滿足輸入要求,包括軟件驗(yàn)證測(cè)試(單元測(cè)試、集成測(cè)試、系統(tǒng)測(cè)試)、設(shè)計(jì)評(píng)審等系列活動(dòng)。
軟件驗(yàn)證應(yīng)當(dāng)明確法規(guī)、標(biāo)準(zhǔn)、用戶、產(chǎn)品、數(shù)據(jù)、功能、性能、接口、用戶界面、網(wǎng)絡(luò)安全、警示提示等測(cè)試要求,以驗(yàn)證軟件的安全性和有效性,并作為軟件確認(rèn)的基礎(chǔ)。
2.軟件確認(rèn)
軟件確認(rèn)是指通過提供客觀證據(jù)認(rèn)定軟件滿足用戶需求和預(yù)期目的,包括軟件確認(rèn)測(cè)試(用戶測(cè)試)、臨床評(píng)價(jià)、設(shè)計(jì)評(píng)審等系列活動(dòng),其中軟件確認(rèn)測(cè)試應(yīng)當(dāng)基于軟件需求在真實(shí)或模擬使用場(chǎng)景下予以實(shí)施。
(1)基本原則
臨床評(píng)價(jià)是此類軟件進(jìn)行軟件確認(rèn)的主要方式,相關(guān)要求詳見《醫(yī)療器械臨床評(píng)價(jià)技術(shù)指導(dǎo)原則》。根據(jù)軟件指導(dǎo)原則要求,軟件應(yīng)當(dāng)提交基于臨床試驗(yàn)的臨床評(píng)價(jià)資料,即提交申報(bào)產(chǎn)品的臨床試驗(yàn)資料,或者與申報(bào)產(chǎn)品核心算法具有實(shí)質(zhì)等同性的同品種產(chǎn)品或同類軟件功能的臨床試驗(yàn)資料。
進(jìn)口軟件應(yīng)當(dāng)提供中外人種、流行病學(xué)特征、臨床診療規(guī)范等方面差異影響的臨床評(píng)價(jià)資料,若不足以證實(shí)申報(bào)產(chǎn)品在中國使用的安全性和有效性,應(yīng)當(dāng)在中國開展臨床試驗(yàn)。使用境外臨床試驗(yàn)數(shù)據(jù)應(yīng)當(dāng)滿足《接受醫(yī)療器械境外臨床試驗(yàn)數(shù)據(jù)技術(shù)指導(dǎo)原則》要求。
(2)臨床試驗(yàn)
臨床試驗(yàn)應(yīng)當(dāng)符合《醫(yī)療器械臨床試驗(yàn)質(zhì)量管理規(guī)范》要求??蓞⒄铡夺t(yī)療器械臨床試驗(yàn)設(shè)計(jì)指導(dǎo)原則》,基于軟件的預(yù)期用途、使用場(chǎng)景和核心功能進(jìn)行試驗(yàn)設(shè)計(jì),確定觀察指標(biāo)、樣本量估計(jì)、入排標(biāo)準(zhǔn)、隨訪以及實(shí)施機(jī)構(gòu)等要求,以確認(rèn)軟件的安全性和有效性。
建議優(yōu)先選擇同品種產(chǎn)品或臨床參考標(biāo)準(zhǔn)(即臨床金標(biāo)準(zhǔn))進(jìn)行非劣效對(duì)照設(shè)計(jì),若無同品種產(chǎn)品且難以獲取臨床參考標(biāo)準(zhǔn)(如違背倫理學(xué)要求)可選擇替代方法,如選擇用戶結(jié)合軟件聯(lián)合決策與用戶單獨(dú)決策進(jìn)行優(yōu)效對(duì)照設(shè)計(jì)。非劣效界值或優(yōu)效界值的確定應(yīng)當(dāng)有充分的臨床依據(jù)。此外考慮到用戶的差異性,可選擇多閱片者多病例(MRMC)試驗(yàn)設(shè)計(jì)。
建議結(jié)合適用人群、病變等層面選擇觀察指標(biāo),原則上選擇敏感性、特異性、ROC/AUC作為主要觀察指標(biāo),亦可在此基礎(chǔ)上根據(jù)軟件特點(diǎn)選擇敏感性/特異性衍生指標(biāo)、ROC/AUC衍生指標(biāo)、組內(nèi)相關(guān)系數(shù)、Kappa系數(shù)、時(shí)間效率、數(shù)據(jù)有效使用率等指標(biāo)作為觀察指標(biāo)。
入排標(biāo)準(zhǔn)應(yīng)當(dāng)基于目標(biāo)疾病流行病學(xué)特征,保證陽性樣本和陰性樣本選取的合理性和充分性。
建議臨床試驗(yàn)結(jié)果由第三方獨(dú)立評(píng)價(jià)。
實(shí)施機(jī)構(gòu)應(yīng)當(dāng)具備代表性和廣泛性,不同于訓(xùn)練數(shù)據(jù)主要來源機(jī)構(gòu),地域分布盡可能廣泛,機(jī)構(gòu)數(shù)量盡可能多,以確認(rèn)算法泛化能力。
例如,預(yù)期以提高輔助診斷時(shí)間效率為首要目標(biāo)的某軟件,無同品種產(chǎn)品且難以獲取臨床參考標(biāo)準(zhǔn),其臨床試驗(yàn)設(shè)計(jì)可選擇用戶結(jié)合軟件聯(lián)合決策與用戶單獨(dú)決策進(jìn)行交叉對(duì)照設(shè)計(jì),以敏感性、特異性、時(shí)間效率作為主要觀察指標(biāo),其中敏感性、特異性可為非劣性對(duì)照,時(shí)間效率指標(biāo)應(yīng)當(dāng)為優(yōu)效對(duì)照。
(3)回顧性研究
臨床評(píng)價(jià)可采用基于現(xiàn)有歷史數(shù)據(jù)的回顧性研究?;仡櫺匝芯繎?yīng)當(dāng)在設(shè)計(jì)時(shí)考慮并必須嚴(yán)格控制偏倚,如選擇偏倚、臨床參考標(biāo)準(zhǔn)偏倚、測(cè)量偏倚、記憶偏倚等?;仡櫺匝芯吭瓌t上應(yīng)當(dāng)包含多個(gè)不同地域臨床機(jī)構(gòu)(非訓(xùn)練數(shù)據(jù)主要來源機(jī)構(gòu))的同期數(shù)據(jù),結(jié)合分層分析、第三方獨(dú)立評(píng)價(jià)等方法控制偏倚,以保證真實(shí)、準(zhǔn)確評(píng)價(jià)軟件的安全性和有效性。
回顧性研究應(yīng)當(dāng)基于軟件安全性級(jí)別考慮使用問題。對(duì)于安全性級(jí)別為C級(jí)的高風(fēng)險(xiǎn)軟件,原則上應(yīng)當(dāng)開展臨床試驗(yàn),此時(shí)回顧性研究可用作臨床預(yù)試驗(yàn),為臨床試驗(yàn)設(shè)計(jì)提供參考依據(jù),或者在少見亞組病例入組時(shí)間過長等情況下,用作臨床試驗(yàn)的補(bǔ)充。對(duì)于安全性級(jí)別為B、A級(jí)的中低風(fēng)險(xiǎn)軟件,回顧性研究可用作臨床預(yù)實(shí)驗(yàn)或替代臨床試驗(yàn)。
軟件安全性級(jí)別應(yīng)當(dāng)基于軟件的預(yù)期用途、使用場(chǎng)景和核心功能進(jìn)行綜合判定,判定方法詳見軟件指導(dǎo)原則。例如,預(yù)期用于病理圖像輔助篩查或者危重疾病輔助識(shí)別的軟件,其安全性級(jí)別通常為C級(jí)。
三、軟件更新
(一)基本原則
軟件更新應(yīng)當(dāng)考慮對(duì)軟件安全性和有效性的影響,包括正面影響和負(fù)面影響。若為重大軟件更新(即影響到軟件安全性或有效性的軟件更新)應(yīng)當(dāng)申請(qǐng)?jiān)S可事項(xiàng)變更,若為輕微軟件更新(即未影響軟件安全性和有效性的軟件更新)則無需申請(qǐng)?jiān)S可事項(xiàng)變更,通過質(zhì)量管理體系進(jìn)行控制。
(二)重大軟件更新
除軟件更新基本類型外,此類軟件常見更新類型又可分為算法驅(qū)動(dòng)型和數(shù)據(jù)驅(qū)動(dòng)型。其中,算法驅(qū)動(dòng)型軟件更新是指軟件所用算法、算法結(jié)構(gòu)、算法流程、現(xiàn)成框架、輸入與輸出等發(fā)生改變,包括算法重新訓(xùn)練(即棄用原有訓(xùn)練數(shù)據(jù));數(shù)據(jù)驅(qū)動(dòng)型軟件更新是指僅由訓(xùn)練數(shù)據(jù)量增加而促使軟件發(fā)生更新,實(shí)為算法驅(qū)動(dòng)型軟件更新的特殊情況。
算法驅(qū)動(dòng)型軟件更新通常屬于重大軟件更新。數(shù)據(jù)驅(qū)動(dòng)型軟件更新是否屬于重大軟件更新原則上以算法性能評(píng)估結(jié)果為準(zhǔn),若算法性能評(píng)估結(jié)果發(fā)生顯著性改變(即與前次注冊(cè)所批準(zhǔn)的算法性能評(píng)估結(jié)果相比存在統(tǒng)計(jì)學(xué)顯著差異)則屬于重大軟件更新。其他類型重大軟件更新的判定準(zhǔn)則詳見軟件指導(dǎo)原則、網(wǎng)絡(luò)安全指導(dǎo)原則相關(guān)要求。
(三)驗(yàn)證與確認(rèn)
無論何種軟件更新,均應(yīng)當(dāng)按照質(zhì)量管理體系的要求,開展與軟件更新類型、內(nèi)容和程度相適宜的驗(yàn)證與確認(rèn)活動(dòng)。
對(duì)于算法驅(qū)動(dòng)型軟件更新和數(shù)據(jù)驅(qū)動(dòng)型軟件更新,應(yīng)當(dāng)開展算法性能評(píng)估、臨床評(píng)價(jià)等驗(yàn)證與確認(rèn)活動(dòng),以保證軟件更新的安全性和有效性。
軟件更新臨床評(píng)價(jià)應(yīng)當(dāng)與軟件安全性級(jí)別相適宜。對(duì)于安全性級(jí)別為C級(jí)的高風(fēng)險(xiǎn)軟件,適用范圍實(shí)質(zhì)變更原則上應(yīng)當(dāng)開展臨床試驗(yàn),其他變更情況可使用回顧性研究進(jìn)行軟件更新臨床評(píng)價(jià);對(duì)于安全性級(jí)別為B、A級(jí)的中低風(fēng)險(xiǎn)軟件,可使用回顧性研究進(jìn)行軟件更新臨床評(píng)價(jià)。
(四)軟件版本命名規(guī)則
軟件版本命名規(guī)則應(yīng)當(dāng)涵蓋算法驅(qū)動(dòng)型軟件更新和數(shù)據(jù)驅(qū)動(dòng)型軟件更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新應(yīng)當(dāng)列舉全部典型情況。
四、相關(guān)技術(shù)考量
(一)適用范圍擴(kuò)展
1.基本原則
軟件所含全部深度學(xué)習(xí)、傳統(tǒng)機(jī)器學(xué)習(xí)功能(以下統(tǒng)稱軟件功能)均應(yīng)當(dāng)開展需求分析、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)等活動(dòng),且每項(xiàng)軟件功能應(yīng)當(dāng)分別開展需求分析、數(shù)據(jù)收集、算法設(shè)計(jì)、驗(yàn)證與確認(rèn)等活動(dòng)。
2.深度學(xué)習(xí)非輔助決策軟件功能
對(duì)于深度學(xué)習(xí)非輔助決策軟件功能,其驗(yàn)證與確認(rèn)要求如下:前處理軟件功能原則上應(yīng)當(dāng)開展算法性能評(píng)估、臨床評(píng)價(jià);流程優(yōu)化軟件功能開展算法性能評(píng)估即可,無需開展臨床評(píng)價(jià);常規(guī)后處理軟件功能原則上開展算法性能評(píng)估即可,全新功能應(yīng)當(dāng)開展臨床評(píng)價(jià)。此時(shí)臨床評(píng)價(jià)可參照傳統(tǒng)醫(yī)療器械評(píng)價(jià)方法。
3.傳統(tǒng)機(jī)器學(xué)習(xí)軟件功能
傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)與深度學(xué)習(xí)技術(shù)的主要區(qū)別在于:前者特征提取通常需要人為干預(yù),而后者自動(dòng)完成特征提取。因此,對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)輔助決策軟件功能,應(yīng)當(dāng)明確特征提取信息,包括但不限于特征分類(如人口統(tǒng)計(jì)學(xué)、生物學(xué)、形態(tài)學(xué))、特征屬性(如形態(tài)、紋理、性質(zhì)、尺寸、邊界)和特征展現(xiàn)方式(如形狀、尺寸、邊界、顏色、數(shù)量)。
對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)非輔助決策軟件功能,其要求參照深度學(xué)習(xí)非輔助決策軟件功能,同時(shí)明確特征提取信息。
(二)第三方數(shù)據(jù)庫
第三方數(shù)據(jù)庫可視為回顧性研究的一種特殊形式,可用于算法性能評(píng)估,但其類型、用途等情況各不相同,未必能夠完全滿足軟件確認(rèn)測(cè)試的要求。因此,使用第三方數(shù)據(jù)庫進(jìn)行軟件確認(rèn)測(cè)試,應(yīng)當(dāng)評(píng)估其滿足軟件確認(rèn)測(cè)試條件的充分性、適宜性和有效性。
可用于軟件確認(rèn)測(cè)試的第三方數(shù)據(jù)庫(以下簡(jiǎn)稱測(cè)評(píng)數(shù)據(jù)庫)應(yīng)當(dāng)滿足數(shù)據(jù)平臺(tái)建設(shè)的通用要求(如網(wǎng)絡(luò)與數(shù)據(jù)安全等,不再贅述)和專用要求,其中專用要求包括:
1.權(quán)威性:考慮到數(shù)據(jù)質(zhì)量主要取決于數(shù)據(jù)標(biāo)注質(zhì)量,因此測(cè)評(píng)數(shù)據(jù)庫創(chuàng)建單位應(yīng)當(dāng)包括相應(yīng)臨床專業(yè)領(lǐng)域的權(quán)威機(jī)構(gòu)(如國家臨床醫(yī)學(xué)研究中心),數(shù)據(jù)標(biāo)注人員、標(biāo)注分歧仲裁人員應(yīng)當(dāng)分別具備適宜的、豐富的臨床實(shí)踐經(jīng)驗(yàn)。
2.科學(xué)性:為保證能夠真實(shí)、準(zhǔn)確的反映臨床實(shí)際情況,測(cè)評(píng)數(shù)據(jù)庫樣本量應(yīng)當(dāng)通過統(tǒng)計(jì)學(xué)計(jì)算確定以控制抽樣誤差,樣本分布應(yīng)當(dāng)符合目標(biāo)疾病的流行病學(xué)特征情況,不能進(jìn)行數(shù)據(jù)擴(kuò)增;單次測(cè)試所用數(shù)據(jù)量應(yīng)當(dāng)予以規(guī)定,測(cè)試數(shù)據(jù)應(yīng)當(dāng)根據(jù)測(cè)評(píng)數(shù)據(jù)庫樣本分布情況進(jìn)行等比例隨機(jī)抽取。
3.規(guī)范性:測(cè)評(píng)數(shù)據(jù)庫的數(shù)據(jù)采集、數(shù)據(jù)脫敏、數(shù)據(jù)處理、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理、網(wǎng)絡(luò)安全防護(hù)等數(shù)據(jù)治理活動(dòng)以及測(cè)評(píng)過程均應(yīng)當(dāng)建立質(zhì)控程序并形成文件,并滿足可追溯性要求。
4.多樣性:測(cè)評(píng)數(shù)據(jù)庫的數(shù)據(jù)應(yīng)當(dāng)來源于多個(gè)臨床機(jī)構(gòu),以保證測(cè)評(píng)數(shù)據(jù)庫能夠用于評(píng)價(jià)算法泛化能力;在滿足倫理學(xué)要求的前提下可包含適當(dāng)比例的對(duì)抗數(shù)據(jù)樣本,以用于評(píng)價(jià)算法的魯棒性/健壯性。
5.封閉性:為保證能夠充分、客觀的評(píng)價(jià)算法質(zhì)量,測(cè)評(píng)數(shù)據(jù)庫應(yīng)當(dāng)封閉管理,且樣本量應(yīng)當(dāng)遠(yuǎn)大于單次測(cè)試所用數(shù)據(jù)量;測(cè)評(píng)過程同樣應(yīng)當(dāng)保證封閉性。
6.動(dòng)態(tài)性:測(cè)評(píng)數(shù)據(jù)庫應(yīng)當(dāng)定期更換一定比例的數(shù)據(jù),以保證測(cè)評(píng)數(shù)據(jù)庫具有持續(xù)的多樣性和封閉性;被更換的數(shù)據(jù)可用于構(gòu)建公開數(shù)據(jù)庫以服務(wù)于行業(yè)發(fā)展。
此外,第三方公開數(shù)據(jù)庫(以下簡(jiǎn)稱公開數(shù)據(jù)庫)因不具備封閉性而不能用作測(cè)評(píng)數(shù)據(jù)庫,但可用于算法性能評(píng)估。公開數(shù)據(jù)庫不宜用于算法訓(xùn)練,若用于算法訓(xùn)練應(yīng)當(dāng)評(píng)估其使用的適宜性和有效性。
(三)網(wǎng)絡(luò)與數(shù)據(jù)安全過程控制
除考慮軟件自身網(wǎng)絡(luò)安全能力建設(shè)外,還應(yīng)當(dāng)在軟件全生命周期過程中考慮網(wǎng)絡(luò)與數(shù)據(jù)安全過程控制要求,包括上市前設(shè)計(jì)開發(fā)階段和上市后使用階段。
脫敏數(shù)據(jù)由臨床機(jī)構(gòu)轉(zhuǎn)移至生產(chǎn)企業(yè)應(yīng)當(dāng)明確數(shù)據(jù)轉(zhuǎn)移方法、數(shù)據(jù)污染防護(hù)措施。數(shù)據(jù)預(yù)處理、數(shù)據(jù)集構(gòu)建、算法訓(xùn)練、算法性能評(píng)估、軟件驗(yàn)證等內(nèi)部活動(dòng)應(yīng)當(dāng)在封閉的網(wǎng)絡(luò)環(huán)境下開展,以防止數(shù)據(jù)污染。數(shù)據(jù)標(biāo)注、軟件確認(rèn)等涉及外方的活動(dòng)若在開放的網(wǎng)絡(luò)環(huán)境下開展,應(yīng)當(dāng)明確網(wǎng)絡(luò)安全防護(hù)措施,以防止數(shù)據(jù)污染。數(shù)據(jù)采集、上市后使用應(yīng)當(dāng)考慮與臨床機(jī)構(gòu)網(wǎng)絡(luò)與數(shù)據(jù)安全要求相銜接的接口問題。
各數(shù)據(jù)庫(集)應(yīng)當(dāng)進(jìn)行數(shù)據(jù)備份以保證數(shù)據(jù)安全,數(shù)據(jù)備份應(yīng)當(dāng)明確備份的方法、頻次以及數(shù)據(jù)恢復(fù)方法。
(四)云計(jì)算服務(wù)與移動(dòng)計(jì)算終端
使用云計(jì)算服務(wù)應(yīng)當(dāng)明確服務(wù)模式、部署模式、核心功能、數(shù)據(jù)接口、網(wǎng)絡(luò)安全能力和服務(wù)(質(zhì)量)協(xié)議等要求。使用移動(dòng)計(jì)算終端應(yīng)當(dāng)結(jié)合終端的類型、特點(diǎn)和使用風(fēng)險(xiǎn)明確相應(yīng)性能指標(biāo)要求。相關(guān)要求詳見移動(dòng)器械指導(dǎo)原則。
云計(jì)算服務(wù)與移動(dòng)計(jì)算終端的網(wǎng)絡(luò)安全要求詳見網(wǎng)絡(luò)安全指導(dǎo)原則。
五、注冊(cè)申報(bào)資料說明
注冊(cè)申報(bào)資料應(yīng)當(dāng)在相關(guān)公告基礎(chǔ)上滿足軟件指導(dǎo)原則、網(wǎng)絡(luò)安全指導(dǎo)原則、移動(dòng)器械指導(dǎo)原則等相關(guān)指導(dǎo)原則要求。輔助決策軟件還應(yīng)當(dāng)考慮下述要求,不適用項(xiàng)應(yīng)當(dāng)提供合理解釋。非輔助決策軟件可參照輔助決策軟件的適用要求。
(一)產(chǎn)品名稱
輔助決策獨(dú)立軟件產(chǎn)品名稱應(yīng)當(dāng)符合獨(dú)立軟件通用名稱命名規(guī)范要求,體現(xiàn)處理對(duì)象(如CT圖像、眼底照片)、目標(biāo)疾?。ê∽?、疾病屬性)、臨床用途(如輔助篩查、輔助識(shí)別)等特征詞。
軟件組件相應(yīng)輔助決策軟件功能名稱可參照輔助決策獨(dú)立軟件要求。
(二)適用范圍
輔助決策獨(dú)立軟件適用范圍應(yīng)當(dāng)明確預(yù)期用途、使用場(chǎng)景和核心功能,包括但不限于處理對(duì)象、目標(biāo)疾病、臨床用途、適用人群、目標(biāo)用戶、使用場(chǎng)所、采集設(shè)備要求、臨床使用限制。
軟件組件相應(yīng)輔助決策軟件功能適用范圍可參照輔助決策獨(dú)立軟件要求,并在產(chǎn)品適用范圍中予以體現(xiàn)。
(三)研究資料
除軟件描述文檔、網(wǎng)絡(luò)安全描述文檔、軟件版本命名規(guī)則外,研究資料還應(yīng)當(dāng)提供以下資料:
軟件描述文檔核心算法部分應(yīng)當(dāng)結(jié)合本審評(píng)要點(diǎn)提供相應(yīng)算法研究資料,包括數(shù)據(jù)來源合規(guī)性聲明、算法性能影響因素分析資料以及各類測(cè)試場(chǎng)景下算法性能評(píng)估結(jié)果比較分析資料。
研究資料“其他資料”應(yīng)當(dāng)提供網(wǎng)絡(luò)與數(shù)據(jù)安全過程控制研究資料,包括公開數(shù)據(jù)庫、測(cè)評(píng)數(shù)據(jù)庫的基本信息(如名稱、創(chuàng)建者、數(shù)據(jù)量、數(shù)據(jù)分布)和使用情況。
對(duì)于公開數(shù)據(jù)庫,若用于算法訓(xùn)練,使用情況應(yīng)當(dāng)明確數(shù)據(jù)使用量、數(shù)據(jù)分布、訓(xùn)練集所占比例,并提供其滿足算法訓(xùn)練要求的評(píng)估資料;若用于算法性能評(píng)估,使用情況應(yīng)當(dāng)明確數(shù)據(jù)使用量、數(shù)據(jù)分布、測(cè)試集所占比例、評(píng)估指標(biāo)與結(jié)果。
對(duì)于測(cè)評(píng)數(shù)據(jù)庫,若用于算法性能評(píng)估,使用情況應(yīng)當(dāng)明確評(píng)估指標(biāo)與結(jié)果;若用于軟件確認(rèn)測(cè)試,使用情況應(yīng)當(dāng)提供其滿足軟件確認(rèn)測(cè)試條件要求的評(píng)估資料。
其他類型第三方數(shù)據(jù)庫申報(bào)資料參照公開數(shù)據(jù)庫、測(cè)評(píng)數(shù)據(jù)庫適用要求。
(四)說明書
說明書應(yīng)當(dāng)符合《醫(yī)療器械說明書和標(biāo)簽管理規(guī)定》要求。
輔助決策軟件說明書應(yīng)當(dāng)明確軟件的適用范圍、臨床使用限制、注意事項(xiàng)、用戶培訓(xùn)、采集設(shè)備要求、數(shù)據(jù)采集操作規(guī)范、輸入與輸出、算法性能評(píng)估總結(jié)(測(cè)試集基本信息、評(píng)估指標(biāo)與結(jié)果)、軟件臨床評(píng)價(jià)總結(jié)(臨床數(shù)據(jù)基本信息、評(píng)價(jià)指標(biāo)與結(jié)果)、運(yùn)行環(huán)境等內(nèi)容。
深度學(xué)習(xí)輔助決策軟件說明書除上述內(nèi)容外還應(yīng)當(dāng)補(bǔ)充算法訓(xùn)練總結(jié)信息(訓(xùn)練集基本信息、訓(xùn)練指標(biāo)與結(jié)果)。
前期已開發(fā)軟件若不滿足本審評(píng)要點(diǎn)的適用要求,應(yīng)當(dāng)開展差距分析并進(jìn)行必要限定。
總之,技術(shù)審評(píng)將基于審評(píng)關(guān)注重點(diǎn)綜合權(quán)衡軟件的風(fēng)險(xiǎn)和受益,系統(tǒng)評(píng)價(jià)軟件的安全性和有效性,協(xié)調(diào)上市前與上市后的監(jiān)管要求,兼顧公眾健康保護(hù)與促進(jìn)技術(shù)創(chuàng)新的關(guān)系。