《影像超聲人工智能軟件(流程優(yōu)化類功能)技術(shù)審評要點》旨在指導(dǎo)注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能注冊申報資料的準(zhǔn)備及撰寫,同時也為技術(shù)審評部門審評注冊申報資料提供參考。是對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能的一般要求,醫(yī)療器械注冊申請人應(yīng)依據(jù)產(chǎn)品的具體特性確定其中內(nèi)容是否適用,若不適用,需具體闡述理由及相應(yīng)的科學(xué)依據(jù),并依據(jù)產(chǎn)品的具體特性對注冊申報資料的內(nèi)容進(jìn)行充實和細(xì)化。
影像超聲人工智能軟件(流程優(yōu)化類功能)技術(shù)審評要點
本審評要點旨在指導(dǎo)注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能注冊申報資料的準(zhǔn)備及撰寫,同時也為技術(shù)審評部門審評注冊申報資料提供參考。
本審評要點是對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能的一般要求,醫(yī)療器械注冊申請人應(yīng)依據(jù)產(chǎn)品的具體特性確定其中內(nèi)容是否適用,若不適用,需具體闡述理由及相應(yīng)的科學(xué)依據(jù),并依據(jù)產(chǎn)品的具體特性對注冊申報資料的內(nèi)容進(jìn)行充實和細(xì)化。本審評要點不包括臨床評價的要求。
一、適用范圍
本審評要點適用于影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能(以下簡稱“超聲流程優(yōu)化AI功能”)的注冊。上述功能應(yīng)由有相應(yīng)超聲診斷資質(zhì)和能力的醫(yī)生使用。上述功能通常集成于影像超聲設(shè)備中,其產(chǎn)品分類依從于影像超聲設(shè)備,按現(xiàn)行《醫(yī)療器械分類目錄》,該類產(chǎn)品分類編碼為06-07,管理類別為II類或III類;上述功能若集成于獨立軟件,分類編碼為21-02,基于《人工智能醫(yī)療器械分類界定指導(dǎo)原則》,作為流程優(yōu)化功能,管理類別為II類。
輔助診斷類超聲AI功能由于尚無產(chǎn)品批準(zhǔn),缺乏審評經(jīng)驗,暫不納入本審評要點,可參考適應(yīng)的內(nèi)容。
二、產(chǎn)品簡介
超聲流程優(yōu)化AI功能主要實現(xiàn)定位標(biāo)準(zhǔn)切面、生理結(jié)構(gòu)識別與分割、自動測量、診斷流程自動化等功能,進(jìn)而起到減少醫(yī)生重復(fù)勞動、提高效率的作用,目前多見于婦產(chǎn)科胎兒、心臟的超聲檢查和頻譜多普勒檢查,也見于實質(zhì)器官、肌骨、神經(jīng)的檢查,少見于彩色多普勒檢查。以上提到的結(jié)構(gòu)分割,僅限于分割正常組織結(jié)構(gòu)(包括先天畸形或后天發(fā)育失常或受傷導(dǎo)致的正常組織結(jié)構(gòu)發(fā)生異于常人的變化,如先天性心臟病),不用于分割疑似病灶組織結(jié)構(gòu),如甲狀腺結(jié)節(jié)、乳腺結(jié)節(jié),否則屬于輔助診斷功能,不屬于流程優(yōu)化功能。對疑似病灶進(jìn)行輔助識別和輔助診斷是超聲診斷中的常見任務(wù),該任務(wù)中病灶輔助識別不屬于本要點討論的流程優(yōu)化功能。
不同于放射科影像設(shè)備的固定位置、標(biāo)準(zhǔn)參數(shù)的采集方式,影像超聲需要超聲醫(yī)師自行尋找所需切面同時進(jìn)行診斷,或為了觀察到特定結(jié)構(gòu)、病灶需要從多個角度不同切面進(jìn)行觀察,超聲診斷標(biāo)準(zhǔn)化是一個重要問題。影像超聲的診斷流程經(jīng)常要求采集標(biāo)準(zhǔn)切面,在切面中找到指定生理結(jié)構(gòu)或標(biāo)志點,進(jìn)行測量,通過與標(biāo)準(zhǔn)圖譜或標(biāo)準(zhǔn)數(shù)據(jù)庫對比作出診斷。有些診療流程規(guī)定須觀察到的切面、結(jié)構(gòu)、標(biāo)志點、特征多普勒頻譜以及相關(guān)測量非常多,如產(chǎn)科排畸檢查、超聲心動圖檢查,工作量大而重復(fù),亟需自動化工具。相應(yīng)的流程優(yōu)化功能不但可以減少醫(yī)生重復(fù)勞動提高效率,還有利于實現(xiàn)超聲診斷標(biāo)準(zhǔn)化提高診斷質(zhì)量。
不同于放射影像通常在醫(yī)生已經(jīng)對疾病有所懷疑時才進(jìn)行檢查,超聲診斷的應(yīng)用場景更廣,在體檢、定期檢查、診斷、手術(shù)中均有應(yīng)用。診療流程越靠前的檢查,檢查量越大,部分檢查目的側(cè)重于確認(rèn)正常,并同時發(fā)現(xiàn)異?;蚨ㄆ谟^察進(jìn)展。需求量越大、診斷流程越復(fù)雜的超聲檢查,流程優(yōu)化功能的價值就越大。部分超聲流程優(yōu)化AI功能的臨床風(fēng)險相對較低,但其中的高風(fēng)險因素必須予以重視。
三、參考文件
[1] 國家食品藥品監(jiān)督管理局.醫(yī)療器械說明書和標(biāo)簽管理規(guī)定:國家食品藥品監(jiān)督管理總局令第6號[Z].
[2] 國家藥品監(jiān)督管理局.醫(yī)療器械安全和性能的基本原則:國家藥品監(jiān)督管理總局公告2020年第18號 [Z]
[3] 國家藥品監(jiān)督管理局.醫(yī)療器械通用名稱命名規(guī)則:國家藥品監(jiān)督管理總局令第19號[Z].
[4] 國家藥品監(jiān)督管理局.醫(yī)用軟件通用名稱命名指導(dǎo)原則: 國家藥品監(jiān)督管理總局通告2021年第48號[Z]
[5] 國家食品藥品監(jiān)督管理局.醫(yī)療器械分類目錄:國家食品藥品監(jiān)督管理總局公告2017年第104號[Z].
[6] 國家藥品監(jiān)督管理局. 人工智能醫(yī)用軟件產(chǎn)品分類界定指導(dǎo)原則: 國家藥監(jiān)局器審中心通告2021年第47號[Z]
[7] 國家藥品監(jiān)督管理局.醫(yī)療器械產(chǎn)品技術(shù)要求編寫指導(dǎo)原則:國家藥監(jiān)局通告2022年第8號[Z].
[8] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.醫(yī)療器械軟件注冊審查指導(dǎo)原則(2022年修訂版):國家藥監(jiān)局器審中心通告2022年第9號[Z].
[9] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.醫(yī)療器械網(wǎng)絡(luò)安全注冊審查指導(dǎo)原則(2022年修訂版):國家藥監(jiān)局器審中心通告2022年第7號[Z].
[10] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.人工智能醫(yī)療器械注冊審查指導(dǎo)原則:國家藥監(jiān)局器審中心通告2022年第8號[Z].
四、審評主要關(guān)注點
在參照的法規(guī)、規(guī)章、指導(dǎo)原則、標(biāo)準(zhǔn)的情況前提下,結(jié)合下列關(guān)注點開展技術(shù)審評。
(一)綜述資料
1.產(chǎn)品名稱
此類功能一般集成于影像超聲主機(jī)或超聲圖像處理軟件中,產(chǎn)品名稱依從于所集成產(chǎn)品。功能名稱可以包含英文,應(yīng)保持同一功能的規(guī)范名稱在產(chǎn)品資料中保持一致。功能名稱相似的,應(yīng)明確實質(zhì)差異,如同名的不同代際功能,可以通過名稱或版本號予以區(qū)別。
2.結(jié)構(gòu)組成
集成于影像超聲主機(jī)時,結(jié)構(gòu)功能無需體現(xiàn)。集成于處理超聲影像的獨立軟件時,結(jié)構(gòu)組成應(yīng)體現(xiàn)出包括AI的功能模塊。
其他按照《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》在算法研究報告中提供算法基本信息,結(jié)合本產(chǎn)品特點應(yīng)注意和細(xì)化的要求詳見下文算法研究資料的算法基本信息。
(二)非臨床資料
1.產(chǎn)品技術(shù)要求及檢測報告
1.1規(guī)格信息
應(yīng)給出軟件發(fā)布版本和版本命名規(guī)則。軟件版本命名規(guī)則原則上應(yīng)涵蓋算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見典型情況。AI功能若是軟件模塊,若有單獨的版本、版本命名規(guī)則均需說明。
明確AI功能可處理的超聲影像輸入,如超聲機(jī)型、探頭、成像參數(shù)、檢查方式、檢查部位、影像形式。超聲機(jī)型和探頭應(yīng)明確制造商和型號,且應(yīng)為國內(nèi)上市的產(chǎn)品。成像參數(shù)應(yīng)考慮頻率、增益、深度、動態(tài)范圍、焦點、幀頻、諧波成像、多波束成像等,若是某探頭用于某部位的默認(rèn)參數(shù),可以簡化描述。影像形式明確單幀或序列圖像,對全圖處理還是需要先分割出特定區(qū)域,是否包括種子點、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。相應(yīng)內(nèi)容應(yīng)已通過算法影響因素分析論證。
若預(yù)期操作者包括超聲醫(yī)師之外的用戶,應(yīng)在此處予以明確。
1.2性能指標(biāo)
以AI功能為單位(而不是算法)描述臨床功能、使用限制、運行環(huán)境(若適用)、性能效率(若適用)。臨床功能應(yīng)簡要描述輸入輸出,并在附錄中提供典型界面圖片,明確采用深度學(xué)習(xí)AI算法的部分;實現(xiàn)分類、分割功能和生成自然語言描述的枚舉可給出的所有情況;明確AI輸出的哪些內(nèi)容可由醫(yī)生修改。使用限制考慮從流行病學(xué)分布、預(yù)期應(yīng)用場景、成像質(zhì)量不佳或范圍不夠、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等方面簡要描述。運行環(huán)境(含云計算)明確典型配置,包括硬件配置、外部軟件環(huán)境、網(wǎng)絡(luò)條件,僅運行在所申報超聲主機(jī)上的AI功能,運行環(huán)境可不適用。性能效率明確軟件在典型運行環(huán)境下完成典型核心功能的時間特性。
2.軟件研究
申請人應(yīng)依據(jù)《醫(yī)療器械軟件技術(shù)審查指導(dǎo)原則(2022年修訂版)》、《醫(yī)療器械網(wǎng)絡(luò)安全技術(shù)審查指導(dǎo)原則(2022年修訂版)》、《移動醫(yī)療器械注冊技術(shù)審查指導(dǎo)原則》、《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》等指導(dǎo)原則,提交相應(yīng)注冊申報資料。
3.算法研究資料
應(yīng)基于《人工智能醫(yī)療器械審查指導(dǎo)原則》第四章生存周期過程、第五章技術(shù)考量、第六章算法研究資料的所有相關(guān)要求提供算法研究報告或算法更新研究報告,認(rèn)為不適用的應(yīng)詳述理由。不同功能應(yīng)分別提供算法研究報告,一個功能中包括多個相對獨立AI算法的建議分別提供算法研究報告,有工作流銜接關(guān)系的算法、功能應(yīng)說明其關(guān)系,宜合并算法研究報告中相同相似內(nèi)容,但驗證與確認(rèn)應(yīng)分別進(jìn)行。根據(jù)此類功能特點需要細(xì)化之處如下。以下要求主要針對基于深度學(xué)習(xí)等新一代人工智能算法的功能,采用傳統(tǒng)模式識別算法的可供參考。
3.1算法基本信息
AI功能及其核心的AI算法穿插于檢查流程中,在某些環(huán)節(jié)發(fā)揮作用。AI功能控制AI算法模塊(可能不只1個)的啟動、運行、停止、結(jié)果顯示,以及與其他功能模塊的配合。申請人應(yīng)對功能和算法分別進(jìn)行描述,由于超聲檢查流程的復(fù)雜性,應(yīng)重視功能描述。
3.1.1功能描述
應(yīng)從臨床角度在說明常規(guī)診斷流程的基礎(chǔ)上,明確常規(guī)流程的哪些環(huán)節(jié)被AI功能替代或是改變,從技術(shù)角度配合流程圖詳細(xì)說明功能如何控制各核心AI算法及相關(guān)模塊完成功能。簡述功能帶來的臨床價值,用于提高效率的功能,宜給出量化指標(biāo)。
按照國家藥監(jiān)局發(fā)布的注冊申報資料要求提供產(chǎn)品的適用范圍、預(yù)期使用環(huán)境、適用人群、禁忌證,需與申報產(chǎn)品的性能、功能相符,并需與臨床評價資料結(jié)論一致。使用環(huán)境明確預(yù)期使用的醫(yī)療機(jī)構(gòu)類型、級別、科室及應(yīng)用場景,如超聲室常規(guī)檢查、穿刺引導(dǎo)、麻醉引導(dǎo)、手術(shù)中等,適用人群應(yīng)明確醫(yī)生的專業(yè)(超聲科、其他科室)、資質(zhì)、能力水平(年資、培訓(xùn)),患者的年齡、性別、生理疾病狀態(tài)(懷孕的明確孕齡范圍)。
明確產(chǎn)品的設(shè)計依據(jù),給出切面、結(jié)構(gòu)、標(biāo)志點、多普勒頻譜等特征識別功能和測量功能所依據(jù)的醫(yī)學(xué)圖譜、診療指南等的名稱和具體內(nèi)容,并說明其權(quán)威性以及在我國的接受情況和使用情況。
涉及定位標(biāo)準(zhǔn)切面的,應(yīng)明確針對實時掃查、存儲的圖像序列還是后處理重建圖像,輸出是否可為重建切面(即掃查自然生成切面之外的切面)。處理實時超聲掃查的,明確掃查的幀率和圖像穩(wěn)定性要求,明確掃查過快圖像不穩(wěn)定時,功能如何處理和顯示。
涉及多普勒頻譜的,應(yīng)明確取樣窗放置要求(如位置、角度)。
涉及識別生理結(jié)構(gòu)的,應(yīng)明確可檢出結(jié)構(gòu)的最小、最大尺寸;是否需要先定位切面再識別結(jié)構(gòu),還是在掃查中直接識別結(jié)構(gòu);是否需要從不同角度切面觀察同一結(jié)構(gòu),關(guān)注點有何差異。
涉及測量的,應(yīng)明確測量的規(guī)則,宜展示各參數(shù)測量的起止點或區(qū)域,并可由醫(yī)生調(diào)整。
明確算法輸出的展示形式。以圖像區(qū)域增強(qiáng)形式展示的,明確圖像增強(qiáng)的方式,給出典型影像表現(xiàn)圖像增強(qiáng)前后的圖片。以提示框、分割區(qū)域勾畫展示的,給出典型影像表現(xiàn)的圖片,明確框畫的規(guī)則,明確一幀中出現(xiàn)多個同樣結(jié)構(gòu)時分立或融合的規(guī)則。以成像區(qū)域外示意圖或體標(biāo)展示的,明確是否有提示醫(yī)生注意或確認(rèn)醫(yī)生已注意到的方式,如閃爍、抖動、發(fā)聲、點擊確認(rèn)等,明確是否僅在當(dāng)前幀檢出目標(biāo)切面、結(jié)構(gòu)時顯示,還是出現(xiàn)后會延時顯示,是否會自動記錄檢出目標(biāo)的幀等。若有AI算法輸出但并不進(jìn)行展示的應(yīng)進(jìn)行說明,如作為默認(rèn)項或作為中間結(jié)果參與后續(xù)處理再展示的。
涉及多個功能或算法串聯(lián)的,明確各功能或算法啟動、展示結(jié)果和退出的條件,例如滿足條件后自動啟動,或需點擊按鈕等啟動后續(xù)功能。明確AI分析功能的激活時段,如僅在所選幀激活,在采集一段圖像序列時激活,在患者一次檢查的全程激活。
圖像質(zhì)量問題,如由于機(jī)器故障、掃查參數(shù)設(shè)置不合適、耦合不佳等原因造成圖像模糊、過明過暗、結(jié)構(gòu)失真、偽影等,以及存在治療痕跡、測量/注釋標(biāo)記等圖像問題,明確算法是否對存在上述情況的圖像進(jìn)行AI計算并給出結(jié)果。是否有圖像質(zhì)控模塊,還是由醫(yī)生評價圖像質(zhì)量以決定是否啟動核心功能的AI算法。對于在圖像質(zhì)量不佳時仍運行AI算法的,宜有相關(guān)提示,并對結(jié)果可靠性可能降低給出提示。
明確在同一幀中切面或結(jié)構(gòu)無法完整顯示時如何處理,如不進(jìn)行AI計算,或結(jié)合相鄰幀,或無需出現(xiàn)完整目標(biāo)也可識別。由于聲窗和患者身材的限制,有時難以找到包括所有特征的完整切面,但由于超聲檢查的實時,小范圍移動探頭即可覆蓋整個關(guān)注區(qū)域,檢查到所有結(jié)構(gòu)。如果功能設(shè)計為必須先找到完整切面,再啟動找結(jié)構(gòu)的算法,上述情況會導(dǎo)致功能無法正常運行,但只要考慮前后幀這一問題即可解決。
3.1.2算法描述
按照《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》明確每個核心AI算法的名稱、類型、結(jié)構(gòu)、輸入輸出、流程圖、算法框架、運行環(huán)境等基本信息以及算法選用依據(jù)。
算法的輸入應(yīng)考慮但不限于機(jī)型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預(yù)期應(yīng)用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。對于不同功能/算法,可能無需考慮上述所有方面,但應(yīng)給出合理分析。機(jī)型考慮波束形成器、發(fā)射/接收通道數(shù)、成像算法等。探頭考慮陣元數(shù)、頻率、孔徑、曲率半徑、寬度、成像范圍等。成像參數(shù)考慮頻率、增益、深度、動態(tài)范圍、焦點、幀頻、諧波成像、多波束成像等。檢查方式考慮體表、術(shù)中、腔內(nèi)、超聲內(nèi)窺鏡等。流行病學(xué)分布對不同功能可能差異很大,需要深入分析以保證算法設(shè)計滿足臨床實際,如某些生理結(jié)構(gòu)、癥狀診斷需考慮性別、年齡、地域、疾病進(jìn)展期等差異。預(yù)期應(yīng)用場景考慮預(yù)期使用的醫(yī)院級別、科室(如超聲科、急診科、麻醉科、手術(shù)室等),醫(yī)生的資質(zhì)、能力等。易混淆圖像,如與預(yù)期圖像相似或相關(guān)的圖像,如同一切面或器官上的易混淆圖像,其他器官與之類似的圖像。有影響的身體狀態(tài)或疾?。喝绠a(chǎn)科胎齡,肺氣腫對心臟檢查的影響。其他因素已在本文其他部分有所描述。
算法輸入應(yīng)明確處理單幀還是序列圖像(關(guān)聯(lián)多幀共同輸出結(jié)果,不是雖輸入序列但僅處理單幀),對全圖處理還是需要先分割出特定區(qū)域,是否包括種子點、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。
應(yīng)結(jié)合功能的特點,對以上因素進(jìn)行性能影響因素分析,對于處理相應(yīng)輸入不能得出滿足預(yù)期性能要求或未經(jīng)驗證的因素應(yīng)考慮作為使用限制。
3.2算法風(fēng)險管理
明確產(chǎn)品的軟件安全性級別(輕微、中等、嚴(yán)重)并詳述判定理由,提供算法風(fēng)險管理資料。軟件安全性級別可基于產(chǎn)品的預(yù)期用途、使用場景、核心功能進(jìn)行綜合判定,其中預(yù)期用途主要考慮用途類型、重要程度、緊迫程度等因素,使用場景主要考慮使用場合、疾病特征、適用人群、目標(biāo)用戶等因素。核心功能主要考慮功能類型、核心算法、輸入輸出、接口等因素。對于超聲流程優(yōu)化AI功能,還應(yīng)考慮所優(yōu)化流程的復(fù)雜程度、使用廣泛程度,功能對現(xiàn)有流程的影響程度,算法的成熟度、性能、泛化能力,以及出現(xiàn)錯誤結(jié)果是否能夠被醫(yī)生識別糾正等。算法研究資料應(yīng)與算法的軟件安全性級別相適應(yīng)。
3.3算法需求規(guī)范
提供算法需求規(guī)范文檔,若無單獨文檔可提供軟件需求規(guī)范,并注明算法需求所在位置。
明確算法訓(xùn)練數(shù)據(jù)集需求。樣本量需考慮樣本規(guī)模的充分性,明確樣本總量及其確定依據(jù)。樣本分布需考慮樣本的科學(xué)性和合理性,應(yīng)考慮機(jī)型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預(yù)期應(yīng)用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。認(rèn)為無需考慮的因素給出合理理由,應(yīng)考慮但不計劃考慮的因素應(yīng)作為使用限制。訓(xùn)練數(shù)據(jù)宜納入一定比例的易混淆樣本和陰性樣本,明確是預(yù)期圖像掃查中臨近區(qū)域易出現(xiàn)的樣本,還是完全無關(guān)的樣本。
明確各算法性能設(shè)計目標(biāo)。結(jié)合算法特點、核心功能選擇合理的評價指標(biāo),給出性能指標(biāo)的限值要求及其設(shè)定依據(jù)。同一功能對于不同應(yīng)用場景具有不同性能要求的,應(yīng)分別規(guī)定。分類問題可考慮敏感性、特異性、陽性預(yù)測值、陰性預(yù)測值、準(zhǔn)確率、一致率(如kappa)、F-measure、ROC-AUC等。多分類問題不能僅給出總體一致率,應(yīng)對每一類給出敏感性、特異性等指標(biāo)。多標(biāo)簽問題,應(yīng)明確標(biāo)簽排序規(guī)則(如適用)。識別問題可考慮敏感性、特異性、ROC-AUC等,應(yīng)明確識別正確的判定標(biāo)準(zhǔn),如IoU、dice的閾值,并結(jié)合臨床給出其合理性。分割問題可考慮交并比IoU、dice系數(shù)等,并給出識別準(zhǔn)確性方面的指標(biāo),參考分類問題。不同算法即使有關(guān)聯(lián)性,也應(yīng)分別規(guī)定,重點關(guān)注最終輸出結(jié)果的性能。
3.4數(shù)據(jù)質(zhì)控
參考《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》四(二)數(shù)據(jù)收集、六(一)4.數(shù)據(jù)質(zhì)控的要求提供相關(guān)資料。并注意:
3.4.1數(shù)據(jù)收集
明確采集數(shù)據(jù)樣本的機(jī)型、探頭、成像參數(shù)、采集時長(圖像序列適用),以及來源機(jī)構(gòu)、采集和被采集人員情況、采集時間,比較與算法訓(xùn)練數(shù)據(jù)需求的差異。流程優(yōu)化功能的驗證需要盡可能模擬使用過程,可能需要采集比AI診斷圖像或序列更長的掃查序列,而不僅是訓(xùn)練核心算法的單幀圖像。若存在這種情況,應(yīng)在采集過程中予以說明。
3.4.2數(shù)據(jù)整理
明確經(jīng)數(shù)據(jù)清洗棄用數(shù)據(jù)的原因和數(shù)量。數(shù)據(jù)預(yù)處理環(huán)節(jié)應(yīng)采用典型圖片/圖像序列和流程圖說明處理過程和每一步處理的結(jié)果。原始數(shù)據(jù)庫的預(yù)處理過程若與產(chǎn)品中算法運行的預(yù)處理過程存在差異,應(yīng)比較說明。
3.4.3數(shù)據(jù)標(biāo)注
應(yīng)列表給出標(biāo)注、審核、仲裁人員的基本信息,如科室/專業(yè)、職稱、工作年限、所在機(jī)構(gòu)、培訓(xùn)考核情況、標(biāo)注量,若有外國人員則需明確其資質(zhì)要求。
標(biāo)注規(guī)則應(yīng)明確所依據(jù)的醫(yī)學(xué)圖譜、診療指南等的名稱和具體內(nèi)容,并說明其權(quán)威性以及在我國的接受情況和使用情況。若有存在爭議的,或需要醫(yī)生基于經(jīng)驗判斷的,應(yīng)分析其對標(biāo)注一致性的影響。預(yù)期結(jié)構(gòu)不能完整顯示的,明確滿足什么條件時進(jìn)行標(biāo)注,如何標(biāo)注。
宜采用流程圖介紹單張圖片/單段序列的標(biāo)注、審核、仲裁過程。若標(biāo)注較復(fù)雜宜采用典型圖片/序列加流程圖說明每一步的標(biāo)注內(nèi)容以及特殊情況處理。圖像序列明確逐幀標(biāo)注,還是自動標(biāo)注方式,若采用自動標(biāo)注應(yīng)予以詳述。區(qū)域分割的標(biāo)注,多人標(biāo)注勢必不完全一致,應(yīng)配合圖片說明如何融合多人的標(biāo)注結(jié)果及其影響。簡述全部圖片標(biāo)注的管理過程、時間周期,特別是標(biāo)注周期內(nèi)的質(zhì)量評估。若用于不同功能做標(biāo)注的數(shù)據(jù)集與數(shù)據(jù)量有所區(qū)別,應(yīng)明確具體情況。
3.4.4數(shù)據(jù)集構(gòu)建
對于標(biāo)注前的基礎(chǔ)數(shù)據(jù)庫,標(biāo)注后劃分的訓(xùn)練集、調(diào)優(yōu)集、測試集,應(yīng)給出樣本量和分布情況及其確定依據(jù),以及集合劃分的方法、依據(jù)??紤]“患者-結(jié)構(gòu)-切面-圖像/圖像序列”層級(即某一人的某一結(jié)構(gòu),有不同切面的圖像或圖像序列),三個數(shù)據(jù)集原則上應(yīng)在患者級兩兩無交,至少到結(jié)構(gòu)級兩兩無交。若降低無交集的范圍,應(yīng)給出合理的理由。提供查重驗證結(jié)果,以證實訓(xùn)練集、調(diào)優(yōu)集、測試集的樣本兩兩無交集。
樣本分布應(yīng)考慮機(jī)型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預(yù)期應(yīng)用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等因素。
可按照《人工智能醫(yī)療器械注冊審查指導(dǎo)原則》的要求進(jìn)行數(shù)據(jù)擴(kuò)增,重點說明擴(kuò)增方法和實現(xiàn)方式,分析擴(kuò)增樣本與真實樣本的相似性,分析對算法的影響。采用生成對抗網(wǎng)絡(luò)(GAN)數(shù)據(jù)擴(kuò)增的,提供算法基本信息以及算法選用依據(jù)。
用于算法驗證需采集掃查過程序列圖像的,應(yīng)參考以上要求另行說明序列圖像特點、樣本量、樣本分布。
3.5算法訓(xùn)練
明確算法訓(xùn)練所用的評估指標(biāo)、訓(xùn)練方式、訓(xùn)練目標(biāo)、調(diào)優(yōu)方式(若有),說明損失函數(shù)、主要超參數(shù)的確定思路,提供訓(xùn)練數(shù)據(jù)量-評估指標(biāo)曲線等證據(jù)以證實算法訓(xùn)練的充分性和有效性。若使用遷移學(xué)習(xí),應(yīng)滿足AI導(dǎo)則的要求。
3.6算法驗證與確認(rèn)
3.6.1算法性能評估
基于測試集提供設(shè)計需求要驗證的算法性能指標(biāo)、重復(fù)性與再現(xiàn)性、魯棒性/健壯性等算法性能評估結(jié)果,以證明算法性能滿足設(shè)計目標(biāo)。亦可基于第三方數(shù)據(jù)庫開展算法性能評估??蛇\行于不同的運行環(huán)境的功能,若運行環(huán)境不具有兼容性,應(yīng)分別進(jìn)行軟件驗證、性能評估和實時性驗證。
用于提高效率的功能應(yīng)開展效率提高的定量驗證,建議采用多閱片者多病例(MRMC)研究的方式進(jìn)行驗證。
對實時超聲圖像進(jìn)行處理的,準(zhǔn)確性可通過離線方式驗證,實時性須通過在線方式驗證,可提前通過離線驗證了解處理單一樣本的時間,再通過在線實時驗證確認(rèn)軟件集成后可以達(dá)到預(yù)期效率并保證超聲采集和診斷流程的穩(wěn)定性可滿足正常使用。
分類問題和多標(biāo)簽問題,若可識別的種類較多,應(yīng)給出完整的混淆矩陣,對在表格對應(yīng)的行列給出每類的敏感性、特異性、陽性預(yù)測值、陰性預(yù)測值、準(zhǔn)確性、一致率,分析各類出現(xiàn)假陽性、假陰性的情況(如集中在某一特定類型則說明該類是目標(biāo)類的易混淆類),制定相關(guān)注意事項。
若在訓(xùn)練過程中使用數(shù)據(jù)擴(kuò)增,應(yīng)在調(diào)優(yōu)集上比較使用與不使用數(shù)據(jù)擴(kuò)增對算法性能的影響。
算法輸出展示形式的臨床使用效果驗證。以圖像增強(qiáng)、提示框、分割區(qū)域勾畫形式展示的,應(yīng)評價是否影響正常的超聲診斷,如圖像畫質(zhì)的改變,標(biāo)記對超聲圖像的遮擋、干擾等。以圖像區(qū)域外給出示意圖或體標(biāo)展示的,應(yīng)評價是否可確保已引起醫(yī)生注意。
3.6.2算法性能影響因素評估
應(yīng)進(jìn)行算法性能影響因素分析以提升算法可解釋性,詳述影響算法性能的主要因素及其影響程度,基于分析結(jié)果明確產(chǎn)品使用限制和必要警示提示信息。
性能影響因素應(yīng)考慮機(jī)型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預(yù)期應(yīng)用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。認(rèn)為無需考慮的因素給出合理理由,應(yīng)考慮但不計劃考慮的因素應(yīng)作為使用限制。
對于某一影響因素,可建立多個包含單一因素的子集和一個包含所有子集的合集(必要時)分別進(jìn)行性能測試,統(tǒng)計分析各集合性能差異,評價影響程度。對于預(yù)期對性能有顯著影響且存在相互關(guān)聯(lián)的不同影響因素,也可建立包含多因素的子集進(jìn)行分析。各集合應(yīng)保證具有足夠的樣本量,性能評估結(jié)果應(yīng)給出中心值和95%置信區(qū)間。各子集宜以產(chǎn)品研發(fā)時標(biāo)注數(shù)據(jù)庫中的測試集為主,當(dāng)某一待評價因素的樣本量較少或沒有時,可補(bǔ)充其他數(shù)據(jù)集的樣本,如臨床試驗、真實世界數(shù)據(jù)、第三方測試等的樣本,但合并在一個子集的數(shù)據(jù)其標(biāo)注規(guī)則應(yīng)基本一致。簡述各子集的構(gòu)建情況,如數(shù)據(jù)來源、標(biāo)注過程、標(biāo)準(zhǔn)規(guī)則、樣本分布等。
3.6.3算法性能綜合評價
結(jié)合算法訓(xùn)練、算法性能評估、臨床評價等結(jié)果開展算法性能綜合評價,針對訓(xùn)練樣本量和測試樣本量過少、測試結(jié)果明顯低于算法設(shè)計目標(biāo)、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進(jìn)行必要限制。
4.用戶培訓(xùn)
對于軟件安全性級別為嚴(yán)重級別、在基層醫(yī)療機(jī)構(gòu)使用的產(chǎn)品,原則上需單獨提供一份用戶培訓(xùn)方案,包括用戶培訓(xùn)的計劃、材料、方式、師資等。由于超聲流程優(yōu)化AI功能的使用者一般具備按照常規(guī)流程進(jìn)行超聲診斷的能力,因此培訓(xùn)重點宜放在AI功能與常規(guī)功能流程和操作的差異上,以及功能的使用限制和注意事項,如無法正常運行算法或算法性能下降的情形。
培訓(xùn)考核應(yīng)納入適當(dāng)?shù)尼t(yī)生數(shù)量和測試樣本數(shù)量,被考核醫(yī)生應(yīng)與功能的預(yù)期使用者在培訓(xùn)前具有等同能力,以驗證培訓(xùn)方案的可行性。
(三)說明書注意事項
根據(jù)算法性能綜合評價結(jié)果,對產(chǎn)品的適用范圍、使用場景、核心功能進(jìn)行必要限制,并在說明書中明確產(chǎn)品使用限制和必要警示提示信息。必要時,可給出數(shù)據(jù)采集設(shè)備和數(shù)據(jù)采集過程相關(guān)要求,算法訓(xùn)練驗證情況的總結(jié)。
標(biāo)簽:影像超聲人工智能軟件注冊