國家局發(fā)布《醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則(2018年第6號)》,為申辦方、CRO機構(gòu)及監(jiān)管機構(gòu)開展醫(yī)療器械臨床試驗設(shè)計、執(zhí)行、質(zhì)量管理、審評工作提供指導(dǎo)原則。具體公告內(nèi)容見正文。
引言:國家局發(fā)布《醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則(2018年第6號)》,為申辦方、CRO機構(gòu)及監(jiān)管機構(gòu)開展醫(yī)療器械臨床試驗設(shè)計、執(zhí)行、質(zhì)量管理、審評工作提供指導(dǎo)原則。具體公告內(nèi)容如下:
醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則
醫(yī)療器械臨床試驗是指在具備相應(yīng)條件的臨床試驗機構(gòu)中,對擬申請注冊的醫(yī)療器械在正常使用條件下的安全有效性進行確認的過程。臨床試驗是以受試人群(樣本)為觀察對象,觀察試驗器械在正常使用條件下作用于人體的效應(yīng)或?qū)θ梭w疾病、健康狀態(tài)的評價能力,以推斷試驗器械在預(yù)期使用人群(總體)中的效應(yīng)。由于醫(yī)療器械的固有特征,其試驗設(shè)計有其自身特點。
本指導(dǎo)原則適用于產(chǎn)品組成、設(shè)計和性能已定型的醫(yī)療器械,包括治療類產(chǎn)品、診斷類產(chǎn)品,不包括體外診斷試劑。
本指導(dǎo)原則是供申請人和審查人員使用的技術(shù)指導(dǎo)文件,不涉及注冊審批等行政事項,亦不作為法規(guī)強制執(zhí)行,如有能夠滿足法規(guī)要求的其他方法,也可以采用,但應(yīng)提供詳細的研究資料和驗證資料。應(yīng)在遵循相關(guān)法規(guī)的前提下使用本指導(dǎo)原則。
一、醫(yī)療器械臨床試驗?zāi)康?/span>
臨床試驗需設(shè)定明確、具體的試驗?zāi)康?。申請人可綜合分析試驗器械特征、非臨床研究情況、已在中國境內(nèi)上市(下文簡稱已上市)同類產(chǎn)品的臨床數(shù)據(jù)等因素,設(shè)定臨床試驗?zāi)康摹ER床試驗?zāi)康臎Q定了臨床試驗各設(shè)計要素,包括主要評價指標、試驗設(shè)計類型、對照試驗的比較類型等,進而影響臨床試驗樣本量。不同情形下的臨床試驗?zāi)康呐e例如下:
(一)當通過臨床試驗確認試驗器械在其預(yù)期用途下的安全有效性時,若更關(guān)注試驗器械的療效是否可滿足臨床使用的需要,其臨床試驗?zāi)康目稍O(shè)定為確認試驗器械的有效性是否優(yōu)于/等效于/非劣于已上市同類產(chǎn)品,同時確認試驗器械的安全性。此時,臨床試驗的主要評價指標為有效性指標。
(二)當通過臨床試驗確認試驗器械在其預(yù)期用途下的安全有效性時,若更關(guān)注試驗器械的安全性是否可滿足臨床使用的需要,其臨床試驗?zāi)康目稍O(shè)定為確認試驗器械的安全性是否優(yōu)于/等效于/非劣于已上市同類產(chǎn)品,同時確認試驗器械的有效性。此時,臨床試驗的主要評價指標為安全性指標,以乳房植入體為例,臨床試驗通常選擇并發(fā)癥發(fā)生率(如包膜攣縮率、植入體破裂率)作為主要評價指標。
(三)對于已上市產(chǎn)品增加適應(yīng)癥的情形,臨床試驗?zāi)康目稍O(shè)定為確認試驗器械對新增適應(yīng)癥的安全有效性。例如,止血類產(chǎn)品在已批準適用范圍(如普通外科、婦產(chǎn)科)的基礎(chǔ)上,增加眼科、神經(jīng)外科、泌尿外科使用的適應(yīng)癥。
(四)當已上市器械適用人群發(fā)生變化時,臨床試驗?zāi)康目稍O(shè)定為確認試驗器械對新增適用人群的安全有效性。例如膜式氧合器產(chǎn)品,在原批準適用范圍的基礎(chǔ)上新增體重≤10kg的適用人群;又如治療類呼吸機在已批準的適用于成人的基礎(chǔ)上新增適用于兒童的適用范圍。
(五)當已上市器械發(fā)生重大設(shè)計變更時,可根據(jù)變更涉及的范圍設(shè)定試驗?zāi)康?。例如冠狀動脈藥物洗脫支架平臺花紋設(shè)計發(fā)生改變時,臨床試驗?zāi)康目稍O(shè)定為確認變化部分對于產(chǎn)品安全有效性的影響。
(六)當已上市器械的使用環(huán)境或使用方法發(fā)生重大改變時,試驗?zāi)康目稍O(shè)定為確認產(chǎn)品在特定使用環(huán)境和使用方法下的安全有效性。例如:已上市的植入式心臟起搏器通常不能兼容核磁共振檢查,如申請兼容核磁共振檢查,其臨床試驗?zāi)康目稍O(shè)置為對兼容核磁共振檢查相關(guān)的安全有效性進行確認。
二、臨床試驗設(shè)計的基本類型和特點
(一)平行對照設(shè)計
隨機、雙盲、平行對照的臨床試驗設(shè)計可使臨床試驗影響因素在試驗組和對照組間的分布趨于均衡,保證研究者、評價者和受試者均不知曉分組信息,避免了選擇偏倚和評價偏倚,被認為可提供高等級的科學(xué)證據(jù),通常被優(yōu)先考慮。對于某些醫(yī)療器械,此種設(shè)計的可行性受到器械固有特征的挑戰(zhàn)。
隨機化是平行對照、配對設(shè)計、交叉設(shè)計等臨床試驗需要遵循的基本原則,指臨床試驗中每位受試者均有同等機會(如試驗組與對照組病例數(shù)為1:1)或其他約定的概率(如試驗組與對照組病例數(shù)為n:1)被分配到試驗組或?qū)φ战M,不受研究者和/或受試者主觀意愿的影響。隨機化是為了保障試驗組和對照組受試者在各種已知和未知的可能影響試驗結(jié)果的基線變量上具有可比性。
非隨機設(shè)計可能造成各種影響因素在組間分布不均衡,降低試驗結(jié)果的可信度。一方面,協(xié)變量分析可能難以完全校正已知因素對結(jié)果的影響;另一方面,未知因素對試驗結(jié)果產(chǎn)生的影響亦難以評價,因此,通常不推薦非隨機設(shè)計。如果申請人有充分的理由認為必須采用非隨機設(shè)計,需要詳述必須采用該設(shè)計的理由和控制選擇偏倚的具體措施。
如果分組信息被知曉,研究者可能在器械使用過程中選擇性關(guān)注試驗組,評價者在進行療效與安全性評價時可能產(chǎn)生傾向性,受試者可能受到主觀因素的影響。盲法是控制臨床試驗中因“知曉分組信息”而產(chǎn)生偏倚的重要措施之一,目的是達到臨床試驗中的各方人員對分組信息的不可知。根據(jù)設(shè)盲程度的不同,盲法可分為完整設(shè)盲、不完整設(shè)盲和不設(shè)盲。在完整設(shè)盲的臨床試驗中,受試者、研究者和評價者對分組信息均處于盲態(tài)。
在很多情形下,基于器械及相應(yīng)治療方式的固有特征,完整設(shè)盲是不可行的。當試驗器械與對照器械存在明顯不同時,難以對研究者設(shè)盲,例如膝關(guān)節(jié)假體,試驗產(chǎn)品和對照產(chǎn)品的外觀可能存在明顯不同,且植入物上有肉眼可見的制造商激光標記;又如血管內(nèi)金屬支架,試驗產(chǎn)品和對照產(chǎn)品的具體結(jié)構(gòu)、花紋不同。此時,建議盡量對受試者設(shè)盲,即受試者不知曉其被分入試驗組或?qū)φ战M,并采用第三方盲法評價(如中心閱片室、中心實驗室、評價委員會等)和盲態(tài)數(shù)據(jù)審核。當試驗器械形態(tài)與對照器械存在明顯不同且主要評價指標來自影像學(xué)數(shù)據(jù)時,難以對研究者、評價者設(shè)盲,例如生物可吸收支架,當對照產(chǎn)品為金屬支架時,由于生物可吸收支架平臺發(fā)生降解,評估晚期管腔丟失指標(該指標以影像學(xué)方式評價)時難以對評價者設(shè)盲。此時,建議盡量對受試者設(shè)盲,并采用盲態(tài)數(shù)據(jù)審核。上述由于器械的固有特征而不對研究者設(shè)盲、不對研究者和評價者設(shè)盲的情形,均為不完整設(shè)盲的臨床試驗設(shè)計。
當試驗組治療方式(含器械)與對照組存在明顯差異時,難以對受試者、研究者、評價者設(shè)盲,只能采取不設(shè)盲的試驗設(shè)計,如介入治療和手術(shù)治療進行比較時、器械治療和藥物治療進行比較時。為最大程度地減少偏倚,可考慮采用以下方法:(1)在完成受試者篩選和入組前,受試者和研究者均不知曉分組信息(即分配隱藏);(2)在倫理許可的前提下,受試者在完成治療前,不知曉分組信息;(3)采用盲態(tài)數(shù)據(jù)審核。
申請人需要對采用不完整設(shè)盲或者不設(shè)盲試驗設(shè)計的理由進行論述,詳述控制偏倚的具體措施(如采用可客觀判定的指標以避免評價偏倚,采用標準操作規(guī)范以減小實施偏倚等)。
對照包括陽性對照和安慰對照(如假處理對照、假手術(shù)對照等)。陽性對照需采用在擬定的臨床試驗條件下療效肯定的已上市器械或公認的標準治療方法。
對于治療類產(chǎn)品,選擇陽性對照時,優(yōu)先采用療效和安全性已得到臨床公認的已上市同類產(chǎn)品。如因合理理由不能采用已上市同類產(chǎn)品,可選用盡可能相似的產(chǎn)品作為陽性對照,其次可考慮標準治療方法。例如,人工頸椎間盤假體開展臨床試驗時,如因合理理由不能采用已上市同類產(chǎn)品,可選擇臨床廣泛使用的、對相應(yīng)適應(yīng)癥的療效已得到證實并被公認的產(chǎn)品。又如,治療良性前列腺增生的設(shè)備在沒有同類產(chǎn)品上市的情形下,可采用良性前列腺增生癥的標準治療方法(經(jīng)尿道前列腺電汽化術(shù))作為對照。標準治療方法包括多種情形,例如,對于部分臨床上尚無有效治療方法的疾病,其標準治療方法可為對癥支持治療。在試驗器械尚無相同或相似的已上市產(chǎn)品或相應(yīng)的標準治療方法時,若試驗器械的療效存在安慰效應(yīng),試驗設(shè)計需考慮安慰對照,此時,尚需綜合考慮倫理學(xué)因素。若已上市產(chǎn)品的療效尚未得到臨床公認,試驗設(shè)計可根據(jù)具體情形,考慮標準治療方法對照或安慰對照,申請人需充分論證對照的選取理由。例如用于緩解疼痛的物理治療類設(shè)備。
對于診斷器械,對照需采用診斷金標準方法或已上市同類產(chǎn)品。
(二)配對設(shè)計
對于治療類產(chǎn)品,常見的配對設(shè)計為同一受試對象的兩個對應(yīng)部位同時接受試驗器械和對照治療,試驗器械和對照治療的分配需考慮隨機設(shè)計。配對設(shè)計主要適用于器械的局部效應(yīng)評價,具有一定的局限性。例如,對于面部注射用交聯(lián)透明質(zhì)酸鈉凝膠的臨床試驗,配對設(shè)計在保證受試者基線一致性上比平行對照設(shè)計具有優(yōu)勢,但試驗中一旦發(fā)生系統(tǒng)性不良反應(yīng)則難以確認其與試驗器械或?qū)φ掌餍档南嚓P(guān)性,且需要排除面部左右側(cè)局部反應(yīng)的互相影響。因此,申請人考慮進行配對設(shè)計時,需根據(jù)產(chǎn)品特征,綜合考慮該設(shè)計類型的優(yōu)勢和局限性,恰當進行選擇,并論述其合理性。
對于診斷器械,若試驗?zāi)康氖窃u價試驗器械的診斷準確性,常見的配對設(shè)計為同一受試者/受試樣品同時采用試驗器械和診斷金標準方法或已上市同類器械來進行診斷。
(三)交叉設(shè)計
在交叉設(shè)計的臨床試驗中,每位受試者按照隨機分配的排列順序,先后不同階段分別接受兩種或兩種以上的治療/診斷。此類設(shè)計要求前一階段的治療/診斷對后一階段的另一種治療/診斷不產(chǎn)生殘留效應(yīng),后一階段開始前,受試者一般需回復(fù)到基線狀態(tài),可考慮在兩個干預(yù)階段之間安排合理的洗脫期。
(四)單組設(shè)計
單組試驗的實質(zhì)是將主要評價指標的試驗結(jié)果與已有臨床數(shù)據(jù)進行比較,以評價試驗器械的有效性/安全性。與平行對照試驗相比,單組試驗的固有偏倚是非同期對照偏倚,由于時間上的不同步,可能引起選擇偏倚、混雜偏倚、測量偏倚和評價偏倚等,應(yīng)審慎選擇。在開展單組試驗時,需要對可能存在的偏倚進行全面分析和有效控制。
1.與目標值比較
與目標值比較的單組設(shè)計需事先指定主要評價指標有臨床意義的目標值,通過考察單組臨床試驗主要評價指標的結(jié)果是否在指定的目標值范圍內(nèi),從而評價試驗器械有效性/安全性。當試驗器械技術(shù)比較成熟且對其適用疾病有較為深刻的了解時,或者當設(shè)置對照在客觀上不可行時(例如試驗器械與現(xiàn)有治療方法的風(fēng)險受益過于懸殊,設(shè)置對照在倫理上不可行;又如現(xiàn)有治療方法因客觀條件限制不具有可行性等),方可考慮采用單組目標值設(shè)計??紤]單組目標值設(shè)計時,還需關(guān)注試驗器械的適用人群、主要評價指標(如觀察方法、隨訪時間、判定標準等)是否可被充分定義且相對穩(wěn)定。為盡量彌補單組目標值設(shè)計的固有缺陷,需盡可能采用相對客觀、可重復(fù)性強的評價指標作為主要評價指標,如死亡、失敗等;不建議選擇容易受主觀因素影響、可重復(fù)性差的指標作為主要評價指標,如疼痛評分等。
目標值是專業(yè)領(lǐng)域內(nèi)公認的某類醫(yī)療器械的有效性/安全性評價指標所應(yīng)達到的最低標準,包括客觀性能標準(Objective performance criteria,OPC)和性能目標(Performance goal,PG)兩種。目標值通常為二分類(如有效/無效)指標,也可為定量指標,包括靶值和單側(cè)置信區(qū)間界限(通常為97.5%單側(cè)置信區(qū)間界限)。目標值的構(gòu)建通常需要全面收集具有一定質(zhì)量水平及相當數(shù)量病例的臨床研究數(shù)據(jù),并進行科學(xué)分析(如Meta分析)。對臨床試驗結(jié)果進行統(tǒng)計分析時,需計算主要評價指標的點估計值和單側(cè)置信區(qū)間界限值,并將其與目標值進行比較。
由于沒有設(shè)置對照組,單組目標值設(shè)計的臨床試驗無法確證試驗器械的優(yōu)效、等效或非劣效,僅能確證試驗器械的有效性/安全性達到專業(yè)領(lǐng)域內(nèi)公認的最低標準。
(1)與OPC比較
OPC是在既往臨床研究數(shù)據(jù)的基礎(chǔ)上分析得出,用于試驗器械主要評價指標的比較和評價,經(jīng)確認的OPC目前尚不多見。OPC通常來源于權(quán)威醫(yī)學(xué)組織、相關(guān)標準化組織、醫(yī)療器械審評機構(gòu)發(fā)布的文件。例如一次性使用膜式氧合器,其臨床試驗可采用單組目標值設(shè)計,當主要評價指標采用《一次性使用膜式氧合器注冊技術(shù)審查指導(dǎo)原則》中提及的復(fù)合指標“達標率”時,試驗產(chǎn)品達標率的目標值應(yīng)至少為90%,預(yù)期達標率為95%。又如,根據(jù)《髖關(guān)節(jié)假體系統(tǒng)注冊技術(shù)審查指導(dǎo)原則》,對于常規(guī)設(shè)計的髖關(guān)節(jié)假體,當臨床試驗采用單組目標值設(shè)計,主要評價指標采用術(shù)后12個月Harris評分“優(yōu)良率”時,試驗產(chǎn)品“優(yōu)良率”的目標值應(yīng)至少為85%,預(yù)期優(yōu)良率為95%。隨著器械技術(shù)和臨床技能的提高,OPC可能發(fā)生改變,需要對臨床數(shù)據(jù)重新進行分析以確認。
(2)與PG比較
當有合理理由不能開展對照試驗而必須考慮開展單組目標值設(shè)計時,若沒有公開發(fā)表的OPC,可考慮構(gòu)建PG。例如脫細胞角膜植片,適用于藥物治療無效需要進行板層角膜移植的感染性角膜炎患者。由于開展臨床試驗時市場上無同類產(chǎn)品,且與異體角膜移植對比存在角膜來源困難的問題,故采用PG單組設(shè)計進行臨床試驗,PG來源于異體角膜移植既往臨床研究數(shù)據(jù),由相關(guān)權(quán)威的專業(yè)醫(yī)學(xué)組織認可。與OPC相比,采用PG的單組設(shè)計的臨床證據(jù)水平更低。PG的實現(xiàn)/未實現(xiàn)不能立即得出試驗成功/失敗的結(jié)論,如果發(fā)現(xiàn)異常試驗數(shù)據(jù)時,需要對試驗結(jié)果進行進一步探討和論證。
2.與歷史研究對照
與歷史研究對照的臨床試驗證據(jù)強度弱,可能存在選擇偏倚、混雜偏倚等問題,應(yīng)審慎選擇。當采用某一歷史研究作為對照時,需獲取試驗組和對照組每例受試者的基線數(shù)據(jù),論證兩組受試者的可比性,可采用傾向性評分來評估兩組之間的可比性,以控制選擇偏倚。由于試驗組和對照組不是同期開展,需要關(guān)注兩組間干預(yù)方式和評價方式的一致性,以控制測量偏倚和評價偏倚。
三、受試對象
根據(jù)試驗器械預(yù)期使用的目標人群,確定研究的總體。綜合考慮對總體人群的代表性、臨床試驗的倫理學(xué)要求、受試者安全性等因素,制定受試者的選擇標準,即入選和排除標準。入選標準主要考慮受試對象對總體人群的代表性,如適應(yīng)癥、疾病的分型、疾病的程度和階段、使用具體部位、受試者年齡范圍等因素。排除標準旨在盡可能規(guī)范受試者的同質(zhì)性,將可能影響試驗結(jié)果的混雜因素(如影響療效評價的伴隨治療、伴隨疾病等)予以排除,以達到評估試驗器械效應(yīng)的目的。
四、評價指標
評價指標反映器械作用于受試對象而產(chǎn)生的各種效應(yīng),根據(jù)試驗?zāi)康暮推餍档念A(yù)期效應(yīng)設(shè)定。在臨床試驗方案中應(yīng)明確規(guī)定各評價指標的觀察目的、定義、觀察時間點、指標類型、測定方法、計算公式(如適用)、判定標準(適用于定性指標和等級指標)等,并明確規(guī)定主要評價指標和次要評價指標。指標類型通常包括定量指標(連續(xù)變量,如血糖值)、定性指標(如有效和無效)、等級指標(如優(yōu)、良、中、差)等。對于診斷器械,臨床試驗評價指標通常包括定性檢測的診斷準確性(靈敏度、特異性、預(yù)期值、似然比、ROC曲線下面積等)或檢測一致性(陽性/陰性一致性、總一致性、KAPA值等),以及定量檢測回歸分析的斜率、截距和相關(guān)系數(shù)等。
(一)主要評價指標和次要評價指標
主要評價指標是與試驗?zāi)康挠斜举|(zhì)聯(lián)系的、能確切反映器械療效或安全性的指標。主要評價指標應(yīng)盡量選擇客觀性強、可量化、重復(fù)性高的指標,應(yīng)是專業(yè)領(lǐng)域普遍認可的指標,通常來源于已發(fā)布的相關(guān)標準或技術(shù)指南、公開發(fā)表的權(quán)威論著或?qū)<夜沧R等。臨床試驗的樣本量基于主要評價指標的相應(yīng)假設(shè)進行估算。臨床試驗的結(jié)論亦基于主要評價指標的統(tǒng)計分析結(jié)果做出。次要評價指標是與試驗?zāi)康南嚓P(guān)的輔助性指標。在方案中需說明其在解釋結(jié)果時的作用及相對重要性。
一般情況下,主要評價指標僅為一個,用于評價產(chǎn)品的療效或安全性。當一個主要評價指標不足以反映試驗器械的療效或安全性時,可采用兩個或多個主要評價指標。以一次性使用腦積水分流器的臨床試驗為例,當參照《一次性使用腦積水分流器注冊技術(shù)審查指導(dǎo)原則》進行方案設(shè)計時,同時采用兩個主要評價指標,包括術(shù)后30天內(nèi)顱內(nèi)壓的達標率、首次植入分流器后1年時分流器存留率。對于第二個主要評價指標(1年存留率),試驗組與對照組間需進行組間比較,同時要求試驗組1年存留率不小于90%。因此,該臨床試驗的樣本量估算需同時考慮三重假設(shè)檢驗:(1)試驗組術(shù)后30天顱內(nèi)壓達標率非劣效于對照組;(2)試驗組1年的存留率非劣效于對照組;(3)試驗器械1年的存留率達到目標值要求。上述三重假設(shè)檢驗都有統(tǒng)計學(xué)意義時,才可下推斷結(jié)論。由于此時沒有意圖或機會選擇最有利的某次假設(shè)檢驗結(jié)果,因此可設(shè)定每次檢驗的I類錯誤水平等于預(yù)先設(shè)定的α,無需進行多重性校正。對于同時采用多個主要評價指標的臨床試驗設(shè)計,當有可能選擇最有利的某次假設(shè)檢驗結(jié)果進行結(jié)論推斷時,樣本量估算需要考慮假設(shè)檢驗的多重性問題,以及對總Ⅰ類錯誤率的控制策略。
(二)復(fù)合指標
按預(yù)先確定的計算方法,將多個評價指標組合構(gòu)成一個指標稱為復(fù)合指標。當單一觀察指標不足以作為主要評價指標時,可采用復(fù)合指標作為主要評價指標。以冠狀動脈藥物洗脫支架的臨床試驗為例,主要評價指標之一為靶病變失敗率。靶病變失敗定義為心臟死亡、靶血管心肌梗死以及靶病變血運重建三種臨床事件至少出現(xiàn)一種,即為復(fù)合指標。以血液透析濃縮物的臨床試驗為例,采用透析達標率作為主要評價指標,“達標”的定義為透析前后K+、Na+、Ca2+、Cl-、CO2CP(二氧化碳結(jié)合力)或HCO3-、pH值均達到預(yù)先設(shè)定的臨床指標數(shù)值。復(fù)合指標可將客觀測量指標和主觀評價指標進行結(jié)合,形成綜合評價指標。臨床上采用的量表(如生活質(zhì)量量表、功能評分量表等)也為復(fù)合指標的一種形式。需在試驗方案中詳細說明復(fù)合指標中各組成指標的定義、測定方法、計算公式、判定標準、權(quán)重等。當采用量表作為復(fù)合指標時,盡可能采取專業(yè)領(lǐng)域普遍認可的量表。極少數(shù)需要采用自制量表的情形,申請人需提供自制量表效度、信度和反應(yīng)度的研究資料,研究結(jié)果需證明自制量表的效度、信度和反應(yīng)度可被接受。需考慮對復(fù)合指標中有臨床意義的單個指標進行單獨分析。
(三)替代指標
在直接評價臨床獲益不可行時,可采用替代指標進行間接觀察。是否可采用替代指標作為臨床試驗的主要評價指標取決于:①替代指標與臨床結(jié)果的生物學(xué)相關(guān)性;②替代指標對臨床結(jié)果判斷價值的流行病學(xué)證據(jù);③從臨床試驗中獲得的有關(guān)試驗器械對替代指標的影響程度與試驗器械對臨床試驗結(jié)果的影響程度相一致的證據(jù)。
(四)主觀指標的第三方評價
部分評價指標由于沒有客觀評價方法而只能進行主觀評價,臨床試驗若必需選擇主觀評價指標作為主要評價指標,建議成立獨立的評價小組,由不參與臨床試驗的第三者/第三方進行指標評價,需在試驗方案中明確第三者/第三方評價的評價規(guī)范。
五、比較類型和檢驗假設(shè)
(一)比較類型
臨床試驗的比較類型包括優(yōu)效性檢驗、等效性檢驗、非劣效性檢驗。采用安慰對照的臨床試驗,需進行優(yōu)效性檢驗。采用療效/安全性公認的已上市器械或標準治療方法進行對照的臨床試驗,可根據(jù)試驗?zāi)康倪x擇優(yōu)效性檢驗、等效性檢驗或非劣效性檢驗。
優(yōu)效性檢驗的目的是確證試驗器械的療效/安全性優(yōu)于對照器械/標準治療方法/安慰對照,且其差異大于預(yù)先設(shè)定的優(yōu)效界值,即差異有臨床實際意義。由于試驗器械特征、對照和主要評價指標等因素的不同,部分優(yōu)效性檢驗沒有考慮優(yōu)效性界值,申請人需論述不考慮優(yōu)效性界值的理由。等效性檢驗的目的是確證試驗器械的療效/安全性與對照器械的差異不超過預(yù)先設(shè)定的等效區(qū)間,即差異在臨床可接受的范圍內(nèi)。非劣效性檢驗的目的是確證試驗器械的療效/安全性如果低于對照器械,其差異小于預(yù)先設(shè)定的非劣效界值,即差異在臨床可接受范圍內(nèi)。在優(yōu)效性檢驗中,如果試驗設(shè)計合理且執(zhí)行良好,試驗結(jié)果可直接確證試驗器械的療效/安全性。在等效性試驗和非劣效性試驗中,試驗器械的療效/安全性建立在對照器械預(yù)期療效/安全性的基礎(chǔ)上。
(二)界值
無論優(yōu)效性試驗、等效性試驗或非劣效性試驗,要從臨床意義上確認試驗器械的療效/安全性,均需要在試驗設(shè)計階段制定界值并在方案中闡明。優(yōu)效界值是指試驗器械與對照器械之間的差異具有臨床實際意義的最小值。等效或非劣效界值是指試驗器械與對照器械之間的差異不具有臨床實際意義的最大值。優(yōu)效界值、非劣效界值均為預(yù)先制定的一個數(shù)值,等效界值需要預(yù)先制定優(yōu)側(cè)、劣側(cè)兩個數(shù)值。
界值的制定主要考慮臨床實際意義,需要被臨床認可或接受。理論上,非劣效界值的確定可采用兩步法,一是通過Meta分析估計對照器械減去安慰效應(yīng)后的絕對效應(yīng)或?qū)φ掌餍档南鄬π?yīng)M1,二是結(jié)合臨床具體情況,在考慮保留對照器械效應(yīng)的適當比例1-f后,確定非劣效界值M2(M2=f×M1)。f越小,試驗器械的效應(yīng)越接近對照器械,一般情況下,f的取值在0~0.5之間。制定等效界值時,可用類似的方法確定下限和上限。
(三)檢驗假設(shè)
試驗方案需明確檢驗假設(shè)和假設(shè)檢驗方法,檢驗假設(shè)依據(jù)試驗?zāi)康拇_定,假設(shè)檢驗方法依據(jù)試驗設(shè)計類型和主要評價指標類型確定。附錄1提供了部分試驗設(shè)計和比較類型下的檢驗假設(shè)舉例,供參考。
六、樣本量估算
臨床試驗收集受試人群中的療效/安全性數(shù)據(jù),用統(tǒng)計分析將基于主要評價指標的試驗結(jié)論推斷到與受試人群具有相同特征的目標人群。為實現(xiàn)樣本(受試人群)代替總體(目標人群)的目的,臨床試驗需要一定的受試者數(shù)量(樣本量)。樣本量大小與主要評價指標的變異度呈正相關(guān),與主要評價指標的組間差異呈負相關(guān)。
樣本量一般以臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關(guān)要素及其確定依據(jù)、樣本量的具體計算方法。附錄2提供了樣本量估算公式的樣例,供參考。確定樣本量的相關(guān)要素一般包括臨床試驗的設(shè)計類型和比較類型、主要評價指標的類型和定義、主要評價指標有臨床實際意義的界值、主要評價指標的相關(guān)參數(shù)(如預(yù)期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預(yù)期的受試者脫落和方案違背的比例等。主要評價指標的相關(guān)參數(shù)根據(jù)已有臨床數(shù)據(jù)和小樣本可行性試驗(如有)的結(jié)果來估算,需要在臨床試驗方案中明確這些估計值的確定依據(jù)。一般情況下,Ⅰ類錯誤概率α設(shè)定為雙側(cè)0.05或單側(cè)0.025,Ⅱ類錯誤概率β設(shè)定為不大于0.2,預(yù)期受試者脫落和方案違背的比例不大于0.2,申請人可根據(jù)產(chǎn)品特征和試驗設(shè)計的具體情形采用不同的取值,需充分論證其合理性。
七、臨床試驗設(shè)計需考慮的其他因素
由于器械的固有特征可能影響其臨床試驗設(shè)計,在進行醫(yī)療器械臨床試驗設(shè)計時,需對以下因素予以考慮:
(一)器械的工作原理
器械的工作原理和作用機理可能與產(chǎn)品性能/安全性評價方法、臨床試驗設(shè)計是否恰當相關(guān)。
(二)使用者技術(shù)水平和培訓(xùn)
部分器械可能需要對使用者進行技能培訓(xùn)后才能被安全有效地使用,例如手術(shù)復(fù)雜的植入器械。在臨床試驗設(shè)計時,需考慮使用器械所必需的技能,研究者技能應(yīng)能反映產(chǎn)品上市后在預(yù)期用途下的器械使用者的技能范圍。
(三)學(xué)習(xí)曲線
部分器械使用方法新穎,存在一定的學(xué)習(xí)曲線。當臨床試驗過程中學(xué)習(xí)曲線明顯時,試驗方案中需考慮在學(xué)習(xí)曲線時間內(nèi)收集的信息(例如明確定義哪些受試者是學(xué)習(xí)曲線時間段的一部分)以及在統(tǒng)計分析中報告這些結(jié)果。如果學(xué)習(xí)曲線陡峭,可能會影響產(chǎn)品說明書的相關(guān)內(nèi)容和用戶培訓(xùn)需求。
(四)人為因素
在器械設(shè)計開發(fā)過程中,對器械使用相關(guān)的人為因素的研究可能會指導(dǎo)器械的設(shè)計或使用說明書的制定,以使其更安全,更有效,或讓受試者或醫(yī)學(xué)專業(yè)人士更容易使用。
八、統(tǒng)計分析
(一)分析數(shù)據(jù)集的定義
意向性分析(Intention To Treat,簡稱ITT)原則是指主要分析應(yīng)包括所有隨機化的受試者,基于所有隨機化受試者的分析集通常被稱為ITT分析集。理論上需要對所有隨機化受試者進行完整隨訪,但實際中很難實現(xiàn)。
臨床試驗常用的分析數(shù)據(jù)集包括全分析集(Full Analysis Set,FAS)、符合方案集(Per Protocol Set,PPS)和安全性數(shù)據(jù)集(Safety Set,SS)。需根據(jù)臨床試驗?zāi)康?,遵循盡可能減少試驗偏倚和防止Ⅰ類錯誤增加的原則,在臨床試驗方案中對上述數(shù)據(jù)集進行明確定義,規(guī)定不同數(shù)據(jù)集在有效性評價和安全性評價中的地位。全分析集為盡可能接近于包括所有隨機化的受試者的分析集,通常應(yīng)包括所有入組且使用過一次器械/接受過一次治療的受試者,只有在非常有限的情形下才可剔除受試者,包括違反了重要的入組標準、入組后無任何觀察數(shù)據(jù)的情形。符合方案集是全分析集的子集,包括已接受方案中規(guī)定的治療、可獲得主要評價指標的觀察數(shù)據(jù)、對試驗方案沒有重大違背的受試者。若從全分析集和符合方案集中剔除受試者,一是需符合方案中的定義,二是需充分闡明剔除理由,需在盲態(tài)審核時闡明剔除理由。安全性數(shù)據(jù)集通常應(yīng)包括所有入組且使用過一次器械/接受過一次治療并進行過安全性評價的受試者。
需同時在全分析集、符合方案集中對試驗結(jié)果進行統(tǒng)計分析。當二者結(jié)論一致時,可以增強試驗結(jié)果的可信度。當二者結(jié)論不一致時,應(yīng)對差異進行充分的討論和解釋。如果符合方案集中排除的受試者比例過大,或者因排除受試者導(dǎo)致試驗結(jié)論的根本性變化(由全分析集中的試驗失敗變?yōu)榉戏桨讣械脑囼灣晒Γ?,將影響臨床試驗的可信度。
全分析集和符合方案集在優(yōu)效性試驗和等效性或非劣效性試驗中所起作用不同。一般來說,在優(yōu)效性試驗中,應(yīng)采用全分析集作為主要分析集,因為它包含了依從性差的受試者而可能低估了療效,基于全分析集的分析結(jié)果是保守的。符合方案集顯示試驗器械按規(guī)定方案使用的效果,與上市后的療效比較,可能高估療效。在等效性或非劣效性試驗中,用全分析集所分析的結(jié)果并不一定保守。
(二)缺失值和離群值
缺失值(臨床試驗觀察指標的數(shù)據(jù)缺失)是臨床試驗結(jié)果偏倚的潛在來源,在臨床試驗方案的制定和執(zhí)行過程中應(yīng)采取充分的措施盡量減少數(shù)據(jù)缺失。對于缺失值的處理方法,特別是主要評價指標的缺失值,需根據(jù)具體情形,在方案中遵循保守原則規(guī)定恰當?shù)奶幚矸椒?,如末次觀察值結(jié)轉(zhuǎn)(Last Observation Carried Forward, LOCF)、基線觀察值結(jié)轉(zhuǎn)(Baseline Observation Carried Forward, BOCF)等。必要時,可考慮采用不同的缺失值處理方法進行敏感性分析。
不建議在統(tǒng)計分析中直接排除有缺失數(shù)據(jù)的受試者,因為該處理方式可能破壞入組的隨機性、破壞受試人群的代表性、降低研究的把握度、增加Ⅰ類錯誤率。
對于離群值的處理,需要同時從醫(yī)學(xué)和統(tǒng)計學(xué)兩方面考慮,尤其是醫(yī)學(xué)專業(yè)知識的判斷。離群值的處理應(yīng)在盲態(tài)審核時進行,如果試驗方案中未預(yù)先規(guī)定處理方法,在實際資料分析時,需要進行敏感性分析,即比較包括和不包括離群值的兩種試驗結(jié)果,評估其對試驗結(jié)果的影響。
(三)統(tǒng)計分析方法
1.統(tǒng)計描述
人口學(xué)指標、基線數(shù)據(jù)一般需選擇合適的統(tǒng)計指標(如均數(shù)、標準差、中位數(shù)等)進行描述以比較組間的均衡性。
主要評價指標在進行統(tǒng)計推斷時,需同時進行統(tǒng)計描述。值得注意的是,組間差異無統(tǒng)計學(xué)意義不能得出兩組等效或非劣效的結(jié)論。
次要評價指標通常采用統(tǒng)計描述和差異檢驗進行統(tǒng)計分析。
2.假設(shè)檢驗和區(qū)間估計
在確定的檢驗水平(通常為雙側(cè)0.05)下,按照方案計算假設(shè)檢驗的檢驗統(tǒng)計量及其相應(yīng)的P值,做出統(tǒng)計推斷,完成假設(shè)檢驗。對于非劣效性試驗,若P≤α,則無效假設(shè)被拒絕,可推斷試驗組非劣效于對照組。對于優(yōu)效性試驗,若P≤α,則無效假設(shè)被拒絕,可推斷試驗組臨床優(yōu)效于對照組。對于等效性試驗,若P1≤α和P2≤α同時成立,則兩個無效假設(shè)同時被拒絕,推斷試驗組與對照組等效。
亦可通過構(gòu)建主要評價指標組間差異置信區(qū)間的方法達到假設(shè)檢驗的目的,將置信區(qū)間的上限和/或下限與事先制定的界值進行比較,以做出臨床試驗結(jié)論。按照方案中確定的方法計算主要評價指標組間差異的(1-α)置信區(qū)間,α通常選取雙側(cè)0.05。對于高優(yōu)指標的非劣效性試驗,若置信區(qū)間下限大于-?(非劣效界值),可做出臨床非劣效結(jié)論。對于優(yōu)效性試驗,若置信區(qū)間下限大于?(優(yōu)效界值),可做出臨床優(yōu)效結(jié)論。對于等效性試驗,若置信區(qū)間的下限和上限在(-?,?)(等效界值的劣側(cè)和優(yōu)側(cè))范圍內(nèi),可做出臨床等效結(jié)論。
對試驗結(jié)果進行統(tǒng)計推斷時,建議同時采用假設(shè)檢驗和區(qū)間估計方法。
除試驗器械及相應(yīng)治療方式外,主要評價指標常常受到受試者基線變量的影響,如疾病的分型和程度、主要評價指標的基線數(shù)據(jù)等。因此,在試驗方案中應(yīng)識別可能對主要評價指標有重要影響的基線變量,在統(tǒng)計分析中將其作為協(xié)變量,采用恰當?shù)姆椒ǎㄈ鐓f(xié)方差分析方法等),對試驗結(jié)果進行校正,以修正試驗組和對照組間由于協(xié)變量不均衡而對試驗結(jié)果產(chǎn)生的影響。協(xié)變量的確定依據(jù)以及相應(yīng)的校正方法的選擇理由應(yīng)在臨床試驗方案中予以說明。對于沒有在臨床試驗方案中規(guī)定的協(xié)變量,通常不進行校正,或僅將校正后的結(jié)果作為參考。
4.中心效應(yīng)
在多個中心開展臨床試驗,可在較短時間內(nèi)入選所需的病例數(shù),且樣本更具有代表性,結(jié)果更具有推廣性,但對試驗結(jié)果的影響因素更為復(fù)雜。
在多個中心開展臨床試驗,需要組織制定標準操作規(guī)程,組織對參與臨床試驗的所有研究者進行臨床試驗方案和試驗用醫(yī)療器械使用和維護的培訓(xùn),以確保在臨床試驗方案執(zhí)行、試驗器械使用方面的一致性。當主要評價指標易受主觀影響時,建議采取相關(guān)措施(如對研究者開展培訓(xùn)后進行一致性評估,采用獨立評價中心,選擇背對背評價方式等)以保障評價標準的一致性。盡管采取了相關(guān)質(zhì)量控制措施,在多中心臨床試驗中,仍可能出現(xiàn)因不同中心在受試者基線特征、臨床實踐(如手術(shù)技術(shù)、評價經(jīng)驗)等方面存在差異,導(dǎo)致不同中心間的效應(yīng)不盡相同。當中心與處理組間可能存在交互作用時,需在臨床試驗方案中預(yù)先規(guī)定中心效應(yīng)的分析策略。當中心數(shù)量較多且各中心病例數(shù)較少時,一般無需考慮中心效應(yīng)。
在多個中心開展臨床試驗,各中心試驗組和對照組病例數(shù)的比例需與總樣本的比例基本相同。當中心數(shù)量較少時,建議按中心進行分層設(shè)計,使各中心試驗組與對照組病例數(shù)的比例基本相同。
九、臨床試驗的偏倚和隨機誤差
臨床試驗設(shè)計需考慮偏倚和隨機誤差。偏倚是偏離真值的系統(tǒng)誤差的簡稱,在試驗設(shè)計、試驗實施和數(shù)據(jù)分析過程中均可引入偏倚,偏倚可導(dǎo)致錯誤的試驗結(jié)論。臨床試驗設(shè)計時應(yīng)盡量避免或減少偏倚。
統(tǒng)計量的隨機誤差受臨床試驗樣本量的影響。一方面,較大的樣本量可提供更多的數(shù)據(jù),使器械性能/安全性評價的隨機誤差更小。另一方面,更大的樣本量可能引入更大的偏倚,導(dǎo)致無臨床意義的差異變得具有統(tǒng)計學(xué)意義。試驗設(shè)計應(yīng)該旨在使試驗結(jié)果同時具有臨床和統(tǒng)計學(xué)意義。
附錄1
檢驗假設(shè)舉例
本附錄中列舉的檢驗假設(shè)和檢驗統(tǒng)計量,為特定試驗類型、特定評價指標類型下的舉例,有其適用范圍和前提條件。
一、高優(yōu)指標的兩樣本t檢驗
表1以高優(yōu)指標的兩樣本t檢驗為例,列舉了優(yōu)效性試驗、等效性試驗、非劣效性試驗的檢驗假設(shè)和檢驗統(tǒng)計量的計算公式。H0和H1分別表示原假設(shè)和備擇檢驗;T和C分別表示試驗組和對照組主要評價指標的參數(shù)(如總體均數(shù)、總體率等);為兩組參數(shù)差值(T-C)的標準誤;?表示界值,優(yōu)效性界值用?表示,非劣效界值用-?表示,等效界值的優(yōu)側(cè)和劣側(cè)分別用?和-?表示;t/t1/t2為檢驗統(tǒng)計量。
表1 不同試驗類型的檢驗假設(shè)和檢驗統(tǒng)計量
(以高優(yōu)指標的兩樣本t檢驗為例)
試驗類型 | 原假設(shè) | 備擇假設(shè) | 檢驗統(tǒng)計量 |
非劣效性試驗 | | | |
優(yōu)效性試驗 | | | |
等效性試驗 | | | |
| | | |
二、單組目標值試驗的檢驗假設(shè)
π0為主要評價指標的目標值,π1為主要評價指標的總體率/均數(shù)。對于高優(yōu)指標,檢驗假設(shè)為H0:π1≤π0,H1:π1>π0。對于低優(yōu)指標,檢驗假設(shè)為H0:π1≥π0,H1:π1<π0。
附錄2
樣本量估算公式舉例
本附錄中列舉的樣本量估算公式,為樣本量估算公式舉例,有其適用范圍和前提條件。在實際的樣本量估算中,需根據(jù)具體試驗設(shè)計選擇適用公式,包括本附錄中未列舉的公式。
一、平行對照設(shè)計樣本量估算
以下公式中,nT、nC分別為試驗組和對照組的樣本量;Z1-α/2、Z1-β為標準正態(tài)分布的分數(shù)位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842;(Z1-α/2+Z1-β)2=7.85
(一)優(yōu)效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預(yù)期事件發(fā)生率;為兩組預(yù)期率差的絕對值, = ;Δ為優(yōu)效性界值,取正值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預(yù)期標準差;為預(yù)期的兩組均數(shù)之差的絕對值, = ;Δ為優(yōu)效性界值,取正值。
使用該公式計算樣本量為Z值計算的結(jié)果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
(二)等效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預(yù)期事件發(fā)生率;為兩組預(yù)期率差的絕對值, = ;?為等效界值(適用于劣側(cè)界值與優(yōu)側(cè)界值相等的情形),取正值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預(yù)期標準差;為預(yù)期的兩組均數(shù)之差的絕對值, = ;?為等效界值(適用于劣側(cè)界值與優(yōu)側(cè)界值相等的情形),取正值。
使用該公式計算樣本量為Z值計算的結(jié)果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
(三)非劣效試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為預(yù)期事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預(yù)期事件發(fā)生率;為兩組預(yù)期率差的絕對值, = ,?為非劣效界值,取負值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預(yù)期標準差;為預(yù)期的兩組均數(shù)之差的絕對值, = ;?為非劣效界值,取負值。
使用該公式計算樣本量為Z值計算的結(jié)果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
二、單組目標值試驗的樣本量估算
以下公式中,n為試驗組樣本量;Z1-α/2、Z1-β為標準正態(tài)分布的分數(shù)位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842。
當主要評價指標為事件發(fā)生率,統(tǒng)計發(fā)生率的研究周期相同,且發(fā)生率不接近于0%或100%時,其樣本量估算公式為:
PT為試驗組預(yù)期事件發(fā)生率,P0為目標值。
三、診斷試驗的樣本量估算
以抽樣調(diào)查設(shè)計的診斷試驗為例,其評價指標為靈敏度和特異度,用靈敏度計算陽性組的樣本量,用特異度計算陰性組的樣本量。
陽性組/陰性組樣本量的估算公式為:
公式中n為陽性組/陰性組樣本量,Z1-α/2為標準正態(tài)分布的分位數(shù),P為靈敏度或特異度的預(yù)期值,Δ為P的允許誤差大小,一般取P的95%置信區(qū)間寬度的一半,常用的取值為0.05—0.10。