器審中心發(fā)布人工智能輔助檢測(cè)軟件臨床評(píng)價(jià)注審原則

來(lái)源： CMDE 2023年11月08日 15:27

　　為進(jìn)一步規(guī)范人工智能輔助檢測(cè)醫(yī)療器械（軟件）產(chǎn)品的管理，國(guó)家藥監(jiān)局器審中心組織制定了《人工智能輔助檢測(cè)醫(yī)療器械（軟件）臨床評(píng)價(jià)注冊(cè)審查指導(dǎo)原則》，現(xiàn)予發(fā)布。

　　特此通告。

　　附件：人工智能輔助檢測(cè)醫(yī)療器械（軟件）臨床評(píng)價(jià)注冊(cè)審查指導(dǎo)原則

國(guó)家藥品監(jiān)督管理局

醫(yī)療器械技術(shù)審評(píng)中心

2023年11月7日

附件

人工智能輔助檢測(cè)醫(yī)療器械（軟件）臨床評(píng)價(jià)

注冊(cè)審查指導(dǎo)原則

本指導(dǎo)原則旨在指導(dǎo)注冊(cè)申請(qǐng)人開展人工智能（artificial intelligence，AI）輔助檢測(cè)類醫(yī)療器械臨床評(píng)價(jià)的資料準(zhǔn)備，同時(shí)為技術(shù)審評(píng)部門審評(píng)人工智能輔助檢測(cè)類產(chǎn)品臨床評(píng)價(jià)資料提供參考。

本指導(dǎo)原則進(jìn)一步明確人工智能輔助檢測(cè)類醫(yī)療器械臨床評(píng)價(jià)的要求和適用情形。申請(qǐng)人可依據(jù)產(chǎn)品的具體特征確定其中內(nèi)容是否適用，若不適用，需闡述理由并提供相應(yīng)的科學(xué)依據(jù)，并依據(jù)產(chǎn)品的具體特征對(duì)臨床評(píng)價(jià)資料的內(nèi)容進(jìn)行充實(shí)和細(xì)化。

本指導(dǎo)原則是供注冊(cè)申請(qǐng)人和技術(shù)審評(píng)人員使用的指導(dǎo)性文件，但不包括審評(píng)審批所涉及的行政事項(xiàng)，亦不作為法規(guī)強(qiáng)制執(zhí)行，應(yīng)在遵循相關(guān)法規(guī)的前提下使用本指導(dǎo)原則。如果有能夠滿足相關(guān)法規(guī)要求的其他方法，也可以采用，但是需要提供詳細(xì)的合理性論述和驗(yàn)證確認(rèn)資料。

本指導(dǎo)原則是在現(xiàn)行法規(guī)和標(biāo)準(zhǔn)體系以及當(dāng)前認(rèn)知水平下制定，隨著法規(guī)和標(biāo)準(zhǔn)的不斷完善，以及科學(xué)技術(shù)的不斷發(fā)展，相關(guān)內(nèi)容也將適時(shí)進(jìn)行調(diào)整。

一、適用范圍

人工智能醫(yī)療器械從與預(yù)期用途角度可分為輔助決策類和非輔助決策類。其中，輔助決策是指通過(guò)提供診療活動(dòng)建議輔助醫(yī)務(wù)人員進(jìn)行臨床決策，如通過(guò)異常識(shí)別、自動(dòng)制定手術(shù)計(jì)劃進(jìn)行輔助分診、輔助檢測(cè)、輔助診斷、輔助治療等。

人工智能輔助檢測(cè)產(chǎn)品，是指基于計(jì)算機(jī)人工智能算法，可包含模式識(shí)別和數(shù)據(jù)分析等功能，通過(guò)識(shí)別、標(biāo)記、突出等方式提示醫(yī)師關(guān)注可能的異常/病變區(qū)域，從而輔助臨床醫(yī)師做出相應(yīng)診療決策的產(chǎn)品，可為獨(dú)立軟件或嵌入式軟件；分類編碼為21-04-02，管理類別為第III類；產(chǎn)品還可同時(shí)包含非輔助決策功能，如結(jié)構(gòu)化報(bào)告生成、前后圖像對(duì)比、正常解剖組織的分割（如肺葉、肋骨等）、尺寸測(cè)量、CT值測(cè)量等臨床功能和數(shù)據(jù)儲(chǔ)存、傳輸?shù)确桥R床功能。人工智能輔助檢測(cè)產(chǎn)品常見(jiàn)的有針對(duì)肺結(jié)節(jié)、乳腺結(jié)節(jié)、骨折、血管狹窄、結(jié)腸息肉等病變/異常的檢出產(chǎn)品，本指導(dǎo)原則給出此類產(chǎn)品的通用要求，并以肺結(jié)節(jié)輔助檢測(cè)和結(jié)腸息肉輔助檢測(cè)產(chǎn)品為例（詳見(jiàn)附件），闡述對(duì)人工智能輔助檢測(cè)產(chǎn)品的臨床試驗(yàn)中具體要素的考慮建議，同類型產(chǎn)品可參考相關(guān)適用部分。

本指導(dǎo)原則不適用于如下情形（但下述產(chǎn)品可參照本指導(dǎo)原則中適用部分的要求）：1.可鑒別病變的性質(zhì)（如良惡性）或疾病分期分型的人工智能輔助診斷類產(chǎn)品；2.預(yù)測(cè)疾病發(fā)生概率的產(chǎn)品；3.可同時(shí)輔助檢測(cè)、鑒別診斷多種病變的多分類人工智能輔助檢測(cè)產(chǎn)品（例如同時(shí)輔助檢測(cè)并分類肺結(jié)節(jié)、條索、胸膜增厚、胸腔積液、肋骨骨折等的產(chǎn)品）；4.人工智能輔助分診、轉(zhuǎn)診產(chǎn)品，此類產(chǎn)品通過(guò)初步評(píng)估患者是否疑似患有目標(biāo)疾病，從而對(duì)患者的分診轉(zhuǎn)診提供輔助決策建議，該類產(chǎn)品不給出具體病變情況，且無(wú)論輔助分診結(jié)果為陰性、陽(yáng)性，均需專業(yè)醫(yī)師再一次對(duì)患者影像進(jìn)行評(píng)閱，常見(jiàn)的有糖尿病視網(wǎng)膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等；5. 配合體外診斷試劑產(chǎn)品使用的人工智能輔助分析軟件。

二、臨床試驗(yàn)設(shè)計(jì)

（一）臨床試驗(yàn)?zāi)康?

臨床試驗(yàn)?zāi)康囊话闶窃u(píng)價(jià)申報(bào)產(chǎn)品在預(yù)期適用范圍下使用時(shí)輔助檢測(cè)的診斷學(xué)性能，亦可一并觀察產(chǎn)品的可用性與安全性。

（二）臨床試驗(yàn)基本設(shè)計(jì)類型

人工智能輔助檢測(cè)類產(chǎn)品的臨床意義通常在于提升醫(yī)師的病變檢測(cè)準(zhǔn)確度，為充分評(píng)估產(chǎn)品的臨床受益風(fēng)險(xiǎn)可接受性，此類產(chǎn)品一般需考慮開展對(duì)照試驗(yàn)，根據(jù)產(chǎn)品特征及臨床診療實(shí)際，可以為隨機(jī)平行對(duì)照、交叉自身對(duì)照或多閱片者多數(shù)據(jù)樣本（multiple reader multiple case，MRMC）試驗(yàn)設(shè)計(jì)。

試驗(yàn)組一般為醫(yī)師在軟件的輔助下完成異常/病變的檢測(cè)，對(duì)照組一般為臨床醫(yī)師獨(dú)立的異常/病變的檢測(cè)，比較二者的檢測(cè)準(zhǔn)確度。

（三）研究對(duì)象

1．適用人群的影像學(xué)樣本

預(yù)期人群的影像學(xué)樣本是人工智能輔助檢測(cè)產(chǎn)品臨床試驗(yàn)的典型研究對(duì)象，影像學(xué)樣本需基于定義明確的入選和排除標(biāo)準(zhǔn)收集，可為臨床已有數(shù)據(jù)（如臨床診療中產(chǎn)生的真實(shí)世界數(shù)據(jù)）。考慮到AI與醫(yī)師觀察、操作的協(xié)同交互等因素，基于實(shí)時(shí)影像的輔助檢測(cè)產(chǎn)品臨床試驗(yàn)，推薦考慮前瞻性采集影像檢查，作為臨床試驗(yàn)研究對(duì)象。

為了保證臨床試驗(yàn)質(zhì)量以及結(jié)果的可靠性，選取研究對(duì)象時(shí)，申請(qǐng)人需考慮如下措施：一是納入數(shù)據(jù)樣本獨(dú)立于申報(bào)產(chǎn)品或前代產(chǎn)品開發(fā)所用數(shù)據(jù)集，如申報(bào)產(chǎn)品或前代產(chǎn)品的訓(xùn)練集、測(cè)試集。二是采用臨床已有數(shù)據(jù)進(jìn)行研究時(shí)，需基于明確且嚴(yán)格的入排標(biāo)準(zhǔn)和臨床試驗(yàn)計(jì)劃，連續(xù)收集過(guò)往某段時(shí)間內(nèi)、特定醫(yī)療機(jī)構(gòu)內(nèi)患者影像學(xué)數(shù)據(jù)，避免主觀挑選病例。三是考慮陽(yáng)性樣本中，目標(biāo)疾病的疾病譜分布（如分型、分期）合理性，某些對(duì)輔助檢測(cè)具有挑戰(zhàn)性的分期、分型，必要時(shí)在臨床試驗(yàn)中富集相關(guān)具有代表性的亞組。四是通常情況下，需避免在一項(xiàng)臨床試驗(yàn)中同時(shí)入組同一患者同一目標(biāo)部位的多組樣本數(shù)據(jù)。五是臨床已有數(shù)據(jù)收集時(shí)，需盡可能全面的收集與疾病相關(guān)的信息（適用的），具體包括但不限于：

（1）人口統(tǒng)計(jì)學(xué)信息(如年齡、性別);

（2）與輔助檢測(cè)目標(biāo)疾病相關(guān)的信息，如病史、疾病狀態(tài)、分期、分型、病變大小、病變位置、器官特征(如乳腺腺體分型)、伴隨疾病等。

（3）確定為陽(yáng)性/陰性病例的依據(jù)，如既往診斷結(jié)論，以及確定疾病狀態(tài)、部位和程度的方法。

2.閱片者

由于閱片者表現(xiàn)的變異度及其與患者樣本變異度和診斷方法（即AI輔助器械）之間的交互效應(yīng)，一般情況下宜將閱片者列入研究對(duì)象?；诜菍?shí)時(shí)影像的輔助檢測(cè)產(chǎn)品（如肺結(jié)節(jié)/骨折/乳腺結(jié)節(jié)輔助檢測(cè)等），采用MRMC設(shè)計(jì)可較好的控制閱片者偏倚，同等情況下所需的樣本量一般較少，申請(qǐng)人可優(yōu)先考慮選擇。采用MRMC設(shè)計(jì)時(shí)，根據(jù)預(yù)期的使用者情況，選取不同年資的多位醫(yī)師作為閱片者，申請(qǐng)人需論述閱片者數(shù)量的合理性。

（四）評(píng)價(jià)指標(biāo)

主要評(píng)價(jià)指標(biāo)應(yīng)結(jié)合產(chǎn)品設(shè)計(jì)特征進(jìn)行綜合選擇，一般認(rèn)為靈敏度、特異度、ROC或其衍生曲線等診斷準(zhǔn)確性指標(biāo)受樣本患病率差異的影響較小，因此，宜優(yōu)先考慮此類指標(biāo)作為主要評(píng)價(jià)指標(biāo)。

無(wú)論選擇哪些指標(biāo)作為主要評(píng)價(jià)指標(biāo)，該類產(chǎn)品臨床試驗(yàn)應(yīng)當(dāng)考慮整體的優(yōu)效性設(shè)計(jì)，例如ROC或其衍生曲線下面積（Area Under Curve，AUC）的優(yōu)效設(shè)計(jì)，或者目標(biāo)疾病輔助檢測(cè)特異度非劣效前提下的靈敏度優(yōu)效性，或者息肉/腺瘤初檢檢出率的優(yōu)效性等。

（五）臨床參考標(biāo)準(zhǔn)構(gòu)建

申請(qǐng)人應(yīng)詳述臨床參考標(biāo)準(zhǔn)的選擇、構(gòu)建方法及理由?？晒┻x擇的臨床參考標(biāo)準(zhǔn)構(gòu)建方法包括：一是以臨床已確認(rèn)結(jié)果為臨床參考標(biāo)準(zhǔn)，即臨床上結(jié)合患者影像學(xué)檢查、病史、實(shí)驗(yàn)室檢查（如病理檢查）、長(zhǎng)期隨訪結(jié)果等方法綜合判定的臨床診斷結(jié)果；二是通過(guò)專家組對(duì)研究對(duì)象（影像樣本）的閱片判定作為臨床參考標(biāo)準(zhǔn)。

對(duì)于人工智能輔助檢測(cè)產(chǎn)品，若根據(jù)產(chǎn)品設(shè)計(jì)判定可采用專家組意見(jiàn)作為臨床參考標(biāo)準(zhǔn)，通?？蛇x擇高年資醫(yī)師組成的閱片專家組綜合意見(jiàn)為臨床參考標(biāo)準(zhǔn)，閱片專家組的成員需獨(dú)立于“試驗(yàn)和對(duì)照組的閱片研究者”，并需要明確：1.專家數(shù)量；2.專家經(jīng)驗(yàn)及專業(yè)水平；3.決策機(jī)制（如遵循多數(shù)意見(jiàn)、背靠背第三人仲裁等）；4.專家決策時(shí)所依據(jù)的信息（如圖像上是否有標(biāo)記，是否還提供了病史或其他檢查結(jié)果等）；5.判定所依據(jù)的臨床準(zhǔn)則（如臨床指南、診療規(guī)范、專家共識(shí)等）。

對(duì)于試驗(yàn)中對(duì)病灶的檢出是否與臨床參考標(biāo)準(zhǔn)專家組意見(jiàn)一致，一般可考慮1.試驗(yàn)組/對(duì)照組勾畫病灶的中心在專家組勾畫的病灶輪廓邊界范圍內(nèi)；2.試驗(yàn)組/對(duì)照組勾畫病灶與專家組勾畫病灶的像素重合度高于一定比例（需提供比例設(shè)定的支持依據(jù)）；若采用其他判定方法，則需論述合理性。

若采用臨床已確認(rèn)結(jié)果作為臨床參考標(biāo)準(zhǔn)，則需明確1.已確認(rèn)結(jié)果所依據(jù)的臨床信息，包括檢查類型及結(jié)果；2.各類影像學(xué)檢查的設(shè)備信息，包括影像檢查的掃描條件等；3. 已確認(rèn)結(jié)果的臨床診斷依據(jù)；4.得出已確認(rèn)結(jié)果的醫(yī)師情況，包括專家會(huì)診，需明確醫(yī)師資質(zhì)；5.若還依據(jù)了臨床隨訪數(shù)據(jù)，則還需明確隨訪的時(shí)間以及隨訪所做的檢查類型及結(jié)果。

（六）樣本量估算與統(tǒng)計(jì)分析

樣本量估算需綜合考慮臨床試驗(yàn)設(shè)計(jì)、主要評(píng)價(jià)指標(biāo)和統(tǒng)計(jì)學(xué)要求。申請(qǐng)人需明確計(jì)算公式、相應(yīng)參數(shù)及確定理由，以及所用的統(tǒng)計(jì)軟件。

臨床試驗(yàn)資料中可以提供樣本患病率以及目標(biāo)疾病的流行病學(xué)研究的患病率情況進(jìn)行合理性論述，并確保臨床研究設(shè)計(jì)中樣本數(shù)據(jù)隨機(jī)分配給閱片者進(jìn)行評(píng)閱。

平行對(duì)照試驗(yàn)樣本量計(jì)算可參考《醫(yī)療器械臨床試驗(yàn)設(shè)計(jì)指導(dǎo)原則》中的相關(guān)內(nèi)容。

若采用MRMC的試驗(yàn)設(shè)計(jì)，樣本量計(jì)算需首先明確具體的分析方法，如Obuchowski-Rockette Analysis（OR分析方法）、Dorfman-Berbaum-Metz-Hillis Analysis（DBMH分析法），并進(jìn)一步明確受試醫(yī)師數(shù)量，檢驗(yàn)水準(zhǔn)α、檢驗(yàn)效能1-β、預(yù)計(jì)效應(yīng)值，優(yōu)效/非劣效界值，其中預(yù)計(jì)效應(yīng)值可通過(guò)預(yù)試驗(yàn)或調(diào)研并匯總分析目標(biāo)病灶檢出的診斷學(xué)研究文獻(xiàn)獲得，優(yōu)效/非劣效界值應(yīng)通過(guò)同品種產(chǎn)品臨床試驗(yàn)結(jié)果或權(quán)威文獻(xiàn)研究等確定。不同疾病的檢測(cè)效應(yīng)不同，在試驗(yàn)設(shè)計(jì)中應(yīng)明確優(yōu)效/非劣效界值的設(shè)定依據(jù)。以DBMH分析法為例，樣本量估算與交互隨機(jī)效應(yīng)值，檢驗(yàn)的檢驗(yàn)效能、檢驗(yàn)水準(zhǔn)，受試醫(yī)師數(shù)量，優(yōu)效界值，非劣效界值（如有）等要素有關(guān)。用于樣本量估算的效應(yīng)值（effect size）選擇時(shí)，可通過(guò)預(yù)試驗(yàn)得到的誤差和混合效應(yīng)方差來(lái)估計(jì)，并考慮預(yù)試驗(yàn)樣本量等情況，在預(yù)試驗(yàn)結(jié)果的基礎(chǔ)上采用適度保守的估計(jì)。

所有應(yīng)用了試驗(yàn)產(chǎn)品的受試醫(yī)師和患者都將被納入分析，對(duì)于主要指標(biāo)，除給出主要評(píng)價(jià)指標(biāo)（靈敏度、特異度、AUC）的點(diǎn)估計(jì)外，還將分別對(duì)其對(duì)應(yīng)的95%置信區(qū)間進(jìn)行估計(jì)，通過(guò)試驗(yàn)組與對(duì)照組的優(yōu)效/非劣效比較判斷本試驗(yàn)產(chǎn)品是否滿足臨床應(yīng)用的需要。

（七）其他臨床試驗(yàn)設(shè)計(jì)需關(guān)注的問(wèn)題

1.臨床試驗(yàn)培訓(xùn)

在試驗(yàn)前對(duì)閱片者開展必要的培訓(xùn)，可以有效降低試驗(yàn)的偏倚。除基本情況培訓(xùn)（試驗(yàn)流程、術(shù)語(yǔ)定義、數(shù)據(jù)樣本閱片的評(píng)價(jià)標(biāo)準(zhǔn)等）以外，還需考慮案例培訓(xùn)和典型數(shù)據(jù)樣本講解等，且所用案例獨(dú)立于試驗(yàn)研究數(shù)據(jù)樣本；培訓(xùn)中宜設(shè)置閱片者培訓(xùn)結(jié)果測(cè)試及合格接受標(biāo)準(zhǔn)；建議臨床試驗(yàn)中，對(duì)閱片者的培訓(xùn)與臨床應(yīng)用時(shí)的培訓(xùn)，在方法、時(shí)間、接受標(biāo)準(zhǔn)上盡量保持一致性；并考慮對(duì)臨床試驗(yàn)閱片者資質(zhì)、能力等要求與臨床應(yīng)用時(shí)使用者情況的匹配性。對(duì)專家組的培訓(xùn)時(shí)間和接受標(biāo)準(zhǔn)宜顯著高于試驗(yàn)組/對(duì)照組的閱片者的培訓(xùn)時(shí)間和接受標(biāo)準(zhǔn)。

2.影像樣本評(píng)閱質(zhì)量控制

一是由閱片者在獨(dú)立盲法條件下對(duì)患者關(guān)于試驗(yàn)的影像檢測(cè)結(jié)果進(jìn)行解釋。二是在選取試驗(yàn)閱片者時(shí)基于其專業(yè)能力和參與研究的可能性，充分保證閱片者對(duì)預(yù)期使用者的代表性?？煽紤]不同醫(yī)療機(jī)構(gòu)來(lái)源、不同年資/專業(yè)水平的醫(yī)師。三是將數(shù)據(jù)樣本的臨床診斷結(jié)果、臨床參考標(biāo)準(zhǔn)判定結(jié)果、其他診斷信息（如生化檢測(cè)結(jié)果、后續(xù)治療等）或基本信息（如年齡、病史等）對(duì)試驗(yàn)的閱片者設(shè)盲。四是對(duì)照試驗(yàn)可考慮采用交叉閱片設(shè)計(jì)，交叉設(shè)計(jì)中可根據(jù)相關(guān)領(lǐng)域記憶曲線的研究設(shè)置合理的洗脫期。若采用多閱片者，最好每位閱片者按照不同的數(shù)據(jù)樣本順序進(jìn)行評(píng)閱，有文獻(xiàn)報(bào)道典型的洗脫期一般為4~6周。是否采用交叉設(shè)計(jì)可根據(jù)申報(bào)產(chǎn)品的臨床應(yīng)用方法、場(chǎng)景及適用范圍等綜合判定。

三、產(chǎn)品中非輔助決策臨床功能的評(píng)價(jià)

人工智能輔助檢測(cè)醫(yī)療器械產(chǎn)品還可能包括結(jié)構(gòu)化報(bào)告生成、前后圖像對(duì)比、正常解剖組織的分割（如肺葉、肋骨等）、流程優(yōu)化、尺寸測(cè)量（包括大小、體積等）、CT值測(cè)量等非輔助決策類軟件功能，可在臨床試驗(yàn)中設(shè)置次要評(píng)價(jià)指標(biāo)用于評(píng)價(jià)這些功能的安全有效性，亦可根據(jù)《醫(yī)療器械臨床評(píng)價(jià)技術(shù)指導(dǎo)原則》提交相應(yīng)臨床評(píng)價(jià)資料。若提交臨床評(píng)價(jià)，上述功能的驗(yàn)證確認(rèn)可以考慮測(cè)試集測(cè)試、壓力測(cè)試、對(duì)抗測(cè)試、質(zhì)量良好的數(shù)據(jù)庫(kù)測(cè)試結(jié)果中的一種或幾種作為臨床評(píng)價(jià)的支持證據(jù)；若在臨床試驗(yàn)中設(shè)置次要指標(biāo)，指標(biāo)一般采用臨床上對(duì)功能準(zhǔn)確性評(píng)價(jià)的臨床參考標(biāo)準(zhǔn)或?qū)W術(shù)上常用的方法，如分割的準(zhǔn)確性考慮，與醫(yī)師的分割結(jié)果的分割一致性Dice相似系數(shù)（Dice similarity coefficient）等；配準(zhǔn)功能可考慮標(biāo)志點(diǎn)配準(zhǔn)誤差(Fiducial Registration Error)、目標(biāo)配準(zhǔn)誤差（target registration error）、標(biāo)志點(diǎn)定位誤差(Fiducial Localization Error)等。

四、與臨床評(píng)價(jià)相關(guān)的說(shuō)明書內(nèi)容

說(shuō)明書中一般需結(jié)合臨床與非臨床資料給出下列適用的信息：1）臨床試驗(yàn)總結(jié)；2）適用范圍；3）數(shù)據(jù)采集設(shè)備和數(shù)據(jù)采集過(guò)程相關(guān)要求等。臨床試驗(yàn)總結(jié)通?？紤]臨床數(shù)據(jù)基本信息、評(píng)價(jià)指標(biāo)與結(jié)果（必要時(shí)含亞組結(jié)果）。人工智能輔助檢測(cè)類產(chǎn)品的適用范圍需明確輔助檢測(cè)適應(yīng)癥（如肺結(jié)節(jié)、骨折），所基于的影像類型（如胸部CT或結(jié)腸鏡檢查影像），產(chǎn)品其他主要功能（如影像的顯示、處理、測(cè)量和分析），以及產(chǎn)品臨床定位（不能單獨(dú)用作臨床診療決策依據(jù)）等。

建議申請(qǐng)人根據(jù)產(chǎn)品實(shí)際情況在說(shuō)明書中體現(xiàn)如下方面的警告注意事項(xiàng)。1)軟件僅輔助醫(yī)師進(jìn)行病灶檢測(cè)，存在假陰/陽(yáng)性可能，應(yīng)由專業(yè)醫(yī)師結(jié)合患者的病史、癥狀、體征、其他檢查結(jié)果情況綜合給出最終的病灶檢出結(jié)論，核實(shí)是否需要進(jìn)一步診療的決策，并對(duì)臨床診斷結(jié)果負(fù)責(zé)。2) 產(chǎn)品依據(jù)YYYY年版指南（例如《胸部CT肺結(jié)節(jié)數(shù)據(jù)標(biāo)注與質(zhì)量控制專家共識(shí)（2018）》）設(shè)計(jì)，如診療指南有所更新，使用者應(yīng)充分評(píng)估指南差異可能帶來(lái)的風(fēng)險(xiǎn)。3）明確產(chǎn)品臨床試驗(yàn)中未對(duì)病灶邊界分割的準(zhǔn)確性進(jìn)行評(píng)價(jià)，如依據(jù)軟件的檢測(cè)結(jié)果決定手術(shù)干預(yù)或穿刺活檢，醫(yī)師應(yīng)當(dāng)充分評(píng)估其風(fēng)險(xiǎn)。

五、參考文獻(xiàn)

[1]中華醫(yī)學(xué)會(huì)呼吸病學(xué)分會(huì)肺癌學(xué)組，中國(guó)肺癌防治聯(lián)盟專家組，肺結(jié)節(jié)診治中國(guó)專家共識(shí)（2018版）[J]. 中華結(jié)核和呼吸雜志， 2018,41(10): 763-771.

[2]原國(guó)家食品藥品監(jiān)督管理總局.醫(yī)療器械臨床試驗(yàn)設(shè)計(jì)指導(dǎo)原則:食品藥品監(jiān)管總局通告2018年第6號(hào)[Z].

[3]國(guó)家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評(píng)中心.深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)：國(guó)家食品藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評(píng)中心通告2019年第7號(hào)[Z].

[4]Guidance for Industry and Food and Drug Administration Staff Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification [510(k)] Submissions（FDA，2012.07.03）

[5]Lung Cancer Screening CT ProtocolsVersion5.1（AAPM，2019.9.13）

[6]FDA. Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Approval (PMA) and Premarket Notification [510(k)] Submissions - Guidance for Industry and FDA Staff，(2012.11)[2021-4-15]. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/clinical-performance-assessment-considerations-computer-assisted-detection-devices-applied-radiology

[6]Sica, G.T., 2006. Bias in research studies. Radiology, 238(3), pp.780-789.

[7]Xiao-Hua Zhou, Nacy A. Obuchowski, Donna K. McClish. Statistical Methods in Diagnostic Medicine [M]. Hoboken: JohnWiley&Sons, 2011.

[8]國(guó)家衛(wèi)生健康委員會(huì). 人工智能輔助診斷技術(shù)臨床應(yīng)用質(zhì)量控制指標(biāo)（2017年版）:國(guó)家衛(wèi)生計(jì)生委通知2017第7號(hào)[Z].

[9]Brandon D. Gallas.et al. Evaluating Imaging and Computer-aided Detection and Diagnosis Devices at the FDA [J]. Acad Radiol. 2012 Apr; 19(4): 463–477. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5557046/

[10]蕭毅, 劉士遠(yuǎn). 肺結(jié)節(jié)影像人工智能技術(shù)現(xiàn)狀與思考[J]. 腫瘤影像學(xué), 2018, 27: 249-252.

[11]Rees, Colin J., et al. “UK key performance indicators and quality assurance standards for colonoscopy.” Gut 65.12 (2016): 1923-1929.

[12]Misawa, Masashi, et al. "Development of a computer-aided detection system for colonoscopy and a publicly accessible large colonoscopy video database (with video)." Gastrointestinal endoscopy 93.4 (2021): 960-967.

[13]國(guó)家消化系統(tǒng)疾病臨床醫(yī)學(xué)研究中心（上海），中華醫(yī)學(xué)會(huì)消化內(nèi)鏡學(xué)分會(huì)，中華醫(yī)學(xué)會(huì)健康管理學(xué)分會(huì)等. 中國(guó)早期結(jié)直腸癌篩查流程專家共識(shí)意見(jiàn)（2019）[J]. 中華醫(yī)學(xué)會(huì)雜志，2019,99（38）：2961-2970.

[14]Rompianesi, Gianluca, et al. "Artificial intelligence in the diagnosis and management of colorectal cancer liver metastases." World Journal of Gastroenterology 28.1 (2022): 108.

[15]國(guó)家藥品監(jiān)督管理局.醫(yī)療器械臨床評(píng)價(jià)技術(shù)指導(dǎo)原則:國(guó)家藥品監(jiān)督管理局通告2021年第73號(hào)[Z].

附件1

肺結(jié)節(jié)CT圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

肺結(jié)節(jié)CT影像輔助檢測(cè)產(chǎn)品采用MRMC設(shè)計(jì)、交叉自身對(duì)照設(shè)計(jì)或平行對(duì)照設(shè)計(jì)。平行對(duì)照設(shè)計(jì)的具體過(guò)程及方法參考《醫(yī)療器械臨床試驗(yàn)設(shè)計(jì)指導(dǎo)原則》相關(guān)內(nèi)容。

若采用MRMC的設(shè)計(jì)，試驗(yàn)過(guò)程具體為，將參與試驗(yàn)的臨床醫(yī)師隨機(jī)劃分為A、B兩組。A組：醫(yī)師第一階段在使用AI輔助的條件下完成所有數(shù)據(jù)樣本CT影像的肺結(jié)節(jié)檢測(cè)；經(jīng)一定的洗脫期后，第二階段在不使用AI輔助的條件下完成所有數(shù)據(jù)樣本CT影像的肺結(jié)節(jié)檢測(cè)。B組：醫(yī)師第一階段在不使用AI輔助的條件下完成所有數(shù)據(jù)樣本CT影像的肺結(jié)節(jié)檢測(cè)；經(jīng)一定的洗脫期后，第二階段在使用AI輔助的條件下完成所有數(shù)據(jù)樣本CT影像的肺結(jié)節(jié)檢測(cè)。該試驗(yàn)中醫(yī)師使用AI輔助的作為試驗(yàn)組，不使用AI輔助的作為對(duì)照組，對(duì)比試驗(yàn)組與對(duì)照組肺結(jié)節(jié)檢測(cè)的診斷準(zhǔn)確度指標(biāo)，閱片過(guò)程中每名醫(yī)師需分別在使用AI和不使用AI的條件下都完成所有入組影像數(shù)據(jù)樣本的閱片。

二、評(píng)價(jià)指標(biāo)

此類產(chǎn)品臨床試驗(yàn)通常選擇檢出的靈敏度（以病灶為單位）和特異度(以患者為單位)等組成的復(fù)合指標(biāo)，亦可在此基礎(chǔ)上添加受試者工作特征（receiver operating Characteristic, ROC）曲線或其衍生曲線組成復(fù)合指標(biāo)，如因變量自由的受試者工作特征（free-response receiver operating Characteristic, FROC）曲線、定位受試者工作特征（location-specific receiver operating characteristic, LROC）曲線等。使用ROC曲線或其衍生曲線時(shí)，可考慮在試驗(yàn)組醫(yī)師閱片階段，由閱片醫(yī)師標(biāo)記對(duì)目標(biāo)疾病判定的檢驗(yàn)效能（可考慮百分?jǐn)?shù)評(píng)分），從而構(gòu)建ROC曲線，并需考慮在培訓(xùn)階段明確醫(yī)師百分?jǐn)?shù)評(píng)分的標(biāo)準(zhǔn)和方法。

次要指標(biāo)可包括AI輔助醫(yī)師檢出目標(biāo)疾病的陽(yáng)性預(yù)測(cè)值/陰性預(yù)測(cè)值，似然比，Kappa系數(shù)，軟件獨(dú)立檢出目標(biāo)疾病的靈敏度（以病灶為單位），軟件獨(dú)立檢出目標(biāo)疾病的靈敏度和特異度（以患者為單位），閱片時(shí)間，醫(yī)生診斷信心評(píng)價(jià)，軟件功能易用性和穩(wěn)定性（可采用主觀感受評(píng)價(jià)，如李克特量表等）。若同時(shí)觀察量化分析等非輔助決策臨床功能的性能表現(xiàn)，亦可設(shè)立相應(yīng)次要評(píng)價(jià)指標(biāo)。

三、樣本量估算及統(tǒng)計(jì)學(xué)分析

以MRMC設(shè)計(jì)為例，說(shuō)明樣本量估算考慮要素，若主要評(píng)價(jià)指標(biāo)為AUC、結(jié)節(jié)水平靈敏度、患者水平特異度。試驗(yàn)中，檢驗(yàn)的檢驗(yàn)效能取80%。對(duì)于主要評(píng)價(jià)指標(biāo)，優(yōu)效性與非劣效統(tǒng)計(jì)分析將在單側(cè)0.025的檢驗(yàn)水準(zhǔn)下進(jìn)行。下述內(nèi)容僅為示意舉例，可根據(jù)產(chǎn)品具體情況合理調(diào)整相關(guān)參數(shù)：

1.基于AUC的樣本量計(jì)算，預(yù)試驗(yàn)或文獻(xiàn)資料確認(rèn)效應(yīng)值取0.05，研究醫(yī)師設(shè)定為12名，AUC優(yōu)效界值取0，則總樣本量不得低于87例，陰性、陽(yáng)性患者比為1:1。

2.基于結(jié)節(jié)水平靈敏度，效應(yīng)值取0.069，研究醫(yī)師設(shè)定為12名，優(yōu)效界值取0，需陽(yáng)性樣本至少116個(gè)結(jié)節(jié)，假定平均每個(gè)陽(yáng)性患者存在2個(gè)結(jié)節(jié)，則至少需要58例陽(yáng)性數(shù)據(jù)樣本。

3.基于患者水平的特異度，效應(yīng)值取-0.055，非劣效值取0.1（參考Riverain ClearRead CT 的特異度95%區(qū)間下限），在當(dāng)受試醫(yī)師為12名時(shí)，非劣效驗(yàn)證（非劣效界值取0.1）需要陰性樣本達(dá)到至少157例。

綜合以上各指標(biāo)樣本量估算值，本試驗(yàn)樣本量最低為215例，陽(yáng)性數(shù)據(jù)樣本58例，陰性數(shù)據(jù)樣本157例。考慮到樣本存在剔除和脫落的可能，當(dāng)預(yù)期脫落率為5%，剔除率為5%時(shí)，陽(yáng)性樣本需要達(dá)到至少62例，陰性樣本需要達(dá)到至少166例，共計(jì)228例。

附件2

結(jié)腸息肉電子內(nèi)窺鏡圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

結(jié)腸息肉電子內(nèi)窺鏡圖像輔助檢測(cè)產(chǎn)品可考慮平行對(duì)照設(shè)計(jì)，此處以序貫的平行對(duì)照為例進(jìn)行說(shuō)明，申請(qǐng)人亦可采用其他科學(xué)的平行對(duì)照設(shè)計(jì)開展研究，序貫的平行對(duì)照具體設(shè)計(jì)及試驗(yàn)程序如下：

入組的受試者隨機(jī)分配到A組和B組，A組：常規(guī)結(jié)直腸鏡檢查先進(jìn)行組：先接受無(wú) AI 輔助的常規(guī)結(jié)直腸鏡檢查，對(duì)檢查過(guò)程中發(fā)現(xiàn)的所有息肉都凍結(jié)影像留存圖片。第一次退鏡后在AI 輔助下再做一次結(jié)直腸鏡檢查，對(duì)檢查過(guò)程中發(fā)現(xiàn)的所有息肉都凍結(jié)影像留存圖片。B 組：AI 輔助檢查先進(jìn)行組：先接受 AI 輔助的結(jié)直腸鏡檢查，對(duì)檢查過(guò)程中發(fā)現(xiàn)的所有息肉都凍結(jié)影像留存圖片。第一次退鏡后再進(jìn)行一次常規(guī)結(jié)直腸鏡檢查，對(duì)檢查過(guò)程中發(fā)現(xiàn)的所有息肉都凍結(jié)影像留存圖片。分別以各組兩次檢出的腸息肉作為基準(zhǔn)，比較第一次檢查時(shí)，有AI輔助檢測(cè)和無(wú)AI輔助檢測(cè)的病變檢出能力。原則上，結(jié)腸息肉人工智能輔助檢測(cè)產(chǎn)品臨床試驗(yàn)需將前瞻性腸鏡檢查樣本作為臨床試驗(yàn)研究對(duì)象。

二、評(píng)價(jià)指標(biāo)

此類產(chǎn)品臨床試驗(yàn)因不完美臨床參考標(biāo)準(zhǔn)等問(wèn)題，可考慮選取息肉/腺瘤的初檢檢出率/漏診率或息肉檢出的靈敏度與特異性等作為主要評(píng)價(jià)指標(biāo)。相關(guān)指標(biāo)需以息肉/腺瘤水平而非受試者水平進(jìn)行計(jì)算，例如初檢息肉檢出率=初檢發(fā)現(xiàn)的息肉數(shù)量÷兩次檢測(cè)到的息肉總數(shù)，腺瘤漏診率=第二次檢測(cè)到的腺瘤數(shù)÷兩次檢測(cè)到的腺瘤總數(shù)。

次要評(píng)價(jià)指標(biāo)可考慮息肉/腺瘤檢出率（受試者水平），平均息肉/腺瘤檢出數(shù)，軟件獨(dú)立評(píng)估性能（即軟件獨(dú)立的息肉/腺瘤檢出率、息肉檢測(cè)準(zhǔn)確性等）：結(jié)直腸鏡操作時(shí)間（包括各次進(jìn)鏡時(shí)間、退鏡時(shí)間）、軟件易用性評(píng)價(jià)、穩(wěn)定性評(píng)價(jià)、不良事件情況等。若同時(shí)觀察圖像傳輸、儲(chǔ)存等非輔助決策臨床功能的性能表現(xiàn)，亦可設(shè)立相應(yīng)次要評(píng)價(jià)指標(biāo)。

三、樣本量估算

1.以序貫的平行對(duì)照試驗(yàn)為例，若采用腺瘤漏診率作為評(píng)價(jià)指標(biāo)，樣本量的計(jì)算基于腺瘤漏檢率的主要結(jié)果（每個(gè)病灶），假設(shè)如下：AI 先進(jìn)行組別的腺瘤漏診率為 10%，標(biāo)準(zhǔn)檢查先進(jìn)行組別的腺瘤漏診率為 30%，優(yōu)效界值設(shè)定為0，在 80％統(tǒng)計(jì)功效的條件下，雙側(cè)α值設(shè)為 0.05。主要評(píng)價(jià)指標(biāo)為初檢息肉檢出率，其樣本量估算公式為：

假設(shè)每位患者的平均腺瘤數(shù)為 0.6，考慮10%的脫落率，需入組220名受試者，AI 先進(jìn)行組110名，標(biāo)準(zhǔn)檢查先進(jìn)行組110名。

2.若采用初檢息肉檢出率作為主要評(píng)價(jià)指標(biāo)，A 組：常規(guī)結(jié)直腸鏡檢查先進(jìn)行組； B 組： AI 輔助檢查先進(jìn)行組。P_C、 P_T 分別為 A 組和 B 組預(yù)期初檢息肉檢出率，其中 P_C=70%、 P_T=80%；|D|為兩組預(yù)期率差的絕對(duì)值， |D| = |P_C - P_T|； Δ 為優(yōu)效性界值，取 0。主要評(píng)價(jià)指標(biāo)為初檢息肉檢出率，其樣本量估算公式為：

假設(shè)每位患者的平均息肉數(shù)為 2.5，需約 234 例，脫落率為 20%，最終樣本量為 296 例， A組和 B 組各 148 例。

本文著作權(quán)屬原創(chuàng)者所有，不代表本站立場(chǎng)。我們轉(zhuǎn)載此文出于傳播更多資訊之目的，如涉著作權(quán)事宜請(qǐng)聯(lián)系刪除。

好文章，需要你的鼓勵(lì)

五、參考文獻(xiàn)

附件1

肺結(jié)節(jié)CT圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

二、評(píng)價(jià)指標(biāo)

三、樣本量估算及統(tǒng)計(jì)學(xué)分析

附件2

結(jié)腸息肉電子內(nèi)窺鏡圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

二、評(píng)價(jià)指標(biāo)

三、樣本量估算

登錄用戶名或密碼錯(cuò)誤

注冊(cè)用戶名或密碼錯(cuò)誤

五、參考文獻(xiàn)

附件1

肺結(jié)節(jié)CT圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

二、評(píng)價(jià)指標(biāo)

三、樣本量估算及統(tǒng)計(jì)學(xué)分析

附件2

結(jié)腸息肉電子內(nèi)窺鏡圖像輔助檢測(cè)產(chǎn)品

臨床評(píng)價(jià)考慮要素舉例

一、試驗(yàn)設(shè)計(jì)基本類型

二、評(píng)價(jià)指標(biāo)

三、樣本量估算

登錄用戶名或密碼錯(cuò)誤

注冊(cè)用戶名或密碼錯(cuò)誤

一、試驗(yàn)設(shè)計(jì)基本類型

三、樣本量估算