三、數(shù)據(jù)的類型、顯著性檢驗和可信限
在臨床試驗中,對每個受試者可收集3種數(shù)據(jù):所接受的治療、對治療的反應(yīng)(Re-sponse)和進入試驗時影響預(yù)后因子的基線值。接受同樣治療的受試者構(gòu)成統(tǒng)計分療組。對治療的反應(yīng)基本上有3類。 ①定性反應(yīng)。根據(jù)預(yù)定的評價標(biāo)準(zhǔn)將受試者分為若干類別,如高血壓治療的"有效"。"無效";淋巴細(xì)胞瘤化療的"完全緩解"、"部分緩解"、"無變化"。 ②定量反應(yīng)。當(dāng)存在一種可靠測定方法時,受試者的治療結(jié)果最好采用實際數(shù)值,如舒張壓。但最好同時記錄其基線值,以便評價治療前后的變化量值。 ③到某事件發(fā)生的時間。如使用避孕藥受試者從開始治療到意外妊娠的時間。
(一)數(shù)據(jù)的描述性統(tǒng)計
在開始分析之前,有必要先看一下各組受試者的每個變量觀察值的分布頻度,以對變量有一個感性了解;從最大值和最小值也可以發(fā)現(xiàn)可能的錯誤和超范圍的值;決定某些變量是否需要作某種轉(zhuǎn)換;或按某種特定分布作統(tǒng)計分析。 ①定性數(shù)據(jù)需要記錄各治療組的受試者總數(shù)和在每個反應(yīng)類別的受試者數(shù),然后轉(zhuǎn)化為比率或百分率或直方圖、圓圖等表示。采用c2檢驗、Fisher精確檢驗比較所觀察到的組間率的差異的程度。 ②定量數(shù)據(jù)計算每個治療組的平均反應(yīng)(均數(shù)、幾何均數(shù))和變化程度(標(biāo)準(zhǔn)差)。以均值、標(biāo)準(zhǔn)差、直方圖、累積頻數(shù)分布圖表示。在受試者數(shù)較小時,可以用圖表顯示每個受試者的確切反應(yīng)。組間比較采用t檢驗、F檢驗等。 當(dāng)樣本值頻數(shù)圖呈偏態(tài)分布時,用均值描述定量反應(yīng)不合適,可采用中位數(shù)、四分位數(shù)來描述數(shù)據(jù)的定量水平。組間比較可采用非參數(shù)方法。
(二)顯著性檢驗
顯著性檢驗的真正含義是應(yīng)用概率理論計算如果兩個治療實際上同樣有效時得到所觀測到的治療差異的概率。其目的是評價一個治療真正優(yōu)于另一個治療的證據(jù)有多強。這種證據(jù)的強度用概率,即P值來定量。因此P值越小,治療差異由于偶然發(fā)生的可能性越小。在實踐中,人們常用P<0.05.P<0.01、P<0.001表示顯著性檢驗的結(jié)果,這些水平的選擇是完全隨意的,并沒有數(shù)學(xué)或臨床的理由。 在解釋顯著性檢驗時要注意以下幾點:一個小的P值如P<0.05并不是一種治療優(yōu)越的絕對證明,每20個真正陰性試驗會出現(xiàn)一個假陽性結(jié)果;P>0.05也并不證明兩治療同樣有效,差異可能實際上存在,只是現(xiàn)有數(shù)據(jù)不足以證明它存在。統(tǒng)計顯著性并不等同于臨床重要性,一個10萬人的試驗中,1%的反應(yīng)率差異在5%水平是顯著的,但在一個20人的試驗中40%的差異在統(tǒng)計上也是不顯著的。因此,臨床的意義必須用差異的大小,即可信限來評價。 雙側(cè)檢驗和單側(cè)檢驗:假設(shè)治療差異可以發(fā)生在任一方向時,為雙側(cè)檢驗。雙側(cè)檢驗的零假設(shè)為μa=μb;備擇假設(shè)為μa1μb。如果在試驗之前就確定治療A不可能差于治療B,為單側(cè)檢驗。其零假設(shè)為μa=μb;備擇假設(shè)為μa≥μb。此時顯著性檢驗評價A好于B或A相當(dāng)于B的證據(jù)。若結(jié)果是A比B差,便歸于機遇,因為A不可能差于B。結(jié)果是單側(cè)檢驗的P值為雙側(cè)檢驗的一半。也就是說,單側(cè)檢驗比雙側(cè)檢驗容易拒絕零假設(shè)。采用單側(cè)檢驗應(yīng)該有足夠的依據(jù)。如果試驗設(shè)計中決定用單側(cè)檢驗,在結(jié)果表示時要注意一般統(tǒng)計軟件計算的都是雙側(cè)檢驗的P值。
(三)可信限的估算
顯著性檢驗只告訴我們一個治療比另一個好的證據(jù)的強度,并沒有告訴我們好多少。因此,顯著性檢驗并不是分析的終結(jié),還應(yīng)運用統(tǒng)計估算方法,如可信限估算治療改善的量。計算可信限時,應(yīng)注意被分析變量的統(tǒng)計分布;標(biāo)準(zhǔn)誤和可信限的計算方法應(yīng)該寫明。記住必須提供治療效應(yīng)大小的統(tǒng)計估算、顯著性水平和可信區(qū)間。100(1-α)%可信區(qū)間,正態(tài)分布估算值可表示為{估算值+Nα/2×SE},估算值+(N1-α/2×SE)};差值如呈t分布時,可表示為{x1-x2-(t1-α/2×SEdiff),x1-x2+(t1-α/2×SEdiff)}等。
(四)對象的基線水平的組間比較
對治療組的療效評價只有當(dāng)各組受試者的基線特征具有可比性時才是有效的。通常,隨機化可以提供充分的可比性。但是,隨機化并不能絕對保證可比性。有時候組間的基線水平可能會有差異。這種差異對治療比較的影響應(yīng)當(dāng)采用其他程序消除。
(五)調(diào)節(jié)顯著性和可信限水平
許多情況都可能產(chǎn)生多重性:例如多個終點/主要變量(如血壓記錄臥位或坐位的收縮壓和舒張壓;心肌梗死預(yù)防試驗中的各種原因死亡率和心肌梗死發(fā)病率),治療的多重比較(幾個治療組間比較或試驗藥物的幾個劑量組),及不同時間點的多次測定和中期分析等。存在多重性時,檢驗主要假設(shè)的次數(shù)增加,產(chǎn)生I類錯誤的機會就會變大。分析數(shù)據(jù)時可能有必要對五類錯誤進行控制和調(diào)節(jié)。首先,最好能避免或減少多重性的產(chǎn)生,如從多個主要變量中鑒別出關(guān)鍵的主要變量(如血壓記錄取臥位舒張壓為主要變量;心肌梗死預(yù)防試驗取死亡率為主要變量);對反復(fù)測定則采用一個綜合測量指標(biāo)如"曲線下面積"。多重比較的常用統(tǒng)計方法有Bonferroni方法、Holm法和Hochberg方法。Bonferroni方法是一個保守的方法,對于成對比較,它調(diào)節(jié)P值以控制總的I類誤差率。Hochberg方法比另兩種方法更有效,它只需控制最大的P值小于顯著性水平。多個終點的α調(diào)節(jié)用Bonferroni方法和Hochberg方法。
(六)亞組、相互作用和協(xié)變量
除了治療以外,主要變量常與其他影響系統(tǒng)相關(guān)。主要變量可能與協(xié)變量如年齡和性別有關(guān);或在受試者亞組之間可能存在差異,如多中心試驗中在不同中心接受治療。在某些情況下,調(diào)節(jié)協(xié)變量影響或亞組效應(yīng)是所計劃的分析的一個必要部分。要特別注意中心的影響和主要變量的基線測量值的作用。不要在主分析中對隨機化以后測定的協(xié)變量進行調(diào)節(jié),因為這些測定可能受治療的影響。此外,治療效果本身也可能隨亞組或協(xié)變量改變。療效可能隨年齡而下降,或在具有某一特殊預(yù)后因子的受試者中增大。這類相互作用在某些情況下是可以預(yù)見的,或具有特殊的意義(如老年病學(xué)),因此,一個亞組分析或包括相互作用項的統(tǒng)計模型是所計劃的驗證性分析的一個部分。對于定量反應(yīng)變量,多元回歸是最常用的統(tǒng)計調(diào)節(jié)方法,有時也稱協(xié)方差分析。對于定性反應(yīng),可以應(yīng)用多元Lgistic模型。
(七)評價安全性和耐受性
1.評價范圍
一個藥物的有用性總是在風(fēng)險和效益之間的平衡。在所有臨床試驗中,安全性和耐受性評價是重要內(nèi)容之一。在臨床研究早期階段,這類評價帶有探索性,僅注意毒性的表達方式;在較后階段,則是在大樣本對象中更全面地確定藥物的安全性和耐受性特征。后期的對照臨床試驗是以一種無偏倚方式揭示任何新的不良反應(yīng)的重要手段,盡管此類試驗的把握度有限。
2.變量選擇和數(shù)據(jù)收集
在臨床試驗中,選擇評價藥物安全性和耐受性的方法和測定取決于一系列因素:藥物不良反應(yīng)的知識,藥物非臨床研究和早期臨床試驗以及重要的藥效學(xué)/藥代動力學(xué)特征資料,給藥方案,被研究對象和研究持續(xù)時間。安全性和耐受性的主要數(shù)據(jù)通常包括臨床化學(xué)和血液學(xué)的實驗室測試(如WBC、SGPT),生命指征和體檢(如血壓、ECG),臨床不良事件(疾病、體征和綜合癥)。發(fā)生嚴(yán)重不良事件和因不良事件中斷治療對于注冊是特別重要的數(shù)據(jù)。 臨床試驗中使用共同的不良事件編碼詞典特別重要。這種詞典的結(jié)構(gòu)提供了在3個不同的水平總結(jié)不良事件數(shù)據(jù)的可能性:系統(tǒng)-器官分類,標(biāo)準(zhǔn)術(shù)語(preferred term)和包括術(shù)語(included term)。通常,不良事件按標(biāo)準(zhǔn)術(shù)語分類總結(jié),相同系統(tǒng)-器官分類的標(biāo)準(zhǔn)術(shù)語在數(shù)據(jù)的描述性報告中可以放在一起?,F(xiàn)在常用的有世界衛(wèi)生組織的《疾病和有關(guān)健康問題的國際統(tǒng)計分類》ICD-10,和美國的COSTART
3.評價的受試者和數(shù)據(jù)報告
安全性和耐受性評價中,所總結(jié)的受試者通常至少曾接受過一個劑量研究藥物。要盡可能全面地從這些受試者中收集安全性和耐受性變量,包括不良事件的種類、嚴(yán)重程度、開始時間和持續(xù)時間,以及處理方法和結(jié)果。評價時要注意所有安全性和耐受性變量。所有不良事件,不管它們是否與治療相關(guān),都應(yīng)當(dāng)報告。實驗室測定值的單位和正常范圍應(yīng)有明確定義。使用的毒性分級標(biāo)度(toxicity grading scale)應(yīng)當(dāng)預(yù)先說明。 通常一個特定不良事件的發(fā)生率表示為經(jīng)歷該事件受試者數(shù)相對于處于危險的受試者數(shù)的率。但是,根據(jù)需要,被暴露的受試者數(shù)或暴露程度(用人-年表示)可以作為分母。不管其目的是為了估算危險度還是在治療組間進行比較,應(yīng)該在方案中明確定義,這在計劃長期治療并預(yù)期會有相當(dāng)比例的治療中止或死亡時特別重要。在這種情況下,應(yīng)當(dāng)考慮采用生存分析(Survival Analysis),計算不良事件累積率以避免低估危 當(dāng)存在明顯的癥狀或綜合征基線噪聲時,估算不良事件危險度的一個辦法是采用"治療引發(fā)"(treatment emergent)概念,只記錄與治療前基線相比時原先沒有的不良事件或癥狀變重的不良事件。減少基線噪聲的其他辦法還有:不計輕度的不良事件,一個事件在重復(fù)隨訪中觀察到才計算。不論采用何種方法,都須在方案中說明理由。
4.安全性的統(tǒng)計評價
在大多數(shù)臨床試驗中,安全性和耐受性結(jié)論的陳述多采用描述性統(tǒng)計方法,輔以有助于解釋的可信區(qū)間計算。用圖可表示治療組內(nèi)不良事件的類型。計算P值有時也是有用的:可以評價一個事件的差異,或是在大量安全性和耐受性變量中突出值得進一步注意的差別。計算P值對于總結(jié)實驗室數(shù)據(jù)特別有用。實驗室數(shù)據(jù)可進行兩種分析:評價均值的定量分析和計算高于或低于某一個閾值的數(shù)目定性分析。