LITERATURE RESEARCH文獻研究〕
Discussion on Importance and Urgency of Mathematical Statistics for Traditional Chinese Medical Research

論數理統計在中醫藥臨床研究中應用的迫切性

By Zhizhai Sun

中國•浙江省醫學會  孫芝齋


           Zhizhai Sun:    Abstract:  There are often errors or unsure conclusions within some research papers. This situation can often be caused by improper research design such as not properly following the principles and methods of mathematical statistics, improper data collection, and improper observation.  This paper discusses several issues such as the choosing the correct sample size, selecting control groups, and statistically analyzing the data. This paper also cites real cases in order to explain the key points, and corresponding suggestions are also presented.

 


    運用現代科學方法和手段,發掘、研究中醫中藥,不僅是中醫現代化,發揚中醫藥事業的需要,也是為發展人類整個醫學科學,為世界人類健康服務的需要。而作為以概率論為基礎發展起來的數理統計這一新興學科,已在經濟社會學和多種自然科學領域中得到廣泛的應用。同樣,在醫藥科學研究,包括中醫研究中,也是一種必不可少的工具和手段。

    科學研究的根本任務是在於揭露隱藏於事物偶然性背後的必然性。所謂偶然性乃指客觀事物發展過程中,可以出現,也可以不出現的,可以這樣出現,也可以那樣出現的現象,它是由事物外部或事物內部的次要的,非根本性原因所引起;而必然性是客觀事物發展過程中必然會發生,不可避免的趨勢,它是由事物內部根本原因所引起的,反應事物的本質體系和規律。在現實生活中,主要原因和次要原因總是混雜在一起發生作用,使事物現象呈現不確定性,且在個別觀察時,往往使必然性暫時被掩蓋起來,這就是通常所稱的隨機現象。數理統計原理與方法,恰恰能夠幫助我們面對隨機現象設計出一套最節約人力、物力和時間的怎樣去搜集資料、整理分析,透過事物的表面現象,認識事物的內在規律性,避免被假象所迷惑,認識事物的本質。所以,它是一門方法論科學。

    回顧中國大陸數十年來,在繼承和發揚中醫藥事業,無論在人才培養,還是在開展臨床、科研工作方面,都取得了長足的成績。在中醫臨床觀察、實驗研究的文獻報導中,可以看到越來越多地依照數理統計原理和方法,進行良好的科研設計,對獲得的資料通過統計學處理,從而作出科學的,有說服力的結論。然而,不可否認迄今仍有一部分中醫臨床研究報告,事先沒有按照數理統計原理和方法作出科研設計,搜集資料或觀察方法不當,對數據缺乏或不能正確的作統計學處理,以致信息失落,或受假象所迷惑,不能認識事物的內在體系和規律,作出了難以令人置信、甚至是錯誤的結論,貽誤工作,損壞自身形象。

    現將常見的一些問題或統計差錯歸納並舉例如下:

一、重複實驗觀察的數量問題

    概率論中常以擲一枚兩面均勻的硬幣為例來說明典型的隨機現象。擲後可能出現正面,也可能出現反面,其結果擲前是未知的,因而是不確定的,少數幾次投擲,也看不出什麼規律,然而隨著重複投擲次數的無限增大,就會發現正面或反面的出現頻率趨於穩定在一個數(0.5 附近這樣一個規律,因此,自然可以利用這個數來度量事物出現的可能性,並稱之為概率;還可以根據重複投擲次數的多少和事物出現的頻率,用統計估計的方法來推論這個數所在的範圍。又如,新生兒的性別比例,在每個家庭中觀察,也參差不齊。但如果進行大量的觀察,也會發現其男女性別接近1:1。這都說明事物的規律往往會隨著重複觀察(試驗)數的增多而顯現出來。其原因是在於事物外部非本質因素的作用在大數量的實驗觀察時互相抵消,而內部的、本質的因素,其作用就突出起來。

    在中醫藥臨床研究中,如觀察某種方藥對某病的療效,雖然不可能作無限病例的治療觀察,一般只能通過局部的,有限的病例作臨床實驗的結果來推論總體。但是,到底要實驗觀察多少病例?即樣本的含量問題,是值得注意的。過少,提供信息不足,說明不了問題;過大,則浪費人力、物力和時間,也無必要。現在,中醫臨床觀察報告繼續存在的問題是缺乏一定數量的重複。例如,某刊報導“六味地黃丸治驗(女性不孕)三則”[1],“紫癜案一例治驗”[2],這就會令人置疑是偶然現象呢?還是必然規律?是否經得起重複實踐的檢驗?又如,某資料介紹“五參飲”治療冠心病心律失常,痊癒率44.44%;治療心肌炎心律失常,痊癒率為40.00%,進一步查閱該資料,實際上前者僅治9例,治癒4例;後者治5例,癒2[3]。樣本含量過小,這兩個痊癒率代表總體的可靠性就差。如對這兩個痊癒率計算它的95%可信區間,分別為16%∼84%,5%∼85%,其區間範圍很寬, 也就是其精確度很低。當然,筆者並不否定個案報導,世界上有許多新的發現,往往是偶然現象中得到啟示:從“1”這個數字開始的。但是要證實它是一個規律的東西,仍要求有一定數量的重複,即一定的樣本含量。數理統計學上常根據研究對象、觀察指標的變異程度、工作要求的精確度、允許誤差,以及實際可能是提供的人力、物力等條件來設計樣本含量的。

二、對照組的設立與可比性

    在實驗研究中,當實驗對象接受了某種處理後,就要觀察是否發生某種效應。如果發生了某種效應,還不足以說此效應是處理引起的,因為實驗對象也有可能在未接受處理而發生相同的效應,正如在臨床上遇到的不少疾病有自然緩解和自癒現象,藥物治療後的痊癒或緩解,究系藥物作用?還是疾病本身的自然轉歸現象?抑或兩者都有關聯,但不知關聯程度有多大?這只有設立不給處理(藥物)的對照組,才能鑒別出來。也就是當試驗組發生效應而對照組不發生,或試驗組發生效應的數量、程度顯著超過對照組,這才可以下“處理與效應之間有關係”的結果。

    某雜誌介紹“馬板湯治療帶狀泡疹30例”[4],結果全部“治癒”,且稱:“採鮮馬齒莧搗敷患處療效更佳”。由於該項臨床觀察沒有設置對照,也沒有提供療程多長,而帶狀皰疹一般都能自癒,因此就無法鑒別出究竟是自癒現象?還是馬板湯的效果?或者用馬板湯後病程能比自然痊癒者縮短多少天?所稱鮮馬齒莧外敷療效更佳,也沒有對照比較來證明“更佳”在哪裡?又如某刊報導甲氰咪呱配合中藥“胃方” 治療消化道潰瘍及慢性胃炎185例,臨床治癒154例,有效39例, 總有效率98.9%。

作者認為甲氰咪呱“與中藥胃方配合療效更佳”[5]。本例也應設中藥胃方治療組、甲氰咪呱治療組和兩藥配合治療組來比較是否確系配合治療的效果更佳。還有如“用某藥治療急性黃疸型病毒性肝炎,80%的病例於入院後二週退黃,因而得出該藥有明顯退黃效果的結論”[6]。但進一步分析該組病例起病至入院時平均在一週以上。我們知道,此類病人的黃疸,持續兩週後也大多能自行消退。所以,這80%病人的黃疸消退,是藥的作用?還是疾病的自然轉歸現象?也只有通過對照比較,才能顯示出它的內在規律。

    對照的形式有空白對照、標準對照、回顧對照、兩組或多組的組間對照、自身對照、配對對照、交叉對照等等,示實驗觀察的對象、內容、要求、條件而定。但必須強調的是在等同條件下的對比,也就是說,實驗觀察組與對照組除了處理不同之外,其他條件都要求等同或相接近,否則就難以說明是處理不同引起結果差異?抑或其他條件因素影響造成的差異。如某刊報導60例金黃色葡萄球菌肺炎,與同期收治的年齡、性別兩組間無顯著差異的非金葡菌、非革蘭氏陰性桿菌肺炎65例比較,兩組的治癒率、病死率相差懸殊,差異的顯著性檢驗,P值均<1。認為病原不同,預後不同。然而本文提供的資料說明金葡菌肺炎組起病至入院天數、病程、X線顯示的病變範圍、程度均顯著地比對照組長和嚴重,當然會影響到預後,另外,還混雜有前組有延誤治療的因素(起病至住院日),因此,本文“金葡菌肺炎治癒率顯著低於對照組,而病死率則高於對照組[7]的結論,說服力不強。又如,某刊報導用中西醫結合方法治療上消化出血36例,顯效21例,有效14例,無效1例;對照西藥組36例,顯效13例,有效18例,無效5例,認為兩組療效差異具有顯著性[8]。(提示中西醫結合組療效優於對照組)。但進一步閱讀該文的兩組病例分別由不同比例的消化道潰瘍、胃炎等所組成。對照組還含2例食道靜脈破裂。內部組成的不同,即使用同一療法,也有可能出現不同結果,故對本文的結論,也就難以確認。

    在臨床觀察的對照比較中,足以影響結果的非處理因素甚多,諸如病原體的種、型和耐藥性、病情、病程、患者體質、免疫水平、遺傳因素、營養、生活習慣與嗜好、氣候、環境……,特別是社會心理因素,有時往往會嚴重地干擾觀察結果。因此,有主張最好採用雙盲法研究,但目前在國內採用者還不多。

三、統計指標和統計方法上的差錯

    臨床研究中,在兩組或多組比較時所獲得的資料,僅憑表面數字,不作統計分析就下結論的現象已大為減少, 有人統計國內五種醫刊1984595篇論著,統計方法使用率71.3%,而19491959681篇論著中只有23.2[9]。孟慶雲氏還提出“實現數字化是中醫現代化目標之一”[10]。然而,迄今誤用統計指標或統計方法不當者仍非個別。在誤用統計指標上,最常見的是以構成比當作率。如某刊[11]報導甘麥大棗湯治“臟躁”,是否按原方加味的有效率比較如表1.


 

表1  甘麥大棗湯臨床使用有效率

方劑

  

       (%)

       

       (%)

      

         (%)

甘麥大棗湯原方

30        ()

50       (15)

80        (24)

甘麥大棗湯加味

232      69

22       ()

254       (76)

 


    上表括弧中的百分數,顯然不是有效率,而是全部334例的各個構成比。其原因是對這兩個指標概念上的混淆。率,乃指現象發生的頻率或強度,構成比是事物內部各部分的比重,其總和是100%。據率的概念,計算甘麥大棗湯原方的有效率是3080×10037.5%,加味的有效率是232254×10091.34%。

    某刊最近報導在搶救有機磷農藥中毒的24例重度中毒病人時,所用阿托品總劑量16855367mg,而所有重度病例達到阿托品化的用量是50420mg[12]。據此,可以看出各例的總劑量相差懸殊,而要用到數萬mg者畢竟是少數或個別病例,但作者卻用算術平均數(`X)這個指標,則此平均數很可能因個別大變量值而偏拉向大,這就不可能確切地反映該組病例所用總劑量的集中趨勢。平均數僅適用呈對稱性或接近對稱性分佈的資料,本例因個別大數而呈偏態分佈,或變量的差異大,分佈不規則,以選用中位數或百分位數的指標為宜。

    統計方法使用不當,也會使已得到的信息失落,難以解釋某些實驗觀察的結果,甚至有可能作出錯誤結論。筆者曾在國內為某刊撰文舉例對19例遷延性肝炎根據中醫分型,然後測定淋巴細胞轉率,以探討關係,結果如表2。


 

表2  19例遷延性肝炎中醫分型與淋巴細胞轉化率

辨證

測定例數

測定結果(例數)

 正常                低下

正不虛

氣虛

陰虛

氣陰兩虛

                 

                 

                 

                 

 


    原文作者對19例中有17例屬虛證, 認為是“符合臨床上病程長者虛證多”的觀察,但對虛證中淋轉率低下者只有9例,而正常者有10例,就無從解釋。於是說:“雖一般認為肝炎與細胞免疫關係較大,但要從免疫學方面說明中醫辨證依據,就不能單憑細胞免疫,更不是非特異性淋轉一項指標所能反映”。從而否定了兩者關係。表2數據所提供的信息是否就此了結?如果能根據表中幾處出現零,且樣本總數又小於40,而分別將不同虛證病人的淋轉率正常與否進行比較,採用“四格表精確檢驗法”,就可發現在虛證病人中,氣虛組與陰虛組的淋轉率差異有非常顯著性,其餘各組間無顯著性差異不顯著,從而提示對虛證病人還要區別對待,其中氣虛病人淋轉率顯著低下﹝13﹞。又如有下列資料和結論,也屬於統計分析方法問題,見表3。


 

表3    電針引產成功率比較

 

 

 例數

成功(例)

卡方值

初產婦

經產婦

604

167

428

128

70.9

76.6

1.900

0.05

已破

未破

398

373

318

238

79.9

63.8

24.002

0.01

 


    原作者的結論:“電針引產對胎膜已破成功率高於胎膜未破,而與產婦屬初產或經產無關”[14]

    本例雖應用X2檢驗,發現胎膜已破、未破者之電針成功率有顯著性差異。但問題是在於實際上是兩因素的交叉,而原文在分析產婦是初產或經產的成功率時,不考慮胎膜已破、未破的因素,以及初產婦組和經產婦組內部所含的胎膜已破、未破者的比例,兩組是否均衡?在分析胎膜已破、未破的成功率時,又不考慮初產、經產的因素。故應根據原來分佈於初產、經產婦組中的胎膜已破、未破的觀察樣本數(見表4,n欄)及其電針引產成功率(見表4,%欄)作交叉比較如下表,並作兩個率比較的u檢驗(結果見表右、表下)。

 


表4  初、經產婦胎膜已破與否電針引產成功率比較

 

 

  成功數 

  成功數 

 

 

初產

 

經產

331  258  77.9

 

67   60   90.0

273   170   62.3

 

100    68   68.0

 

=4.19

Ρ<0.01

=3.71

Ρ<0.01

=2.80 Ρ<0.01      =1.03  P>0.05

 

    修改後的結論:在胎膜已破者中,不論初產婦或經產婦,電針引產成功率都高於胎膜未破者;而胎膜已破的初產婦與經產婦比較,又以經產婦的成功率為高;胎膜未破者當中,看不出初產婦和經產婦的差別。

    由此可見,採用的方法當否?關係到信息是否被失落和結論的正確與否。

    中醫藥臨床研究的統計和分析檢驗是比較複雜的,尤其是許多客觀指標(特別是中醫臨床應用某些術語如氣虛、陽虛……等的客觀依據)亟待建立和量化。以上僅舉一些涉及設計原則問題,或常見的、顯而易見的統計失誤例子,旨在拋磚引玉,並引起同道們的重視。

參考資料

    1﹞河北中西醫結合雜誌,199544):134

    2﹞河北中西醫結合雜誌,199542):126

    3﹞首屆全國中醫學術會議資料  五參飲治療心律失常  1979

    4﹞山西臨床醫藥,199542):153

    5﹞浙江中西醫結合雜誌,199554):34

    6﹞臨床科研統計方法,江蘇科技出版社,1985,第一版;20

    7﹞中華內科雜誌,198423544

    8﹞醫藥實踐雜誌,199596):42

    9﹞中華醫學雜誌,1986669):554

    10﹞中國醫藥學報,198723):63

    11﹞中國醫藥學報,198723):48

    12﹞河北中西醫結合雜誌,199651):62

    13﹞新中醫,1982548

    14﹞中西醫結合研究思路與方法學,上海科技出版社,1985,第一版:6770

 


洽詢地址Add.: 2712 San Gabriel Boulevard
Rosemead, CA 91770 U.S.A.

電話Tel.: (626) 288-1199

傳真Fax: (626) 288-4199

http://www.sotcm.com/Arrow.gifReturn to Journal of SOTCM Professional Edition Page