壹.三年內(88~90)重要研究成果暨未來五年研究計劃

一、研究成果

(一) 機率(理論與應用)
1. 平面區域內隨機樣本中極大點分布之極限定理。
2. 馬可夫鏈在狀態空間是可數的情形下之重對數律及中央極限定理。
3. 隨機多分支數與快速排序法上的相變問題之釐清。
4. 穩態相依高斯過程中,和與極大值的漸近分布。
5. 用 Regenerative 方法導出隨機遞迴函數上的極限定理。


(二) 數理統計與統計方法
1. 時間序列陣列中樣本二階動差的均勻收斂性。
2. 廣義U-統計量在Long-memory linear processes 下分解性質。
3. 多項迴歸在允許誤差下的小樣本估計量。
4. 隨機排班問題上之漸近有效策略。
5. 在信號加雜訊模型下low counts問題之釐清。


(三) 生物醫學統計
1. 交叉風險迴歸模型的理論及應用。
2. 研究在一truncated二項模型下Segregation Ratio的簡易估計量之負偏差並提出改良的方法。
3. DNA序列上不相似性的統計測量(假定基對組成滿足一馬可夫模型)。
4. 提出新的基因定位法來估計數量性狀基因座在染色體連鎖群上的位置和其作用的大小。此一多重區間定位法不但比傳統方法有效,其準確性也較高。同時也研究基因定位法上用最大概度法與用迴歸區間定位法的差別。

(四) 教育統計與心理計量
1. 聯招考試:提出大學考試分發入學制檢定的改進方法;同時明白指出入學考試過度簡易化及其負面效應。
2. 評等模型:提出在評等模型的界定問題上同等類的概念,並對這些同等類之結構進一步加以闡釋同時發對於其在模型數估計及配對上所遇到的困難提出解決使得Thurnstone模型在心理學上對於偏研究的實際應用更加普遍。
3. 心理計量:利用repeaters來估計可比較的成績並對適性測驗的特性層級提出估計。

(五) 工業統計與實驗設計
1. Bootstrap Method 用在火工品敏感度分析之上下檢測。
2. 提出Diallel Crosses上的最佳設計此法不但加入Block Effects也考慮一些特殊的組合能力。
3. 提出兩個在二階或三階Fractional Factorial Designs 上之Blocking Schemes的Criteria,允許較低階的效應亦可被評估。同時也得出新的最佳設計表。

(六) 統計計算與其它計算
1. 提出多維尺度法的Interactive Diagnostic Plots 與其在醫學資料分析上的應用。
2. 藉由Principal Hessian Directions 的考慮來處理交談式樹狀迴歸分析。
3. 低階hypercubes 上的排列routing 算法研究。
4. 一些編碼理論上有關Abel sums漸近行為的分析。
5. 應用序貫分析與方法於非獨立樣本的抽樣實驗,如電腦試題、資料採礦及資料庫中知識的掘取等。這些方法可相當程度提高效率與準確度。

(七) 時間序列與時空環境統計
1. 提出計算Lagrange multiplier 檢定統計量的方法。此法可檢定瞬間平均值是否具多重非線性的特質,同時也可處理不規則間隔時間數列或大量遺失資料的情況。
2. 研究台灣空氣汙染的健康效應,結果發現:
i. 學童因呼吸道疾病而缺勤與空氣中二氧化碳濃度有關;
ii. 一般民眾因呼吸道不適而就醫與大氣中的一氧化碳、二氧化碳及懸浮微粒有顯著相關。
3. 提出建構Nonseparable且時空穩定covariance函數全新的方法。提出利用適當波元的分解法以去除訊號收視中的雜質,此法在現今相關方法中具極大的競爭性。

二、發展現況


(一) 本所目前有八位研究人員經推薦而獲選為國際統計學會之會士。為全球統計相關學位中,該學會會士密度最高的研究單位之一。其中2位研究員也膺選為國際數理統計學會Fellow。


(二) 近三年間本所4位研究人員榮獲國科會統計學門傑出研究獎(全國共6位),其中2位為第二度獲獎。


(三)本所研究人員積極參與國際學術活動(含開會訪問及合作研究),並邀訪國內外學者,以增進學術交流。除與台灣統計學術組織共同舉辦大型會議外,並定期推動各項研討會,藉以推廣統計教育與在其它領域上可能的應用。本所於八十七年起積極辦理『客座系列專題演講』,目前已進行六次。


(四) 本所的Statistica Sinica (中華統計學誌)為國際性學術期刊,目前已進入第十一年。由於國際學術界的廣為認同,從1996年開始,由半年刊增為季刊發行。無論在論文內容、編輯、排版及印刷方面都獲得國際學術界的極高評價與肯定。中華統計學誌自1994年以來,SCI排名都在20餘名。自1997年起至今每年榮獲國科會「國內學術優良期刊獎」的傑出期刊獎。並於1998年被「科學引用文獻索引」(SCI)收錄,成為亞洲第一本被收錄的統計期刊。

統計所三年內十篇代表性學術論文:

1. Sangyeol Lee and Ching-Zong Wei (魏慶榮), On residual empirical processes of stochastic regression models with applications to time series, Annals of Statistics, 27 (1999), no. 1, 237-261.
A fairly broad class of stochastic regression models covering various standard time series models is studied. The main results of the paper provide independent and identically distributed representations for the empirical process of the residuals in terms of the empirical process of the true errors and the local structure of the underlying error distribution.

2. Gordon Simons and Yi-Ching Yao (姚怡慶), Asymptotics when the number of parameters tends to infinity in the Bradley-Terry model for paired comparisons, Annals of Statistics, 27 (1999), no. 3, 1041-1060.
The authors consider the consistency and asymptotic normality of the maximum likelihood estimator under the Bradley-Terry model. The situation in this paper contrasts with the well-known Neyman-Scott problem in which the number of nuisance parameters tends to infinity with the size of the sample.

3. Chi-Lun Cheng (鄭紀倫), Hans Schneeweiss, and Markus Thamerus, A small sample estimator for a polynomial regression with errors in the variables, Journal of the Royal Statistical Society, Series B, 62 (2000), no. 4, 699-709.
A least squares estimator, first introduced by Cheng and Schneeweiss (JRSS-B, 1998), for consistently estimating a polynomial regression of any degree with errors in the variables, is modified such that it shows good results in small samples without losing its asymptotic properties for large samples. Simulation studies corroborate the theoretical findings.

4. Fushing Hsieh (謝復興), On heteroscedastic hazards regression models: theory and application, Journal of the Royal Statistical Society, Series B, 63 (2001), no. 1, 63-79.
A class of non-proportional hazards regression models is considered to have hazard specifications consisting of a power form of cross-effects on the base-line hazard function. The primary goal of these models is to deal with settings in which heterogeneous distribution shapes of survival times may be present in populations characterized by some observable covariates.

5. Cheng-Der Fuh (傅承德) and Inchi Hu (胡膺期), Asymptotically efficient strategies for a stochastic scheduling problem with order constraints, Annals of Statistics, 28 (2000), no. 6, 1670-1695.
A sequential design problem in computerized adaptive tests is considered. A class of efficient strategies is constructed when the parameter value is ignored, which achieve the lower bound, based on the theory of sequential testing.

6. Hua-Huai Chern (程華准) and Hsien-Kuei Hwang (黃顯貴), Phase changes in random m-ary search trees and generalized quicksort, Random Structures and Algorithms, 19 (2001), no. 3-4, 316-358.
A uniform approach is proposed to describing the phase change of the limiting distribution of space measures in random m-ary search trees. The tools are based on the method of moments and asymptotic solutions of differential equations, and are applicable to many other recursive random variables.

7. Feng-Shun Chai (蔡風順) and Rahul Mukerjee, Optimal designs for diallel crosses with specific combining abilities, Biometrika 86 (1999), no. 2, 453-458.
Optimal designs for diallel crosses are considered when, in addition to the general combining abilities, the model also includes specific combining abilities.

8. Ker-Chau Li (李克昭), Heng-Hui Lue (呂恆輝) and Chun-Houh Chen (陳君厚), Interactive tree-structured regression via principal Hessian directions, Journal of the American Statistical Association, 95 (2000), no. 450, 547-560.
An interactive approach to tree-structured regression is introduced. Unlike other procedures driven by cost optimization, this approach focuses on the exploration of geometric information in the data.

9. Hsin-Chen Huang (黃信誠) and Noel Cressie, Deterministic/stochastic wavelet decomposition for recovery of signal from noisy data, Technometrics, 42 (2000), no. 3, 262-276.
An general empirical Bayes approach is taken and an estimator for the prior mean that is ``plugged into'' the Bayesian shrinkage formulas is proposed. Simulation studies show that the proposed method outperforms the well-known methods for recovering a wide variety of signals.

10. Chen-Hung Kao (高振宏), Zhao-Bang Zeng, and Robert D. Teasdale, Multiple interval mapping for quantitative trait Loci, Genetics, 152 (1999), no. 3, 1203-1216.
A new statistical method for mapping quantitative trait loci, called multiple interval mapping, is presented. It uses multiple marker intervals simultaneously to fit multiple putative QTL directly in the model for mapping QTL.

貳.未來五年研究重點

  近幾年來,本所同仁由於共同之研究興趣及更頻繁之互動,已逐漸形成研究群,積極參與多項跨領域研究計畫。目前主要研究方向,可概分為機率、數理統計、生物統計、工業統計、心理計量及社會統計、統計計算;以及環境與空間統計、計量財務統計二項重點計畫。
  在未來五年間,本所環境與空間統計之研究重點即將擴展為國內跨學門整合型研究計畫;計量財務研究將涵蓋於較大的研究領域複雜隨機系統之中。本所算法隨機分析之研究重點將較前更注重實際問題的應用。我們也將進行較大規模的所內合作研究,以進一步推動更多跨所之合作計畫。合作對象將包括院內生命科學學組的各研究所和研究中心、資訊科學研究所、數學研究所、經濟研究所及院外的有關學術研究機構。我們並將善用資料之地域性、方法學之創新及合作群之整合等的驅動力,發展一個在世界上具有特色之研究中心,並積極進行國際合作計畫。
  新興研究方向包括功能性基因體學之生物資訊與統計研究、複雜隨機系統之研究、人腦功能映像之統計研究、行為生態學之統計研究、生活品質之評估等方面。以下為未來七項主要研究方向之簡要說明:

一、環境與空間統計
  各種環境科技所量測的大量時間與空間研究資料提供統計學者與環境相關專家合作研究探討環境污染、變遷與健康效應等的機會。近年來有三個以環境研究為主的統計新期刊發行,環境統計已成為統計科學研究的重要領域之一。環境研究的幾個主題包括環境監測的設計與採樣策略、環境在時間與空間趨勢的描述與高污染事件的預測、污染直接排放或經合成與擴散效果後所導致的時空濃度分布、暴露評估與健康風險評估等。
  環境資料大多是在空間某地觀測的,在空間距離越相近的資料通常有越相近之表現。我們將繼續研究台灣空氣監測網的時空統計模式,也將運用小波理論,提出從週遭的監測資料對無監測地點的空間估計方法。
  近年來透過衛星觀測地球環境產生了巨量的大氣資料。藉由空間不規則分佈的巨量衛星資料中,我們將針對全球的環境變數提出一個在不同尺度區域的快速最佳統計估計方法。此外我們也將以統計方法結合昂貴但直接量測的地面測站資料與便宜而大量的衛星資料,以得到更高解析度之環境變數圖。
  地理資訊系統是一個非常強大的空間與環境資料分析工具,它可以清楚的呈現空間資料的趨勢及特徵。我們將在研究的各個階段中運用此一地理資訊系統,包括資料的檢索及儲存、資料處理、探究式的空間資料分析、統計模型建立、統計診斷檢查、及最終結果的呈現。

二、算法隨機分析
  算法隨機分析近來在文獻上廣受重視,這個研究方向引出很多有趣的隨機結構與極具挑戰性的數學問題。現今計算生物與網際網路的蓬勃發展,製造出前所未有的大量資料,這個趨勢使得漸進分析的角色愈形重要。
  另一方面,電腦在各學科的廣泛應用、更便宜且更快速的硬體製造、更方便且更穩定的軟體發展,在在皆使較獨立的分析(與軟體、硬體與應用無關)更為迫切。
  在未來三至五年間,我們將集中在下面三個大方向(彼此不相排斥):

1.相變:當結構參數改變時,某些結構性質隨之改變即所謂相變。而由於算法本身動態的特性,相變現象在算法分析上極為常見。這些現象在過去由於分析工具未成熟且電腦計算速度不夠快,並未被重視。然近幾年相關的研究(特別是電腦模擬)如雨後春筍。
2.樹狀模型:樹狀模型在各領域皆以最自然的方式出現,我們將側重研究不同樹狀模型上的隨機性質。
3.定序算法:這個方向近來由於計算生物的刺激在文獻上有廣泛的探討,然大多皆集中在算法改良,鮮有較數學分析的工作。

三、功能性基因體學之生物資訊與統計研究
  本研究領域將結合本所目前與生物資訊與遺傳統計相關的研究人員,藉由研究人力與資源較具領域性的整合,從事研究與統計、生物及計算有較密切關連的問題。嘗試發展較廣義且具實用性的統計或數學工具,俾便生物資訊之工作者使用。進而,藉由對實際生物問題研究的經驗,整理及發展更多系統性的統計及數學工具,以利生物資訊上問題的分析與解決;同時也致力推動更具實質性之跨所、院、校的合作計畫。除了激發更多研究者對此領域的興趣及投入外,也培養新一代的研究人員。
  此領域近期的整合將集中在下列幾個課題︰
一、生物序列算法之隨機分析(應用機率),
二、cDNA微晶片實驗設計之研究(實驗設計),
三、基因表現數據之分析與基因網路和路徑之重建(無母數統計),
四、類別性生物醫學特徵之群集分析與資訊視覺化(統計計算),
五、基因與環境交互作用於發病年齡之統計模式(生物統計),
六、量化性狀基因座定位研究(遺傳統計)。
  這些研究方向對於老鼠基因功能及突變致病模型的動物實驗之設計與分析,也將具有重要的意義。我們將發展與生物資訊研究有關的理論、方法、算則及軟體,並期望各研究課題間的關連性及互動關係的成長能促進(上述括號內)所內有關的較大研究方向之連動合作,將受益的生物資訊研究成果擴及至統計科學研究。

四、人腦功能映像之統計研究
  核磁共振造影及腦電波對於非侵入性的量測大腦心智相關的神經元運作歷程,近年來已有相當的進展。正常的人類大腦可細分為灰質、白質、及腦脊髓液等三個組織類型,由於知覺及高階心智活動相關的部位多集中在灰質,研究若能將灰質正確的區辨出,呈現的影像更具實質意義。此外,臨床診斷也藉由核磁共振影像量測灰質、海馬迴體積或小區域神經元活動量等以診斷失智症、癲癇、燥鬱及中風等疾病。將灰質標示後再量測體積可減少主觀判定的誤差。統計研究第一部份是發展分類模式並配合適當估計方法在三維度核磁共振影像上正確的分割不同組織類型及量測特殊部位灰質體積。重建的三維度灰質影像可支援功能性核磁共振造影研究,根據灰質組織所建立的大腦皮質網狀結構可支援腦電波訊息源定位研究。
  腦電波可以直接量測到大腦神經元的電流活動,其訊息源定位能力在時間解析度可達毫秒,空間解析度可達半公分。統計研究第二部份為提高腦電波的空間解析能力,提出可以估計訊息源之個數、位置、範圍及強度的方法;而一般的訊息源定位分析都在求一個最佳位置解。本研究解題是建立在統計模型及最大後驗分配及遞迴式類神經網路的架構上,其中的先驗分配則可引進電流方向、強度及空間平滑度等資訊。
  功能性造影是目前認知科學家探究心智活動的重要工具,其中開創性的實驗研究分析方法在序列的功能性影像中實際找尋有意義的神經元活動歷程,並在大腦三維度影像上標示此類神經元區塊。統計研究第三部份為建立韌性較佳的統計分類模式以協助開創性實驗研究找尋神經元的功能性聯結。韌性較佳的分類模式可在雜訊較大的情況下同時探測聯結性的神經元活動。

五、行為生態學之統計研究
  行為及生活史一直是動物以及人類相關科學研究之中心課題。本世紀後半葉,功能性基因的發展亦以行為或生活史為出發點,例如,由線蟲的發育所發現的延遲老化機制基因,以及從黃果蠅羽化研究出的生物時鐘基因。但是這些功能性基因如何將訊息傳遞到神經細胞及相關器官,進而產生行為或生活史變化還一直是科學上的謎團。
  本研究領域對於支配動物行為的功能性基因,做一項合作研究。本所與所院外同仁組成之昆蟲生活史與行為研究群,累積五年對豆象的試驗與分析,已成功的發展出一套「行為程式理論」,可以將錄影帶的資料轉為電腦程式,藉此程式,可以分析並找出生活史與行為對環境之變化模式。另外一組是台大昆蟲研究所的研究群,已成功的找到德國蟑螂的生物時鐘機制基因。但不論是果蠅或是德國蟑螂,生物時鐘的訊息傳遞一直還是科學界重要的問題。以生物時鐘為出發點,現在我們認為藉由結合此兩研究群,很有希望可以解開這個謎團。藉由這個謎團的解答,我們不只可瞭解動物的最基本行為與環境的交互作用,還將可衍生並開啟動物的生殖、學習與老化的機制基因。
  人類生活史與行為之研究成果也可以相對應的與功能性基因結合,也就是說我們的研究將是醫學及醫藥發展在這方面的灘頭研究。此計畫由功能性基因如何運作與訊息傳遞進而產生行為變化的新研究結果與新研究方法,應可以在世界上領先這方面的研究。
  在這個計畫中,我們將應用數種材料,如德國蟑螂、豆象、螞蟻等。這三種動物在生活史與行為研究上各有重要的特色,也是此兩研究群頗熟悉的研究對象。藉由他們的特性,我們可以在不同的時間點獲取適當的基因功能性變化, 並將之對應到細胞與整體層次的行為或是生活史的改變。由此方式去探索訊息傳遞是我們用小昆蟲為實驗材料的主要考量。

六、複雜隨機系統之研究
  本所這幾年在計量財務研究方面已有良好的初步成果,對於其他物理或生物
  現象的推論則可用較廣義之複雜隨機系統來研究。我們有興趣的複雜隨機系統包括隱藏式馬可夫模型、時間序列模型及其他新興的模型等。更明確的說,我們將從統計及機率的觀點考慮這些課題,即模型建構、參數估計和有效執行法及預測等方向著手。
  隱藏式馬可夫模型可應用在許多不同的領域,如計量財務、生物資訊、語音辨識及其他相關領域。在這些領域中,模型配適及參數估計是一樣重要的。在本課題中,我們將探討理論的性質以提供有幫助的觀點及有效率的計算方法以配合必需的工作。在這類模型中,一般而言,濾波及平滑法之執行是針對非線性模型;而非線性模型實際上是不可行的。因此,發展最佳濾波及平滑法之效率逼近法是有其必要性的。
  時間序列模型,如隨機波動模型、GARCH模型、跳躍擾動模型、長記憶模型等,在經濟、財務、水文、醫學、流行病學及其他相關領域之應用,已成為重要的研究問題。尤其,利用高頻率數據的財務時間序列,能夠幫助我們研究出更精確的財務行為特性,其而主要議題是針對模型之波動性。另外,心跳訊號的分析及其臨床應用,也須借重統計研究。
  新興的複雜隨機系統,如(隨機)神經網路、SVM模型、計算機網路、混沌模型、圖論模型、馬可夫蒙地卡羅術等,也是值得探討的研究工作。

七、生活品質之評估
  生活品質評估已逐漸地應用在臨床試驗上來評估醫療效果,在流行病學上來比較各種疾病族群的健康,在醫療經濟學上來估計各種健康照護的成本效益。最近有越來越多的生活品質評估相關統計方法發表,可見其重要性。重要的研究課題包括評估量表的發展與信度效度檢驗、配分系統與實際應用的探討。如何就一個疾病族群量測到多維的健康剖面圖做統計推論、需要什麼好的設計才能夠用來界定生活品質評估的發現是否有臨床上的意義。生活品質調整後存活為生活品質資訊與存活函數的一種結合,雖然廣泛被應用,但推論上一直仍有爭議。
  在國內一個包含多位臨床研究醫師、流行病學、統計、心理計量與經濟學者所組成的跨領域研究團隊已經開始健康相關生活品質的合作研究。本所同仁已積極參與相關的合作研究計畫,預期將發展出新的統計理論與方法,來提昇生活品質評估研究的品質。