統計科學研究所
九十一年度研究工作重要成果

一•數理統計/統計計算

  1. 找出複合幾何分佈函數為動差可確定之充分條件。
  2. 利用複合幾何分佈函數的隨機不等式性質來特徵化指數分佈函數。
  3. 修正並改進Chong (1977, JASA)有關指數分佈函數之特徵化結果。
  4. 將Pitman efficiency的觀念推廣至李群上。利用一些微分拓樸的觀念證明Pitman efficiency的不變性,亦利用簡單的群表現理論證明Pitman efficiency不受方向及起始點的影響。如此一來在非歐空間如球面,Stiefel, Grassmann manifolds…等空間上所建立的統計procedures亦能有個比較的準則。
  5. 提出一個檢驗方法,以分辨長相關模型及結構改變模型,後者以其具有與長相關時間序列相似統計行為而著名。
  6. 對polynomial measurement error model作了一個review,提出新的結果。
  7. 對多維的linear measurement error model解決了adjusted least squares estimator的first moment不存在的問題。
  8. 對heteroscedastic linear measurement error model做了一個回顧並做出新的結果。此模型在應用中諸如工程、醫學、化學有較大的價值。
  9. 在馬可夫隨機模型的研究有相當的成果。特別是在hidden Markov 模型序貫分析(sequential analysis)的發展上有重要學理的貢獻。此外,在iterated random functions的極限理論, 重點取樣(importance sampling) 及 馬可夫隨機模型之選擇權定價(option price) 等方面的研究亦有結果。
  10. 用兩種模式(statistic and historical client models)去比較Pipeline factor,Pull-through和Hybrid 三種避險策略的表現。價格的變動、市場的變化、貸款者(borrowers)的差異,及貸款期限的長短都影響到避險策略的表現。發現上述的三種方法並沒有哪一種能夠絕對超越另一種。但是值得一提的是對提供借款者(lenders),例如承辦mortgage的銀行,一路下來的風險(pipeline risk)是一項很重要的風險因素。因此,Pipeline factor的避險策略是不可忽視而佔有相當重要的地位。
  11. 序貫分析於資料採礦之應用
    Introduced sequential methods to data mining process, and used a real example as a demonstration. The results show that the sequential methods can save a lot of computing time for clustering analysis in data mining when the databases are large and messy.
  12. 為統計百科全書第二版 ”Encyclopedia of Statistical Science” 寫了 ”U- and V-statistics” 及 “ Correlation Coefficients, Weighted”。
  13. 針對cGAP (categorical generalized association plots) 發展其色彩使用與數值分析之相對性與解析度。
  14. 馬可夫鍊之自助法及重點抽樣法: 主要動機來自於自助法,我們研究 Harris chains 的極限理論,導出其 Edgeworth 展式及針對一般狀態隱藏式馬可夫鍊的相似自助法,並涵蓋一些有趣的問題如 switch autoregressive model。

  15. 改進並平行化GAP排序法並加入診斷程序(diagnostic procedure)。
  16. 對於兩個常態分佈變異數比值的信賴區間,討論信賴度的估計問題以及提供一個比信賴係數還要好的信賴度估計量。
  17. 在單尾檢定上,當參數空間是非自然參數空間,也就是說我們可知此參數空間的上界或下界時,證明了UMP test的p-value不具有好性質。利用Bayes方法提出一個修正的p-value值,並證明此p-value具有好的性質。
  18. 在雙尾檢定上,已知uniformly most powerful test (UMP)是不存在,只存在UMPU test。在其他文獻上亦得知用UMPU test的p-value來當作拒絕虛無假設檢定的證據是不具有好的性質。因此利用Bayes方法提出一個修正的p-value值並證明此p-value具有好性質。
  19. 針對廣義線性模型提出一個新的模型選擇的方法,此法優於AIC及BIC等方法。
  20. 導出一個新的解析公式,用來計算矩陣指數的導數。
  21. 針對連續時間自我迴歸模式,提出一個計算拉格蘭治乘算器 (Lagrange multiplier) 檢定統計量的方法,用來檢定瞬間平均值是否為多階非線性。
  22. 利用Tyrone et al. (2000) 的碎形布朗運動的隨機微積分建立了一個連續時間長相關隨機過程。此新的模式可用來處理規則或不規則時間區間的離散型時間序列。
二•生物統計/生物資訊

  1. 對生物資訊(Bioinformatics)有初步的瞭解及正著手於對微晶片(microarray)數據的統計分析。
  2. 大腦磁振影像組織分割
    在3D 磁振影像上分割不同組織類型,及量測特殊部位灰質體積,一直是臨床研究的重要課題。文獻中,統計分割法假設不同組織的像位(voxel)灰階值成高斯(Gaussian)或羅吉斯(Logistic)分配,而觀察到的影像灰階質為這些分配的合成(mixtures)。本研究假設像位灰階質經非線性函數轉換之後成高斯分配,轉換函數中的參數可配合高斯合成分配的平均及變異數同時估計。此一新方法應用在T1-weighted 磁振影像分割時,較文獻中其他方法及SPM軟體正確,研究並將方法推展到其他磁振取像技術(scanning sequence)所收集的影像,分割結果也較其他方法正確,目前並將分割模式結合其他影像分析法如Markov random field等,以拓展模式的實用性。
  3. 腦電波訊息源定位
    腦電波訊號有較強的時間解析度,若能在大腦皮質上正確估計訊息源的位置,則腦電波可協助探討大腦認知的歷程。訊息源定位研究係國科會三年期計劃的一部份,目前研究成果仍以估計模擬的訊息源為主;模擬研究將大腦結構分為三層:腦皮層、頭蓋骨、及頭皮,並由http://www.mgh.harvard.edu/cma/ibsr/網站上取得一個大腦的磁振影像及灰質組織結構,計算它們在3D空間中的關係,再將其對映到Talairach 標準坐標上。腦電儀的電極共有32個,訊息源(電藕極)的部份採用De Munck (1988)模擬典型的誘發性電位之數據,共有二個電藕極(dipole sources),以適應式模擬退火法(adaptive simulated annealing)找出系統值函數 (cost function)之最佳解。結果發現不論是單一電藕極或雙電藕極,研究提出的訊息源模式均可以成功地將模擬的訊息源位置找出來。
  4. 功能性磁振影像分析
    功能性磁振影像分析包含了複雜的步驟:雜訊偵測、統計分析、3D腦影像繪圖、及反應區域的解剖部位確認等。本所Brain Image研究人員在國科會計劃補助下,主要針對雜訊偵測及統計分析進行研究;相關論文己發表於Human Brain Mapping會議,及經審查刊登於ICONIP會議論文集。目前研究的重點有二:改善文獻中獨立成份分析法的假設,使得實驗相關的獨立成份更符合應用所需,此方法己應用在視覺實驗的功能性影像分析,並發現更多有意義的獨立成份;其次,目前SPM或BrainVoyager軟體所採的General Linear Models,對時間序列的實驗數據作等量加權,受試者在實驗過程中若因為疲憊或頭部移動,未必對實驗刺激作持續性的反應或增加某些雜訊,皆會降低統計考驗的敏感度(sensitivity),本研究採Empirical Bayes方法分析功能性影像的時間序列數據,發現新方法可顯著提高統計檢驗的敏感度,對雜訊較高的受試者,新方法仍可找到重要的反應區域。
  5. 事件史分析之非比例風險迴歸模式的研究。
  6. 對慢性病流行病學追蹤資料的統計研究。
  7. 以生活史架構老化理論:以時間依變共變數發展了一個導式,將accelerated failure time model (AFTM)與general transformation models (including the Cox’s regression model)連結起來,稱此導式為“生活史迴歸模型(life-history regression model)”。應用此模型將17/18世紀的French-Canadian cohort作分析,嘗試了解此生活史架構的模型中人口結構與演化問題。
  8. 鳥類混群結構研究:本所同仁與陳炤杰博士共同研究福山實驗地鳥類混群的問題。確定了亞熱帶森林中鳥類混群的特殊結構並比較其與熱帶森林中鳥類混群差異性。此在鳥類研究領域上是一大突破。本研究認為混群中所傳遞的資訊勢必含有較大廣度,例如獵物的資訊、天敵的避免等以利於數種鳥類共同加入以行成混群。
  9. 在醫療政策的擬定與臨床決策上如何整合存活時間與生活品質的資訊一直是一個重要的問題且尚未有簡單的方法來解決。本研究將過去所提出的生活品質調整存活分析的方法重新以簡單的方式闡釋並應用到一組台大醫院的臨床資料與泰國一個乳癌追蹤研究計畫的資料上。這兩篇論文皆獲得生活品質研究期刊主編的重視,邀請專家撰寫評論。
  10. 比較 Support Vector Machines 及其他分類方法分類微晶片基因表現數據的準確度。
  11. 應用貝氏統計發展分析單片微晶片基因表現數據的方法及其演算法。
  12. 用分類方法找出500個基因來區分乳癌的細類, 這些細類是由乳癌的分生因子及其癒後分類而來。
  13. 將cGAP應用於下列數個生物資訊相關領域:
    cGAP for cDNA microarray expression data
    cGAP for Clusters on Orthologous Groups of proteins
    (COGs)
    cGAP for NCBI/SNP/Haplotype
  14. 開發cDNA microarray資料之檢驗及品管程序。
  15. 對數量性狀基因座(QTL)間的交感作用建立一模式(Cockerham’s model),並用之於數量性狀基因座定位研究。
  16. 釐清QTL定位上分辨緊密連鎖QTL的效能(power)與各參數間的關係。
三•工業統計/實驗設計

  1. 在平行生物試驗 (Parallel line assays) 下,當集區大小是奇數時,最佳集區設計-L-集區設計是不可能存在。因此,在 是奇數時,本研究提出一組高效率的集區設計-幾近 L-集區設計。在此組高效率集區設計,有一半的集區裡,標準處方的集區大小是 ,而試驗處方的集區大小是 ;令一半的集區裡,標準處方的集區大小是 ,而試驗處方的集區大小是 。這組幾近L-集區設計有下列兩個特點,(i)可估計合併迴歸和平行性對比正交於集區效應和可高效率的估計處方對比;(ii)上述三種對比估計值是兩兩互相正交。
  2. 在行列設計下的平行生物試驗,L-行列設計是最佳的。本研究成功的得到,(i) L-行列設計的充分必要條件- 和 是整數且 和 是偶數,其中 是列數; 是行數; 為標準處方和試驗處方的共同劑量數;(ii)一套完整L-行列設計的建構方法。
  3. 針對量化因子(quantitative factor),提出以indicator function approach來取代傳統的實驗設計理論架構。利用多項式來刻劃設計的幾何結構,並定義幾何同構(geometric isomorphism)來區分不同的量化因子實驗。新的偏差(aberration)標準亦被提出,以選取最小偏差設計。
  4. 對於不正規(non-regular)設計,探討選取最優區集(blocking)設計的準則。利用以多項式來表示設計,將word的定義,由正規設計擴展到不正規設計上,並定義不正規區集設計的word-length pattern (WLP)。基於此WLP,四個準則被提出來選取最優區集設計。
  5. 應用穩健母數設計(robust parameter design)於滑動水平(sliding level)實驗。
四•教育統計/心理計量/認知科學

  1. 學科能力測驗量尺分數理論基礎
    國內中考中心所發展的量尺分數係將原始分數進行非線性的Sin-1 函數轉換,轉換後的分數再調整其平均數及標準差,使考生最終的量尺分數值介於零至六十之間。原始分數分配在密度值(density)最大的部位其測量誤差最高,按照分數高低分發學校時,對測量誤差偏高的考生較不公平;Sin-1函數轉換由Kolen, Hanson & Brennan (1992)所提出,其主要功能在於使不同量尺分數的測量誤差穩定(或趨於一致),不致於對不同量尺分數的考生有不公平的情況。Kolen等人的研究中僅根據Feldt (1984)的誤差公式,檢定不同量尺真分數的誤差是否趨於一致。由於學校分發係依據考生量尺分數而非量尺分數的真分數,本研究在理論上推算不同量尺分數的條件(conditional)期望值及誤差變異(error of measurement),並以較簡單的公式推估量尺分數的信度。本研究比較統計上不同誤差穩定轉換函數(包括Sin-1函數)的效果,並對中考中心提出建議。
  2. 電腦適性測驗選題策略
    文獻中適性測驗選題策略,多依據最大訊息量;訊息量主要以Fisher訊息為主,也有文章建議採Kullback Leibler訊息。依據最大訊息由題庫中選題的缺點在於曝光率的控制較差,及無法有效的使用題庫中試題。文獻中曝光率控制的技術需先假設考生能力分配,再計算題庫中所有試題的控制係數;依賴控制係數的適性施測,能力值的估計誤差較大。本研究新發展了一套Nearest-Neighbor選題策略,該策略在選題時可同時考慮曝光率控制,且不需事先假設考生能力值分配。該策略不僅在不同能力值分配下能有效控制曝光率,且能力估計值較其他方法誤差小。
  3. 昆蟲的認知模型:以豆象產卵行為實驗所獲得的資料,界定了多個parameters用以描述豆象的行為,並從而建構了一虛擬昆蟲模型 — “the Robot”。此模型包含四個亞模型: 行進亞模型、區域搜尋及產卵亞模型、全域搜尋亞模型、以及環境認知亞模型。由這個模型,將可探討動態資料建模的統計問題,並進一步探討認知行為的可能運作型式。
  4. 圖形法之之變數選擇
    Introduced a graphical method to select important features from huge data set. This method can combine the information of unlabelled data, such that the learning process with imbalanced training data set can still have good prediction performance.
  5. 序貫分析於電腦測驗之應用
    Using sequential method in adaptive testing is popular in many standardized testing such as TOEFL and GRE. But it lacks theoretical justification of the stopping criterion. Here we proposed a stopping for CAT, and proved some of its asymptotic properties.
五•環境與空間統計
  1. 利用1997年和1998年環保署台北市空氣品質監測資料與台北市的心肺疾病急診資料來探討空氣污染與心肺急診人數的關係。整體分析結果發現單一污染物模型下,六種污染物中以PM2.5對小孩子呼吸道疾病與老年人心臟疾病之急診人數的增加有顯著的影響。考慮多個污染物混合暴露的模型下,則以PM2.5和其他氣體污染物同時暴露下的濃度對小孩子呼吸道疾病與老年人心臟疾病之急診人數有顯著的影響。
  2. 利用小波轉換對空間訊號及雜訊之差異性質,以及廣義自由度(generalized degrees of freedom)的概念,提出一個偵測空間訊號的強力無母數檢定方法。
六•機率論
  1. 隨機離散結構與算法分析上的相變現象:
    1.釐清了與快速排序法工作量相關的相變。
    2.同時亦對相關分析工具與微分方程提出系統性的理論。
    3.第二層相變現象的發現與證明。(所謂第二層指的是 較細的收斂速度變化與相對應的局部極限定理)
  2. 提出對一類數位搜尋樹所須空間使用量的隨機極限分析。
  3. 連接在快速選取次序統計量算法所須工作量的極限分布與數論上所謂狄克曼函數間的關係。
  4. 對一類算法分析上常見的遞推式(由極小或極大函數所定義)的行為提出一套漸近理論。
  5. Proposed a general asymptotic theory that covers almost all applications in sorting and searching problems where Cauchy-Euler equations appear. New phase changes of limit laws of new variations of quicksort were also derived.
  6. Derived an optimal convergence rate in the central limit theorem for the number of maxima in random samples chosen uniformly at random from the right triangle. A local limit theorem with rate was also derived. The result was then applied to the number of maxima in general planar regions (upper-bounded by some smooth decreasing curves) for which a near-optimal convergence rate to the normal distribution is established.
  7. Proposed a new maxima-finding algorithm with expected complexity n + O((n log n)1/2) when the input is a sequence of points uniformly chosen at random from general planar regions. Also presented a practical algorithm, more efficient than existing ones.