矩陣資料視覺化與資訊探索

陳君厚 教授
中央研究院 統計科學研究所

資料視覺化,簡而言之,就是以圖像取代資料中的數字,以呈現出資料的特性。其作用在於從「看圖」獲得資料所傳達的訊息。由於人類較不擅於在眾多數字中觀察資料的型態及結構,使用圖像可以更方便我們掌握資料的特性。得到初步的認知與描述之後,進而從資料中發掘出「資訊」,做進一步的分析與判斷。 因此,廣義而言,常見的統計圖表,例如直方圖、圓餅圖、散布圖等都可算是資料視覺化的範疇。

資料視覺化的目的之一,就是希望呈現資料的主要特徵,對蒐集的資料有全貌的瞭解。在過去及現在的研究有相當高的比例都投注在「維度縮減」相關的工作上。這一類的技術在資料量不大,尤其是變數不多時,對於資料結構的探索扮演了重要的角色。然而目前常見的各種統計分析資料檔,變數少則上百、多則成千;維度縮減技術,在視覺化的資料結構探索工作上已不敷使用。這裡要介紹的全矩陣式資料視覺化,有不受限於資料維度的特點。其基本原則是對原始資料矩陣及其兩個關係矩陣(變數與樣本),透過適當的顏色呈現,並將資料矩陣重新排列,使其呈現出資料的群性以及群組間結構的交互關係。

一般統計分析要處理的資料都是全矩陣視覺化的可能對象,全矩陣視覺化具高度之變通性,針對不同的資料結構與應用需求可以輕易進行改造。例如應用於基因微陣列資料,地圖學資料的呈現等。全矩陣式視覺化雖然不完全是一個新的研究領域,卻仍是一個尚待開發且頗具潛力的礦場,存在許多的研究課題與應用技術。當然此領域之研究工具除了常用之數理與統計方法外,增加了一項電腦繪圖之技巧(介面)。最後將介紹數個較有趣且與其它統計研究領域相關之全矩陣式視覺化可能發展課題。

 

 

 

 

 

 

 

 


 

 

A Statistical Recipe for Data Mining
資料探勘中不可不知的統計工具

Lee, Yuh-Jye ( 李育杰 教授  國立台灣科技大學 )
Department of Computer Science and Information Engineering
National Taiwan University of Science and Technology

 

Data Mining, a process of extracting hidden and useful information or discovering knowledge from massive datasets, has been rapidly developed in this decade. Many fundamental problems in Data Mining such as classification, regression, feature selection, and clustering will be addressed in this talk. Many of these topics have been investigated in Statistics for a long time. We will emphasize many important statistical concepts which are used intensively in Data Mining such as Bayes rule, cross validation, stratification, and testing hypothesis. We describe two classification algorithms Naive Bayes and Support Vector Machine (SVM). We then use k-fold stratified cross-validation and ROC (receiver operating characteristic) curve to evaluate each learning algorithm as well as use paired t-test to compare these two learning algorithms.

 

 

 

 

 

 

 

 

 

 

決策與誤差

黃文璋
國立高雄大學應用數學系

 

一艘俄國的核子潛艇向美國釋出投誠的訊息。在尾隨其後的美國一艘潛艇上,美方一分析家相信他們真的要投誠,但艦長半信半疑,為先發制人,隨時準備發射魚雷。在深海中狹窄的水道中航行,到一出口,分析家為了讓艦長相信他對俄國潛艇的判斷準確,說"你看他們要右轉"。果然是右轉,艦長立刻下令攻擊取消的命令。事後好奇地問分析家怎麼知道他們要右轉? 分析家說"我其實不知道 ,但二分之ㄧ的機會。" 這是電影獵殺紅色十月 (The Hunt for Red October) 中的情節,史恩康納萊 (Sean Connery)飾演那位俄國艦長,亞歷鮑德溫 ( Alec Baldwin) 則是那位善用機率的分析家。

我們常在做各種決策。例如 ,病人生什麼病 ? 這種藥有沒有效 ? 這位被起訴者是否真有罪? 銅板出現正面的機率是否為 0.6 ? 公司下一年之獲利是多少 ?  A電池用較久還是B 電池 ? 買樂透彩該簽什麼號碼 ? 對於隨機現象所做的決策,不論是純用猜的,或依據某種科學方法,皆難免有失準的時候。但總希望雖不中亦不遠矣,因此誤差的大小,是做決策時所須顧慮的。這其中又有一些令人迷惑的問題。例如,偶有氣象局宣佈降雨機率為 0.9 卻沒有下雨,降雨機率為 0.1 反而傾盆大雨。有人會以專家的口吻告訴你,不能只由一天,兩天的結果,就下結論說準或不準,要看很多天 。就像二分之一的機率,表銅板投擲一百萬次,就約有50萬次是正面,50萬次是反面。真的是這樣嗎 ? 本文將從統計的角度,對決策的行成,及誤差的掌握,做初步的介紹。並藉此釐清有關隨機的一些基本概念。

 

 

 

 

 

 

 

 

 

心中有數—淺談數字學問

林共進 教授
美國賓州州立大學

有所謂的文字學問,有所謂的數字學問。在這個資訊爆炸的年代,數字學問扮演著愈來愈重要的角色。生活在這個年代,我們必需心中有數。雖說數字會說話,但是當數字說話的時候,你聽得到它的聲音嗎?你聽得懂它想告訴你的訊息嗎?打開你那扇數字心靈的窗,讓我引導你們學習如何解讀那繽紛的數字世界。

 

 

 

 

 

 

 

 

 

 

 

 

 

How “Crude” is Harvard President’s Calculation?
哈佛大學校長對男女成就比率的估算有多粗略?

Xiao-Li Meng ( 孟曉犁 教授 美國哈佛大學 )
Department of Statistics, Harvard University


During his now widely read and scrutinized remarks at the NBER conference held in January 2005, Harvard President Larry Summers made a “very crude calculation” for estimating gender ratios in “top” groups, consisting of those who score very highly on certain tests. From a conservative estimate of 2:1 male-to-female ratio in the top 5% group, Summers concluded that a conservative estimate of the ratio in “very top” groups would be 5:1. The purpose of this lecture is to carry out a careful examination of Summers’ arguments, as well as to provide a more refined estimate, ultimately showing that Summers’ 5:1 estimate is indeed very conservative. Although this is a relatively simple estimation problem, it has all the fundamental ingredients underlying statistical inference, from model formulation to uncertainty assessment to sensitivity analysis. It also reminds us of the danger of mixing association with causation. It therefore provides an excellent case study to introduce newcomers to the wonderful, and sometimes mysterious, world of Statistics, a fundamental discipline for all modern quantitative scientific investigations.

 

 

 

 

 

 

 

 

 


 


我到底是個怎麼樣的人?—淺談心理測驗

蔡蓉青 教授
台灣師範大學數學系

常常有人要我回答有趣的心理測驗,譬如如果哪天一早起床時發現自己變成狗會如何反應?或者到森林裡去時希望遇到的第一隻動物是什麼?然後依此對我的性格做一些臆測。有趣的是,有時候感覺還蠻準的。到底這樣的心理測驗準不準呢?如何能設計出一種心理測驗是比較準、比較值得相信的呢?其實在心理或教育的學門裡,測驗是非常普遍的,而且有一些統計的方法可被利用來檢視測驗的品質。這裡我們將以EQ這個常聽到的能力為例,來探討一般測驗的發展、結果之解釋及其局限。至於到底要比較信任哪一類的心理測驗,是單由喜歡的顏色來看性格還是透由人格特質量表來認識自己的個性呢?就交給你自己去決定了。說不定你的這個決定也和你哪天一早起床時發現自己變成狗會如何反應、或者你是較傾向於五大人格特質中的開放性還是嚴謹性有關係呢!

 

 

 

 

 

 

 

 

 

 


 

 

如何『讀』統計

張源俊 教授
中央研究院 統計科學研究所


"There are three kinds of lies: lies, damned lies and statistics."
- Autobiography of Mark Twain

美國文豪馬克吐溫在其自傳中說:『謊言有三種---謊言、可惡的謊言和統計•』 統計在現代生活中處處可見,人們習慣用數字來強調個人的論點,新聞報導中也經常引用各種數據•然而你真的懂統計的意義嗎?『如何利用統計說謊』成了政客、推銷員的必修課•在這個演講中,我們將討論如何『讀』統計,並告訴你如何利用網路資源學統計及統計和e-Learning的關係•