週記(十六)
2025-05-10
Table of Contents
修課
書法課繼續練習智永千字文。老師給大家發了一個迷你扇子,希望大家可以自己設計扇子的形式,然後寫上兩個字(示例是「清風」)。總覺得寫什麼字都挺裝的,但寫諸如「吉娃」這類的字又似乎太沒情調。目前沒什麼靈感。
統計學習課繼續上 functional data analysis。
研究與閱讀
Delaigle and Hall (2012)
為了統計學習課的 paper presentation,讀了這篇文章。文章發表在 JRSSB,標題是 Achieving near Perfect Classification for Functional Data。雖然我不是 functional data 的專家(連初心者都稱不上),但有感覺到這篇文章確實提供了一種觀點。好的期刊文章,作為一種好的寫作,確實就是提供讀者一種新的觀點。
假如我們看到一個資料集 \((X_i, I_i)\),其中 \(X_i\) 是一個定義在 compact set \(\mathcal{I}\) 上的隨機函數,而 \(I_i\) 是一個二元變數,表示 \(X_i\) 的類別。如同很多 functional data 的文章,首先作者定義共變異數函數 \[ \operatorname{Cov}\{X(u), X(v)\} = K(u, v) = \sum_{j = 1}^\infty \theta_j \phi_j(u) \phi_j(v), \] 其中 \(\theta_1 \geq \theta_2 \geq \cdots{}\) 是特徵值,而 \(\phi_j\) 是對應的標準正交的特徵函數。
作者定義了 centroid classfier,即對於一個新的隨機函數 \(X\),我們可以計算它與兩個類別的 centroid 的距離,然後選擇距離較近的類別。
所謂 centroid classifier,就是計算以下的統計量 \[ T(X) = D^2(X, \bar{X}_1) - D^2(X, \bar{X}_0), \] 其中 \(D^2(x, y)\) 是某種距離,而 \(X\) 是一筆新資料(在多變量的統計學中是歐氏空間中的點,在函數資料中是一個函數),\(\bar{X}_1\) 和 \(\bar{X}_0\) 是兩個類別的 centroid。當 \(T(X) > 0\) 時,我們就判斷 \(X\) 屬於類別 1,否則屬於類別 0。所以顯然地,多變量的 LDA 是一種 centroid classifier,只是 \(D^2\) 是 Mahalanobis distance,定義為 \(D^2_{\Sigma^{-1}}(x, y) = (x - y)^\intercal \Sigma^{-1} (x - y)\),其中 \(\Sigma\) 是資料的共變異數矩陣。在文章中,作者則是定義 \[ D(X, \bar{X}_k) = | \langle X, \psi \rangle - \langle \bar{X}_k, \psi \rangle |, \] 其中 \(\psi\) 是一個定義在 \(\mathcal{I}\) 上的函數,\(\langle \cdot, \cdot \rangle\) 是 \(\mathcal{I}\) 上的內積。因此, \[ T(X) = (\langle X, \psi \rangle - \langle \bar{X}_1, \psi \rangle)^2 - (\langle X, \psi \rangle - \langle \bar{X}_0, \psi \rangle)^2. \] 不失一般性地假設類別 1 的母體平均函數是 \(\mu\),而類別 0 的母體平均函數是 \(0\),則根據大數法則,\(T(X)\) 收斂到 \[ T^0(X) = (\langle X, \psi \rangle - \langle \mu, \psi \rangle)^2 - \langle X, \psi \rangle^2. \] 至於 \(\psi\) 要選什麼呢?在文章中,作者定義 \[ \psi^{(r)} = \sum_{j = 1}^r \theta_j^{-1} \mu_j \phi_j, \] 其中 \(\mu_j\) 是 \(\mu\) 在 \(\phi_j\) 方向上的投影,\(\theta_j\) 是 \(\phi_j\) 所對應的特徵值。這樣的 \(\psi\) 在 \(r\) 趨近於無窮大的時候,可以給我們最適的分類結果,而特別在 \(\sum_{j = 1}^\infty \theta_j^{-1} \mu^2_j = \infty\) 時,漸進錯誤率為 \(0\)。這看起來是很厲害的結果,但其實也很好理解,\(\sum_{j = 1}^\infty \theta_j^{-1} \mu^2_j = \infty\) 意味著(不只有)無窮大的信噪比,因此能達成完美分類,而這也是 functional data 的特性。事實上,正因為很多分類方法都是一種 centroid classifier,因此這篇文章的結果說明為何在 functional data 的情境中,這些簡單的線性方法就可以達到非常好的分類效果。
Robert et al. (2023)
這篇發在 AER,標題是 The Economic Origin of Government。本文探討政府起源的兩個主要理論:合作論(cooperative theory) 和 榨取論(extractive theory)。
伊拉克南部是一個乾旱的沙漠地區,因此在遠離河流的地方,農業活動必須依賴灌溉。當河流從某個地方改道離開後,由於私人灌溉變得困難,當地社區會產生對公共運河系統的需求,這需要協調才能實現。這種情境符合合作理論,認為政府的出現是為了提供個人無法有效提供的公共財貨,如大型灌溉系統的建設和維護,以解決外部性或協調失敗問題。相反地,河流改道離開也會導致稅基消失,削弱了精英進行榨取的誘因。如果政府主要是由精英為了榨取而建立(榨取理論),那麼政府更可能在河流移至的地方或河流未發生變化的地方形成,因為這些地方仍然有穩定的農產品或稅基。
作者使用芝加哥大學東方研究所搜集的考古資料,並以此為基礎,補充了關於國家形成、國家能力、公共財提供和貢品支付的衡量指標。研究的觀察單位是一個個 \(5 \times 5\) 公里的網格,資料共有 \(1374\) 個網格,每個網格單元在 \(31\) 個歷史時期都有資料。從約西元前 5000 年至今,底格里斯河和幼發拉底河共發生了六次突然的改道。研究主要關注約西元前 2850 年的第一次改道,將其作為一個自然實驗。研究主要包括改道前的四個史前時期與改道後的一個時期,共五個時期的 panel dataset,時間範圍是西元前 3900 年至西元前 2700 年。在這個樣本中,平均每個時期約長 240 年。這真是不得了,千年的迴歸分析(不曉得究竟可信與否但挺有趣的)。
作者的主要發現是,改道而水源消失的地區更容易出現政府。這與合作論的預測一致,因為這些地區需要協調來建設和維護公共灌溉系統。
其他
還看了一些別的東西,不過就寫到這裡了。
其他
一件趣事。有天晚上跟兩個高中同學,YH 和 YT,晚上去吃舊丘(六張犁附近的串燒店,還不錯)。1 席間聊到我們的另個高中同學 WC,他非常狂熱於支持某政黨與某些政治人物,例如 ○○○,也想說服他身邊的人改變政治立場或觀點。YH 很不滿意這點,他認為 WC「魔怔」了(引用 YH 的原話),所以特別喜歡跟他討論政治,問他一些問題,然後 WC 就會很激動地跟他講一堆東西。YH 認為 WC(畢業於臺北某大學文學院)不懂物理化學,也不懂政治經濟,只會看那些政治人物和智庫的談話,完全像是被洗腦。他說,他當年上 TM 老師的經原的時候,考試有一題,問同學如果今天有一個問題,你必須在很短的時間內做出決定,而你對它一無所知,而有 50 個臺大教授一致認為應該選擇 A,1 個諾貝爾獎得主認為應該選擇 B,你會選擇哪一個?2 TM 認為,應該要相信權威,因此要選擇 B。
我和 YT 當下就覺得這個問題本身很無厘頭。因為跟 YH 蠻熟的,因此我直言不諱。我首先不能理解,為何要相信權威,而不是理性地判斷?我們覺得某些政治人物真是惡劣,不是因為他講起話來真是沒有邏輯有雙重標準嗎?而覺得 TM 老師講得不錯,不也是因為他講的經濟學確實有一套嗎?而且,難道就算權威真的比較懂,難道他就不會昧著良心說話嗎?YH 嘗試說明 TM 當時用來論證的理由,但是講得不是很能服人,他也說他不是很記得確切的推論過程。因此我又說,即便 TM 說的有道理,我們該相信權威,那誰是權威呢?如果這件事情也要訴諸權威,那又是誰可以決定誰是權威呢?YH 似乎覺得有道理。我又接著說,搞不好其實你跟 WC 是一樣的,只是你們認為不同的東西是權威而已。為什麼他每次都要聲稱自己看了哪些哪些智庫的報告呢?你可能認為 TM 老師是權威,但他也可能只是認為 ○○○ 是權威而已。為什麼 TM 老師就是權威,而 ○○○ 就不可能是權威呢?他說他覺得我說得有道理,應該要去聯絡 TM 或者是當時的助教 KH 確認一下。不過最後,他又說,或許他被我說服,只是因為他潛意識中覺得我是權威而已。