從貝氏的世界看 curve fitting: Maximum Likelihood (ML)、Maximum a Posteriori (MAP)

對於初探機器學習領域，以及 curve fitting 的學習者來說，肯定會讀到 curve fitting 的演算法，若是選用 Bishop 大師出版的 Machine learning 作為學習教材，一定會被其中大量的數學式子轟炸，並且對機器學習領域開始怯步，本文的目的在於幫助讀者理解貝氏世界裡的 curve fitting，從 ML 學派再到 MAP 學派，最後推導出 predictive distribution 的結果，也就是所謂的 Gaussian Process。因為文長，所以將會分成多篇文章說明，若對 ML、MAP 的概念尚不熟悉的話，可以閱讀Maximum Likelihood & Maximum a Posteriori－基礎估計模型的詳細介紹後，再開始閱讀本篇文章。

Maximum Likelihood 與 Mean Square Error

今假設我們有一組資料數據，$\mathbf{X} = \{\mathbf{x}_1, \dots, \mathbf{x}_N\}^\top$ 是這組資料的輸入值，而 $\mathbf{t} = \{t_1, \dots, t_N\}$ 是這組資料的輸出值，也是我們想要估計的對像。其中 $\mathbf{x}_n$ 為一個 column vector，此向量裡的每個元素都代表不同的意義。舉例來說，$\mathbf{t}$ 可以是台積電(2330)上市以來的每日收盤價，而 $\mathbf{x}_n$ 可能對應的是第 $n$ 日的 EPS、營收、KD 值等等的數據，我們想要利用既有的 $\mathbf{X}$ 以及 $\mathbf{t}$ 資料數據建構一個可以解釋輸入與輸出關係的模型，一旦有了此模型，我們就可以透過未來的台積電資訊 $\mathbf{x}_{N+1}$ 估計出未來台積電可能的價位。

貝氏的世界裡將輸入值和輸出值的關係看作一個 deterministic 函式 $y(\mathbf{x}_n, \mathbf{w})$ 搭配上一個 IID 的 Gaussian noise $\epsilon = \mathcal{N}(\epsilon | 0, \beta^{-1})$:

$$t_n = y(\mathbf{x}_n, \mathbf{w}) + \epsilon$$

其中 $\mathbf{w}$ 是函式 $y$ 中的未知參數。延續剛才股票模型的例子，假設我們預設的輸入值 $\mathbf{x}_n$ 跟股價 $t_n$ 真的有某種函式關係，現實生活中也會因為各種不可控制的變數影響最後的股價，例如投資者過度樂觀或是過度恐懼等等，都會導致股價沒有照著預期的模型走，而這些未知的、無法控制的因素我們都用 $\epsilon$ 這個 Gaussian 隨機變數來表示，因為根據中央極限定理 (Central Limit Theorem)，大量相互獨立的隨機變數之和趨近於常態分布，因此 Gaussian noise 是最適合作為未知因素的隨機變數。

接下來我們可以得到輸出值 $t_n$ 的機率分布：

$$p(t_n|x_n, \mathbf{w}) = p(t_n|x_n) = \mathcal{N}(t_n | y(\mathbf{x}_n, \mathbf{w}), \beta^{-1})$$

注意到我們在 maximum likelihood 裡會將 $\mathbf{w}$ 視為一個固定量，而非 random variable，因此可以得到 $p(t_n|x_n, \mathbf{w})$ 和 $p(t_n|x_n)$ 的分布其實相同，但是為了後續 maximum a posteriori 的推導，我們還是將 $\mathbf{w}$ 保留在條件機率裡面。另外，我們在這裡做出了一個假設，就是所有資料 $\mathbf{X} = \{\mathbf{x}_1, \dots, \mathbf{x}_N\}^\top$ 和 $\mathbf{t} = \{t_1, \dots, t_N\}$ 皆是獨立取樣出來的資料，並不會互相影響。因此他們的聯合分布可以寫為：

$$p(\mathbf{t}|\mathbf{X}, \mathbf{w}) = \prod_{n = 1}^N \mathcal{N}(t_n | y(\mathbf{x}_n, \mathbf{w}), \beta^{-1})$$

此時我們可以利用 maximum likelihood 的方法估計未知的模型參數 $\mathbf{w}$ 和 $\beta$，即是尋找某個 $\mathbf{w}_{\text{ML}}$ 以及 $\beta_{\text{ML}}$ 使得所有資料的 joint maximum likelihood 有最大值：

$$\mathbf{w}_{\text{ML}} = \arg \max_{\mathbf{w}} \prod_{n = 1}^N \mathcal{N}(t_n | y(\mathbf{x}_n, \mathbf{w}), \beta^{-1})$$ $$\beta_{\text{ML}} = \arg \max_{\beta} \prod_{n = 1}^N \mathcal{N}(t_n | y(\mathbf{x}_n, \mathbf{w}), \beta^{-1})$$

由於上述的數學式為一個凸函式(convex function)，因此我們可以直接利用微分等於 $0$ 的特性求解。為了使計算微分更容易，我們將聯合分布 $p(\mathbf{t}|\mathbf{X})$ 取 $\log$，再做運算。注意 $\log$ 是一個單調遞增(monotonically increasing)函式，並不會影響極值發生的位置，又可以使推導的過程變得更加容易：

$$\begin{aligned} &p(\mathbf{t}|\mathbf{X}, \mathbf{w}) = \frac{1}{\sqrt{(2\pi)^k |\beta^{-1} \mathbf{I}|}} \exp \bigg[-\frac{1}{2} \big(\mathbf{t} – y(\mathbf{X}, \mathbf{w}) \big)^\top (\beta^{-1} \mathbf{I})^{-1} \big(\mathbf{t} – y(\mathbf{X}, \mathbf{w}) \big) \bigg] \\ \Rightarrow &\ln p(\mathbf{t}|\mathbf{X}, \mathbf{w}) = -\frac{\beta}{2} \sum_{n = 1}^N \{y(\mathbf{x}_n, \mathbf{w}) – t\}^2 + \frac{N}{2} \ln \beta – \frac{N}{2} \ln (2\pi) \end{aligned}$$

接下來我們就可以計算 $\ln p(\mathbf{t}|\mathbf{X})$ 對 $\mathbf{w}$ 和 $\beta$ 的微分，求出 $\mathbf{w}_{\text{ML}}$ 以及 $\beta_{\text{ML}}$，為避免篇幅過長，將這部分的詳細計算將留到Machine Learning 入門：多項式擬合 (Polynomial Curve Fitting) 與 regularization 推導。值得注意的是，找到某個 $\mathbf{w}_{\text{ML}}$ 使得 log-likelihood 有最大值，其實等同於找到某個 $\mathbf{w}_{\text{ML}}$ 使得 $\frac{1}{2} \sum_{n = 1}^N \{y(\mathbf{x}_n, \mathbf{w}) – t\}^2$ 有最小值。可以直接忽略 $\beta$ 是因為不論其值為何都不會影響最後 $\mathbf{w}_{\text{ML}}$ 的結果。從這裡我們得到一個有趣的結論，利用 Gaussian noise 的機率模型建構出來的 maximum likelihood，其極值發生的位置 $\mathbf{w}_{\text{ML}}$ 剛好和 minimize mean square error 極值發生的位置相同！

Maximum a Posteriori 與 Mean Square Error with Regularization

接下來我們將 Maximum likelihood 延伸至 Maximum a Posteriori (MAP)，如同Maximum Likelihood & Maximum a Posteriori－基礎估計模型的詳細介紹裡面提到的，在現實中我們可能常常因為收集到的 dataset 有某些程度的 bias，導致訓練出來的模型效果不如預期。為了避免模型過多依賴手頭上的 dataset，我們會多加一個 prior distribution，藉此將我們對整個問題的先驗知識導入在模型當中。舉例來說，假設我們收集到的台積電股市資料集非常偏差，股價完全等於 30 倍本益比 (本益比 = 股價 / EPS)，那我們估計出來的 $\mathbf{w}$ 權重可能完全偏向 $\mathbf{x}_n$ 裡面的 EPS，其他輸入如 KD 值、營收等等就完全不列入考慮了，深具經驗的投資人如果看到這個模型肯定會提出疑惑。為了避免 dataset 裡面的偏差過多影響模型的結果，我們可以基於對台積電的了解，針對 $\mathbf{w}$ 提出某種機率分布，例如我們可能認為營收比 EPS 來的重要，就可以假設 $\mathbf{w}$ 是一個 mean 不為 $0$ 的高斯分布，其對應到營收權重的 mean 可能稍微高一點，對應到 EPS 的 mean 可以稍微低一點。

若還是不清楚 MAP 以及 prior distribution 的影響，可以花點時間閱讀 Maximum Likelihood & Maximum a Posteriori－基礎估計模型的詳細介紹的範例。了解到 prior distribution 的作用後，我們可以開始推導 MAP 了。首先為了運算簡化，我們假設 $\mathbf{w}$ 為一個 zero mean 且 variance 為 $\alpha$ 的 Gaussian：
$$p(\mathbf{w}) = \mathcal{N} (\mathbf{w} | \mathbf{0}, \alpha^{-1} \mathbf{I})
$$

我們想要利用 posterior 來估計未知的 $\mathbf{w}$，就必須推導出 $p(\mathbf{w} | \mathbf{X}, \mathbf{t})$： $$ p(\mathbf{w} | \mathbf{X}, \mathbf{t}) = \frac{p(\mathbf{w}, \mathbf{X}, \mathbf{t})}{p(\mathbf{X}, \mathbf{t})} = \frac{p(\mathbf{t} | \mathbf{X}, \mathbf{w}) p(\mathbf{X})p(\mathbf{w})}{p(\mathbf{X}, \mathbf{t})} \propto p(\mathbf{t} | \mathbf{X}, \mathbf{w})p(\mathbf{w})$$

這裡我們做出一個假設，即 $\mathbf{X}$ 和 $\mathbf{w}$ 為獨立分布。因為輸入值如何生成、改變，其實都跟我們建構的模型沒有關係，台積電的 EPS、本益比，也不會被我們的權重 $\mathbf{w}$ 是多少而影響。或是我們可以用最直觀的方式看出兩個隨機向量互相獨立：我們已經將 $\mathbf{w}$ 假設成一個 zero mean 且 variace 為 $\alpha$ 的 Gaussian 了，那其分布和 $\mathbf{X}$ 獨立也就顯而易見了。另外，因為 $\mathbf{X}$ 以及 $\mathbf{t}$ 對於我們來說是已知的固定量，$p(\mathbf{X}, \mathbf{t})$ 的值是多少也是已知的 (縱使我們沒有對該分布做出任何假設，但我們還是把它當作已知)，因此當我們在估計 $\mathbf{w}$ 時，可以忽略 $p(\mathbf{X}, \mathbf{t})$ 這項，直接利用 $p(\mathbf{t} | \mathbf{X}, \mathbf{w})p(\mathbf{w})$ 來估計 $\mathbf{w}$。

我們遵循 ML 的方式，先取 log 再求最大值，可以推導出： $$\begin{aligned} &p(\mathbf{t}|\mathbf{X}, \mathbf{w}) p(\mathbf{w}) = \frac{1}{\sqrt{(2\pi)^k |\beta^{-1} \mathbf{I}|}} \exp \bigg[-\frac{1}{2} \big(\mathbf{t} – y(\mathbf{X}, \mathbf{w}) \big)^\top (\beta^{-1} \mathbf{I})^{-1} \big(\mathbf{t} – y(\mathbf{X}, \mathbf{w}) \big) \bigg] \frac{1}{\sqrt{(2\pi)^k |\alpha^{-1} \mathbf{I}|}} \exp \bigg[-\frac{1}{2} \mathbf{w}^\top (\alpha^{-1} \mathbf{I})^{-1} \mathbf{w} \bigg] \\ \Rightarrow &\ln \{p(\mathbf{t}|\mathbf{X}, \mathbf{w})p(\mathbf{w})\} = -\frac{\beta}{2} \sum_{n = 1}^N \{y(\mathbf{x}_n, \mathbf{w}) – t\}^2 + \frac{N}{2} \ln \beta – \frac{N}{2} \ln (2\pi) – \frac{\alpha}{2} \mathbf{w}^\top \mathbf{w} \end{aligned}$$

最後我們就可以計算 $\ln p(\mathbf{t}|\mathbf{X}) p(\mathbf{w})$ 對 $\mathbf{w}$ 和 $\beta$ 的微分，求出 $\mathbf{w}_{\text{MAP}}$ 以及 $\beta_{\text{MAP}}$。這裡我們可以觀察到 MAP 的估計法，其實等同於 minimize mean square error 加上一個 regularization 項，此 regularization 項可以幫助我們減少對於 dataset 的依賴，並且導入我們本身的先備知識。這個部分的完整推導，我們一樣留在Machine Learning 入門：多項式擬合 (Polynomial Curve Fitting) 與 regularization 推導這篇文章。我們得出另一個有趣的結論，即利用 maximum a posteriori 建構出來的估計方式，等同於 minimize mean square error 加上一個 regularization 項！

總結

Maximum likelihood estimation 等同於 minimize mean square error！

Maximum a posteriori estimation 等同於 minimize mean square error with regularization！

至此，我們已經將 ML 和 MAP 這兩個基礎的估計方法講解完畢，接下來我們將會在從貝氏的世界看 curve fitting: ML 和 MAP 的下一步，Gaussian Process！更進一步講解並推導 preditive distribution。

>> 從貝氏的世界看 curve fitting: ML 和 MAP 的下一步，Gaussian Process！
>> Machine Learning 入門：多項式擬合 (Polynomial Curve Fitting) 與 regularization 推導
 >> Maximum Likelihood & Maximum a Posteriori－基礎估計模型的詳細介紹