Fisher Information, AIC & BIC

Fisher Information

希望估计参数 \(\theta\),有观测量 \(x_1,\cdots ,x_n\),其中 \(x\sim D(\theta)\).

有似然函数 \[ L(\theta)=\prod_{i=1}^{n} p(x_i|\theta) \]

取对数以方便计算,或者可以认为是一种 normalization. \[ \ln L(\theta)=\sum_{i=1}^{n} \ln p(x_i|\theta) \]

定义 score 函数 \[ S(\theta)=\frac{\partial }{\partial \theta}\ln L(\theta)=\frac{\frac{\partial }{\partial \theta}L(\theta)}{L(\theta)} \]

从最后一个等号可以看出 normalization 的意味.

一个值得注意的点是 \[ \mathbb{E}(S(\theta))=\int_{\mathbb{R}^{n}} \frac{\frac{\partial }{\partial \theta}L(\theta)}{L(\theta)}L(\theta) \mathrm{d}x_1\cdots \mathrm{d}x_n=\frac{\partial }{\partial \theta}\int_{\mathbb{R}^{n}} L(\theta) \mathrm{d}x_1\cdots \mathrm{d}x_n=\frac{\partial }{\partial \theta}1=0 \]

定义 Fisher information \[ I(\theta)=\operatorname{var}(S(\theta)) \]

\[ I(\theta)=-\mathbb{E}\left(\frac{\partial ^{2}}{\partial \theta^{2}}\ln L(\theta)\right) \]

对于 \(\theta\) 空间中的每个 \(\theta\),因为 \(\mathbb{E}(S(\theta))=0\),如果 \(I(\theta)\) 很小,则说明在样本空间中取到使得 \(\lvert S(\theta) \rvert\) 很大的样本集合 \(\{x_1,\cdots x_n\}\) 的概率很小;如果 \(I(\theta)\) 很大,则说明在样本空间中取到使得 \(\lvert S(\theta) \rvert\) 很大的样本集合 \(\{x_1,\cdots x_n\}\) 的概率较大。对于该样本集合,\(L(\theta)\) 对于 \(\theta\) 的变化十分敏感,因此这个样本集合能够对 \(\theta\) 作出更好的估计.

\(\displaystyle \frac{\frac{\partial }{\partial \theta}L(\theta)}{L(\theta)}\) 可以认为是一种 normalization,因为 \(L(\theta+\mathrm{d}\theta)\thickapprox L(\theta)+\frac{\partial }{\partial \theta}L(\theta)\mathrm{d}\theta\),重要的其实是 \(\displaystyle \frac{\frac{\partial }{\partial \theta}L(\theta)}{L(\theta)}\) 这个比例.

对不同尺度的模型,不能直接比较 \(I(\theta)\),但在同一模型中,\(I(\theta)\) 是一个绝对的量.

例1 \(X\sim \mathcal{N}(\theta,\sigma_0^{2})\),其中 \(\sigma_0\) 是给定的,求采样 \(n\) 次得到的 Fisher information.

\[ I(\theta)=\frac{n}{\sigma_0^{2}} \]

可以发现,\(I(\theta)\)\(\theta\) 无关,说明单纯对分布作一个平移不会影响信息量.

例2 \(X\sim \mathcal{N}(\mu_0,\theta^{2})\),其中 \(\mu_0\) 是给定的,求采样 \(n\) 次得到的 Fisher information. \[ I(\theta)=\frac{2n}{\theta^{2}} \]

可以发现,\(I(\theta)\) 随着 \(\theta\) 的增大而减小. 事实上,如果 \(\theta\to 0\),那么分布成为一个 \(\delta\) 函数,每次采样只能采到 \(\mu_0\),我们有很大的把握认为这时 \(\theta=0\). 如果 \(\theta\to \infty\),那么分布近似为一个均匀分布,采样得到的 \(x_i\) 分布很广泛,我们有很大的把握认为 \(\theta\) 很大,但具体 \(\theta\) 是多少几乎不可能估计出来.

例3 \(X\sim D\)\(\theta\) 无关,此时无论取多少次,\(I(\theta)\) 都等于 \(0\).

例4 \(X\sim \mathcal{N}(1000+\exp (-\theta^{2}),\sigma_0^{2})\),其中 \(\sigma_0\) 是给定的,求采样 \(n\) 次得到的Fisher information. \[ I(\theta)=\frac{4n\theta^{2}\exp (-2\theta^{2})}{\sigma_0^{2}} \]

这形式很奇妙吧,而且与 \(1000\) 并没有关系. 但是 \(\exp (-\theta^{2})\) 相比 \(1000\) 是很小的,感觉这背后有一种 Fisher information 的缺陷(或许其实是优点),让我再问问.

Fisher information in neural activity - approach I

类推到对刺激 \(\theta\) 的neural activity \(\mathbf{r}\),假设它服从具有线性充分统计量的指数族分布(正态分布当然属于指数族分布). \[ p(\mathbf{r}|\theta)=g(\theta)\Phi(\mathbf{r})\exp (\mathbf{h}(\theta)^{\mathsf{T}}\mathbf{r}), \tag{1} \]

其中 \[ g(\theta)=\frac{1}{\int \Phi(\mathbf{r})\exp (\mathbf{h}(\theta)^{\mathsf{T}}\mathbf{r})\mathrm{d}\mathbf{r}}, \tag{2} \]

\(g(\theta),\Phi(\mathbf{r}),\mathbf{h}(\theta)\) 都是已知的函数. \(T(\mathbf{r}_1,\cdots ,\mathbf{r}_n)=\mathbf{r}_1+\cdots +\mathbf{r}_n\) 是一个线性充分统计量.

为什么要选用指数族分布呢?指数族分布是唯一具有下述几条性质的分布: - 如果有独立同分布的一组样本 \(x_1,\cdots ,x_n\) 取自某一族由未知参数 \(\theta\) 刻画的分布,在一定条件下,如果有 \(\mathbb{R}^{m}\) 中的充分统计量 \(T(x_1,\cdots ,x_n)\) 使得 \(m\) 不随 \(n\) 的增大而增大,那么该族分布一定是指数族分布. - 共轭先验(不懂) - 关于变分推断(不懂)

此时 score 函数 \[ S(\theta)=\frac{\partial }{\partial \theta}\log p(\mathbf{r}|\theta)=\mathbf{h}'(\theta)^{\mathsf{T}}(\mathbf{r}(\theta)-\mathbf{f}(\theta)), \tag{3} \]

其中 \(\mathbf{f}(\theta)=\mathbb{E}(\mathbf{r}(\theta))\) 是 population activity vector. 记 \(\mathbf{\Sigma}(\theta)=\mathbb{E}[(\mathbf{r}(\theta)-\mathbf{f}(\theta))(\mathbf{r}(\theta)-\mathbf{f}(\theta))^{\mathsf{T}}]\) 为 neural activity的协方差矩阵.

此时的 Fisher information 就是 \[ I(\theta)=\mathbf{h}'(\theta)^{\mathsf{T}} \mathbf{\Sigma}(\theta) \mathbf{h}'(\theta), \tag{4} \]

另外可以计算得到 \[ \mathbf{f}'(\theta)=\frac{\mathrm{d}}{\mathrm{d}\theta}\int_{}^{} \mathbf{r}p(\mathbf{r}|\theta) \mathrm{d}\mathbf{r}=\mathbf{\Sigma}(\theta)\mathbf{h}'(\theta). \tag{5} \]

代回(4),得到 \[ I(\theta)=\mathbf{f}'(\theta)^{\mathsf{T}}\mathbf{\Sigma}^{-1}(\theta)\mathbf{f}'(\theta). \tag{6} \]

Fisher information in neural activity - approach II

线性 Fisher information 还可以被认为是从一个最小方差、无偏的线性解码器中得到的信息. 线性意味着解码器把 neural activity 投影到一个向量 \(\mathbf{w}\) 上.

在一篇2004年的nature neuroscience上,实验是这么做的:对于十分靠近刺激 \(\theta_0\) 的两个刺激 \(\theta_1=\theta_0-\delta \theta, \theta_2=\theta_0+\delta \theta\),训练两个参数 \(\mathbf{w}\)\(b\),使得可以从 neural activity 也就是 \(\mathbf{r}\) 中估计出受到的刺激是 \(\theta_1\) 还是 \(\theta_2\) \[ \hat{\theta}=\mathbf{w}^{\mathsf{T}}\mathbf{r}+b. \]

由于当 \(\delta \theta\to 0\) 时,估计的参数 \(\hat{\theta}\) 应当在 \(\mathbf{r}\) 取平均时趋于 \(\theta_0\)(无偏性),故实际上有 \[ \hat{\theta}=\mathbf{w}^{\mathsf{T}}(\mathbf{r}-\mathbf{f}(\theta_0))+\theta_0. \tag{7} \]

如果我们不是通过实验+数据处理来得到 \(\mathbf{w}\),我们依然可以求得一个最佳的 \(\mathbf{w}\)(注意这个 \(\mathbf{w}\) 是跟 \(\theta_0\) 有关的),它应当满足对不同的 \(\mathbf{r}\) 方差最小. 这就是一个 unbiased locally linear estimator.

关于locally unbiased estimation的理论中,提到了渐近无偏的条件: - 期望渐近无偏,即 \(\lim_{\theta_1 \to \theta_0}\mathbb{E}_{\theta_1}(\hat{\theta})=\mathbb{E}_{\theta_0}(\hat{\theta})\), - 方差渐近无偏,即 \(\lim_{\theta_1 \to \theta_0}\operatorname{var}(\hat{\theta}|\theta_1)=\operatorname{var}(\hat{\theta}|\theta_0)\).

因为 \[ \mathbb{E}_{\mathbf{r}}(\hat{\theta})=\theta_0 \]

我没管一些 regularity 的条件,那么认为期望渐近无偏就等价于(在每个 \(\theta\) 处都有) \[ \frac{\mathrm{d}\mathbb{E}_{\mathbf{r}}(\hat{\theta})}{\mathrm{d}\theta}=1. \tag{8} \]

然后一定要用到 \(p(\mathbf{r}|\theta)\) 的具体表达式(1),代入(8),得到约束条件 \[ \mathbf{w}^{\mathsf{T}}\mathbf{f}'(\theta)=1. \tag{9} \]

为了寻找满足约束条件(9)下使得估计方差最小的 \(\mathbf{w}\),目标是寻找 \[ \min _{\mathbf{w}}\mathbf{w}^{\mathsf{T}}\mathbf{\Sigma}\mathbf{w}, \quad s.t.\ \mathbf{w}^{\mathsf{T}}\mathbf{f}'(\theta)=1. \tag{10} \]

用拉格朗日乘子,得到 \[ \mathbf{w}^{*}=\frac{\mathbf{\Sigma}^{-1}\mathbf{f}'}{\mathbf{f}'^{\mathsf{T}}\mathbf{\Sigma}^{-1}\mathbf{f}'} \tag{11} \]

此时估计值的方差为 \[ \operatorname{var}(\hat{\theta})=\frac{1}{\mathbf{f}'^{\mathsf{T}}\mathbf{\Sigma}^{-1}\mathbf{f}'}. \tag{12} \]

此时的 Fisher information就定义为 \(\operatorname{var}(\hat{\theta})\) 的倒数,即 \[ I(\theta)=\mathbf{f}'^{\mathsf{T}}\mathbf{\Sigma}^{-1}\mathbf{f}'. \tag{13} \]

Generalizing Fisher information beyond fine discrimination

approach I

\(C_1\) 为受到 \(\theta_1\) 刺激的实验, \(C_2\) 为受到 \(\theta_2\) 刺激的实验. 假设在每种实验中,neural activity 服从正态分布, \[ C_1\colon p(\mathbf{r}|\theta_1)=\mathcal{N}(\mathbf{r}|\mathbf{f}_1,\mathbf{\Sigma}) \\ C_2\colon p(\mathbf{r}|\theta_2)=\mathcal{N}(\mathbf{r}|\mathbf{f}_2,\mathbf{\Sigma}), \tag{14} \]

(均值不同,但协方差矩阵相同)附加一些对称性条件、先验条件、对正确结果的偏好条件:记 \(L_{ij}\) 是当 \(C_i\) 时选择 \(C_j\) 的 loss,规定 \(L_{12}=L_{21}, L_{11}=L_{22}, L_{11}<L_{12}\),先验 \(p(C_1)=p(C_2)=\frac{1}{2}\). 这时,expected Bayesian risk(或者也可以叫 posterior expected loss/ Bayesian expected loss)就是 \[ \sum_{i\in \{1,2\}}^{} L_{iD(\mathbf{r})}p(C_i|\mathbf{r}). \]

这里 \(D(\mathbf{r})\) 是一个 decision rule. 最佳的 decision rule,使得 expected Bayesian risk 最小 \[ D(\mathbf{r})=\begin{cases} 2, \quad\Lambda(\mathbf{r})=\log \frac{p(\mathbf{r}|\theta_2)}{p(\mathbf{r}|\theta_1)}>0, \\ 1, \quad \Lambda(\mathbf{r})\leqslant 0, \end{cases} \] (15)

\(\Lambda(\mathbf{r})\) 是 log-likelihood ratio. 在假设的正态分布中, \[ \Lambda(\mathbf{r})=(\mathbf{f}_2-\mathbf{f}_1)^{\mathsf{T}}\mathbf{\Sigma}^{-1}(\mathbf{r}-\mathbf{f}_0), \tag{16} \]

其中 \(\mathbf{f}_0=\frac{1}{2}(\mathbf{f}_1+\mathbf{f}_2)\). 令 \(\mathbf{w}=\mathbf{\Sigma}^{-1}\delta \mathbf{f}, \delta \mathbf{f}=\mathbf{f}_2-\mathbf{f}_1\). \[ \Lambda(\mathbf{r})=\mathbf{w}^{\mathsf{T}}(\mathbf{r}-\mathbf{f}_0). \tag{17} \]

注意 \[ \Lambda(\mathbf{r})|C_1\sim \mathcal{N}\left( -\frac{1}{2}\mathbf{w}^{\mathsf{T}}\mathbf{\Sigma w} , \mathbf{w}^{\mathsf{T}} \mathbf{\Sigma w}\right), \quad \Lambda(\mathbf{r})|C_2\sim \mathcal{N}\left( \frac{1}{2}\mathbf{w}^{\mathsf{T}}\mathbf{\Sigma w}, \mathbf{w}^{\mathsf{T}}\mathbf{\Sigma w} \right). \tag{18} \]

故我们可以计算 \(D(\mathbf{r})\) 下做出正确决策的概率 \[ p(\text{correct})=\frac{1}{2}p(\Lambda(\mathbf{r})\leqslant 0|C_1)+\frac{1}{2}p(\Lambda(\mathbf{r})>0|C_2)=\Phi\left(\frac{1}{2}\sqrt{\mathbf{w}^{\mathsf{T}}\mathbf{\Sigma w}}\right)=\Phi\left( \frac{1}{2}\sqrt{\delta \mathbf{f}^{\mathsf{T}}\mathbf{\Sigma}^{-1}\delta \mathbf{f}} \right) \]

其中 \(\Phi(\cdot)\) 是标准正态分布的累积分布函数,即 \[ \Phi(y)=\frac{1}{\sqrt{2\pi}} \int_{-\infty}^{y} \exp (-\frac{x^{2}}{2}) \mathrm{d}x \]

与(6)比较,可以定义 \[ I_{g}(\theta)=\frac{\delta \mathbf{f}^{\mathsf{T}}\mathbf{\Sigma}^{-1}\delta \mathbf{f}}{\delta \theta^{2}}, \tag{19} \]

approach II

第二种得到 generalized linear Fisher information 的办法也是通过一个 optimal linear discriminator,但此时我们对 neural activity 的分布没有像(1)那么高的要求.

我们可以这么做: \[ \hat{\theta}=\mathbf{w}^{\mathsf{T}}\mathbf{r}. \tag{20} \]

\(\hat{\theta}\) 一个阈值. 要使得 \(\mathbf{w}\) 是最佳的,意味着最小化两个类内的方差,最大化两个类间的平均距离(类间的方差,对 \(\mathbf{r}\) 而言). 即 \[ \max_{\mathbf{w}}\frac{\mathbf{w}^{\mathsf{T}}\delta \mathbf{f} \delta \mathbf{f}^{\mathsf{T}}\mathbf{w}}{\mathbf{w}^{\mathsf{T}} \mathbf{\Sigma w}}, \quad s.t. \ \left\| \mathbf{w} \right\|_{}^{2}=1, \tag{21} \]

其中 \(\delta \mathbf{f} \delta \mathbf{f}^{\mathsf{T}}\) 是类间协方差矩阵,\(\mathbf{\Sigma}\) 是平均类内协方差矩阵 \[ \mathbf{\Sigma}=\frac{\mathbf{\Sigma}_1+\mathbf{\Sigma}_2}{2}. \tag{22} \]

利用拉格朗日乘子,得到 \[ \mathbf{w}=\frac{\mathbf{\Sigma}^{-1}\delta \mathbf{f}}{\delta \mathbf{f}^{\mathsf{T}} \mathbf{\Sigma}^{-1}\delta \mathbf{f}}. \tag{23} \]

注意 \(\hat{\theta}\) 是许多相关的随机变量的线性组合,因此不能直接用中心极限定理. 然而,还是可以近似认为 \[ \hat{\theta}|C_1\sim \mathcal{N}(\mathbf{w}^{\mathsf{T}}\mathbf{f}_1, \mathbf{w}^{\mathsf{T}} \mathbf{\Sigma}_1 \mathbf{w}), \quad \hat{\theta}|C_2 \sim \mathcal{N}(\mathbf{w}^{\mathsf{T}}\mathbf{f}_2, \mathbf{w}^{\mathsf{T}} \mathbf{\Sigma}_2 \mathbf{w}). \tag{24} \]

另外,阈值的选取使得正确率最高,但算起来比较麻烦,这里就不算了.

BIC (Bayesian information criterion)

简略地说,\(BIC\) 依靠后验概率评估模型的效果. 如果有 \(r\) 个候选模型 \(M_1,\cdots ,M_r\),每个模型有一个 likelihood \(f_i(x|\mathbf{\theta}_{i})(\mathbf{\theta}_{i}\in \Theta_{i} \subset \mathbb{R}^{k_i})\),有先验 \(\pi_i(\mathbf{\theta}_i)\)\(P(M_i)\). 给定 \(n\) 个观测量 \(\mathbf{x}_{n}=\{x_1,\cdots ,x_n\}\),marginal likelihood 定义为 \[ p(\mathbf{x}_n|M_i)=\int_{}^{} f_i(\mathbf{x}_n|\mathbf{\theta}_i)\pi_{i}(\mathbf{\theta}_{i}) \mathrm{d}\mathbf{\theta}_{i}. \tag{25} \]

由 Bayes 定理 \[ P(M_i|\mathbf{x}_n)=\frac{p(\mathbf{x}_n|M_i)P(M_i)}{\sum_{j=1}^{r} p(\mathbf{x}_n|M_j)P(M_j)}, \quad i=1,\cdots ,r. \tag{26} \]

选择使 \(P(M_i|\mathbf{x}_n)\) 最大的模型即可,由此我们导出 \(BIC\) 这个量.

一般我们会认为模型使用概率等可能,即 \(P(M_i)\) 都相等. 此时

\[ B_{12}=\frac{P(M_1|\mathbf{x}_n)}{P(M_2|\mathbf{x}_n)}=\frac{p(\mathbf{x}_n|M_1)}{p(\mathbf{x}_n|M_2)}\frac{P(M_1)}{P(M_2)}=\frac{\int_{}^{} f_1(\mathbf{x}_n|\mathbf{\theta}_1)\pi_{1}(\mathbf{\theta}_1) \mathrm{d}\mathbf{\theta}_{1}}{\int_{}^{} f_2(\mathbf{x}_n|\mathbf{\theta}_{2})\pi_{2}(\mathbf{\theta}_{2}) \mathrm{d}\mathbf{\theta}_{2}} \tag{27} \]

Bayes factor 定义为 \(\displaystyle \frac{p(\mathbf{x}_n|M_1)}{p(\mathbf{x}_n|M_2)}\).

Laplace Approximation

Laplace Approximation 是一种用二阶泰勒展开近似计算积分的方法,依赖于所谓的 Bernstein–von Mises 定理. 目标是近似 \[ \int_{}^{} \exp \{nq(\mathbf{\theta})\} \mathrm{d}\mathbf{\theta} \tag{28} \]

这里 \(\mathbf{\theta}\) 是一个 \(p\) 维参数向量, \(q(\mathbf{\theta})\) 一般属于 \(C_{c}^{2}(\mathbb{R}^{p})\) 且有一个全局最大值点 \(\hat{\mathbf{\theta}}\). 此时当然满足 \(\partial q(\mathbf{\theta})/\partial \mathbf{\theta}|_{\mathbf{\theta}=\hat{\mathbf{\theta}}}=\mathbf{0}\). 在 \(\hat{\mathbf{\theta}}\) 作泰勒展开

\[ q(\mathbf{\theta})=q(\hat{\mathbf{\theta}})-\frac{1}{2}(\mathbf{\theta}-\hat{\mathbf{\theta}})^{\mathsf{T}}J_{q}(\hat{\mathbf{\theta}})(\mathbf{\theta}-\hat{\mathbf{\theta}})+\cdots , \tag{29} \]

Bernstein–von Mises 定理告诉我们 \[ \int_{}^{} \exp \{nq(\mathbf{\theta})\} \mathrm{d}\mathbf{\theta}\thickapprox \exp \{nq(\hat{\mathbf{\theta}})\}\int_{}^{} \exp \left\{-\frac{n}{2}(\mathbf{\theta}-\hat{\mathbf{\theta}})^{\mathsf{T}}J_q(\hat{\mathbf{\theta}})(\mathbf{\theta}-\hat{\mathbf{\theta}})\right\} \mathrm{d}\mathbf{\theta}=\exp \{nq(\hat{\mathbf{\theta}})\}\frac{(2\pi)^{p/2}}{n^{p/2}\lvert J_q(\hat{\mathbf{\theta}}) \rvert ^{1/2}} \]

Derivation of the BIC

为方便起见,省略 \(M_i\),将 marginal likelihood 写成 \[ p(\mathbf{x}_n)=\int_{}^{} f(\mathbf{x}_n|\mathbf{\theta})\pi(\mathbf{\theta}) \mathrm{d} \mathbf{\theta}=\int_{}^{} \exp \{\log f(\mathbf{x}_n|\mathbf{\theta})\}\pi(\mathbf{\theta}) \mathrm{d}\mathbf{\theta}=\int_{}^{} \exp \{l(\mathbf{\theta})\}\pi(\mathbf{\theta}) \mathrm{d}\mathbf{\theta}, \tag{30} \]

\[ l(\theta)=\log f(\mathbf{x}_n|\theta)=\sum_{i=1}^{n} \log f(x_n|\theta) \]

在极大似然估计(MLE)对应的 \(\hat{\mathbf{\theta}}\) 附近, \[ l(\mathbf{\theta})=l(\hat{\mathbf{\theta}})-\frac{n}{2}(\mathbf{\theta}-\hat{\mathbf{\theta}})^{\mathsf{T}}J(\hat{\mathbf{\theta}})(\mathbf{\theta}-\hat{\mathbf{\theta}})+\cdots , \tag{31} \]

其中 \[ J(\hat{\mathbf{\theta}})=-\frac{1}{n}\frac{\partial^{2}l(\mathbf{\theta})}{\partial \mathbf{\theta} \partial \mathbf{\theta}^{\mathsf{T}}}\bigg|_{\mathbf{\theta}=\hat{\mathbf{\theta}}}\tag{32} \]

另外对 \(\pi(\mathbf{\theta})\) 作类似展开, \[ \pi( \mathbf{\theta})=\pi(\hat{\mathbf{\theta}})+(\mathbf{\theta}-\hat{\mathbf{\theta}})^{\mathsf{T}}\frac{\partial \pi(\mathbf{\theta})}{\partial \mathbf{\theta}}\bigg|_{\theta=\hat{\mathbf{\theta}}}+\cdots \tag{33} \]

将(31)(33)代入(30),且考虑到 \(\hat{\mathbf{\theta}}-\mathbf{\theta}=O_p(n^{-1/2})\)(以 \(n^{-1/2}\) 的阶依概率收敛),就有 \[ p(\mathbf{x}_n)\thickapprox \exp \{l(\hat{\mathbf{\theta}})\}\pi(\hat{\mathbf{\theta}})(2\pi)^{p/2}n^{-p/2} \lvert J(\hat{\mathbf{\theta}}) \rvert ^{-1/2}. \tag{34} \]

故有 \[ -2\log p(\mathbf{x}_n)\thickapprox -2l(\hat{\mathbf{\theta}})+p\log n + \log \lvert J(\hat{\mathbf{\theta}}) \rvert -p \log (2\pi)-2 \log \pi(\hat{\mathbf{\theta}}). \]

\(n\to \infty\) 时,前两项 dominate 后三项,故可以定义 \[ BIC=-2\log f(\mathbf{x}_n|\hat{\mathbf{\theta}})+p\log n. \tag{35} \]

另外,\(BIC\) 也可以看成当统计模型是 regular 时,用 MLE 得到的 \(\hat{\mathbf{\theta}}\) 代入后的 Bayes free energy.

AIC (Akaike information criterion)

简略地说,AIC 利用 K-L 散度衡量了利用 MLE 得到的 \(f(x|\hat{\mathbf{\theta}})\) 的预测准确度. 利用 K-L 散度衡量预测分布 \(f\) 与真实分布 \(g\) 之间的关系 \[ I\{g(z);f(z|\hat{\mathbf{\theta}})\}=\mathbb{E}_{G}\left[ \log \left\{\frac{g(Z)}{f(Z|\hat{\mathbf{\theta}})}\right\}\right] \tag{36} \]

这里固定 \(\hat{\mathbf{\theta}}=\hat{\mathbf{\theta}}(\mathbf{x}_n)\).

我们当然希望 expected log-likelihood \[ \mathbb{E}_{G}\left[ \log f(Z|\hat{\mathbf{\theta}})\right]=\int_{}^{} \log f(z|\hat{\mathbf{\theta}}) \mathrm{d}G(z) \tag{37} \]

尽可能大. 一种对 log-likelihood 的估计是 \[ \mathbb{E}_{\hat{G}}\left[ \log f(Z|\hat{\mathbf{\theta}})\right]=\int_{}^{} \log f(z|\hat{\mathbf{\theta}}) \mathrm{d}\hat{G}(z)=\frac{1}{n}\sum_{\alpha=1}^{n} \log f(x_{\alpha}|\hat{\mathbf{\theta}})=\frac{1}{n}l(\hat{\mathbf{\theta}}). \tag{38} \]

Bias of the Log-likelihood

注意我们用观测到的样本 \(\mathbf{x}_n=\{x_1,\cdots x_n\}\) 对特定的模型进行MLE,然后得到一个 \(\hat{\mathbf{\theta}}\). 在评估该模型时,我们重复利用 \(\mathbf{x}_n\)\(\mathbb{E}_{G}\left[ \log f(Z|\hat{\mathbf{\theta}})\right]\) 进行了估计. 这其中会有误差,感觉主要原因是采样不够多、不够好.

两个日本人写的书3.4.3节中定义了 bias

\[ b(G)=\mathbb{E}_{G(\mathbf{x}_n)}\left[ \log f(\mathbf{X}_n|\hat{\mathbf{\theta}}(\mathbf{X}_n))-n \mathbb{E}_{G(z)}[\log f(Z|\hat{\mathbf{\theta}}(\mathbf{X}_n))]\right] \tag{39} \]

并计算得到

\[ b(G)=\operatorname{tr}\{I(\mathbf{\theta}_0)J(\mathbf{\theta}_0)^{-1}\} \]

其中 \[ I(\mathbf{\theta}_0)=\mathbb{E}_{G(z)}\left[\frac{\partial \log f(Z|\mathbf{\theta})}{\partial \mathbf{\theta}} \frac{\partial \log f(Z|\mathbf{\theta})}{\partial \mathbf{\theta}^{\mathsf{T}}}\bigg|_{\mathbf{\theta}_0}\right]=\int_{}^{} g(z) \frac{\partial \log f(z|\mathbf{\theta})}{\partial \mathbf{\theta}} \frac{\partial \log f(z|\mathbf{\theta})}{\partial \mathbf{\theta}^{\mathsf{T}}}\bigg|_{\mathbf{\theta}_0} \mathrm{d}z \]

\[ J(\mathbf{\theta}_0)=-\mathbb{E}_{G(z)}\left[ \frac{\partial ^{2}\log f(Z|\mathbf{\theta})}{\partial \mathbf{\theta} \partial \mathbf{\theta}^{\mathsf{T}}}\bigg|_{\mathbf{\theta}_0}\right]=-\int_{}^{} g(z) \frac{\partial ^{2}\log f(z|\mathbf{\theta})}{\partial \mathbf{\theta} \partial \mathbf{\theta}^{\mathsf{T}}}\bigg|_{\mathbf{\theta}_0} \mathrm{d}z \]

注意一下几点: - \(b(G)\) 与观测次数 \(n\) 无关; - \(b(G)\) 需要真实分布 \(G(z)\)(我们并不知道)来计算,我们可以跟(38)一样估计 \(G(z)\),虽然这真的很粗糙. - \(b(G)\) 的导出并没有用到真实分布 \(g(x)\) 包含于模型 ${f(x|);^{p}} $ 中这个假设. 当这个假设成立时,\(I(\mathbf{\theta}_0)=J(\mathbf{\theta}_0)\).

Akaike Information Criterion (AIC)

假设真实分布 \(g(x)\) 包含于模型 ${f(x|);^{p}} $ 中,即存在 \(\mathbf{\theta}_0\in \Theta\) 使得 \(g(x)=f(x|\mathbf{\theta}_0)\). 此时 \[ b(G)=\operatorname{tr}(I_p)=p, \tag{40} \]

恰好为模型的参数个数. 如果认为采到不同样本集合的概率大致相同(感觉也不太靠谱),那么就有 \[ p=b(G)\thickapprox \sum_{\alpha=1}^{n} \log f(X_{\alpha}|\hat{\mathbf{\theta}})-n \mathbb{E}_{G(z)}\log f(Z|\hat{\mathbf{\theta}}) \]

乘个系数 \(-2\) 让它长得跟 \(BIC\) 像一点,就得到 \(AIC\) 的定义 \[ AIC= -2 \sum_{\alpha=1}^{n} \log f(X_{\alpha}|\hat{\mathbf{\theta}})+2p \tag{41} \]

WAIC

对于一个统计模型,如果从参数空间到概率分布的映射是一一映射且它的 Fisher information matrix 是正定的,就称该统计模型是 regular 的. 否则,就称该统计模型是 singular 的. 一般来说,如果一个统计模型包含分层结构、隐变量等结构,那么这个模型是 singular 的,比如神经网络是一个 singular 的模型.

\(WAIC\)\(AIC\) 在 singular 的模型上的推广. 在 singular 模型中,MLE 不满足渐近无偏性(asymptotic normality 我猜的). 从而,\(AIC\) 不等于 average generalization error,\(BIC\) 不等于 Bayes marginal likelihood,甚至也不能渐近地趋向.

对于 \(\mathbf{\Theta}\) 空间中的函数 \(f(\mathbf{\theta})\),给定一组样本集合 \(\mathbf{x}_n=\{x_1,\cdots ,x_n\}\)\(f(\mathbf{\theta})\) 关于后验分布的期望为

\[ \mathbb{E}_\mathbf{\theta}[f(\mathbf{\theta})]=\int_{}^{} f(\mathbf{\theta})p(\mathbf{\theta}|x_1,\cdots x_n) \mathrm{d}\mathbf{\theta}=\frac{\int_{}^{} f(\mathbf{\theta})\prod_{i=1}^{n} p(x_i|\mathbf{\theta})^{\beta}\pi(\mathbf{\theta}) \mathrm{d}\mathbf{\theta}}{\int_{}^{} \prod_{i=1}^{n} p(x_i|\mathbf{\theta})^{\beta}\pi(\mathbf{\theta}) \mathrm{d}\mathbf{\theta}} \]

\(0<\beta<\infty\) 称为 inverse temperature,只关心 \(\beta=1\) 的情况(称为 strict Bayes estimation). Watanabe 定义了 Bayes predictive distribution \[ p^{*}(x)\equiv \mathbb{E}_{\mathbf{\theta}}[p(x|\mathbf{\theta})]. \]

Bayes generalization loss \(B_gL(n)\) \[ B_gL(n)=-\mathbb{E}_{X}[\log p^{*}(x)], \]

Bayes training loss \(B_{t}L(n)\) \[ B_{t}L(n)=-\frac{1}{n} \sum_{i=1}^{n} \log p^{*}(x_{i}), \]

empirical variance \[ V(n)=\sum_{i=1}^{n} \left\{ \mathbb{E}_{\mathbf{\theta}}[(\log p(x_i|\mathbf{\theta}))^{2}]-\mathbb{E}_{\mathbf{\theta}}[\log p(x_i|\mathbf{\theta})]^{2}\right\}, \]

functional variance 体现了后验分布的波动. 然后可以定义 \[ WAIC(n)\equiv B_{t}L(n)+\frac{\beta}{n}V(n), \]

我只关心 \(\beta=1\),那么 \[ WAIC(n)=-\frac{1}{n}\sum_{i=1}^{n} \log p^{*}(x_i)+\frac{1}{n} \sum_{i=1}^{n} \left\{ \mathbb{E}_{\mathbf{\theta}}[(\log p(x_i|\mathbf{\theta}))^{2}]-\mathbb{E}_{\mathbf{\theta}}[\log p(x_i|\mathbf{\theta})]^{2}\right\}. \]

一般乘以系数 \(2n\) 让它长得跟 \(AIC\)\(BIC\) 更像 \[ WAIC=-2\sum_{i=1}^{n} \log p^{*}(x_i)+2\sum_{i=1}^{n} \left\{ \mathbb{E}_{\mathbf{\theta}}[(\log p(x_i|\mathbf{\theta}))^{2}]-\mathbb{E}_{\mathbf{\theta}}[\log p(x_i|\mathbf{\theta})]^{2}\right\} \]

注意计算 \(p^{*}(x)\) 时不需要真实分布,只需要样本和模型族.

Difference among information criterions

\(BIC\) 近似了 marginal likelihood,以选取最高的 posterior,这种做法其实并不好(Chapter7.4 Bayesian Data Analysis, third edition, Andrew Gelman, et al.).


Fisher Information, AIC & BIC
http://example.com/2023/03/02/Fisher-Information/
Author
John Doe
Posted on
March 2, 2023
Licensed under