统计学9-参数推断 – Nobilow's Blog

参数推断

9.1 关注参数

通常人们只关心某一个函数$T(\theta)$，例如$X\sim N(\mu,\sigma^2)$中，参数是$\theta=(\mu,\sigma)$，如果目标是估计$\mu$，那么$\mu=T(\theta)$就是关注参数，而$\sigma$就是冗余参数.

例1，令$X_1,\cdots,X_n\sim N(\mu,\sigma^2)$，参数$\theta=(\mu,\sigma)$，参数空间是$\Theta={(\mu,\sigma):\mu\in R,\sigma>0}$，假设我们感兴趣的是检验值超过1的人数比例 $$ \tau=P(X>1)=1-\Phi(\frac{1-\mu}{\sigma}) $$ 关注参数是$\tau=T(\mu,\sigma)=1-\Phi((1-\mu)/\sigma)$

9.2 矩估计

这种估计并不是最优，但是最容易计算，他们也可以作为其他需要循环几次算法的初始值.

假设参数$\theta=(\theta_1,\cdots,\theta_k)$有$k$个元素，有$1\le j\le k$定义$k$阶矩: $$ \alpha_j=\alpha_j(\theta)=E_\theta(X^j)=\int x^jdF_\theta(x). $$ 那么$j$阶样本矩是 $$ \hat{\alpha_j}=\frac{1}{n}\sum_{i=1}^n X_i^j $$ 定义2 $\theta$的矩估计定义为$\hat{\theta}_n$，使得 $$ \alpha_1(\hat{\theta}_n)=\hat{\alpha}_1\ \alpha_2(\hat{\theta}_n)=\hat{\alpha}_2\ \vdots $$ 定理3 令$\hat\theta_n$表示矩估计，在适当的条件下，下述成立:

矩估计$\hat\theta_n$以接近概率1存在.
这个估计是相合的
这个估计是渐进正态的. $$ \sqrt{n}(\hat{\theta}n-\theta)\leadsto N(0,\Sigma) $$ 其中 $$ \Sigma=gE\theta(YY^T)g^T $$

最后一条可以用于求标准差和置信区间，另外我们还有Bootstrap方法来求.

9.3 极大似然估计(MLE)

令$X_1,\cdots,X_n$独立同分布于概率密度函数$f(x;\theta)$

定义4 似然函数定义为 $$ \mathcal{L}n(\theta)=\prod{i=1}^nf(X_i;\theta). $$ 对数似然函数为$l_n(\theta)=\log \mathcal{L}_n(\theta)$

对数似然函数是数据的联合密度函数，只是把它看做了参数为$\theta$的一个函数.因此

$\mathcal{L}_n:\Theta\rightarrow [0,\infty]$，但是似然函数不是一个密度函数

定义5 MLE记作$\hat\theta_n$，是让$\mathcal{L}_n(\theta)$最大的$\theta$的值

9.4 MLE的性质

MLE是相合的: $\hat\theta_n\stackrel{P}\rightarrow \theta_*$ ，其中$\theta_
*$表示参数$\theta$的真实值.
MLE是同变的:如果$\hat\theta_n$是$\theta$的MLE，那么$g(\hat\theta_n)$是$g(\theta)$的MLE
MLE是渐进正态的:$(\hat\theta_n-\theta_*)/\hat{\text{se}}\leadsto N(0,1)$，同时$\hat{\text{se}}$能够解出来.

9.5 相合性

定义KL距离: $$ D(f,g)=\int f(x) \log(\frac{f(x)}{g(x)})dx $$ 有以下结论$D(f,g)\ge 0$，并且$D(f,f)=0$

我们用$D(\theta,\psi)$表示$D(f(x;\theta), f(x;\psi))$

如果$\theta≠\psi$可以推导出$D(\theta,\psi)\gt 0$，那么模型$\mathfrak{F}$是可识别的，意味着参数值对应着不同的分布，如果不能推导出，意味着他们参数变化相同，你无法得出到底是谁的影响.

接下来，我们都假设模型是可识别的。

令$\theta_*$是$\theta$的真实值，那么MLE的过程相当于在最大化 $$ M_n(\theta)=\frac{1}{n}\sum_i\log\frac{f(X_i;\theta)}{f(X_i;\theta_*)} $$ 并且我们根据LLN，$M_n(\theta)$收敛于 $$ \begin{aligned} E_{\theta^*}\left(\log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}\right)&=\int \log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}f(x;\theta_*)dx\ &=-\int\log \frac{f(X_i;\theta_*)}{f(X_i;\theta)}f(x;\theta_*)dx\ &=-D(\theta_*,\theta) \end{aligned} $$ 所以有$M_n(\theta)\approx -D(\theta_*,\theta)$，也就相当于最大化$\theta_*$，因为$-D(\theta_*,\theta_*)=0$.

9.6 同变性

公理6 令$\tau=g(\theta)$是一个$\theta$的函数，$\hat\theta_n$是$\theta$的MLE，然后有$\hat\tau_n=g(\hat\theta_n)$是$\tau$的MLE

例:$X_1,\cdots,X_n\sim N(\theta,1)$，那么$\theta$的MLE是$\hat\theta_n=\bar X_n$，令$\tau=e^\theta$，那么$\tau$的MLE是$\hat\tau=e^\hat\theta=e^\bar X$

9.7 渐进正态性

这指明了$\hat\theta_n$的分布是近似正态的，于是我们就可以通过这个结论大致去估计他的方差的解析解.我们首先需要几个定义:

定义7 定义score function为 $$ s(X;\theta)=\frac{\partial \log f(X;\theta)}{\partial \theta} $$ 那么Fisher Information是 $$ \begin{aligned} I_n(\theta)&=V_\theta\left(\sum_{i=1}^n s(X_i;\theta)\right)\ &=\sum_{i=1}^n V_\theta(s(X_i;\theta)) \end{aligned} $$ 注意，对于$n=1$的情况，我们直接写作$I(\theta)$.

我们不难证明$E_\theta(s(X;\theta))=0$,并且有$V_\theta(s(X;\theta))=E_\theta(s^2(X;\theta))$

对于Fisher Information的简化版本如下：

定理8 有$I_n(\theta)=nI(\theta)$，并且有 $$ \begin{aligned} I(\theta)&=-E_\theta\left(\frac{\partial^2\log f(X;\theta)}{\partial \theta^2}\right)\ &=-\int \left(\frac{\partial^2 \log f(x;\theta)}{\partial \theta^2} \right)f(x;\theta)dx \end{aligned} $$ 其实Fisher Information就是在量化Score Function的方差

定理9 MLE的渐进正态性 令$\text{se}=\sqrt{V(\hat\theta_n)}$，在合理的条件下，以下式子成立:

1.$\text{se}\approx \sqrt{1/I_n(\theta)}$ 以及 $$ \frac{\hat\theta_n-\theta}{\text{se}}\leadsto N(0,1) $$ 2.令$\hat{\text{se}}\approx \sqrt{1/I_n(\hat\theta)}$,那么 $$ \frac{\hat\theta_n-\theta}{\hat{\text{se}}}\leadsto N(0,1) $$ 证明见附录.

这个定理说明了MLE的分布是近似于$N(\theta,\hat{\text{se}}^2)$的.据此，我们可以构造他的置信区间:

定理10 令 $$ C_n=\left( \hat\theta_n-z_{\alpha/2}\hat{\text{se}}, \hat\theta_n+ z_{\alpha/2}\hat{\text{se}}\right) $$ 那么 $P_\theta(\theta\in C_n)\rightarrow 1-\alpha$当$n\rightarrow \infty$

由于$\alpha=.05,z_{\alpha/2}=1.96\approx 2$，那么 $$ \hat\theta_n\pm 2\hat{\text{se}} $$ 这是他的95%置信区间.

9.8最优性

假设$X_1,\cdots,X_n\sim N(\theta,\sigma^2)$，极大似然估计为$\hat\theta_n=\bar{X}_n.$ $\theta$的另外一个合理的估计为样本中位数$\tilde\theta_n$，极大似然估计是 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,\sigma^2) $$ 也可以证明: $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,\sigma^2\pi/2) $$ 这意味着中位数收敛于真实参数，但是方差比极大似然估计方差大.

也就是说我们考虑两个估计量 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,t^2) $$ 也可以有： $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,u^2) $$ 定义$U$对于$T$的渐进相对效$\text{ARE}(U,T)=t^2/u^2$

在上面的例子中$\text{ARE}(\tilde\theta_n,\hat\theta_n)=2/\pi=0.63$，所以说，如果用中位数来估计的话，值有效利用了一部分数据而已.

定理11 如果$\hat\theta_n$是极大似然估计，$\tilde\theta_n$是其他任意估计，那么 $$ \text{ARE}(\tilde\theta_n,\hat\theta_n)\le 1 $$ 因此，极大似然估计具有最小（渐近）方差，称极大似然估计是有效的或者渐近最优的.

这个结论是基于模型正确的假设，如果模型有误，那么极大似然估计就不是最优的了.

9.9 Delta方法

令$\tau=g(\theta)$，这里$g$是光滑函数，$\tau$的极大似然估计为$\hat\tau=g(\hat\theta)$. 现在来考虑下面问题，$\hat\tau$的分布是什么？

定理12(Delta 方法) 如果$\tau=g(\theta)$，其中，$g$可微，且$g'(\theta)≠0$，那么有 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中, $\hat\tau_n=g(\hat\theta_n)$，而且 $$ \hat{\text{se}}(\hat\tau_n)=|g'(\hat\theta)|\hat{\text{se}}(\hat\theta_n) $$ 因此，如果 $$ C_n=(\hat\tau_n-z_{\alpha/2}\hat{\text{se}}(\hat\tau_n),\hat\tau_n+z_{\alpha/2}\hat{\text{se}}(\hat\tau_n)) $$ 并且有$n\rightarrow \infty$ 的时候，$P_\theta(\tau\in C_n)\rightarrow 1-\alpha$

参考第五章的delta方法

9.10 多参数模型

Fisher信息量去估计se的方法，可以扩展到多参数模型

令$\theta=(\theta_1,\cdots,\theta_k)$，且令$\hat\theta=(\hat\theta_1,\cdots,\hat\theta_k)$是极大似然估计，令$l_n=\sum_{i=1}^n \log f(X_i;\theta)$,

那么Fisher信息矩阵是: $$ I_n(\theta)=\left( \begin{matrix} E_\theta(H_{11})& E_\theta(H_{12})&\cdots&E_\theta(H_{1k})\ E_\theta(H_{21})& E_\theta(H_{22})&\cdots&E_\theta(H_{2k})\ \vdots&\vdots&&\vdots\ E_\theta(H_{k1})& E_\theta(H_{k2})&\cdots&E_\theta(H_{kk}) \end{matrix} \right) $$ 令$J_n(\theta)=I^{-1}_n(\theta)$是$I_n$的逆矩阵.

定理13 在适当的正则条件下, $$ (\hat\theta-\theta)\approx N(0,J_n) $$ 同样，如果$\hat\theta_j$是$\hat\theta$的第$j$个元素，那么 $$ \frac{(\hat\theta_j-\hat\theta)}{\hat{\text{se}}_j}\leadsto N(0,1) $$ 其中，$\hat{\text{se}}_j=J_n(j,j)$是$J_n$的第$j$个对角线元素，$\hat{\text{se}}_j$和$\hat{\text{se}}_k$的渐近方差是$\text{Cov}(\hat{\text{se}}_j,\hat{\text{se}}_k)\approx J_n(j,k)$

同样，我们也有多参数的Delta方法,令$\tau=g(\theta_1,\cdots,\theta_k)$是一个函数，令 $$ \nabla g=\left(\matrix{\frac{\partial g}{\partial \theta_1}\ \vdots\ \frac{\partial g}{\partial \theta_k}}\right) $$ 是$g$的梯度.

定理14 多参数Delta方法，假设$\nabla g$在$\hat\theta$处不等于0, 令$\hat\tau=g(\hat\theta)$，那么 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中$\hat{\text{se}}(\hat\tau)=\sqrt{(\nabla\hat g)^T\hat J_n(\nabla \hat g)}$

其中$\hat J_n=J_n(\hat\theta_n)$，当$\theta=\hat\theta$的时候，$\nabla \hat g=\nabla g$

9.11参数的Bootstrap

对一个参数模型，标准差和置信区间也可以使用Bootstrap方法来估计. 在这里只有一个变化，在非参数模型Bootstrap中，从经验分布抽出样本$X_1^*,\cdots,X_n^*$，但是在参数Bootstrap方法中，我们是从$f(x;\hat\theta_n)$抽样，所以，$\hat\theta_n$可以是极大似然估计或者矩估计.

说白了，一个是从正确的里面抽样本，一个是从估计的一个PDF里面抽样本.