参数推断
9.1 关注参数
通常人们只关心某一个函数$T(\theta)$,例如$X\sim N(\mu,\sigma^2)$中,参数是$\theta=(\mu,\sigma)$,如果目标是估计$\mu$,那么$\mu=T(\theta)$就是关注参数,而$\sigma$就是冗余参数.
例1,令$X_1,\cdots,X_n\sim N(\mu,\sigma^2)$,参数$\theta=(\mu,\sigma)$,参数空间是$\Theta={(\mu,\sigma):\mu\in R,\sigma>0}$,假设我们感兴趣的是检验值超过1的人数比例 $$ \tau=P(X>1)=1-\Phi(\frac{1-\mu}{\sigma}) $$ 关注参数是$\tau=T(\mu,\sigma)=1-\Phi((1-\mu)/\sigma)$
9.2 矩估计
这种估计并不是最优,但是最容易计算,他们也可以作为其他需要循环几次算法的初始值.
假设参数$\theta=(\theta_1,\cdots,\theta_k)$有$k$个元素,有$1\le j\le k$定义$k$阶矩: $$ \alpha_j=\alpha_j(\theta)=E_\theta(X^j)=\int x^jdF_\theta(x). $$ 那么$j$阶样本矩是 $$ \hat{\alpha_j}=\frac{1}{n}\sum_{i=1}^n X_i^j $$ 定义2 $\theta$的矩估计定义为$\hat{\theta}_n$,使得 $$ \alpha_1(\hat{\theta}_n)=\hat{\alpha}_1\ \alpha_2(\hat{\theta}_n)=\hat{\alpha}_2\ \vdots $$ 定理3 令$\hat\theta_n$表示矩估计,在适当的条件下,下述成立:
- 矩估计$\hat\theta_n$以接近概率1存在.
- 这个估计是相合的
- 这个估计是渐进正态的. $$ \sqrt{n}(\hat{\theta}n-\theta)\leadsto N(0,\Sigma) $$ 其中 $$ \Sigma=gE\theta(YY^T)g^T $$
最后一条可以用于求标准差和置信区间,另外我们还有Bootstrap方法来求.
9.3 极大似然估计(MLE)
令$X_1,\cdots,X_n$独立同分布于概率密度函数$f(x;\theta)$
定义4 似然函数定义为 $$ \mathcal{L}n(\theta)=\prod{i=1}^nf(X_i;\theta). $$ 对数似然函数为$l_n(\theta)=\log \mathcal{L}_n(\theta)$
对数似然函数是数据的联合密度函数,只是把它看做了参数为$\theta$的一个函数.因此
$\mathcal{L}_n:\Theta\rightarrow [0,\infty]$,但是似然函数不是一个密度函数
定义5 MLE记作$\hat\theta_n$,是让$\mathcal{L}_n(\theta)$最大的$\theta$的值
9.4 MLE的性质
- MLE是相合的: $\hat\theta_n\stackrel{P}\rightarrow \theta_*$ ,其中$\theta_
*$表示参数$\theta$的真实值. - MLE是同变的:如果$\hat\theta_n$是$\theta$的MLE,那么$g(\hat\theta_n)$是$g(\theta)$的MLE
- MLE是渐进正态的:$(\hat\theta_n-\theta_*)/\hat{\text{se}}\leadsto N(0,1)$,同时$\hat{\text{se}}$能够解出来.
9.5 相合性
定义KL距离: $$ D(f,g)=\int f(x) \log(\frac{f(x)}{g(x)})dx $$ 有以下结论$D(f,g)\ge 0$,并且$D(f,f)=0$
我们用$D(\theta,\psi)$表示$D(f(x;\theta), f(x;\psi))$
如果$\theta≠\psi$可以推导出$D(\theta,\psi)\gt 0$,那么模型$\mathfrak{F}$是可识别的,意味着参数值对应着不同的分布,如果不能推导出,意味着他们参数变化相同,你无法得出到底是谁的影响.
接下来,我们都假设模型是可识别的。
令$\theta_*$是$\theta$的真实值,那么MLE的过程相当于在最大化 $$ M_n(\theta)=\frac{1}{n}\sum_i\log\frac{f(X_i;\theta)}{f(X_i;\theta_*)} $$ 并且我们根据LLN,$M_n(\theta)$收敛于 $$ \begin{aligned} E_{\theta^*}\left(\log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}\right)&=\int \log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}f(x;\theta_*)dx\ &=-\int\log \frac{f(X_i;\theta_*)}{f(X_i;\theta)}f(x;\theta_*)dx\ &=-D(\theta_*,\theta) \end{aligned} $$ 所以有$M_n(\theta)\approx -D(\theta_*,\theta)$,也就相当于最大化$\theta_*$,因为$-D(\theta_*,\theta_*)=0$.
9.6 同变性
公理6 令$\tau=g(\theta)$是一个$\theta$的函数,$\hat\theta_n$是$\theta$的MLE,然后有$\hat\tau_n=g(\hat\theta_n)$是$\tau$的MLE
例:$X_1,\cdots,X_n\sim N(\theta,1)$,那么$\theta$的MLE是$\hat\theta_n=\bar X_n$,令$\tau=e^\theta$,那么$\tau$的MLE是$\hat\tau=e^\hat\theta=e^\bar X$
9.7 渐进正态性
这指明了$\hat\theta_n$的分布是近似正态的,于是我们就可以通过这个结论大致去估计他的方差的解析解.我们首先需要几个定义:
定义7 定义score function为 $$ s(X;\theta)=\frac{\partial \log f(X;\theta)}{\partial \theta} $$ 那么Fisher Information是 $$ \begin{aligned} I_n(\theta)&=V_\theta\left(\sum_{i=1}^n s(X_i;\theta)\right)\ &=\sum_{i=1}^n V_\theta(s(X_i;\theta)) \end{aligned} $$ 注意,对于$n=1$的情况,我们直接写作$I(\theta)$.
我们不难证明$E_\theta(s(X;\theta))=0$,并且有$V_\theta(s(X;\theta))=E_\theta(s^2(X;\theta))$
对于Fisher Information的简化版本如下:
定理8 有$I_n(\theta)=nI(\theta)$,并且有 $$ \begin{aligned} I(\theta)&=-E_\theta\left(\frac{\partial^2\log f(X;\theta)}{\partial \theta^2}\right)\ &=-\int \left(\frac{\partial^2 \log f(x;\theta)}{\partial \theta^2} \right)f(x;\theta)dx \end{aligned} $$ 其实Fisher Information就是在量化Score Function的方差
定理9 MLE的渐进正态性 令$\text{se}=\sqrt{V(\hat\theta_n)}$,在合理的条件下,以下式子成立:
1.$\text{se}\approx \sqrt{1/I_n(\theta)}$ 以及 $$ \frac{\hat\theta_n-\theta}{\text{se}}\leadsto N(0,1) $$ 2.令$\hat{\text{se}}\approx \sqrt{1/I_n(\hat\theta)}$,那么 $$ \frac{\hat\theta_n-\theta}{\hat{\text{se}}}\leadsto N(0,1) $$ 证明见附录.
这个定理说明了MLE的分布是近似于$N(\theta,\hat{\text{se}}^2)$的.据此,我们可以构造他的置信区间:
定理10 令 $$ C_n=\left( \hat\theta_n-z_{\alpha/2}\hat{\text{se}}, \hat\theta_n+ z_{\alpha/2}\hat{\text{se}}\right) $$ 那么 $P_\theta(\theta\in C_n)\rightarrow 1-\alpha$当$n\rightarrow \infty$
由于$\alpha=.05,z_{\alpha/2}=1.96\approx 2$,那么 $$ \hat\theta_n\pm 2\hat{\text{se}} $$ 这是他的95%置信区间.
9.8最优性
假设$X_1,\cdots,X_n\sim N(\theta,\sigma^2)$,极大似然估计为$\hat\theta_n=\bar{X}_n.$ $\theta$的另外一个合理的估计为样本中位数$\tilde\theta_n$,极大似然估计是 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,\sigma^2) $$ 也可以证明: $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,\sigma^2\pi/2) $$ 这意味着中位数收敛于真实参数,但是方差比极大似然估计方差大.
也就是说我们考虑两个估计量 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,t^2) $$ 也可以有: $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,u^2) $$ 定义$U$对于$T$的渐进相对效$\text{ARE}(U,T)=t^2/u^2$
在上面的例子中$\text{ARE}(\tilde\theta_n,\hat\theta_n)=2/\pi=0.63$,所以说,如果用中位数来估计的话,值有效利用了一部分数据而已.
定理11 如果$\hat\theta_n$是极大似然估计,$\tilde\theta_n$是其他任意估计,那么 $$ \text{ARE}(\tilde\theta_n,\hat\theta_n)\le 1 $$ 因此,极大似然估计具有最小(渐近)方差,称极大似然估计是有效的或者渐近最优的.
这个结论是基于模型正确的假设,如果模型有误,那么极大似然估计就不是最优的了.
9.9 Delta方法
令$\tau=g(\theta)$,这里$g$是光滑函数,$\tau$的极大似然估计为$\hat\tau=g(\hat\theta)$. 现在来考虑下面问题,$\hat\tau$的分布是什么?
定理12(Delta 方法) 如果$\tau=g(\theta)$,其中,$g$可微,且$g'(\theta)≠0$,那么有 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中, $\hat\tau_n=g(\hat\theta_n)$,而且 $$ \hat{\text{se}}(\hat\tau_n)=|g'(\hat\theta)|\hat{\text{se}}(\hat\theta_n) $$ 因此,如果 $$ C_n=(\hat\tau_n-z_{\alpha/2}\hat{\text{se}}(\hat\tau_n),\hat\tau_n+z_{\alpha/2}\hat{\text{se}}(\hat\tau_n)) $$ 并且有$n\rightarrow \infty$ 的时候,$P_\theta(\tau\in C_n)\rightarrow 1-\alpha$
参考第五章的delta方法
9.10 多参数模型
Fisher信息量去估计se的方法,可以扩展到多参数模型
令$\theta=(\theta_1,\cdots,\theta_k)$,且令$\hat\theta=(\hat\theta_1,\cdots,\hat\theta_k)$是极大似然估计,令$l_n=\sum_{i=1}^n \log f(X_i;\theta)$,
那么Fisher信息矩阵是: $$ I_n(\theta)=\left( \begin{matrix} E_\theta(H_{11})& E_\theta(H_{12})&\cdots&E_\theta(H_{1k})\ E_\theta(H_{21})& E_\theta(H_{22})&\cdots&E_\theta(H_{2k})\ \vdots&\vdots&&\vdots\ E_\theta(H_{k1})& E_\theta(H_{k2})&\cdots&E_\theta(H_{kk}) \end{matrix} \right) $$ 令$J_n(\theta)=I^{-1}_n(\theta)$是$I_n$的逆矩阵.
定理13 在适当的正则条件下, $$ (\hat\theta-\theta)\approx N(0,J_n) $$ 同样,如果$\hat\theta_j$是$\hat\theta$的第$j$个元素,那么 $$ \frac{(\hat\theta_j-\hat\theta)}{\hat{\text{se}}_j}\leadsto N(0,1) $$ 其中,$\hat{\text{se}}_j=J_n(j,j)$是$J_n$的第$j$个对角线元素,$\hat{\text{se}}_j$和$\hat{\text{se}}_k$的渐近方差是$\text{Cov}(\hat{\text{se}}_j,\hat{\text{se}}_k)\approx J_n(j,k)$
同样,我们也有多参数的Delta方法,令$\tau=g(\theta_1,\cdots,\theta_k)$是一个函数,令 $$ \nabla g=\left(\matrix{\frac{\partial g}{\partial \theta_1}\ \vdots\ \frac{\partial g}{\partial \theta_k}}\right) $$ 是$g$的梯度.
定理14 多参数Delta方法,假设$\nabla g$在$\hat\theta$处不等于0, 令$\hat\tau=g(\hat\theta)$,那么 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中$\hat{\text{se}}(\hat\tau)=\sqrt{(\nabla\hat g)^T\hat J_n(\nabla \hat g)}$
其中$\hat J_n=J_n(\hat\theta_n)$,当$\theta=\hat\theta$的时候,$\nabla \hat g=\nabla g$
9.11参数的Bootstrap
对一个参数模型,标准差和置信区间也可以使用Bootstrap方法来估计. 在这里只有一个变化,在非参数模型Bootstrap中,从经验分布抽出样本$X_1^*,\cdots,X_n^*$,但是在参数Bootstrap方法中,我们是从$f(x;\hat\theta_n)$抽样,所以,$\hat\theta_n$可以是极大似然估计或者矩估计.
说白了,一个是从正确的里面抽样本,一个是从估计的一个PDF里面抽样本.