统计学9-参数推断

Author:

参数推断

9.1 关注参数

通常人们只关心某一个函数$T(\theta)$,例如$X\sim N(\mu,\sigma^2)$中,参数是$\theta=(\mu,\sigma)$,如果目标是估计$\mu$,那么$\mu=T(\theta)$就是关注参数,而$\sigma$就是冗余参数.

例1,令$X_1,\cdots,X_n\sim N(\mu,\sigma^2)$,参数$\theta=(\mu,\sigma)$,参数空间是$\Theta={(\mu,\sigma):\mu\in R,\sigma>0}$,假设我们感兴趣的是检验值超过1的人数比例 $$ \tau=P(X>1)=1-\Phi(\frac{1-\mu}{\sigma}) $$ 关注参数是$\tau=T(\mu,\sigma)=1-\Phi((1-\mu)/\sigma)$

9.2 矩估计

这种估计并不是最优,但是最容易计算,他们也可以作为其他需要循环几次算法的初始值.

假设参数$\theta=(\theta_1,\cdots,\theta_k)$有$k$个元素,有$1\le j\le k$定义$k$阶矩: $$ \alpha_j=\alpha_j(\theta)=E_\theta(X^j)=\int x^jdF_\theta(x). $$ 那么$j$阶样本矩是 $$ \hat{\alpha_j}=\frac{1}{n}\sum_{i=1}^n X_i^j $$ 定义2 $\theta$的矩估计定义为$\hat{\theta}_n$,使得 $$ \alpha_1(\hat{\theta}_n)=\hat{\alpha}_1\ \alpha_2(\hat{\theta}_n)=\hat{\alpha}_2\ \vdots $$ 定理3 令$\hat\theta_n$表示矩估计,在适当的条件下,下述成立:

  • 矩估计$\hat\theta_n$以接近概率1存在.
  • 这个估计是相合
  • 这个估计是渐进正态的. $$ \sqrt{n}(\hat{\theta}n-\theta)\leadsto N(0,\Sigma) $$ 其中 $$ \Sigma=gE\theta(YY^T)g^T $$

最后一条可以用于求标准差和置信区间,另外我们还有Bootstrap方法来求.

9.3 极大似然估计(MLE)

令$X_1,\cdots,X_n$独立同分布于概率密度函数$f(x;\theta)$

定义4 似然函数定义为 $$ \mathcal{L}n(\theta)=\prod{i=1}^nf(X_i;\theta). $$ 对数似然函数为$l_n(\theta)=\log \mathcal{L}_n(\theta)$

对数似然函数是数据的联合密度函数,只是把它看做了参数为$\theta$的一个函数.因此

$\mathcal{L}_n:\Theta\rightarrow [0,\infty]$,但是似然函数不是一个密度函数

定义5 MLE记作$\hat\theta_n$,是让$\mathcal{L}_n(\theta)$最大的$\theta$的值

9.4 MLE的性质

  1. MLE是相合的: $\hat\theta_n\stackrel{P}\rightarrow \theta_*$ ,其中$\theta_
    *$表示参数$\theta$的真实值.
  2. MLE是同变的:如果$\hat\theta_n$是$\theta$的MLE,那么$g(\hat\theta_n)$是$g(\theta)$的MLE
  3. MLE是渐进正态的:$(\hat\theta_n-\theta_*)/\hat{\text{se}}\leadsto N(0,1)$,同时$\hat{\text{se}}$能够解出来.

9.5 相合性

定义KL距离: $$ D(f,g)=\int f(x) \log(\frac{f(x)}{g(x)})dx $$ 有以下结论$D(f,g)\ge 0$,并且$D(f,f)=0$

我们用$D(\theta,\psi)$表示$D(f(x;\theta), f(x;\psi))$

如果$\theta≠\psi$可以推导出$D(\theta,\psi)\gt 0$,那么模型$\mathfrak{F}$是可识别的,意味着参数值对应着不同的分布,如果不能推导出,意味着他们参数变化相同,你无法得出到底是谁的影响.

接下来,我们都假设模型是可识别的。

令$\theta_*$是$\theta$的真实值,那么MLE的过程相当于在最大化 $$ M_n(\theta)=\frac{1}{n}\sum_i\log\frac{f(X_i;\theta)}{f(X_i;\theta_*)} $$ 并且我们根据LLN,$M_n(\theta)$收敛于 $$ \begin{aligned} E_{\theta^*}\left(\log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}\right)&=\int \log \frac{f(X_i;\theta)}{f(X_i;\theta_*)}f(x;\theta_*)dx\ &=-\int\log \frac{f(X_i;\theta_*)}{f(X_i;\theta)}f(x;\theta_*)dx\ &=-D(\theta_*,\theta) \end{aligned} $$ 所以有$M_n(\theta)\approx -D(\theta_*,\theta)$,也就相当于最大化$\theta_*$,因为$-D(\theta_*,\theta_*)=0$.

9.6 同变性

公理6 令$\tau=g(\theta)$是一个$\theta$的函数,$\hat\theta_n$是$\theta$的MLE,然后有$\hat\tau_n=g(\hat\theta_n)$是$\tau$的MLE

例:$X_1,\cdots,X_n\sim N(\theta,1)$,那么$\theta$的MLE是$\hat\theta_n=\bar X_n$,令$\tau=e^\theta$,那么$\tau$的MLE是$\hat\tau=e^\hat\theta=e^\bar X$

9.7 渐进正态性

这指明了$\hat\theta_n$的分布是近似正态的,于是我们就可以通过这个结论大致去估计他的方差的解析解.我们首先需要几个定义:

定义7 定义score function为 $$ s(X;\theta)=\frac{\partial \log f(X;\theta)}{\partial \theta} $$ 那么Fisher Information是 $$ \begin{aligned} I_n(\theta)&=V_\theta\left(\sum_{i=1}^n s(X_i;\theta)\right)\ &=\sum_{i=1}^n V_\theta(s(X_i;\theta)) \end{aligned} $$ 注意,对于$n=1$的情况,我们直接写作$I(\theta)$.

我们不难证明$E_\theta(s(X;\theta))=0$,并且有$V_\theta(s(X;\theta))=E_\theta(s^2(X;\theta))$

对于Fisher Information的简化版本如下:

定理8 有$I_n(\theta)=nI(\theta)$,并且有 $$ \begin{aligned} I(\theta)&=-E_\theta\left(\frac{\partial^2\log f(X;\theta)}{\partial \theta^2}\right)\ &=-\int \left(\frac{\partial^2 \log f(x;\theta)}{\partial \theta^2} \right)f(x;\theta)dx \end{aligned} $$ 其实Fisher Information就是在量化Score Function的方差

定理9 MLE的渐进正态性 令$\text{se}=\sqrt{V(\hat\theta_n)}$,在合理的条件下,以下式子成立:

1.$\text{se}\approx \sqrt{1/I_n(\theta)}$ 以及 $$ \frac{\hat\theta_n-\theta}{\text{se}}\leadsto N(0,1) $$ 2.令$\hat{\text{se}}\approx \sqrt{1/I_n(\hat\theta)}$,那么 $$ \frac{\hat\theta_n-\theta}{\hat{\text{se}}}\leadsto N(0,1) $$ 证明见附录.

这个定理说明了MLE的分布是近似于$N(\theta,\hat{\text{se}}^2)$的.据此,我们可以构造他的置信区间:

定理10 令 $$ C_n=\left( \hat\theta_n-z_{\alpha/2}\hat{\text{se}}, \hat\theta_n+ z_{\alpha/2}\hat{\text{se}}\right) $$ 那么 $P_\theta(\theta\in C_n)\rightarrow 1-\alpha$当$n\rightarrow \infty$

由于$\alpha=.05,z_{\alpha/2}=1.96\approx 2$,那么 $$ \hat\theta_n\pm 2\hat{\text{se}} $$ 这是他的95%置信区间.

9.8最优性

假设$X_1,\cdots,X_n\sim N(\theta,\sigma^2)$,极大似然估计为$\hat\theta_n=\bar{X}_n.$ $\theta$的另外一个合理的估计为样本中位数$\tilde\theta_n$,极大似然估计是 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,\sigma^2) $$ 也可以证明: $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,\sigma^2\pi/2) $$ 这意味着中位数收敛于真实参数,但是方差比极大似然估计方差大.

也就是说我们考虑两个估计量 $$ \sqrt{n}(\hat\theta_n-\theta)\leadsto N(0,t^2) $$ 也可以有: $$ \sqrt{n}(\tilde\theta_n-\theta)\leadsto N(0,u^2) $$ 定义$U$对于$T$的渐进相对效$\text{ARE}(U,T)=t^2/u^2$

在上面的例子中$\text{ARE}(\tilde\theta_n,\hat\theta_n)=2/\pi=0.63$,所以说,如果用中位数来估计的话,值有效利用了一部分数据而已.

定理11 如果$\hat\theta_n$是极大似然估计,$\tilde\theta_n$是其他任意估计,那么 $$ \text{ARE}(\tilde\theta_n,\hat\theta_n)\le 1 $$ 因此,极大似然估计具有最小(渐近)方差,称极大似然估计是有效的或者渐近最优的.

这个结论是基于模型正确的假设,如果模型有误,那么极大似然估计就不是最优的了.

9.9 Delta方法

令$\tau=g(\theta)$,这里$g$是光滑函数,$\tau$的极大似然估计为$\hat\tau=g(\hat\theta)$. 现在来考虑下面问题,$\hat\tau$的分布是什么?

定理12(Delta 方法) 如果$\tau=g(\theta)$,其中,$g$可微,且$g'(\theta)≠0$,那么有 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中, $\hat\tau_n=g(\hat\theta_n)$​,而且 $$ \hat{\text{se}}(\hat\tau_n)=|g'(\hat\theta)|\hat{\text{se}}(\hat\theta_n) $$ 因此,如果 $$ C_n=(\hat\tau_n-z_{\alpha/2}\hat{\text{se}}(\hat\tau_n),\hat\tau_n+z_{\alpha/2}\hat{\text{se}}(\hat\tau_n)) $$ 并且有$n\rightarrow \infty$ 的时候,$P_\theta(\tau\in C_n)\rightarrow 1-\alpha$

参考第五章的delta方法

9.10 多参数模型

Fisher信息量去估计se的方法,可以扩展到多参数模型

令$\theta=(\theta_1,\cdots,\theta_k)$,且令$\hat\theta=(\hat\theta_1,\cdots,\hat\theta_k)$是极大似然估计,令$l_n=\sum_{i=1}^n \log f(X_i;\theta)$,

那么Fisher信息矩阵是: $$ I_n(\theta)=\left( \begin{matrix} E_\theta(H_{11})& E_\theta(H_{12})&\cdots&E_\theta(H_{1k})\ E_\theta(H_{21})& E_\theta(H_{22})&\cdots&E_\theta(H_{2k})\ \vdots&\vdots&&\vdots\ E_\theta(H_{k1})& E_\theta(H_{k2})&\cdots&E_\theta(H_{kk}) \end{matrix} \right) $$ 令$J_n(\theta)=I^{-1}_n(\theta)$是$I_n$的逆矩阵.

定理13 在适当的正则条件下, $$ (\hat\theta-\theta)\approx N(0,J_n) $$ 同样,如果$\hat\theta_j$是$\hat\theta$的第$j$个元素,那么 $$ \frac{(\hat\theta_j-\hat\theta)}{\hat{\text{se}}_j}\leadsto N(0,1) $$ 其中,$\hat{\text{se}}_j=J_n(j,j)$是$J_n$的第$j$个对角线元素,$\hat{\text{se}}_j$和$\hat{\text{se}}_k$的渐近方差是$\text{Cov}(\hat{\text{se}}_j,\hat{\text{se}}_k)\approx J_n(j,k)$

同样,我们也有多参数的Delta方法,令$\tau=g(\theta_1,\cdots,\theta_k)$是一个函数,令 $$ \nabla g=\left(\matrix{\frac{\partial g}{\partial \theta_1}\ \vdots\ \frac{\partial g}{\partial \theta_k}}\right) $$ 是$g$的梯度.

定理14 多参数Delta方法,假设$\nabla g$在$\hat\theta$处不等于0, 令$\hat\tau=g(\hat\theta)$,那么 $$ \frac{(\hat\tau_n-\tau)}{\hat{\text{se}}(\hat\tau)}\leadsto N(0,1) $$ 其中$\hat{\text{se}}(\hat\tau)=\sqrt{(\nabla\hat g)^T\hat J_n(\nabla \hat g)}$

其中$\hat J_n=J_n(\hat\theta_n)$,当$\theta=\hat\theta$的时候,$\nabla \hat g=\nabla g$

9.11参数的Bootstrap

对一个参数模型,标准差和置信区间也可以使用Bootstrap方法来估计. 在这里只有一个变化,在非参数模型Bootstrap中,从经验分布抽出样本$X_1^*,\cdots,X_n^*$,但是在参数Bootstrap方法中,我们是从$f(x;\hat\theta_n)$抽样,所以,$\hat\theta_n$可以是极大似然估计或者矩估计.

说白了,一个是从正确的里面抽样本,一个是从估计的一个PDF里面抽样本.

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注