ポタージュを垂れ流す。

マイペースこうしん(主に旅行)

集中不等式を使った区間推定

ふと思って、区間推定って集中不等式使ってできてないの?となったが、普通にできるわ、となったのでメモ。簡単なシチュエーションで、平均を区間推定することにする。

  • まずはよく見る区間推定の問題を考える。

    $ X _ 1 , \ldots , X _ n \overset{ \rm i.i.d }{ \sim } N ( \mu , σ ^ 2) $ に基づいて、分散$σ ^ 2$は既知として、平均 $\mu$ を区間推定したいとする。このとき、信頼係数 $1-\alpha$ で推定する場合は、 $z _ {\alpha/2}$ を標準正規分布の上側 $100\times \alpha/2$ パーセント点として

    $$ \mathrm{Pr}( | \overline{X} - \mu | \leq z _ {\alpha/2}σ) = 1 - \alpha $$

    が成立する。

    $\mu$ の信頼係数 $1-\alpha$ の信頼区間を求めるとき、$\overline{X}=\sum _ {i=1} ^ nX _ i/n$ を実際の観測値 $\overline{x}=\sum _ {i=1} ^ nx _ i/n$ で置き換えて$\lbrace x\mid |\overline{X}-\mu|\leq z _ {\alpha/2}σ\rbrace=\lbrack\overline{x}-z _ {\alpha/2}σ,\overline{x}+z _ {\alpha/2}σ\rbrack$で信頼区間を推定する。

  • 次に、集中不等式を使ったバージョン。

    $X _ 1,\ldots,X _ n\overset{\mathrm{i.i.d}}{\sim}F$ (ただし $[a,b]$ 上に値をとるとする)に基づいて、平均 $\mu$ を区間推定したいとする。Hoeffding’s inequalityを使えば

    $$ \mathrm{Pr}(|\overline{X}-\mu|\gt \epsilon)\leq 2e ^ {-2n\epsilon ^ 2/(b-a) ^ 2} $$

    が成り立つ。

    推定には、実際に観測された $\overline{X}=\sum _ {i=1} ^ nX _ i/n$を $\overline{x}=\sum _ {i=1} ^ nx _ i/n$ で置き換える。これによって、ある $\alpha=\mathrm{Pr}(|\overline{X}-\mu|\gt \epsilon)$ が存在して、信頼係数 $1-\alpha\geq 1-2e ^ {-2n\epsilon ^ 2/(b-a) ^ 2}$ の信頼区間 $\lbrack\overline{x}-\epsilon,\overline{x}+\epsilon\rbrack$ が得られる。

    特に、 $n\geq(b-a) ^ 2\log(2/\alpha)/(2\epsilon ^ 2)$ のサンプルがあれば、信頼区間 $\lbrack\overline{x}-\epsilon,\overline{x}+\epsilon\rbrack$ が得られるといえる。

ちなみに、英語版wikipediaのHoeffding’s inequalityの項には普通に書いてあった。Hoeffding's inequality - Wikipedia