Introduction
確率論において、ある確率変数 $X$ の分布がどうなっているか知りたい!というのは往々にしてある話だと思います。よく知られている分布だったら簡単にいけるけど、そうでない分布はどうするか?というと、何らかの変換を通して分布の情報を得ることになります。例えば
などが有名です。分布関数とここに紹介した変換後のものは一対一に対応していることが知られているので、特性関数やモーメント母関数などから逆変換を行えば分布を知ることができます。
分布まで分からなくても、統計量を知りたいだけなら、この変換の式だけからモーメントを決定することができたりします。
…
という前置きをしておいて、ここでは偶然見つけたγ変換というものを紹介しようと思います。
γ-transform
γ変換は、有限な台をもつ離散確率変数に対して適用できる変換になっています。
逆変換公式も存在しています。
Moment and γ-transform
γ変換は、階乗モーメントと以下の関係で結びついています。
また、一般にモーメントと階乗モーメントの間には以下の関係があることが知られています。
結局これら2つからモーメントがγ変換で表現できることがわかります。期待値と分散を求めてみると
$$ E[X]=n(1-\gamma(n - 1)) $$
$$ V[X]=n ^ 2(\gamma(n - 2)-\gamma(n - 1) ^ 2)+n(\gamma(n - 1)-\gamma(n - 2)) $$
となります。
Interpretation
γ変換が個人的に面白いと思う点は、$\gamma(y)$ がある確率変数 $Y$ の確率密度関数とみなすことができ、さらに $X$ と $Y$ の間で物理的な解釈ができる点です。*2*3
すなわち、 $X$ と $Y$ を以下のような事象に対応する確率変数であると定めると、上で示した関係で、確率密度関数が $f(x)$ と $\gamma(y)$ の間で移り合います。
- $X$:成功or失敗が結果として返ってくる区別できないミニゲーム $n$ 回から構成されるゲームのうち、成功回数が $x$ となる確率変数
- $Y$ : $X$ のゲームをやる前に、ミニゲームを $y$ 個選んでおいて、そのミニゲームの中だけに成功がある(つまり残りの $n-y$ 個はすべて失敗)となっている確率変数
こう考えれば、 $X$ のゲームについて、 $n$ 個のミニゲームから $x$ 個のミニゲームを選ぶ場合のうちで、 $y$ 個のミニゲームから $x$ 個のミニゲームを選んでいる確率は( $y<x$ では ${} _ y\mathrm{C} _ x=0$ として)γ変換の定義式で表現できていることがわかるかと思います。
また、この考え方から $Y$ の解釈を直接考えることができているので、 $Y$ を考えることで $X$ を考える、なんて芸当もできそうなこともわかります。
Example: Binomial Distribution
わかりやすい例として2項分布を考えてみます。確率変数 $X\sim\mathrm{Bin}(n,p)$ の確率密度関数を $f(x)$ とすれば
$$ f(x)={} _ n\mathrm{C} _ x p ^ x(1 - p) ^ {n - x} $$
であり、これのγ変換は
$$ \gamma(y)=\sum _ {x=0} ^ n{} _ y\mathrm{C} _ xp ^ x(1 - p) ^ {n - x}=(1-p) ^ {n-y} $$
です。このとき、ミニゲームをコイン投げとして対応する解釈を考えてみると
- $X$ は確率 $p$ で表になるコインを $n$ 枚投げて $X$ 枚表になる確率
- $Y$ は $X$ に対してコイン $Y$ 枚を選んでその中で成功している確率、つまり、 $n-Y$ 個のコインは裏になっている確率
に対応します。
Application: Set Union Problem
普通にやると難しい問題を例として考えてみます。
この個数を表す確率変数を $X$ としましょう。
これに対応する確率変数 $Y$ は、全体集合 $\mathcal{N}$ から要素の個数が $y$ となっている部分集合 $\mathcal{Y}$ を選び、その中だけに $\mathcal{U}$ の要素が含まれている状況の確率変数です。
今回は、先に $Y$ について考えることで $X$ の従う確率分布を求めてみましょう。すべての $k = 1 , \ldots , m $ について $\mathcal{S} _ k\subset\mathcal{Y}$ となっている状況が $\mathcal{U}\subset\mathcal{Y}$ の状況です。ということで、まずは $\mathcal{S} _ k\subset\mathcal{Y}$ となる確率を求めます。
部分集合 $\mathcal{S} _ k$ の $s _ k$ 個の要素が、集合 $\mathcal{Y}$ に入っているように選ぶ方法数は ${} _ y\mathrm{C} _ {s _ k}$ です。集合 $\mathcal{Y}$ に入っているかは関係なく、 $\mathcal{N}$ から $s _ k$ 個の要素を選ぶ方法数は ${} _ n\mathrm{C} _ {s _ k}$ です。したがって、部分集合 $\mathcal{S} _ k$ の $s _ k$ 個の要素が、集合 $\mathcal{Y}$ に入っている確率は ${} _ y\mathrm{C} _ {s _ k}/{} _ n\mathrm{C} _ {s _ k}$ と表現できます。
これをすべての $ k = 1 , \ldots , m $ について考えますが、 $\mathcal{S} _ k\subset\mathcal{Y}$ かどうかは各 $k$ について独立なのでこの確率の積が $Y$ の従う確率密度関数 $\gamma(y)$ となります。すなわち
$$ \gamma(y)=\prod _ {k=1} ^ m\frac{{} _ y\mathrm{C} _ {s _ k}}{{} _ n\mathrm{C} _ {s _ k}} $$
です。よって、逆変換を施すことで確率変数 $X$ の確率密度関数は
$$ f(x)={} _ n\mathrm{C} _ x\sum _ {j=0} ^ x(-1) ^ j{} _ x\mathrm{C} _ j\prod _ {k=1} ^ m\frac{{} _ {x-j}\mathrm{C} _ {s _ k}}{{} _ n\mathrm{C} _ {s _ k}} $$
と求めることができます。
特に、 $s _ k = 1 $ とすると、要素数 $ n $ の集合 $ A $ から要素数 $ m $ の集合 $ B $ への写像を考えるとき、 $ A $ から要素数 $ x $ の任意の集合 $ C $ への全単射 $f _ C:A\to C$ の個数(つまり、 $ C $ を $ B $ の中で任意にとる)の、 $ A $ から $ B $ の任意の部分集合への全単射に対する割合が従う確率分布になります。このとき、確率密度関数と期待値と分散は
$$ f(x)={} _ n\mathrm{C} _ x\sum _ {j=0} ^ x(-1) ^ j{} _ x\mathrm{C} _ j\left(\frac{x - j}{n}\right) ^ m $$
$$ E\lbrack X\rbrack =n\left(1-\left(1-\frac{1}{n}\right) ^ m\right) $$
$$ V\lbrack X\rbrack = n \left( 1-\frac{1}{n} \right) ^ {m} \left(1 - \frac{ (n - 1) ^ {m} }{ n ^ {m - 1} } + \frac{ (n - 2) ^ {m} }{ (n - 1) ^ {m - 1} } \right ) $$
となります。
この和集合問題自体がコンピュータサイエンスでいろいろ応用あるから、この変換もいい感じにつかえるかもね、みたいなことが書いてあったよ。
参考文献:The γ-transform Approach: a New Method for the Study of a Discrete and Finite Random Variable