Aller au contenu principal

超幾何分布


超幾何分布


超幾何分布(ちょうきかぶんぷ、英: hypergeometric distribution)とは、成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布の一種である。男女・合否などのように2種の排他的属性に分割できる有限母集団からの非復元抽出に適用される。超幾何分布と対照的な確率分布には二項分布がある。

定義

超幾何分布とは K 個の成功状態をもつ N 個の要素よりなる母集団から n 個の要素を非復元抽出したときに k 個の成功状態が含まれている確率を与える離散確率分布の一種である。超幾何分布に従う確率変数 X の確率質量関数 fX は次で与えられる。

P ( X = k ) = f X ( k ; N , K , n ) = ( K k ) ( N K n k ) ( N n ) = ( n k ) ( N n K k ) ( N K ) {\displaystyle \operatorname {P} (X=k)=f_{X}(k;N,K,n)={\frac {{\binom {K}{k}}{\binom {N-K}{n-k}}}{\binom {N}{n}}}={\frac {{\binom {n}{k}}{\binom {N-n}{K-k}}}{\binom {N}{K}}}}

確率質量関数は max{0, n + KN} ≤ k ≤ min{K, n} のとき正となる。

超幾何分布は N が大きくなると、二項分布に近づく。また K/N が小さく、抽出数 n が大きいとき、ポアソン分布に近づく。

性質

  • 期待値 E ( X ) = n K N {\displaystyle E(X)=n\cdot {\frac {K}{N}}}
  • 分散 Var ( X ) = n K N N K N N n N 1 {\displaystyle \operatorname {Var} (X)=n\cdot {\frac {K}{N}}\cdot {\frac {N-K}{N}}\cdot {\frac {N-n}{N-1}}}
  • 最頻値 ( n + 1 ) ( K + 1 ) N + 2 {\displaystyle \left\lfloor {\frac {(n+1)(K+1)}{N+2}}\right\rfloor }
  • 対称性 f X ( k ; N , K , n ) = f X ( k ; N , n , K ) = f X ( n k ; N , N K , n ) = f X ( K k ; N , K , N n ) {\displaystyle {\begin{aligned}f_{X}(k;N,K,n)&=f_{X}(k;N,n,K)\\&=f_{X}(n-k;N,N-K,n)\\&=f_{X}(K-k;N,K,N-n)\end{aligned}}}

例えば、赤い玉10個と白い玉20個を混ぜた、計30個の玉を入れた壺の中から5個の球を取り出すとき、赤い玉がちょうど1つである確率は

( 10 1 ) ( 30 10 5 1 ) ( 30 5 ) = 8075 23751 0.34 {\displaystyle {\frac {{\binom {10}{1}}{\binom {30-10}{5-1}}}{\binom {30}{5}}}={\frac {8075}{23751}}\approx 0.34}

赤い玉の個数の期待値は

5 × 10 30 1.67 {\displaystyle {\frac {5\times 10}{30}}\approx 1.67}

フィッシャーの正確確率検定への応用

元々、N個のビー玉が壺の中に入っていて、そのうち緑玉がK個、赤玉はN-K個であったとする。この中から(目を瞑って)n個のビー玉を非復元抽出で取り出したとする。このとき、(n回の試行のうち)緑玉がk回取り出される確率を求めたい。なお、壺には緑玉と赤玉以外には入っておらず、同色同士の玉は区別できないものとする。

この問題において、「成功」を「緑玉」に、「失敗」を「赤玉」例えることで、超幾何分布の問題に帰着でき、k回成功する確率(即ち、k回緑玉が取り出される確率)は、以下のようになる。

P ( X = k ) = f ( k ; N , K , n ) = ( K k ) ( N K n k ) ( N n ) . {\displaystyle P(X=k)=f(k;N,K,n)={{{K \choose k}{{N-K} \choose {n-k}}} \over {N \choose n}}.}

この確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。また、成功/失敗を検討してはいるが、ビー玉を取り出す毎に壺の中に残されたビー玉の個数は次々に変化し、各試行での成功確率は同じではないため、この問題は二項分布では正確にモデル化できない。

四分割表に対する独立性の検定との対比を取るために、この問題を四分割表で表現することを考える。N,m,nが固定されれば周辺度数(marginal frequency:第3列および第3行の値)は全て固定され、下表のようになる。さらに、O11を確定すれば、残りのO12,O21,O12は確定する。今、ここで、さらに、O11=X=kとすると、下表のように、四分割表の値が全て確定する。


例えば、上記の問題において、N=50, K=5、n=10の場合を考える。即ち、壺の中には、元々5個の緑玉と45個の赤玉が入っていたものとする。この壺から(目をつぶって)10個のビー玉を非復元的に取り出すことを考える。

このとき、例えば, k=4であれば、四分割表とP(X=4)は以下のようになる。

P ( X = 4 ) = f ( 4 ; 50 , 5 , 10 ) = ( 5 4 ) ( 45 6 ) ( 50 10 ) = 5 8145060 10272278170 = 0.003964583 . {\displaystyle P(X=4)=f(4;50,5,10)={{{5 \choose 4}{{45} \choose {6}}} \over {50 \choose 10}}={5\cdot 8145060 \over 10272278170}=0.003964583\dots .}

さらに、k=5の場合を考える。P(X=5)は以下のようになる。

P ( X = 5 ) = f ( 5 ; 50 , 5 , 10 ) = ( 5 5 ) ( 45 5 ) ( 50 10 ) = 1 1221759 10272278170 = 0.0001189375 , {\displaystyle P(X=5)=f(5;50,5,10)={{{5 \choose 5}{{45} \choose {5}}} \over {50 \choose 10}}={1\cdot 1221759 \over 10272278170}=0.0001189375\dots ,}

これらを比較すると、緑玉が5個の取り出される確率は、4個取り出される確率より約35倍低くなることが判る。

多変量超幾何分布

定義

属性が 1 ≤ ic である要素を Ki 個含む N = K1 + … + Kc 個の要素よりなる母集団から n 個の要素を非復元抽出したとき、属性が i である要素を ki 個含んでいる確率を与える分布を多変量超幾何分布という。超幾何分布と多変量超幾何分布の関係は、二項分布と多項分布の関係に相当する。

性質

多変量超幾何分布に従う確率変数を (X1, …, Xc) とする。

  • 確率質量関数 P ( X 1 = k 1 , , X c = k c ) = 1 ( N n ) i = 1 c ( K i k i ) {\displaystyle \operatorname {P} (X_{1}=k_{1},\dots ,X_{c}=k_{c})={\frac {1}{\binom {N}{n}}}\prod _{i=1}^{c}{\binom {K_{i}}{k_{i}}}}
  • 期待値 E [ X i ] = n K i N {\displaystyle E[X_{i}]={\frac {nK_{i}}{N}}}
  • 分散 Var [ X i ] = ( N n ) n ( N K i ) K i ( N 1 ) N 2 {\displaystyle \operatorname {Var} [X_{i}]={\frac {(N-n)n(N-K_{i})K_{i}}{(N-1)N^{2}}}}
  • 共分散 Cov [ X i , X j ] = ( N n ) n K i K j ( N 1 ) N 2 {\displaystyle \operatorname {Cov} [X_{i},X_{j}]=-{\frac {(N-n)nK_{i}K_{j}}{(N-1)N^{2}}}}

壺の中に黒い玉が5個、白い玉が10個、赤い玉が15個あるとする。その中から6個の玉を取り出すとき、各色2個ずつ取り出す確率は次の式で計算できる。

( 5 2 ) ( 10 2 ) ( 15 2 ) ( 30 6 ) 0.0796 {\displaystyle {\frac {{\binom {5}{2}}{\binom {10}{2}}{\binom {15}{2}}}{\binom {30}{6}}}\approx 0.0796}

幾何分布との関係

超幾何分布と幾何分布は名前の上で類似しているが、分布としては全くの別物だと考えてよい。それぞれの名前は確率関数から生まれる列が超幾何数列、幾何数列であることに由来する。

脚注

注釈

参考文献

  • 蓑谷千凰彦、統計分布ハンドブック、朝倉書店 (2003).
  • B. S. Everitt(清水良一訳)、統計科学辞典, 朝倉書店 (2002).
  • M. Galassi et al.(富永大介訳)、GNU Scientific Library リファレンスマニュアル ver. 1.8, p. 199 (2006).

関連項目

  • 二項分布
  • フィッシャーの正確確率検定

外部リンク

  • Hypergeometric Probability Distribution Calculator (ALPHA)(超幾何分布の計算ができるウェブ・アプリケーション、英語)
  • ちっぷす:超幾何分布を perl で計算(日本語)
  • Hypergeometric Probability Calculator: When Good Statistics Go Bad(ウェブ・アプリケーション、C++ および Ruby のソースコード、英語)
  • Present Value Calculator Calculate the present value of future value sums.
  • GSL reference manual Japanese version (GNU Scientific Library のマニュアルの超幾何分布を計算する関数のページ

Text submitted to CC-BY-SA license. Source: 超幾何分布 by Wikipedia (Historical)