New「プロフィール&ブログコンセプト」

その分析結果は偶然ではありませんか?カイ二乗検定(独立性の検定)で確かめる|CHITEST関数

こんな方にオススメ記事!
  • 仕事でA/Bテストを頻繁に行う方
  • クロス集計表を頻繁に使う方
  • マーケティングのお仕事についている方
  • スプレッドシート(エクセル)でカイ二乗値を計算したい方

以下の様なクロス集計表を作成する事は多々あるのではないかと思います。

表の結果をもとに、青ボタンのサイトの方がクリック率が高く、青ボタンに変更すべきという判断がされる事があるのではないでしょうか。

果たして、その判断は正しいのでしょうか。結論から言えば、数値の差が偶然生まれた可能性を否定できておらずここで判断するのは時期早々と言えます。

そんな時に使えるのが、今回の本題である、カイ二乗検定(独立性の検定)です。

目次

カイ二乗検定とt検定の違いとは?

カイ二乗検定は、統計学的検定の中でも有名な検定です。そして、カイ二乗検定と並び有名な検定がt検定です。

まずは、カイ二乗検定とt検定の違いから見て行きましょう。

カイ二乗検定は、クロス集計された表を検定します。対して、t検定は連続性のあるデータに対して仮説検証を行う手法になります。

ちなみに、連続性のあるデータとは以下の表の様なデータの事を指します。

t検定
t検定事例「1回目と2回目の上体起こしの結果」

連続データに対してカイ二乗検定を実施する事はできません。逆にクロス集計されたカテゴリカルデータに対してt検定を行うことは実施できません。

カイ二乗検定とは?

カイ二乗検定では、『期待度数と観測度数の乖離』を計算することで独立性の検定を行います。

独立性の検定とは、2つ以上の分類基準を持つクロス集計表において、分類基準間に関連があるかどうかを検定することです。言い換えると、データ間に「影響関係がない」「関連していない」ことを検定する方法です。

今回の例で言うと、青ボタンと赤ボタンのコンバージョンに影響があるのか確認します。実際のデータと「青ボタンと赤ボタンにコンバージョンの差がない」とするデータを検定します。

カイ二乗の計算式は?

カイ二乗分析は、各カテゴリで以下の計算式で求めた値をすべて足し合わせたものです。

算出できた数値がカイ二乗値です。そして、カイ二乗値が算出できたらカイ二乗分布表と見比べてP値を導きだします。

ただし、スプレッドシートでカイ二乗検定をする場合、この面倒な計算を全部すっ飛ばして、『期待度数表』と『観測度数表』を作るだけで、カイ二乗検定をおこないP値を算出してくれます。

スプレッドシートでカイ二乗検定をやってみる

STEP1:スプレッドシートに観測度数を入力する

青ボタンと赤ボタンでクリック率が2.9%の差があり、ボタンの色でクリックされる確率に違いがありそうに見えます。

STEP2:スプレッドシートに期待度数を入力する

カイ二乗検定(独立性の検定)では『実測値(観測値)』を『理論値(期待値)』と比較します。

『理論値(期待値)』を算出する必要があります。例えば、今回の場合、青ボタンと赤ボタンにクリック率に差がない場合の期待度数表を作ります。つまり、合計のクリック回数は同じで、いずれのボタンのクリック率も9.6%になると期待されます

STEP3:chitest関数でピアソンのカイ二乗検定を計算する

スプレッドシートでピアソンのカイ二乗検定を行う場合、CHITEST関数を使います。

=CHITEST(観測度数表, 期待度数表)

この数式を実行すると2つのデータ範囲をもとにピアソンのカイ二乗検定を行い、その確率を返します。

=CHITEST(C4:D5,C10:D11)

結果、求められた確率0.0288は、有意水準の0.05よりも小さい為、青ボタンと赤ボタンには有意差があると言えます。

項目を増やしてカイ二乗検定をやってみる

次に歴代の内閣総理大臣の血液型に偏りがあるのかを調べていきましょう。内閣総理大臣の血液型が日本人の血液型割合と違いがみれれば血液型による偏りがある事が見えてきそうです。

STEP1:スプレッドシートに観測度と期待値を入力する

(データ参照元:歴代内角総理大臣の血液型一覧 首相向きは何型?日本国のトップに立った政治家の体に流れた血は?

STEP2:chitest関数でピアソンのカイ二乗検定を計算する

先ほどの例と同様にスプレッドシートでピアソンのカイ二乗検定を行う場合、CHITEST関数を使います。

結果、求められた確率0.2149は、有意水準の0.05よりも大きい為、内閣総理大臣の血液型は関係ないと言えます。

カイ二乗検定の注意点

2行×2列のカイ二乗検定において、期待度数表の4マスのうち1マス(25%)でも期待数『5未満』があればその時点で「20%以上が5未満」を満たしてしまうためカイ二乗検定を用いることは不適切となります。(コクラン・ルール)

特に2行×2列のカイ二乗検定では、すべての期待度数表の値が10以上である方が精度が保証され、正しい確率を求める事ができます。

もし、期待度数表に5以下の値が出た場合は『フィッシャーの正確検定』を用いれば求めることができます。

最後に

今回は、スプレッドシートを使ってカイ二乗検定を行う方法を紹介しました。クリック率や表をなんとなく差がありそうだと確認するのではなく、統計的に誤差がないのかまで確認し確実なものにしましょう。

関連記事>>>【統計学】スプレッドシートでt検定を行う方法|TTEST関数

関連記事>>>自宅マンションの市場価格を重回帰分析で予測、スプレッドシートで分析してみる。

目次
閉じる