信頼区間

信頼区間をわかりやすく

信頼区間は統計学を学んでいるとすぐに出てきますが,
誤った理解をしていたりと意外と難しいです.
まずは母集団と標本について説明してから,信頼区間について説明していきます.


母集団と標本

何らかの分析をする場合の調査対象全体のことを「母集団」と言います.
ただ母集団を調査することはできません.
例えば,テレビの視聴率を調査する場合,日本人全員の家庭にリアルタイムでどの番組を見ているか調査するのは不可能ですよね.
そこで無作為に一部を抽出して視聴率を調査します.
この母集団から抽出された集団「標本」と言います.多数の標本を調査することで母集団を推測します.
実際に標本を用いることで視聴率を計測しています.

https://cdn-ak.f.st-hatena.com/images/fotolife/m/munemakun/20180910/20180910014643.png

ここで重要なのは母集団からの抽出は無作為(ランダム)であるということです.
視聴率の話で言うと,意図的に小さな子どものいる家庭を多く選んだ場合,◯◯レンジャーなどの番組の視聴率が通常よりも高くなってしまうかもしれません.

信頼区間

標本から得られた平均値(標本平均)から母集団の平均(母平均)を推定したいとします.
仮に偶然標本が偏っていた場合,標本平均と母平均がかなり異なる値になる可能性があるので,
標本平均から推定値を一点に決める(点推定)のはなかなかリスクがあります.
そこで,「区間推定」を行います.区間推定とは名前の通り,推定に幅を持たせることです.
その区間を「信頼区間」と設定します.その基準が「信頼度」と呼ばれます.信頼度はパーセンテージで表されます.
また(1-信頼度)を「有意水準」と呼びます.

以下は各標本が区間推定を行なっている様子を表した図です.
縦の点線は母平均を表し,横棒1本で1回の標本抽出での区間推定を示しています.各横棒の中央の点が標本平均,実線が信頼度95%の信頼区間,点線が信頼度99%の信頼区間を表しています.
1回だけ 95%信頼区間内に真値が入っていない回があることがわかります.
このように,信頼区間とは,同じ条件で標本抽出を何回か繰り返せば,区間内に真値が含まれる回数の割合はこの程度だということを意味する幅を示しています.
すなわち95%信頼区間とは1つの信頼区間に真値の含まれる確率が95%ではなくて,
複数の信頼区間の中で真値の含まれる信頼区間は95%という意味です.
https://cdn-ak.f.st-hatena.com/images/fotolife/m/munemakun/20180910/20180910021134.png



こちらを参考にさせて頂きました.こちらの方が詳しく書かれているので是非ご参照下さい.
「信頼区間」が意味するもの - 数理的思考 - 中川雅央 【知と情報の科学】