統計
統計の目的は母集団から得た標本から母集団と特徴づけるパラメータ(母数)を得て,母集団の性質を調べるにある.
標本は集合であり,標本の要素は標本点である.
標本点から得られる数値をデータと言い,その集まりをデータセットと言う.
データセットを処理,整理を行いデータセットの特徴を得る記述統計と
データセットから母集団のパラメータを推測する推測統計がある.
統計では,母集団が適当な確率分布に従うと考え,標本点からデータを得る関数を確率変数とする. 標本は確率変数の集合である.とある地域の年齢分布を知りたいとき,その地域に住んでいる人の全員を母集団とし, 抽出を行うことが標本を得ることであり,標本点は選ばれた人に当たり,人から年齢を得ることは確率変数に 標本点を入れる操作に当たる.
基本は無作為抽出であり,乱数表などを用いて,作為が入らないように工夫を行い,抽出を行う.無作為抽出で得られた標本は無作為標本,任意標本,ランダムサンプルと言う.
\(\{X _i\} _{1 \leq i \leq n} \)がランダムサンプルとは,\(\{X _i\}\)が互いに独立に同一分布に従うことを意味する.
母数
母集団の平均,分散を母平均,母分散と言う. 母集団の特性値を母数という. 母数は標本から推測されるが,標本から得られた平均,分散を標本平均,標本分散という.
標本平均は, \[ \overline{X} = \frac{1}{n} \sum ^{n} _{i=1} X _i \]
標本分散は, \[ \hat{\sigma^2} = \frac{1}{n} \sum ^{n} _{i=1} (X _i - \overline{X})^2 \] と表す.
標本平均は標本を多くすると,大数の法則により母平均に近づく. すなわち,標本平均の期待値は母平均.
標本平均の分散は \[ \begin{align} {\rm var}(\overline{X}) &= E[(\overline{X}-\mu)^2] \\ &= E[(\frac{1}{n}\sum^{n} _{i=1} X_i-\mu)^2] \\ &= E[(\frac{1}{n}(\sum^{n} _{i=1} X_i-n\mu))^2] \\ &= E[(\frac{1}{n}(\sum^{n} _{i=1} (X_i-\mu))^2] \\ &= \frac{1}{n^2}\sum^{n} _{i=1} E[(X_i-\mu)^2] \\ &= \frac{1}{n^2}\sum^{n} _{i=1} \sigma^2 \\ &= \frac{\sigma^2}{n} \\ \end{align} \]
標本分散の期待値は, \[ \begin{align} E[\sum ^{n} _{i=1} (X_i - \overline{X})^2] &= E[\sum^{n} _{i=1} (X_i - \mu + \mu - \overline{X})^2] \\ &= E[\sum^{n} _{i=1} \{ (X_i - \mu)^2 + 2(X_i - \mu)(\mu - \overline{X}) +(\mu - \overline{X})^2 \}] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 + \sum ^{n} _{i=1} 2 (X_i - \mu)(\mu - \overline{X}) + \sum^{n} _{i=1} (\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 + 2 (\mu - \overline{X}) \sum ^{n} _{i=1} (X_i - \mu) + n(\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 + 2 (\mu - \overline{X}) (\sum ^{n} _{i=1} X_i - \sum ^{n} _{i=1} \mu) + n(\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 - 2 n (\mu - \overline{X}) (\mu- \frac{1}{n}\sum ^{n} _{i=1} X_i) + n(\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 - 2 n (\mu - \overline{X}) (\mu - \overline{X}) + n(\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2 - n (\mu - \overline{X})^2 ] \\ &= E[\sum^{n} _{i=1} (X_i - \mu)^2] - n E[(\mu - \overline{X})^2] \\ &= \sum^{n} _{i=1} E[(X_i - \mu)^2] - n E[(\mu - \overline{X})^2] \\ &= \sum^{n} _{i=1}\sigma^2 - \sigma^2 \\ &= (n-1)\sigma^2\\ \end{align} \]
となり,\(\sigma^2\)とならない.期待値を\(\sigma^2\)となるようにした \[ \overline{\sigma^2} = \frac{1}{n-1} \sum ^{n} _{i=1} (X _i - \overline{X})^2 \] を不偏分散という.
標本\(\{X _i\}\)を取る関数で,関数内に母数を含んでいないものを統計量 と言う. 標本平均,標本分散を得る関数は,統計量である.
確率分布の形を決定するパラメータ\(\theta\)を確率変数\(X\)のパラメータとした時, その確率を\(P(\cdot:\theta)\)と書き,\(X\)の確率密度関数を\(f_X(x:\theta)\)と書く.