データ分析の基礎                                                         

 

統計量 statistic

  確率変数X が, 母集団で f(x) という 分布に従うとき,その母集団から得られる n 個の無作為標本 {X1, X2, , Xn} の関数 Tt(X1, X2, , Xn) を統計量とよび,その確率分布を標本分布という。すなわち,統計量は標本に含まれる情報を適当な関数を用いて要約したもので,これをもとにして母集団の母数に関する推測を行う。標本平均,標本分散,標本相関係数などは統計量の例である。

 

標本分布 sampling distribution

 データの 母集団が理論的にある分布に従って変動すると考えられている場合,その母集団から得られる複数個のデータから計算される値( 統計量)の分布が未知の母数を含まない形で表現されるとき標本分布とよばれる。 正規分布をする母集団(正規母集団と略すことがある)からの無作為標本の統計量の分布として, カイ二乗(χ2)分布, F 分布, t 分布がよく用いられる。n 個のデータ x1, x2, , xnが平均 0, 分散を 1 とする正規分布に従って分布する母集団からの無作為標本とするとき,χ2x12x22+…+xn2 は 自由度 n のχ2分布に従う。χ12を自由度ν1のχ2分布をする 確率変数,χ22を自由度ν2のχ2変数,χ12とχ22は互いに独立であるとするとき,F(χ12/ν1)/(χ22/ν2) は自由度 (ν1, ν2) F 分布に従って分布する。

 

分布 distribution

 記述的統計法のなかで用いられる場合には,観測されたデータを整理・集計して,関心のある変数の値とその値をもつ個体の観測された頻度,あるいは,関心のある変数の値をいくつかの級に分けて,級と各級に含まれる値をもつ個体の観測された頻度とを対応づけたものを分布という。分布には,度数分布,累積度数分布,相対度数分布,相対累積度数分布などがある。

 推測的方法のなかで用いられる場合には,確率モデルのなかで 確率変数に与えられた 確率の集合を確率分布もしくはたんに分布という。確率変数が離散型の場合には,確率変数の実現値に対応して確率が定義され,それらの関係は確率関数で記述される。確率変数が連続型の場合には,確率が確率変数の区間に対して定義されるため,確率変数の実現値に対しては確率密度が定義され,それらの関係が確率密度関数で記述される。なお,二つ以上の変数の分布を同時的に取り扱う場合には,特に同時分布とよばれる。

 

相関 correlation

 複数の変数間の相互関係。一般的に,二つの変数が同じような変化あるいは変動を示すとき相関があるという。たとえば,身長が高くなれば,体重も重くなるのであれば,二つの変数の間には正の相関があるという。逆に,身長が高くなれば,体重が軽くなるとすれば,二つの変数の間には負の相関があるという。二つの変数の変動が似ていれば似ているほど,相関が高いという。通常,相関といえば線形相関(直線的相関)のことを示すが,データによって曲線相関を考えることもある。変数が質的であったり離散的である場合の相関のことを特に連関とよぶことがある。相関を定量的に表現したものが相関係数である。

 

相関行列 correlation matrix

  相関係数を要素とする行列。 因子分析をはじめ 多変量解析では重要な行列である。いま,データ数 n,変数 p のデータ行列 X があるとする。 平均偏差を要素とするデータ行列 Y は,Y(I11t/n)X となり,標本分散共分散行列は,SYY/n となる(I:単位行列,1n 個の1を並べたベクトル,t:転置)。標本分散共分散の対角成分を要素とする行列を Ddiag(S) とすると,標準得点行列は,ZXD-1/2 となる。したがって,相関行列 R は,RZZ/n で求められる。

 

相関係数 correlation coefficient

 二つの変数間の相互関係を表す指標。一般的に相関係数といえば線形相関の指標の一つである

 ピアソンの積率相関係数を示す。この積率相関係数は,二つの連続変数(x, y)に関してその同時分布の特徴を表す指標の 共分散と深く関わりがある。共分散は n 個のデータ(x1, y1), , (xn, yn)に対して定義され,共分散が大きくなるということは, x y のデータ対がそれぞれの平均から離れた値で,かつ平均との値の大小関係が一致する場合だと考えられる。 相関図でかけば,二つの平均値を原点とし,軸を描いた場合,第一象限と第三象限にデータが集まる状況である。共分散でも二つの変数間の相互関係を示すことは可能であるが,共分散は 分散と同じく測定単位の影響を受けるため,分散を異にした他の同時分布との比較はできない。そこで,二つの変数の 標準偏差(sx, sy)で共分散を除して規準化し,測定単位によらない指標が考案された。それがピアソンの積率相関係数で,rsxy/sxsy と定義される。ピアソンの積率相関係数は,−1 から1の値をとり,相関係数が1のとき相関図上でデータが右上がりの直線上に並び,逆に 1 のとき右下がりの直線上に並ぶ。

 上記の積率相関係数は二つの変数が 間隔尺度や 比尺度の場合の線形相関係数であるが,変数が順序尺度や 名義尺度の場合の相関係数も定義されている。二つの変数がともに順序尺度の場合,順位相関係数が求められる。代表的なものとしては,ケンドールの順位相関係数や スピアマンの順位相関係数がある。二つの変数がともに名義尺度あるいはカテゴリカルなデータの場合の相関係数は,連関係数( 属性相関係数)とよばれ,クラメール(Cram r, H.)やピアソンの連関係数がある。特に二つの変数がともに2値しかとらない2×2の分割表の場合, 四分点相関係数やユール(Yule, G. U.)の連関係数などが用いられ,背後に二変量正規分布を仮定することができる場合,四分相関係数が用いられる。さらに,二つの変数のうち一方の変数が2値しかとらず,もう一方の変数が連続変数の場合, 点双列相関係数が用いられ,背後に二変量正規分布を仮定することができる場合, 双列相関係数が用いられる。点双列相関係数の場合は,カテゴリー変数は2値しかとらなかったが,一般にカテゴリー変数と連続変数の間の相関関係を表す指標は 相関比とよばれており,点相関係数は相関比の特殊なケースと捉えられている。その他,第三の変数の影響を取り除いた相関係数として部分相関係数や 偏相関係数がある。また,2変数間の相関係数の定義を多変量に拡張した重相関係数や正準相関係数がある。

 相関係数を利用するにあたって注意すべきことが4点ある。まず第一に,相関係数は標本データの選び方によって値が変わることである。標本データ全体集団では正の相関があっても,下位の部分集団では負の相関を示すことがあったり,全体集団ではほとんど相関がないのに部分集団ではそれぞれ正の相関や負の相関があったり,部分集団ではほとんど相関がみられないのに全体集団では強い相関がみられたりすることがある。第二に,偽相関の問題である。かりに二つの変数 x, y の相関が高くとも,それは第三の変数 z のためであって x y には直接相関がないこともある。第三に,曲線相関の問題である。基本的に相関係数は線形的あるいは直線的な関係を扱っており,曲線的な関係まで考慮しない。したがって,相関係数が0に近いから二つの変数の間に相互関係がないとすぐに結論づけることは危険である。場合によっては二つの変数間に曲線的な関係が存在するかもしれない。最後に,因果関係との関係である。ある二つの事象に関して相関係数を計算し高い値がでたからといって,即二つの事象に因果関係があるとはいえない。相関関係の情報だけではどちらの事象が原因で結果であるかはわからない。因果関係を推論するには,相関関係以外の情報も必要となる。

 

 

検定 statistical test

 より正確にいえば,統計的仮説検定。ある仮説が正しいかどうかを統計学的に判定するための手法。例えば,「2 つの集団の身長の平均値が同じかどうか」,「2 つの変数の間に相関関係があるといえるか」などの仮説が正しいかどうかについて結論を導き出す。

 

有意水準 level of significance; significance level

 統計的仮説検定を行う場合に,帰無仮説を棄却するかどうかを判定する基準。5% あるいは 1% がよく使用される。有意水準5% で検定を行うということは,第 1 種の過誤をおかす危険率が 5% であることを意味する。すなわち,同様の調査・検定を行うと,20 回に 1 回は得られた結論が誤っていることを表す。「有意水準 α で検定すると有意な差が認められた」ということと,「危険率 α のもとで有意な差があるといえる」は同じような意味で使用される。

 

データの水準

 ある対象の特性値を数値に対応させるときの基準。名義尺度,順序尺度,間隔尺度,比例尺度の 4 種類がある。名義尺度データは最も水準が低く,比例尺度データは最も水準が高い。ある水準のデータは,それより低い水準のデータが持つ性質を全て持つ。例えば,間隔尺度データに適用できる全ての統計手法は,比例尺度データにも適用できる。ただし,逆は成り立たない。「順序尺度以上」という場合には,データの水準が順序尺度よりも高い,間隔尺度および比例尺度を含む。

 

名義尺度 nominal scale

 観察される変数と数値を対応させる基準。データをコンピュータで処理するために用意するとき,例えば血液型の場合には,A 型を 1B 型を 2AB 型を 3O 型を 4 のように数値に対応させて入力する。しかし,これらの数値は血液型を区別するために使われているだけで,重複さえなければ,A 型を 4B 型を 3AB 型を 2O 型を 1 に割当ててもよい。したがって,平均値を求めても意味がない。数値に対応させるのは,コンピュータプログラムの都合である(プログラムによっては,ABABO のようにアルファベットで用意すればよいようになっているかもしれない)。

 

間隔尺度 interval scale

 距離尺度とも呼ぶ。観察される変数と数値を対応させる基準。比例尺度と異なり,数値の差のみに意味がある。例えば,温度が 10℃から 15℃になったときに,50% の温度上昇があったとはいわない。温度が絶対温度 K゜で表されているならば,比例尺度なので何% 上昇などのようにいえる。温度が 10℃から 15℃になった場合も,100℃から 105℃になった場合も共に 5℃の温度上昇である。比例尺度は間隔尺度の特性をかね備えている(数値の差にも意味がある)ので,間隔尺度変数に適用できる分析手法は比例尺度変数に対しても使用できる。「間隔尺度以上」という場合には,間隔尺度と比例尺度の両者を指す。

 

順序尺度 ordinal scale

 観察される変数と数値を対応させる基準。例えば,治療効果の判定において,悪化を -1,不変を 0,改善を 1,著効を 2 のように数値に対応させて入力する。ある場合には,改善を 1 とすれば著効は 3 くらいかもしれない。しかし,それを決定できる客観的な根拠がない場合には,これらの数値は大小関係にのみ意味がある。平均値などをとることはできないが,中央値は定義できる。また,大小関係の情報を使用するノンパラメトリックな統計学的分析手法がある。データ水準が「順序尺度以上」とは,間隔尺度・比例尺度を含む(これらは共に,順序尺度の性質を備えている)。

 

対応のあるデータ(対応のある標本 paired sample

 以下のようなものである。

 

              1)同じ対象に対して条件を変えて何回か測定したデータ

 

                       条件1    条件2    条件3

              対象 1   X11      X12      X13   ...   条件間の比較をする

              対象 2   X21      X22      X23   ... 

              対象 3   X31      X32      X33   ... 

              :        :        :

 

              2)性・年齢などをマッチさせたいくつかの対象について測定したデータ

 

                       対象1    対象2    対象3

              ペア 1   X11      X12      X13   ...   対象間の比較をする

              ペア 2   X21      X22      X23   ...

              ペア 3   X31      X32      X33   ...

              :        :        :

 

自由度 degrees of freedom

 ケース数 n の標本を k 個のカテゴリーに分割する場合,k-1 個のカテゴリーには任意のケースを割り振れるが,残る 1 カテゴリーに割り振れるケース数は必然的に定まる。すなわち,各カテゴリーに該当するケース数の和が n であるとういう制約条件が 1 個あるので,自由に割り振れるカテゴリー数は 1 つ減ることになる。このようなときに,自由度は $k-1$ であるという。また,n 個の観察値は全体として自由度 n を持つが,Σ(Xi-Xbar)^2 Xbar=Σ Xi/n という制約条件が 1 つあるので,自由度は n-1 になる。不偏分散が Σ(Xi-Xbar)^2/(n-1) のようにn-1 で割られるのもここに起因する。さらに拡張して考えると,n 個の独立な正規確率変数に基づく統計量の分布,例えば χ2=Σ Xi^2 は自由度 n カイ二乗分布に従うという。また,ケース数が n1n2 である 2 群の分散比は,それぞれの不偏分散が自由度 n1-1n2-1 なので,2 つの自由度 n1-1n2-1 を持つ F 分布に従う。k × m 分割表においては周辺度数(縦横の合計欄の数値)が決っているので,k × m 個の桝目のうち自由に数値を書込むことのできるのは(k-1)×(m-1)個だけである。この分割表から計算される検定統計量 χ2=ΣΣ (Oij-Eij)^2/Eij は,自由度(k-1)× m-1)の カイ二乗分布に従う(OijEij は桝目 ij の観察値と期待値)。平均値の検定に使用される t 分布も,例えば母平均の検定においては t0=(Xbar-μ)/sqrt{Σ(Xi-Xbar)^2/(n-1)/n} なので 自由度 n-1 を持つ(前述のとおり,Σ (Xi-Xbar)^2 の自由度は n-1 である)。

 

独立変数 independent variable

 説明変数(explanatory variable),予測変数(predictor)とも呼ばれる。回帰分析において,ある 1 個の変数 Y の予測値 Yhat が,p 個の変数 Xii=12...p)によって Yhat=b0+b1X1+b2X2+・・・+bpXp という重回帰式で定義される場合,Xi を独立変数(リグレッサー regressor),Y を従属変数(リグレッサンド regressand)と呼ぶ。例えば実験などでいくつかの実験条件によって結果が変化するような場合,結果(従属変数)は実験条件(独立変数)に「従属」して決るが,実験条件は結果とは「独立」に自由に変えられるという意味を含んでいる。説明変数という呼びかたは,従属変数の変動を「説明」することから,予測変数という呼びかたは,従属変数を「予測」するための変数であることからつけられたものである。判別分析においては,あるケースがどの群に属するかを「予測」する。例えば 2 群の判別の場合に,n1n2 を各群のケース数としたとき,一方の群に n2/(n1+n2),もう一方の群に -n1/(n1+n2) という数値を与えたときの重回帰分析と,通常の線形判別分析とは等価であることが導ける。このため NAP では,判別分析の場合にも独立変数,従属変数という呼びかたをしている。ただし,判別分析においては「独立変数」よりは「説明変数」と呼んだほうが適切かもしれない。あるケースがどの群に属するかは,例えば臨床所見から医師が鑑別診断を下すように,統計学とは別の観点から(やや経験学的に)決められる「外的基準」である。このようなことから,「従属変数」を基準変数(criterion variable)と呼ぶ場合もある(回帰分析の場合にも独立変数が「外的基準」であることに変りはない)。

 

従属変数 dependent variable

 回帰分析において,ある1個の変数 Y の予測値 Yhat が,p 個の変数Xii=12...p)によって Yhat=b0+b1X1+b2X2+・・・+bpXp という重回帰式で定義される場合,Xi を独立変数,Y を従属変数と呼ぶ。判別分析においても,あるケースがどの群に属するかは独立変数に「従属」して決っているとも考えられるので同様に呼ぶ。

 

期待値 expectation

 ある事象 Xi の起きる確率を pi とする(i=12...m;Σpi=1)。例えば,くじ引きで,1 10000 円は p1=1/102 1000 円は p2=2/103 100 円は p3=3/104 50 円は p4=4/10 の確率であるとするとき,このくじを 1 回引いて得られる賞金は,100001/10+10002/10+1003/10+504/10=1250 円である。この 1250 円はくじ引きによって「平均して期待できる」賞金である。これを期待値と呼ぶ。期待値とは,この例のような離散分布における平均値でもある。連続分布の場合にも積分によって同様なことが導かれる。別の例では,ある標本がある特性を持つか持たないかの 2 通りであるとき,すなわち母比率が p の母集団から n ケースの標本を抽出したときに,標本中で特性を持つものの期待値は np である。

 

分散分析analysis of variance ; ANOVA

 ある集団について量的変数 X の観測が行われたものとする。このとき,別の質的変数 Y によってその集団をいくつかの群に分けられれば,X の変動(平均からの偏差の平方和)について数学的に,{集団全体についての X の変動=群間の X の変動+群内の X の変動} という分解が成立する。Y によって群を分けたのだから,群間の変動は X の変動のうち Y の違いに伴う部分と考えられる。これに対して,群内の変動は Y の違いによらないものだから,X に及ぼす Y の効果に着目した場合は誤差と見なされるものである。

  実験計画法ではこの事実を利用していくつかの異なる処理に対して被験体を無作為に割り当て,それを上の例の群と考えて処理の効果を検証しようとする。実験計画法では,X の変動に影響する Y の各群によって表される要因を因子(または,そのまま要因)とよび,それが操作可能であるとき処理,処理因子などとよぶ。処理因子に含まれる異なった具体的処理を処理の水準とよんでいる。たとえば,3種類の肥料の効果に興味があるとき,この処理は三つの水準をもつという。

 

検定t-test

  t 分布を利用した 検定を一般的に t 検定とよぶが, 二つの 標本の 母集団の母分散が未知の場合における 平均の差の検定に利用される t 検定をさすことが多い。この場合,二つの母分散が未知でも等しいと考えうるか否かによって検定の方法が異なる。このため通常は,等分散仮説の検定を平均の差の検定の前に行う。

 

F検定 F test

 統計的仮説検定の手法のうち F 分布を用いる 検定の総称。心理学の分野では 分散分析における多群の 平均の差の検定や2群の標本の 分散の比の検定に利用されることが多い。ここでは後者を例示する。二つの正規母集団 N(μ1, σ12), N(μ2, σ22) の分散に関する仮説 H0 : σ12=σ22 を検定する場合には,それぞれの母集団から独立に標本数 n1, n2 個の標本を抽出し,標本 不偏分散s12, s22 を用いて計算した検定統計量 Fs12/s22 が,仮説 H0 のもとで 自由度df1n11, df2n21 F 分布に従うことを利用する。ただし自由度 df1, df2 F 分布の両端に α/2 ずつの棄却域を設け,上記の F が棄却域に入ったら仮説を棄却するのではなく,標本不偏分散の大きな方を F の分子に置いてつねに値が1を越えるようにし,上側に α の棄却域を設けて検定を行う。

 

回帰分析 regression analysis

 ある変数を別の(複数の)変数によって予測するための予測式を求めるための手法。予測式は両者の関係を表すことにもなる。

 

重回帰分析 multiple linear regression analysis

 いくつかの変数 X1,X2,...,Xn(独立変数)に基づいて,別の変数 Y(従属変数)を予測することである。予測式として,以下のようなものを得る。つまり,独立変数の重み付け合計値で予測値 Yhat を得る。重みは偏回帰係数と呼ばれる。   Yhat=b0+b1X1+b2X2+...+bpXp

 独立変数が 1 個の場合は Yhat=b0+b1X1=a+bX のように簡単になり,特に,単回帰分析あるいは直線回帰と呼ばれる。

 

判別分析 discriminant analysis

 いくつかの群を(複数の)変数によって判別するための判別式を求める手法。

 

残差分析 residual analysis

 重回帰分析においては,誤差項の分布にいくつかの仮定を前提としている。これらの仮定が満たされているかどうかについては,予測値と実測値の乖離について検討する残差分析が行われる。残差はモデル中の誤差項とは異なった振舞いをするので,標準化残差が用いられる。 NAP では標準化残差と予測値のプロット,標準化残差の Q-Q プロットの 2 種類を提供する。前者においては標準化残差が一定の傾向を持っている場合(例えば実測値が大きくなるにつれ残差も大きくなる,途中まで増加(減少)しその後減少(増加)するなど),後者では理論直線から離れたプロット点が存在する場合には,重回帰モデルの妥当性が疑わしいと判断される。また,いくつか飛離れたケースがある場合には,測定ミス,データ入力ミスなどの可能性もあるので,注意深く検討すべきである。

 

因子分析 factor analysis

  回帰分析法とならんで 多変量解析のなかでは最も多く使われている手法の一つである。その起源は20世紀初めの 知能の分析にさかのぼり,その後さまざまな発展をしてきた。当方法の基本的なねらいは,観察される各種の変量( テスト, 調査, 測定等の値)の変動をより少ない数の仮想的変数(因子とよばれる潜在変数)を用いて説明することにある。因子分析の基本モデルは,p 個の観測変数の,m 個(mp)の共通因子に対する因子負荷量がすべて未知である探索的因子分析のモデルである。eij は,独自因子の得点であるが,これには,測定誤差をのぞいた成分(特殊因子)と測定誤差に分解して考える場合がある。また,因子負荷量と因子得点の積に形式的に分解して表現することもある。

 探索的因子分析モデルにおける共通因子は,相互の相関が0の場合(直交モデル)と任意の値をとる場合(斜交モデル)がある。独自因子は,相互に独立であるだけでなく,いずれの共通因子とも,相関が0であることが仮定される。因子分析の直交モデルの場合,共通因子の因子負荷量λjk を推定することが主要な手続となるが,これは,観測変数の分散共分散行列(S)あるいは相関係数行列(R)に基づいて行われる。すなわち,上記の仮定よりモデルから構成される分散共分散行列(Σ)あるいは相関行列(P)は,λjk の行列(因子負荷量行列)と独自因子の分散ψj( 独自性)の関数となる。そこで,実際に得られる S とモデルから構成される Σ(あるいは R P)の何らかの距離が最も小さくなるように因子負荷量行列と独自性を推定することになる。

 心理学においては,測定の単位が任意であることが多く,分散共分散行列を対象とするよりも,相関行列を分析の対象にすることが圧倒的に多い。因子負荷量行列を推定するには,まず共通因子の数を決めなければならないが,これには,統計的 検定を用いる法や,1より大きな R の固有値の数のような数量的な基準のほか,因子の変動の大きさ(因子の寄与)の経験的判断などによる。実際の推定の手法では,歴史的には,また現在でも,各観測変数の共通因子の変動,(共通性)をまず推定し,これを相関係数行列の対角成分(ρss)へ代入して,これから因子負荷量行列を求める(あるいは,これらを収束するまで逐次的に繰り返す)という方法が行われてきた。共通性の推定には,SMC(重相関係数の2乗)等が用いられる。共通性の推定後は,因子の寄与が大となる順に因子負荷量行列を求める主因子法が用いられることが多い。

 因子負荷量行列は,因子空間の軸の設定の任意性があるために,実際には因子の内容が解釈しやすいように(そのパターンの一つが 単純構造とよばれる)因子軸の回転を行うことが多い。回転法には,因子間の直交性を保ったままの回転(直交回転)や因子間の相関が0でない回転(斜交回転)がある。 回転後の各因子の内容を解釈するのは,因子負荷量の絶対値の大きな観測変量に共通する性質を評価することによるが,斜交回転の結果では因子負荷量によるほか,観測変量と因子の相関(因子構造)による場合もある。現在では,従来の探索的因子分析のほかに,因子負荷量行列等に事前の情報を利用したモデル(検証的因子分析)が用いられることがあり,これらは,いわゆる共分散構造分析の一手法としても捉えられている。

 

共分散構造分析   covariance structure analysis

 多変量データを分析し, 構成概念や観測変数の性質を調べるために利用される統計手法。構造方程式モデル(structural equation modeling ; SEM)ともよばれる。 多変量解析の一手法であるが,(1)収集したデータの性質に応じて,分析者自らの仮説に基づいて構成概念間の関係を表現するモデルを構成することができ,(2) 独立変数,従属変数,構成概念ごとに必ずしも独立でない誤差を仮定することができ,(3)双方向因果関係,制約つき母数,間接総合効果など従来の多変量解析では扱うことが困難であったモデルの表現が可能であるために,第二世代の多変量解析とよばれることがある。

 モデルは,構成概念間の関係を記述するための構造方程式と,観測変数と構成概念の関係を記述するための測定方程式という2種類の方程式から構成される。モデル中の変数は,観測―潜在,構造―誤

差,外生―内生という三つの観点から分類されている。共分散構造分析は,数学的に一般的な表現を採用しているために, 因子分析,高次因子分析, 信頼性係数の推定, 分散分析,シンプレックス構造分析, 回帰分析, 共分散分析,同時方程式分析,多重指標分析など,多くの統計手法が共分散構造分析の下位モデルとして実行することが可能である。

 構成概念の性質を調べるために共分散構造を調べるという考え方は,1966 年にボックとバーグマン(Bock, R. D. & Bargmann, R. E.)によって提案され,78 年にヨレスコグ(J reskog, K. G.)によって一応の理論的な枠組が整えられた。分析を実行するためのコンピュータ・プログラムとしては,ヨレスコグによって開発された LISREL,統計パッケージ SASCALISCovariance Analysis of Linear Structural Equations)BMDPEQSなどが有名である。

 

共分散分析   analysis of covariance

 共分散分析法は, 分散分析モデルの誤差成分から 回帰分析を利用して系統誤差を抜き出すことにより誤差項の分散成分を減少させて分散分析の検定力の向上をめざしたものといえる。この意味では,心理学実験において行われる各実験条件に対する被験者のランダムな配置や,条件間での均質化をめざすブロック化と類似の効果をもつ。ブロック化などとの大きな違いは,ブロック化などが実験の前に緻密なプランをたてて実行しなければならないのに対して,共分散分析は 実験の事後的処理として行えるということである。

 例として 一元配置の共分散分析を考えよう。ある高等学校の1年生の数学の期末テストの成績 yij をもとにして,クラスごとに教育効果が同じであったといえるかどうかをみたいとする(i はクラス,j は生徒を表す)。しかし,クラスごとに数学の得意・不得意な生徒にばらつきがあると考えられるので,入試の数学 xij の成績(共変量)を利用して,このばらつきを統制する共分散分析を考える。クラスによって入試の成績と期末得点との関係は違いそうもないので,入試の成績から期末の成績を予測する回帰係数βはすべてのクラスで等しいとして,モデル式は yij=αi+βxij+εij となる。通常の回帰分析と同様に,モデルから予測される  ij yij の差の2乗和を最小化することによりαiとβを求めることができる。共分散分析は,実際の得点 yij と,xij 上の回帰関係によって説明される成分との差について分散分析を行うことによって完了する。

 例として取り上げたクラスにあたる概念は一般には要因とよばれ,また期末の成績は 従属変数,入試の成績は共変量という。共分散分析を行うにあたっては,これらの間に次のような制約がある。まず,共変量は要因の操作の影響を受けてはならないという制約がある。この例では入試の得点は仮に生徒の所属するクラスが変わったとしても変化しないので問題ないが,共変量を他の測定値と同時に得る場合には注意が必要である。また共変量と従属変数の関係は,モデルの制約上,直線的回帰の関係でなければならないなどの制約が,分布の正規性や等分散性といった分散分析の条件に加えて追加される。なお本例では各クラス間の回帰係数の同質性が仮定されているが,この仮定に対する検定を予備的に行うこともある。

 

ステップワイズ変数選択 step-wise selection

 重回帰分析や判別分析の場合,独立変数が多いと実地への適用が面倒になる。独立変数の候補から,予測や判別に有用な順に独立変数を採用するための方法である。まず,最も有用な独立変数を 1 個採用する。次の段階では,まだ採用されていない独立変数のうちで最も有用な独立変数を 1 個採用する。なお,最初のほうで採用された独立変数も,後で採用された変数との関係で不要になる場合があるので,新たな独立変数の採用の前に,すでに採用された変数を取除くかどうかをチェックする。独立変数の採用と除去は偏 F 値による検定で決定される。偏 F 値がある基準値(Fin)より大きければ採用,別の基準(Fout)より小さければ除去される。また,偏 F 値から求められる有意確率 PinPout によっても同様に変数選択を行うことができる。変数選択の過程で,偏 F 値の自由度が変化するので NAP では PinPout により変数選択を行うようにしている。

 

 

因子の回転 rotation of factor loadings

 因子分析(主成分分析)により得られた結果を解釈するとき,いくつかの変数は絶対値の大きい因子負荷量を持ち,残りの変数の因子負荷量はゼロに近いという単純構造(simple structure)になっていれば都合がよい。単純構造を得るためには因子軸(座標軸)の回転を行う。回転後の因子軸が直交する直交回転として varimax 法,quartimax 法,因子軸が直交しない斜交回転として oblimax 法,oblimin 法などがある。このうちではバリマックス法が最もよく用いられている。

 

ノンパラメトリックな手法 nonparametric method

 統計手法のうち,母集団の分布について一切の仮定を設けないものをいう。このため,分布に関わらない手法(distribution-free method)とも呼ばれることもある。これに対するものとしてパラメトリックな手法がある。例えば,3 群以上の平均値の差の検定(F 検定,一元配置分散分析)はパラメトリックな手法である。F 検定は,(1)変数は正規分布する,(2)各群の分散は等しい という条件が満たされていなければならない。F 検定は,(1)に対しては相当に頑健性を持つし,(2)に対してもかなり頑健性がある。条件(2)については,得られた標本をもとに分散の一様性の検定を行えばよいが,少数個の標本から得られる母数は一般に不安定なので,ケース数が少ない場合には問題が残る。F 検定に対応するノンパラメトリックな手法は,3 群以上の代表値の差の検定(H 検定,クラスカル・ウォリス検定)である。H 検定では条件(1),(2)ともに不問にされる。一般に,母分布を仮定しない(できない)場合や少数例の場合にノンパラメトリックな手法が適用される。ノンパラメトリック手法は,パラメトリックな手法に比べて検出力が低いが,仮定が十分に満たされていないときにはノンパラメトリックな手法を採用すべきである。

 

カイ二乗検定/カイ二乗分布 chi-square (χ2 test / chi-square distribution

 確率分布の一つにカイ二乗(χ2)分布がある。たとえば,変数 X が平均μ, 分散σ2

 正規分布に従うとして,大きさ k の標本 X1, X2, , Xk を得たとする。おのおのを標準化しその2乗和

を作れば,その値は 自由度 k のカイ二乗分布に従い,平均 k,分散 2k となる。式中のμを標本平均   で置き換えた場合,標本分散を s2 とすれば,χ2ks2/σ2 となり,これは自由度 k1 のカイ二乗分布に従う。この性質を利用して,母分散の検定 H0 : σ2=σ02 が行える。すなわち,ある標本から得られた標本分散 s2 と仮説として設定された母分散の値σ02から χ2ks2/σ02 を計算し,その値が自由度 k1 のカイ二乗分布の左右の裾に設けられた棄却域に入れば検定仮説を棄却することになる。

 

二項検定 binomial test

 母比率が p である母集団から n 個の標本を抽出したときに,対象とする特性を持つ標本の数 x は二項分布 Pr{x}=nCx p^i(1-p)^(n-x) に従う。二項分布に基づく検定は二項検定と呼ばれる。n が大きい場合の二項検定は,正規分布で近似される「母比率の検定」と等価である。また,n が小さい場合には F 分布を用いて正確な検定が行える。符号検定,マクネマーの検定,カテゴリーが 2 個の場合の一様性の検定なども,実際には二項検定である(後者の 2 つの検定は正規分布と カイ二乗分布の関係に基づく)。

 

 

パラメトリック・ノンパラメトリックな検定手法の対照表-1


                   パラメトリックな手法   ノンパラメトリックな手法

                     平均値                 代表値

対象とする統計量     分散                   散布度

                     積率相関係数           関連性係数,順位相関係数

                     --                     度数

尺度水準             間隔尺度,比例尺度     名義尺度,順序尺度

                                            間隔尺度,比例尺度

母集団の分布型      正規分布を仮定          不問

                    等分散性を仮定

標本サイズ          小さすぎてはいけない    不問


 

 

 

パラメトリック・ノンパラメトリックな検定手法の対照表-2


検定目的   パラメトリック   ノンパラメトリック

                            名義尺度        順序尺度以上

 

適合度     --               カイ二乗検定    カイ二乗検定,

                                            1 標本コルモゴロフ・

                                            スミルノフ検定

 

独立性     相関係数の検定   カイ二乗検定, カイ二乗検定

              フイッシャー    フイッシャー

              の正確確率検定  の正確確率検定

 

比率の差   --               カイ二乗検定,  カイ二乗検定,

              フイッシャー    フイッシャー

              の正確確率検定,の正確確率検定,

              マクネマー検定,マクネマー検定,

              コクランの      コクランの

                            Q 検定          Q 検定

                            

母比率    --        二項検定     二項検定

 

対応のない 平均値の差の  --       マン・ホイットニーの U 検定

2 標本の  t 検定             2 標本コルモゴロフ・スミルノフ検定,

代表値の差                 ファン・デル・ワーデン検定,

                      中央値検定

 

対応のある 平均値の差の  --        符号検定,

2 標本の  t 検定             符号順位和検定

代表値の差

 

対応のない  一元配置        --              クラスカル・ウォリス検定

K 標本の    分散分析

代表値の差

 

対応のある   乱塊法         --              フリードマンの検定

K 標本の

代表値の差