Essentials of Stats

『経営学総論』新版（2004年）第8章　経営統計学

II　統計学エッセンス

　統計学のエッセンスとして，特に「データの整理」，「確率，確率変数，確率分布」，「統計的推測：推定，仮説検定」，「回帰分析」を取り上げます（参考文献〔1〕を参照）。ここでデータとは「観測値」の集合を意味します（データは標本とも言います）。

　経営データとして，日本企業の海外現地法人および本社企業の売上高データを考えてみることにします。この種のデータは例えば，経済産業省『第31回　平成13年海外事業活動基本調査結果概要－平成12 (2000)年度実績－』(http://www.meti.go.jp/statistics/data/h2c4topj.html) に掲載してあります。いま，この第31回調査結果で，業種別・進出地域別（但し北米とアジアに限定）売上データを拾ってみると，表1のようになります。

表1　海外進出日本企業の売上高データ：横断面データ（2000年度実績）

			（百万円）
	(A) 北米現地法人売上高	(B) アジア現地法人売上高	(C) 本社企業売上高
農林漁業	28,077	40,461	1,664,574
鉱業	100,742	667,292	663,159
建設業	214,521	253,339	13,086,633
食料品	665,286	396,469	14,002,192
繊維	125,797	872,376	3,079,672
木材紙パ	328,366	92,541	2,734,544
化学	1,941,236	1,654,557	18,281,742
鉄鋼	1,247,620	605,975	8,009,766
非鉄金属	273,112	443,434	5,442,280
一般機械	1,414,685	990,394	13,470,776
電気機械	5,875,861	9,422,590	49,040,830
輸送機械	9,280,979	3,496,457	35,163,398
精密機械	361,440	576,910	2,300,996
石油石炭	41,281	132,815	9,725,764
その他製造業	1,834,154	1,213,397	14,561,018
商業	26,672,654	14,263,005	98,144,311
サービス業	4,388,960	681,442	4,411,924
その他産業	1,620,615	572,669	6,250,351

2.1　データの整理

　2.1.1　1変数データの場合

【中心】　表1の売上データを整理する目的で，データの「中心」を示す代表値として，標本平均値，中央値（メディアン），最頻値（モード）を計算します。表1(A)欄「北米現地法人売上高」について，これらはそれぞれ次のように求められます：

標本平均値＝(28,077 + … + 1,620,615)/18 = 3,134,188.1，ここで18は標本の大きさです。

中央値＝(665,286 + 1,247,620)/2 = 956,453，ここで分子は食料品，鉄鋼売上観測値です。これは，データをたとえば小さい順に並べ替えた上で計算します。

最頻値＝頻度が最も大きく現れる観測値。この計算には，後述の度数分布表の作成が前もって必要となります。

【ばらつき】「ばらつき」とは，観測値が中心の周りにどの程度散らばっているかを表し，ばらつきを示す代表値として，標本分散，その平方根である標本標準偏差，範囲などがあります。表1(A)欄については次のように計算されます：

標本分散＝{(28,077－3,134,188.1)² + … + (1,620,615－3,134,188.1)²}/18＝38,260,348,197,189.7

標本標準偏差＝標本分散の平方根つまり2分の1乗＝(38,260,348,197,189.7)^1/2＝6,185,495.0（百万円）

　範囲＝最大値－最小値＝26,672,654－28,077＝26,644,577

　【度数分布表，ヒストグラム】　ここではデータの度数分布表を作成し，それを棒グラフ化したヒストグラムを描きます。度数分布表とヒストグラムにより，分布の左右対称性，歪み（歪度），尖り（尖度）などの目視チェックがある程度可能です。キーワードは，階級値，階級の幅，度数，相対度数，累積相対度数，右袖が長く右に（あるいは左袖が長く左に）歪んでいる，（歪みのない）左右対称，などです。

　左右対称で尖りが抑えられた美しい形の分布は正規分布と呼ばれ，理論と実際両面で最も重要な分布となっています（正規分布のビジネス予測への応用は第3.2.2節を参照）。

　【Excel分析ツールでデータ整理】　以上のデータ整理は，Excelで売上データを入力し「ツール：分析ツール…」を使って容易に行うことができます。その詳細は参考文献〔3〕，〔4〕に譲ります。

　【時系列データの中心】　表1のデータは2000年度に限定した横断面（クロスセクション）というタイプのものです。他に，時間的に変化していく時系列データがあります（この種のデータは第III節でも扱います）。先の横断面データの標本平均は算術平均となっていますが，それに対して時系列データの中心を示す代表値として幾何平均，移動平均と呼ばれるものがあります。ここでは前者を取り上げ，表2の時系列データを使って例示します。

表2　日本企業（電気機械）のアジア現地法人経常利益データ：時系列データ

				（百万円）
年度	1997	1998	1999	2000
	144,239	136,163	265,020	310,661

　幾何平均＝4年度期間について，3個の「対前期比」を掛け合わせたものの3乗根つまり3分の1乗（表2について）＝{(136,163/144,239)(265,020/136,163)(310,661/265,020)}^1/3＝{310,661/144,239}^1/3＝1.29

この幾何平均を使って，アジア現地法人経常利益の「年平均増加率」は次のように求まります：

　年平均増加率＝(幾何平均－1)*100＝(1.29－1)*100＝29%

　補足ですが，一般に幾何平均＜あるいは＝算術平均です。例えば

　算術平均＝4年度期間について，3個の対前期比の算術平均（表2について）＝{(136,163/144,239)＋(265,020/136,163)＋(310,661/265,020)}/3＝1.35＞1.29

となります。しかし，この算術平均は正しい年平均増加率とは言えません。

　2.1.2　2変数データの場合　

　北米とアジア進出地域別の売上データ（表1の(A), (B)欄）を二つの異なるデータとみなして，それらの関係を調べることができます。そのために標本相関係数を計算し，二つが正あるいは負の相関にあるのか，または無相関なのかを数値的に判断します：

　標本相関係数＝二つのデータの標本共分散／各データの標本標準偏差の積

ここで表1の(A), (B)欄について標本共分散を求めると以下のようになります：

　標本共分散＝{(28,077－3,134,188.1)(40,461－2,020,895.7) + …+ (1,620,615－3,134,188.1)(572,669－2,020,895.7)}/18＝20,367,451,695,116.5

この値の符号が相関係数のそれとなります。結局，

　標本相関係数＝20,367,451,695,116.5/(6,185,495.0 * 3,645,900.7)＝0.90

これは＋1に近い値であることから，北米とアジア海外法人売上データ間には強い正の相関が認められます。

　ただし，相関係数は「直線」関係の程度を表していることに留意します。直線以外の「非直線」関係をチェックするには相関係数だけでは不十分です。そのチェックにはExcelなどで散布図（あるいは相関図）を描くことが大切です。

　以上のような2変数データの整理ももちろんExcelで容易に行えます（参考文献〔3〕，〔4〕を参照）。

2.2　確率，確率変数，確率分布

　本節もExcelによる学習が可能です：参考文献〔2〕などを参照してください。

　2.2.1　確率，独立　

　【事象，確率】　ビジネス予測は結果が不確定な将来（＝次期）を予測する作業となっています。一般に，結果が不確実な事象（例えば，次期売上高が上昇する，という事象）は，確率を使ってその起こりやすさ，起こりにくさを考えることができます。例えば，図1の「ビジネス予測」欄において，将来起こりうる結果が三つ（即ち，上昇するという事象A₁, 現状維持という事象A₂, 下降するという事象A₃）示されていますが，もしその一つひとつが等しい生起可能性をもっているのなら，各結果の確率は1/3（=P(A_i), 各i）となります。もし等しくないのであれば，例えばそれぞれ1/6, 2/6, 3/6の確率かも知れません。

理論的には，いくつかの条件を満たす実数であればすべて確率と呼ぶことができます。私たちが主観的に想定する数字でも，それらの条件さえ満たせば確率とみなせます。

　【条件つき確率，周辺確率】　少し分かりにくいですが，条件つき確率というのがあります。生起が不確定なある事象A（例えば，北米進出子会社の売上高が将来上昇するという事象）が発生したという条件下で，別の異なる不確定事象B（例えば，アジア進出子会社の売上高が将来減少するという事象）が起こる確率は，Aに条件付けられたBの確率，というもので，これを条件つき確率と呼びP(B|A)と表記します。これに対し単なるP(B)は周辺確率とも呼ばれます。

　【同時確率，独立性】　もしP(B|A)=P(B)であれば，二つの事象A, Bは互いに独立であるといいます（ビジネス予測への応用は第3.2.2節を参照）。このとき，P(B|A)=P(B)は，書き方を変えて，事象A, B が同時に起こるという同時確率P(A, B)=P(A)*P(B)と表現することができます。

　特に，二つの事象A, Bの同時確率P(A, B)が正規分布からの確率であれば，これらの事象は2変量正規分布に従った起こり方をするということになります（ビジネス予測への応用は第3.2.2節を参照）。

　2.2.2　確率変数，確率分布　

　結果が不確定な次期売上高といった変数Xは，確率変数と呼ばれます。北米とアジアでの次期売上高は，二つの異なる確率変数と考えることでき，確率変数はある特定の分布に従って，表1のような実現値を将来とることになります。そのような分布を確率分布と呼び，特に二項分布，ポアソン分布，一様分布，指数分布，正規分布，標準正規分布が重要です。

複数の確率変数X, Y, Zなどの同時確率分布は多変量分布と呼ばれ，その一例が先に挙げた2変量正規分布（一般的には多変量正規分布）です。ここで大事なことは，二つの確率変数X, Yが2変量正規分布に従っていれば，「両者の相関がゼロである」ことは「両者は互いに独立」も意味する，つまり相関を調べれば独立性をチェックできる，という点です。これは，本章のビジネス予測でもとても有用となります（第3.2.2節を参照）。一般には（即ち，多変量正規分布を仮定できない場合），独立は常にゼロ相関を意味するのですが，その逆は必ずしも真ではありません。

2.3　統計的推測：推定，仮説検定

　いま，日本企業の海外現地法人「すべて（世界各地域を網羅）」の売上高を母集団と呼びましょう。この全体の平均（＝母平均）は未知ですが，これまでの経験から母平均は予想できるとしましょう。この予想を仮説，特に，帰無仮説と呼ぶことにします。

　他方，過去の経験知に基づくその予想と比べると，最近の日本企業の海外現地法人の売上高は減少しているのではないか，という疑問が生じたとします。つまり，帰無仮説を「母平均は依然として過去のそれと変わりはない」とたてて，それを否定する仮説として対立仮説「これまでとは異なっている」をたててみるのです。

そこで，その疑問に答えるために，帰無仮説の検定を行うことになります。まず，日本企業の海外現地法人すべてから，その一部である標本を無作為に抽出します。その標本がたとえば表1の(A), (B)欄だとしましょう（無作為性のため，ここでは地域名，業種名は無視します）。次に，母平均を推定する作業として売上高の標本平均を求め，それを使って，確率値などに基づいて仮説検定を行います。一般に，t分布といった標本分布から求められる確率値がより小さい (できるなら，0.1以下である) ほど帰無仮説が否定されやすくなり，結果，対立仮説が採択されることになります。確率値が（0.1より）大きいと，逆に帰無仮説は否定できないことになります。

この統計的推測のビジネス予測への応用は第3.2.1節を参照して下さい。　

2.4　回帰分析：関係分析の一つ

　ビジネス予測に欠かせない統計学エッセンスとして更に回帰分析があります。いま，「日本国内の本社売上高（例えば表1の(C)欄）が増えるとき，北米子会社の売上（表1の(A)欄）はどのような動きを見せているのだろうか」といった問いを分析したいとしましょう。この種の関係分析に単回帰分析が有用となります。

　【単回帰分析】　単回帰分析では，本社売上高を X_i，北米子会社の売上高をY_i と表し，両者に「直線的な」関係があると想定して，次のような単回帰式（単回帰モデルとも言います）を分析対象とします：

Y_i = α + βX_i + a_i

表1の(A), (C)欄のデータをそれぞれY_i，X_iに代入し，αとβを計算します（つまり，本来未知のαとβを推定する）。専門的には，αとβは回帰係数，a_iは誤差項と呼ばれ，誤差項の推定されたものは残差（後の第3.2.2節ではa_iと表記）と言います。

　βの推定値から推論されることは，本社売上高X_iが1単位（表1では1単位＝百万円）増加した場合，北米子会社の売上高Y_iがどのように変化するのか，を表します。もしβの推定値が正［負］値であれば，北米子会社の売上高の増加［減少］が推論されることになります。

　しかし，この「直線的な」回帰式は果たして，表1の(A), (C)欄のデータを用いた本社売上高と北米子会社売上高の関係をうまく捉えているのでしょうか。両者間に本来直線的な関係があるのかは不明なまま上の回帰式を使っていますので，この点は必ず調べておかなければなりません。そのチェックには，決定係数と呼ばれる統計を使います。これは，推定された回帰式がデータにどの位良く当てはまっているのか，その度合いを表わすものです。その値が1［0］に近いほど，当てはまりが良い［悪い］と判断されます。（しかし，当てはまりが悪い場合でも，それは関係が直線的ではなく曲線的であることも考えられますので，更に散布図などによる目視的関係分析が必要です。）

　【重回帰分析】　重回帰分析では，回帰式の右辺に二つ以上の変数が現れ重回帰式となります：

Y_i = α + βX_i + γW_i + δZ_i + a_i

左辺のY_iが右辺の二つ以上の変数といかなる関係にあるかを見ようとする重回帰分析では，数多くのポイントがありますが，その一つは，右辺のX_i, W_i, Z_iの間に強い相関があっては困るということです。これは｢多重共線性(multicollinearity)｣問題と呼ばれており，強い相関が認められる場合，いずれかの変数を削除しなければならないことになります。

　以上の回帰分析は，表1のデータなどを使ってExcel分析ツールで容易に実行できます（参考文献〔3〕などを参照）。