回帰分析
2つのデータ\(\small x,y\)について、観測されたデータ(統計学では標本(Sample)といわれる。)\(\small x_1,x_2,\cdots,x_n\)、 \( \small y_1,y_2,\cdots,y_n\) から両者の関係\( \small y=f(x)\)を推定することを回帰分析(Regression Analysis)という。\( \small x\)は説明変数(Exploratory Variable)、\( \small y\)は被説明変数(Dependent Variable)という。名称だけ見ると因果関係を説明しているかのように見えるが、回帰分析で推定できるのは相関関係のみであり、 \( \small x\) が原因で \( \small y\) が結果という意味を持っているわけではないことに注意しなければならない。関数\( \small f(x)\)には様々な関数を当てはめることができるが、\( \small f(x)=\alpha+\beta x\)と置くことが多く、線形回帰分析(Linear Regression Analysis)といわれる。回帰分析は統計学におけるもっとも基本的な手法であり、経済分析では頻繁に用いられる。\(\small \alpha,\beta\)のようなパラメータは回帰係数(Regression Coefficient)といわれる。
最初に、購買力平価説の説明で用いた\( \small f(x)=\beta x \) の場合を考えよう。これは、 観測されたデータを用いて\( \small y_i\)と\( \small \beta x_i\)の差の合計値が可能な限り小さくなるように\( \small \beta\)を推定すればよい。この差\( \small \epsilon_i=y_i-\beta x_i \)のことを推定誤差 (Estimation Error) 、あるいは、推定残差(Estimation Residual)というが、推定残差の合計値が最小値になるように \( \small \beta\)を推定する問題として定式化できる。と言いたいところであるが、 \(\small \epsilon_i \)自体を直接最小化しようとすると\( \small \beta\)を無限に小さくすることになってしまうため、正確には \( \small y_i\)と\( \small \beta x_i\) の距離を最小化するように推定しなければならない。距離 の定義には様々なものがあるが、ここでは\(\small d(y_i,\beta x_i) = \epsilon_i^2 = (y_i-\beta x_i)^2 \)と定義する。このように推定誤差の2乗で距離を定義し、この距離が最小になるように回帰係数を推定する手法は最小二乗法(Least Square Method)といわれる。 もちろん、この距離は2乗以外のものを用いることもできる。例えば \(\small d(y_i,\beta x_i) = |\epsilon_i|\)のように推定誤差の絶対値で定義した回帰分析は中間値回帰分析(Median Regression Analysis)といわれている。これについては別の機会に詳しく説明する。
最小二乗法
\( \small f(x)=\beta x \) の場合について、問題を定式化すると以下のとおりである。$$\small \min_{\beta} F(\beta) = \min_{\beta} \sum_{i=1}^n \left(y_i-\beta x_i \right)^2$$これは、関数\( \small F(\beta)\)が最小値になるように\( \small \beta\)を決定せよという問題を表す。\( \small F(\beta)\)は目的関数(Objective Function)といわれる。関数が極大、極小をとるのは微分値が0の場合であるから、$$\small \frac{d F}{d \beta} =-2\sum_{i=1}^n x_i\left(y_i-\beta x_i \right) = 0 $$を成り立たせる\(\small \beta\)が求める値である。計算すると$$\small \hat{\beta} = \frac{ \sum_{i=1}^n x_i y_i }{\sum_{i=1}^n x_i^2}$$を得る。すなわち、データ\(\small x_i,y_i\)の関係は\(\small y_i = \hat{\beta} x_i + \epsilon_i \)と表現することができる。
同様にして、線形回帰分析 \( \small f(x)=\alpha+\beta x\) の場合についても解を求める。 $$\small \min_{\alpha,\beta} F(\alpha,\beta) = \min_{ \alpha, \beta} \sum_{i=1}^n \left(y_i-\alpha-\beta x_i \right)^2$$ であり、 極小をとるのは\(\small \alpha,\beta\)に関する偏微分の値が0の場合であるから、最初に$$\small \frac{\partial F}{\partial \alpha} =-2\sum_{i=1}^n \left(y_i-\alpha-\beta x_i \right) = 0$$を満たす \(\small \alpha\) を求めると、\(\small \alpha = \left(\frac{1}{n} \sum_{i=1}^n y_i\right)-\beta \left(\frac{1}{n} \sum_{i=1}^n x_i \right) = \bar{y}-\beta \bar{x}\)を得る。これを目的関数に代入すると $$\small \min_{\beta} F(\beta) = \min_{\beta} \sum_{i=1}^n \left((y_i-\bar{y})-\beta (x_i-\bar{x}) \right)^2$$となり、1変数の場合に帰着できる。結局、$$\small \hat{\alpha} = \bar{y}-\hat{\beta} \bar{x} \qquad \qquad \qquad\\ \small \hat{\beta} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2} \;\; $$と解を求めることができる。このとき、 データ\(\small x_i,y_i\)の関係は\(\small y_i = \hat{\alpha} + \hat{\beta} x_i + \epsilon_i \)と表現することができる。
CAPM(Capital Asset Pricing Model)
金融市場論、あるいは、金融経済学(Financial Economics)といわれる領域では、線形回帰分析に特別なコンセプトを与えたモデルが存在して、個別銘柄のリターンを被説明変数、市場ポートフォリオ(株価指数のようなものと考えればよい。)のリターンを説明変数とした線形回帰分析のモデルをCAPM(キャップエムと読む。)という。いや、ただの線形回帰分析だろ、勝手に変なコンセプトを付けて別の言い回しするなよ、と言いたくなるかもしれないが、金融経済学では主役といっていいほど中心的なコンセプトになっている。
\(\small r^i_t \)を時点\(\small t\)の個別銘柄\(\small i\)のリターン、 \(\small r^m_t \) を時点\(\small t\)の株価指数のリターンとおいて式で表すと、$$\small r^i_t = \alpha_i + \beta_i r^m_t + \epsilon^i_t $$である。株価指数の連動する度合いを表す係数\(\small \beta_i \)をその銘柄のベータ(Beta)といい、その銘柄固有の超過リターンを表す係数\(\small \alpha_i \)をアルファ(Alpha)という。また、株価指数の変動するに連動するリスクのことをシステミックリスク(Systemic Risk)、推定残差\(\small \epsilon^i_t \)のことを固有リスク(Idiosyncratic Risk)という。
何か特別な意味があるかのように見えるが、基本的にはただの線形回帰分析であり、1ページで説明が終わる内容に見える。しばしば学術書では、これについて詳しく書いたら1冊の本が書ける(いや無理だろ・・)、という表現が使われることがあるが、金融経済学では冗談ではなく、アルファで1冊、ベータで1冊、 システミックリスク で1冊・・・のような本の書かれ方がしたりする。学者ってすごいな(ほどんどの学者はそういう人たちではないだろうけど)と思いつつ、自分は向いてなかったんだろうな、という気分になる。