Hack for Trade

トレーディング素人のエンジニアがフルスクラッチでシストレツールを開発・運用する予定のブログです。

米国株式ファクターリターンの再現性の検証(1)

1## なぜ

先読みバイアスを最小化した上で、各時点における最適なファクター選択を行うための事前調査を目的としています。

ファクター投資において、特定のユニバースに置ける株式のリターンとファクターとの間の相関は情報係数(=IC)と呼ばれていて、利益の源泉となっています。一般的にファクターとリターンとの相関が高いほど利益も大きくなります。

ここで問題になってくるのが、あるt期において選択したファクターがt+1期においても同様の傾向を継続するのか否かです。もしもそのような傾向が見られないのであれば、どんなに素晴らしい最適化手法でファクターを選択したとしても次の期には効かなくなっているということです。つまり、ファクターとリターンとの相関関係の継続性がなければこのファクター投資戦略は成り立ちませんが、継続性が存在するのであれば各時点に置ける最適なファクターを選択することができる可能性があります。

ということで、

  1. ファクターとリターンとの間に相関関係の持続性、つまり自己相関は存在しているのか
  2. 自己相関が存在しているとするならば、次の期の傾向を予測することは可能なのか

について、調査してみました。

調査方法

ある条件で絞り込んだ米国株のユニバースにおける、あるファクターの2012年~月次のリターンとの順位相関係数の時系列データに対して自己相関検定、およびARIMAモデルを用いてのシンプルなモデリングを試してみました。

結果

原系列データ

月次の相関係数のデータはこのような形になってます。通期での平均ICは-0.027。

f:id:yss44:20171027151153p:plain

調査結果

自己相関プロット

ACF, PACFについてのプロット。3期前のデータと5%有意水準で有意に自己相関している様子。

f:id:yss44:20171027151208p:plain

ARIMAモデリング

AICをターゲットにしてフィッティングを行った結果。選択された次数は(3,1,1)。それなりに妥当な結果が出ているのではないかと思う。残差が正規分布から若干外れているようにみえるのが、有意水準5%で正規分布検定をpass。また有意な自己相関も残っていない模様。

                             ARIMA Model Results                              
==============================================================================
Dep. Variable:                    D.y   No. Observations:                   67
Model:                 ARIMA(3, 1, 1)   Log Likelihood                 124.950
Method:                       css-mle   S.D. of innovations              0.037
Date:                Fri, 27 Oct 2017   AIC                           -239.900
Time:                        05:37:54   BIC                           -228.877
Sample:                             1   HQIC                          -235.538
                                                                              
==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ar.L1.D.y      0.0923      0.123      0.748      0.457      -0.150       0.334
ar.L2.D.y      0.1721      0.122      1.415      0.162      -0.066       0.411
ar.L3.D.y      0.2431      0.125      1.952      0.055      -0.001       0.487
ma.L1.D.y     -1.0000      0.407     -2.454      0.017      -1.799      -0.201
                                    Roots                                    
=============================================================================
                 Real           Imaginary           Modulus         Frequency
-----------------------------------------------------------------------------
AR.1            1.3304           -0.0000j            1.3304           -0.0000
AR.2           -1.0192           -1.4328j            1.7584           -0.3484
AR.3           -1.0192           +1.4328j            1.7584            0.3484
MA.1            1.0000           +0.0000j            1.0000            0.0000
-----------------------------------------------------------------------------
  • 残差の分布

f:id:yss44:20171027151232p:plain

  • 残差の自己相関

f:id:yss44:20171027151240p:plain

ウォークフォワード予測

ARIMAモデルをウォークフォワードで次数フィッティング&予測した結果。比較的良好に相関関係の遷移を推定できているのではないかと見える。

f:id:yss44:20171027151258p:plain

結論

  • ファクターとリターンの相関時系列データには自己相関の成立するものもある。
  • ARIMAモデリングを利用してモデル化及び予測を行うことができた。
    • より複雑なモデリングを行いたい。VARモデルを用いて複数のファクター間での相関の遷移をおったりすると面白いかも。
    • 各種機械学習アルゴリズムも試してみる価値がある。
  • オンラインでファクター選択を行うことが可能であるという仮説を補強する結果が得られた。

あとがき

最近はずっと米国株のファクター投資について研究していましたが、面白い発見をしたなと思ったので久しぶりにブログを書きました。毎回言ってる気がしますが、頻度増やしていきたいですね。

おかしい点があればコメントいただけると幸いです。