多重共線性が予測精度を下げるケースについて

スポンサーリンク

こんにちは。大学院で機械学習について学んでいる大学院生のなかふくです。

今回は多重共線性で予測精度が低下するときの話をしたいと思います。
多重共線性は予測精度を下げないと言われがちですが、場合によっては予測精度を下げます。

多重共線性とは

重回帰分析において説明変数間の相関が高いとき(正確には、ある説明変数をそれ以外の説明変数の線形結合で近似できるとき)

  • 偏回帰係数の標準誤差が大きくなる(そのため、係数の大小を比較することが無意味になる)
  • 偏回帰係数の符号がおかしくなる(目的変数と説明変数に正の相関があるにもかかわらず、符号が負になる)

などの問題が生じます。このような現象が生じる状態のことを多重共線性が存在すると言います。(文献によって多重共線性という用語の使い方が多少異なりますが)

統計学の文脈では、モデルの解釈をメインとすることが多いので多重共線性はいつも問題とされます。しかし、モデルの予測精度のみを問題とする機械学習の文脈では問題とされないことも多いです。というのも、多重共線性が存在していても回帰モデル全体としての性能は低下しないと言われているからです。

しかし、実際には多重共線性が存在していると予測精度が下がることがあります。

多重共線性により予測精度が低下するケース

多重共線性が存在していても、予測精度は下がらないことが多いです。しかし、学習データとテストデータで説明変数間の相関の強さが異なる場合は予測精度が下がる可能性があります。(参照)

例を挙げます。例えば生涯年収を学力と実家の年収で予測するモデルを作ったとします。
学力と実家の年収には正の相関があるため、基本的に学習データではそれらが相関した値のみで構成されています。
このモデルで「学力は高いが、実家の年収は低い人」を予測しようとすると、予測精度が大きく低下する可能性があります。このような値は学習データでは観測されていないため、例外的なデータとなるからです。

また、これとほぼ同じですが、相関が強いために学習データが偏ってしまい真の分布を推定できていないという問題が生じる可能性もあります。

これについては、図で解説してくれている例があります。図を引用するとこちらになります。

丸が学習データ、星がテストデータです。相関が高いために学習データにおいて、平面の横方向にばらついた値は得られていません。しかし、実際には横方向にばらついたデータも存在しており、テストデータでは横方向にばらついた値が得られています。このような場合において、予測精度が低下します。

このように、多重共線性が存在する場合は予測精度が下がってしまうケースがいくつかあります。

一方で、多項式回帰における元の変数と次数を上げた変数との間に生じる多重共線性により予測精度が低下することはほとんどありえません。
なぜなら、元の変数が決まればn次の項の値が自動的に決まるため、上記で挙げたような例外が起きないからです。(参照)

何かと危険な多重共線性。回帰モデルを作る際には、十分に注意しましょう。(自戒)

コメント

タイトルとURLをコピーしました