昔の人はすごかった - pokopokopekeのブログ

今週より輪講でPRML(=Pattern Recognition and Machine Learning) まあ機械学習の勉強が始まったわけですが，これが数理的な話がふんだんに出てきて楽しいことこの上ない．

今回のお話はよくある観測時系列データに対する多項式函数フィッティング．
まあ，よく知ってる人なら平均２乗誤差の最小化を使って回帰すればいいんでしょー．という話なんでしょうが．

${y(x,\vec{w}) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M \\ E(\vec{w}) = \frac{1}{2} \sum_{n=1}^{N} \{ y( x_n, \vec{w} ) - t^2 \} }$

$y(x, \vec{w}):$ 推定値， $x:$ 入力データ， $\vec{w}:$ 係数行列， $M:$ 回帰函数の次数， $E(\vec{w}):$ 平均２乗誤差， $t:$ 目標値

僕が面白いとおもったのが，過学習の抑制方法の発想でした．

過学習というのは，本来なら２次函数と推定できれば適切な観測データに対して，９次函数とかで推定してしまって大きく発振した函数になるというやつです．

厄介なのが，２次函数での平均２乗誤差に比べて９次函数での誤差のほうが小さいということなのですよね．
自由度が増えている分，訓練データへの忠実な追随が可能なので当然といえば当然なのですが．

これを抑制するために，以下のアイデアを使っているようです．
誤差値に対して，係数行列のノルムを利用したペナルティ項というものを導入し，過学習を抑えています．
これは，過学習となる時は推定函数が大きく発振する→係数が大きくなるという傾向を用いて，過学習を抑えるというアイデアです．

$\tilde{E}(\vec{w}) = \frac{1}{2} \sum_{n=1}^{N} \{ y( x_n, \vec{w} ) - t^2 \} +\frac{\lambda}{2} ||\vec{w}||^2$

$\lambda:$ 抑制係数

言われてみるど当たり前のことなのですが，このボトムアップ的な発想がすごいなと思います．データサイエンティストに客観的な視点でデータを見る能力が求められると言われるのはこの辺の能力なんだなと妄想．

とまぁ，はてブログでTex書式が使えるのかどうか試すためだけに書いた中身の薄い記事でした．