AdaBoostの作成方法
1. データに重みを設定する.(最初の重みは一様分布)
2. すべての属性で最もよく分類できる属性をジニ不純度によって選ぶ
3. エラーを分類に失敗した重みの総和として計算する
4. Amount of Say\((k)\)を計算する.\(k = \frac{1}{2}\log(\frac{1-e_{total}}{e_{total}})\)
5. 分別に失敗したデータの重みを大きくする
失敗したデータは\(w_{new} = w_{old} \times e^{k}\)
成功したデータは\(w_{new} = w_{old} \times e^{-k}\)
最後にすべての和が1になるように正規化する(\(w_{new}\)の和で割る)
6. 重みに応じて新しいコレクション(データの組み合わせを)を重みを確率としてリサンプリングする?
リサンプリングしないパターンもある?
7. 1~6を繰り返す
AdaBoostの利用方法
1. 分類したいデータをすべてのスタンプで分類する
2. それぞれのスタンプの分類結果をAmount of Say\((k)\)をかけて分類先ごとに足し合わせ一番大きかったところに分類する
参考文献(になりそうなもの)
[1] Johns Hopkins大学のコンピュータ科学部の講義pdf?
[2] StatQuest
コメント