仕事ではじめる機械学習 #1
1章:機械学習プロジェクトの始め方
1.1 機械学習はどこで使われるのか?
機械学習の目的
未知のデータに対して過去の経験をもとに機械が予測する
→ レコメンド機能などで使用される
予測するためのアプローチは大きく3種類
1.2 機械学習プロジェクトの流れ
データ分析業務は前処理が8割(csvのパースや、Webのログから必要なデータを抽出するところに多く時間がかかる)
- 問題を定式化する (目的とアクションプランを考える)
- 機械学習をしなくて良い方法を考える (機械学習のデメリットと相談する)
- システム設計を考える (リソースの取得方法など)
- アルゴリズムを選定する
- 特徴量、教師データとログの設計をする
- 前処理をする(取得したデータの整形・加工)
- 学習・パラメーターチューニング(予測性能を達成する)
- システムに組み込む
1.3 実システムにおける機械学習の問題点への対処法
問題
- 自動テストがしづらい
- トレンドの変化により入力傾向が変化する
- 処理のパイプラインが複雑になる
対処
- 事前に用意したテストデータをもとに予測性能を測定し、異常値が出たときにアラートを出すようにモニタリングする
- モデルの切り替えが容易な状態を作る。複数のモデルを並べてA/Bテストを行い、常に変化に対応させる
- バージョン管理・ドキュメント管理大事(「コード」「モデル」「データ」の3つの管理が理想)
"パイプライン"(参考)
複数の処理プログラムを直列に連結し、ある処理プログラムの出力が次の処理プログラムの入力となるようにし、複数の処理プログラムを並行処理させる技術。
機械学習だと、変換機→変換機→変換機→予測機のようなイメージ