【書評】評価指標入門を読んだ感想、データサイエンティストとしては必ず押さえておきたい内容

データサイエンス

評価指標入門」という本を読みましたので、その感想を本記事にまとめます。データサイエンティストの初学者や、評価指標についてお悩みの方は参考にしてください。

感想を一言でいうと、非常に良い本で面白かったです。

評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋

なお、本記事では全文に私の偏見や個人的な経験を多く混ぜています。あくまでも n=1 の感想ですので、データサイエンティストのみなさんは鵜呑みにしないようお願いいたします。

私のプロフィール

  • ITエンジニア歴: 9年ぐらい(学生時代込み)
  • ML/DS歴: 4年半ぐらい

書籍の概要

本書では機械学習を利用するプロジェクトにおける重要な要素の一つである、「評価指標」について着目し、その解説がされています。加えて、目的関数・評価指標・KPIなど様々な式がありますが、それら3つの違いと関係性について丁寧に解説がされていました。

また、評価指標の設計が重要であり、これがきちんとKPIと相関してるかまで意識しないとね、ということが深く言及されていました。

少し煽り気味に書くと、評価指標の値を改善することが機械学習エンジニアやデータサイエンティストの大きなタスクの一つだけど、その評価指標ってほんとにその式で良いの?KPIと関係無かったらほとんど意味ない上に誤った判断につながるよ?思考停止で使ってない?という内容です。

この辺の話を具体的なプロジェクトの例を用いて、かなり丁寧に分かりやすく解説されている書籍でした。共感できる部分も多かったので、気軽に楽しく読める本でした。

近年の機械学習界隈では、AutoML とか Hugging face とかなんやかんやのすごいツールやモデルがたくさんあって非常に簡単に使えてしまいます。この背景もあり、ディープなモデルを振り回して精度が上がって満足、みたいなML/DSの方も少なからず存在します。(私も観測済みです。)なんとなくML/DSに転向して、統計とか指標とかよくわからないけど、とりあえず動かしてみたらそれっぽい精度が出てしまった、みたいな悲惨な状況が更に起きうるかもしれません。

そんな状況に警鐘を鳴らすような意図もあるのかなー、と思いました。

ざっくり感想

とても良い本だと思いました。共感できる内容は多かったですし、とても分かりやすく、読みやすかったです。
また、評価指標に関してしっかりと言語化がされていて、読んでいて気持ちが良かったです。

誰に読んでほしいか

結論から言うと、機械学習・データサイエンス歴が0年~2年ぐらいの方に読んでほしいなと思いました。本書の名前の通り入門編、という感じなので機械学習・データ分析案件に初めて配属されました!って方は特に読んでほしいです。

逆に言うと、ある程度経験を積んでいる方は既に通ってきた道であり、仮に言語化できていなくても肌感で理解している内容がほとんどだと思います。一方で、シンプルに読み物として面白い側面や、データサイエンスにおける自己啓発的な部分もあるので、一回読んでみても良いと思います。(1章とか付録とか楽しく読めました。)

数年経験あるけど知らない知識ばっかりだった、っていう方はよっぽどビジネス側が頑張ったケースか、周囲やマネージャーがとても優秀だったか、いずれにせよ恵まれた環境に助けられたのだと思います。それぐらい当たり前であり、かつ重要で必要な概念なのが評価指標だと思います。

内容の難しさとしては、かなり優しい部類に入ると思います。数式やPythonコードも出てきますが、かなり丁寧な解説やコメント付きなので、初学者でも問題なく読めると思います。(多分)

出てこない内容

私が本書を読む際になんとなく期待してた内容だったけど、実際は出てこなかった内容は以下です。

  • キャリブレーションの話
  • 分布の変化とオフライン指標の改善
  • 定式化が困難なKPIにおけるオフライン指標の策定
  • オフライン指標とオンライン指標の乖離の対処・分析
  • オフライン指標を踏まえたABテストの設計

本書の内容を前提としたうえで、更にめんどくさい問題を抱えているのが機械学習系のプロジェクトだと思います。例えば、オフライン指標では良くてもオンライン指標では良くないとか、運用してたらオフライン指標が信頼できるか怪しくなってきたとか、KPIを式に落とすのが困難だから相関のある指標を探らなくてはいけないとか、モデルの説明性を指標に何とか加えたいとか…

運用していたら課題が山ほど出てきて、オフライン指標どころか何もかもが信じられなくなります
その辺を上手いことやってビジネス的にインパクトのある仕事ができるのが、優秀なML/DSなんだと思います。本書を読んだ方はこれをベースに、さらに難しい課題に取り組んでいけるといいなと思います。

おわりに

非常に僭越ですが、感想を書かせていただきました。著者の方々に敬意を表します。

良い本なので、ぜひ皆様も読んでみてください。

評価指標入門〜データサイエンスとビジネスをつなぐ架け橋
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋

コメント

タイトルとURLをコピーしました