全脳自由帳

より考えるために書く

Gmailのスパムフィルタはスパム側に倒しすぎる

届くはずのメールがいくつか届かなかったのでGmailの「迷惑メール」フォルダを調べてみたら、スパムでないメールがかなり混じっていた。そのうち多くはAmazonなどからのダイレクトメール的なものだが、加入しているMLへのメールやmixiのメッセージ通知までつかまってしまっていた。

しょうがないから「迷惑メール」フォルダを見ていって必要なメールを救済したが、スパムメールは件名を見るだけでもいやになるものが多いので、気持ちのよい作業ではない。

私のアドレスには1日平均100通ぐらいのスパムメールが来るが、Gmailのスパムフィルタのおかげでほぼ読まずにすんでいる。しかし逆に読むべきメールをこんなにとりこぼすのでは困る。判定をスパム側に倒しすぎではなかろうか。

この機会に「第一種過誤と第二種過誤」について調べてみたのでメモ。何かを判定する方式に不確実性がある場合に起こりうる誤りには、大きく分けて以下の2つがある。

  • 第一種過誤(偽陽性): 受諾(受理)されるべき事柄を拒絶(却下)する過誤。例えば、無実の人物を有罪にすること。
  • 第二種過誤(偽陰性): 拒絶(却下)されるべき事柄を受諾(受理)する過誤。例えば、真犯人を無罪にすること。
Wikipedia - 第一種過誤と第二種過誤

第一種過誤と第二種過誤のどちらが致命的であるかは場合による。上記の有罪・無罪の例では第一種過誤(冤罪)の方が致命的であるが、入室などでの認証やコンピュータセキュリティの世界では、不正アクセス者を正当なユーザと認証してしまう第二種過誤の方が致命的である。一般には、致命的な方の発生率をある低い値以下に保った上で他方の発生率をできるだけ下げる、といった方向で改善の努力がなされる。

で、スパムフィルタの場合は第一種過誤、つまりまともなメールがスパムメールと判定されてしまうことの方が致命的なはずである。Gmailではこっちの確率をもっと下げてほしいのだが。