確率的リテラシーの欠如

2012年11月5日

この記事を書いている今、アメリカ大統領選挙の終盤に向けて[1]ネイト・シルバーが作成した予測に関する議論が起こっています。多くの共和党員は彼が民主党の回し者であり、オバマ氏が勝利する確率が85%という彼の予測は偽物だと主張しています[2]。心のどこかで、サイドベットができるほど確率に疎い共和党員をもっと知っていたらいいのにと思います。おそらく、私には民主党支持の友人が多いので、世論調査の結果が逆になっていたら、もっと良かったでしょう。実際には、私の知り合いのほとんどは数字に強いので、どちらにしてもあまり得はないでしょう。残念ながら、これは一般的には当てはまりません。この一幕は、ほとんどの人が確率に対して深く無知であることを示しており、これは社会全般、特にソフトウェア開発においていくつかの重要な影響を及ぼします。

この件について調べてみると、確率的リテラシーの欠如を示す証拠を見つけるのは難しくありません。

  • 多くの人が、シルバーはオバマ氏の勝利を予測していると主張しています。それは事実ではありません。シルバーは、彼のモデルがオバマ氏の勝利の可能性を85%と予測していると言っているのであり、それは全く同じことではありません。(それは、ロムニー氏がサイコロを振って6の目を出すと勝つだろうと言っているのと同じで、それはそれほどあり得ないことではありません。[3]
  • 世論調査はしばしば間違っているからシルバーの言うことに耳を傾けるべきではないと言われていますが、シルバーは彼のモデルがこれを考慮しようとしていると述べています。シルバーは、世論調査はオバマ氏の勝利を確信しているが、彼のモデルはロムニー氏が勝利する可能性を15%と見積もっていると述べています。それは世論調査が間違っている可能性があるからです。
  • 選挙が行われる火曜日になれば、シルバーの正しさが証明されるとか、間違っていることが証明されるとか言われています。しかし、1つの事象では、基礎となる分布について多くを語ることはできません。モデルを実際にテストするには、何十回も選挙を行う必要があります。[4]

この論争は、確率を理解し、正しく使う上で人々が抱えている根本的な問題の多くに触れているため、私の興味を引きました。まず、確実性の問題があります。人々は確率的な答えではなく、二元的な答えを聞きたがります。私たちは、プロジェクト計画で人々がさまざまな結果に対する範囲や確率の見積もりではなく、確固たる数字を求めているのを目の当たりにします。85%と100%の違いは、重大なエラーにつながる可能性があります。私は確実性を強く疑うようになり、誰かが確信しているように見えるほど、その人を信じなくなる傾向があります。[5]

この論争の一つの側面は、世論調査の情報をどのように使って予測を立てるべきかということです。RealClearPoliticsを今日見ると、選挙は「五分五分」とされています。なぜなら、彼らの分析では、重要な11の州が「五分五分」とされているからです。シルバーは、この結論は根本的に間違っていると言っています。RCPの現在の世論調査平均では、オハイオ州でオバマ氏が平均3.9%リードしています。シルバーは、これらの複数の世論調査を平均すると、統計的サンプリングによる誤差は約1.5%であると主張しています。したがって、世論調査が正確であれば、オバマ氏はオハイオ州で勝利するでしょう(そして、オハイオ州を五分五分と呼ぶことは絶対にできません。それは50%の確率を意味します)。

人々がこのレースがシルバーの予測よりも確率が拮抗していると示唆している理由には、多くの理由があります。シルバーが予測に使用しているモデルに対する意見の相違など、合理的なものもあります。あまり合理的ではないものもあります。人々は間違っていると見られることを恐れていたり、党派的な応援にふけっていたり[6]、注目を集めるためにレースをよりエキサイティングに見せたいと考えていたりします。

一つの主張は、この「五分五分」の不適切な使用は、確率的リテラシーの欠如の結果であるということです。人々は85%が何を意味するのか理解していないため、それを五分五分と呼ぶのです。この混乱について多くの経験的証拠があるので、私はこの主張に共感できます。

しかし、ここで本当に問題なのは、根底にある確率的リテラシーの欠如です。私たちは、確率を理解することがますます重要になる世界に直面しています。確率がどのように機能するかを理解することは、統計を理解するための重要な基礎であり、統計は、現在利用可能になっている多くのデータを理解するための重要なツールです。これはグローバルな意味を持つこともあります(気候変動に関する議論の多くは統計に基づいています)が、より局所的な状況でも重要になります。

私は、データが私たちの生活において果たすことができる役割において、重要な変化が見られると考えています。ソフトウェア開発者にとって、これは、私たちの仕事の多くが、このデータの洪水の意味を理解することになることを意味します。この重要な部分は、信号とノイズの違いを人々が理解できるようにすることです。そのためには、2つを分離するために必要な確率と統計について、より深く理解する必要があります。ソフトウェアの専門家として、私たちはこの分野を主導し、情報を歪曲することを避け、データの消費者がより良く解釈できるように教育する必要があります。[7]

さらに読む

注釈

1: 私は選挙前にこの記事を書くことにしました。私がここで話している問題に結果が影響を与えないという点がポイントです。

2: これは11月4日日曜日の538ブログからのものです。予測は、最新のデータでモデルを再実行するにつれて定期的に変化します。公開された予測への他の参照も、私がこの記事を初めて起草した同じ日を参照しています。

3: それはもちろん6面のサイコロです。この記事を読んでいる多くの人が、私のように、より難解なサイコロに精通していることを確信しているため、こう言わざるを得ません。シルバーには別の確率論のアナロジーもあり、それはNFLのチームが残り3分でフィールドゴールでリードしているようなものだと言っています。(それは、視聴者のスポーツファンにお任せします。)

4: 何回の選挙が必要なのかを計算するのは面倒ですが、適切な統計手法を使えばこれができることを知っており、答えは信頼性の確率的な指標に過ぎないことを知っています。

5: そして、それは私自身も含みます。

6: 多くの共和党員は、シルバーが個人的に民主党に偏っているため、彼が得た数字を公開しているだけだと主張しています。個人的な偏見は常に人々の考え方に影響を与えますが、自分の偏見を受け入れる人と、客観的になろうと努力する人との間には重要な違いがあります。シルバーは彼のモデルとその仕組みについて多くを語っています(残念ながらオープンソースではありませんが)。彼の議論には意識的な偏見の兆候はなく、実際、彼のオッズは同様の分析よりもロムニー氏に高いチャンスを与えています。絶対的な客観性は不可能ですが、努力すれば、自分の偏見に浸るよりも客観性に近づくことは可能です。

7: これはこの論争の1つの利点になる可能性があります。これらの手法にさらに注意を払い、より多くの人々がそれらがどのように機能し、どのように解釈するかを学ぶようになることです。

8: これらの世論調査に基づくモデルに対する反論として、ビッカーズとベリーのモデルがあります。彼らは世論調査を使用せず、経済的ファンダメンタルズに基づいてモデルを構築しています。彼らの予測は私の直感とよく一致します。私は、オバマ氏が大統領に選出された日から、彼が1期で終わると自信を持って予測しました。この予測は彼が何かをするからではなく、経済サイクルの中で早すぎる時期に大統領に選出されたため、彼が再選されるチャンスを得る前に経済が十分に改善する可能性がないと考えたからです。もし彼がビッカーズとベリーに反して再選されるなら、それは共和党が有利な状況を大きくミスしたことを示唆すると私は主張するでしょう。