P値

Nature Digest
統計学の大物学者がP値の刷新を提案 - pp18 - 19
http://www.nature.com/ndigest/index_ja.html?volume=14&issue=11
原著
https://psyarxiv.com/mky9j


ショッキングな見出しである。

新発見の統計的有意性を評価するために、科学者が好んで用いるP
値の閾値は0.05から0.005に引き下げるべきであると、統計学
大家たちは主張する。


記者という人は研究者の言明をしばしばover-simplifyするものであるから、この記事の書き方だと72人(!)の提唱者が根本的な馬鹿である(もちろんそうではないと信じる)という印象を持ってしまう。
 
原文の意味を損なわない程度に改変して、記事を引用させてもらおう。
 
P<0.05が基準で「統計的に有意であると判断される」ことについて:

けれども多くの科学者は、P値の閾値を0.05とする論文で、多くの偽陽性が生じていることを問題視している。この問題を悪化させているのが、研究者が検定を行う仮説を立てることなくデータを収集し、結果が出てから「統計的に有意である」と報告できるようなパターンを探す「P値ハッキング(P hacking)」と呼ばれる行為だ。

  
うん。後半は、うん。
 

2017年7月22日、「社会科学と生物医学ではP値の閾値は0.005にするべきだ」と提案するセンセーショナルな論文のプレプリントが投稿され、9 月1 日に最終版が発表された。論文の責任著者の1人は「研究者は、P値を0.05とするときに、それがどれほど弱い証拠であるかが分かっていないのです」と言う。彼は、P値が0.05〜0.005のときの主張は、確固たる知識ではなく、単なる「示唆的な証拠」として扱うべきだと考えている。

 
ああ、ここにもかくて阿呆らしい、馬鹿らしい線引き問題の火種が勃発したのだった。
次には0.00496と0.00504の間に悲喜劇が生じることだろう。
(ただし、医学では効果に対して保守的であるべきだということは考慮すべきだろうか。)
 
 なお、有意水準を0.005にしようが、0.0000000000000000000005にしようが、上に述べられていたP-hackingの問題はなんら解決しないことを付記しておく。原著にも別問題との旨の言及はあり、筆者論文著者はそれに賛同している。p. 10。
 
 さて原著を少しだけ読んでみたが、この論文は事前確率を大前提としている。ベイジアンなのだ。したがって、事前確率を信仰しない者には無意味である、と思う。より強く言えば、ベイジアンに合わせるためにP値を変えろ、という傲慢さが見られる論文にも思える。

 気になるのは、事前確率を均等に設定すれば(帰無仮説が正しいとする確率 φ=0.5、誤りの確率1-φ = 0.5)、議論の拠り所となる式2から φ は消え、問題は消滅してしまうのだ。

false positive rate → α/(α+1-β) = α/(α + 検出力)

 そしてαとβは自由に決められるのではないだろうか。
 

P値の取り締まりに乗り出した科学分野もある。2015年には、心理学の学術誌が、P値の使用を禁止している。また、今回の論文の責任著者の1人であるテキサスA&M大学(米国カレッジステーション)の統計学者によると、原子の衝突実験から大量のデータを収集する素粒子物理学者たちは、ずっと前から、P値を甘くすると間違った主張につながる恐れがあるとして、P値を0.0000003(3×10−7)未満にす
ることを要求しているという。

 
なんか別問題な気がするけど。
偽陽性が問題になるこういう分野では仕方ないのかもしれないが、そうでない分野でも、もっとも理性的な知性が「P値を厳しくすればするほど信頼性が高まる」という盲信に(根拠なく)傾きがちなのはなぜなのだろうか。
 

 しかし、この記者さんはやっぱり少し不注意だ。

著者らは、研究者がサンプルサイズを70%大きくすれば、偽陽性の問題は生じないと提案する。

というのは(ちょっと読んだ範囲では見つけられなかったけれど)、明らかに舌足らずでマトモな研究者がそんなことを言うわけがないし、
 

P値の使用をやめて、ベイズ統計などの、より洗練された統計ツールを用いる科学者もいる。ベイズ統計による仮説検定では、研究者は対立する2つの仮説を定義して検定を行う必要がある。

 
あのー、通常の検定でも帰無仮説と対立仮説の2つを使うんですけど(ベイズはよくしらないけど)。
 

素人の私の指摘よりも、多数の著者の連名で反論論文が出ているので、それを参照して判断してください。
https://psyarxiv.com/9s3y6
やはり、元論文の事前確率の部分が曖昧で、そこを問題にしているようです。再現性に関するデータベースがあって、そこから0.005の基準が本当に妥当かどうかをメタ検証しているようですね。確かにそういうデータベースがあってもいいかもしれません。