この時期になると、身の程もわきまえず統計コンサルのようなものをする(せざるをえない)ようになる。
 私の場合、昆虫の実験データならほとんどの場合、古典的な、正規分布を仮定した分散分析のやり方を示している。誤差分布を見て、必要なら変数変換するというきわめてノーマルな方法だ(だった?)と思う(ただしbox-cox変換のような無茶なことはサジェストしたことはない)。そもそも、正規分布から逸脱したデータ点がどうして生じるかをよーく考えるかが重要なのであって、誤差分布をぴったり合わせることにはあまり意味がないように思える。そこらへんが私があまりポアソン分布を「好きでない」理由だ。ポアソン分布や負の二項分布は平均値が分散の関数という強い(っていうか強すぎる)縛りがあるのであまり現実的でないように思えるのですがどうでしょうかね。んじゃ、なんでもかんでもquasiなんちゃら分布で分散を無理からおっぴろげればいいかというと、そうゆうもんでもないだろうという気がする。
 分布を無視していいってことをいっているわけではなく、ともかく頻度分布や誤差分布をプロットして様子をみるのはもちろん正しい態度だろう。意外な要因が隠れていたりすることが発見できるから(過分散ってゆうの?)。はっきり二山だったりしたら正規もポアソンもないしね。ただ、それが大きくないと「わたしが」判断した場合にはやっぱり無視しちゃうようにサジェストしちゃうかもね。こんなこと書いていいのかな。
 方法が古典的だろうが新しかろうが、一番ありがちで聞かれて困るのは、データが誤差構造階層的な構造をもつような場合で、「はからずも」分割実験や枝分かれ実験になっている場合で、これらはフィールドでも実験室のデータでもちょくちょくある。にもかかわらず、こういう場合の対処法が授業でほとんど教えていないのは問題だ。授業では(農学部では)うまくいっても二元配置くらいまでだと思う。すると「二元配置のあとの多重比較はどうすればいいでしょうか」ということを聞かれてまた困る。それにはやっぱりモデル選択の問題が絡んできて、ことによっては検出力とかの分析も必要になってくるかもしれない。しかし、モデル選択以後のネイマン・ピアソン流の検定は「封じられて」しまっている状態、らしい。かくて、ちゃんと分析したい学生ほど混乱する状況になっている(というか、私がさせているのかもしれない)。モデル選択など私が一切知らないことにすれば良いのだろうか。
 
 まあ、ともかく提出間際ということで、みんな頑張ってほしい。一番有意義なアドバイスは「切り抜けろ!」ということだろうか。

 
 
  昔 となりのおしゃれな おねえさんは
  クリスマスの日 私に云った
  今夜 8時になれば GLMが家にやって来る
  ちがうよ それはオタクだけのおはなし
  そういう私にウィンクして
  でもね 大人になれば あなたもわかる そのうちに
 
  恋人がGLM
  本当はGLM つむじ風追い越して
  恋人がGLM
  背の高いGLM 雪の街から来た
 
  あれから いくつ冬がめぐり来たでしょう
  今も変数変換を 思い出すけど
  ある日遠い街へと GLMがつれて行ったきり
 

  そうよ 明日になれば 私もきっと分かるはず
 
  恋人がGLM
  本当はGLM プレゼントかかえて
  恋人がGLM
  寒そうにGLM 雪の街から来る
  恋人がGLM
  本当はGLM つむじ風追い越して
  恋人がGLM
  背の高いGLM 私のラボに来る


 明日になろうが何年たとうが、私はいまだにGLMがよくわかりません。しかし巷の論文にはGLMがあふれるようになってきました。かくて学部生や院生にとって、下手をするとGLMを使う本人にすら、統計処理はますます得体の知れないものになっていき、一部の人はそれ(局所的な統計処理の最適化)に研究人生の大半をトラップされるかもしれない、だろう。それはちょっといやだな。
 今日は長かったな。