Karin
最新記事 by Karin (全て見る)
- 【データ解釈学読書会感想3】複数データ同士の分析・データ活用に関する注意 - 2021年6月18日
- 世界の多様さを思い出す物語【『八月の銀の雪』書評】 - 2020年11月13日
こんにちは、とある化学メーカーで研究開発に携わっているKarinと申します。
今回は、理系とーくラボの有志メンバーで行った『データ解釈学』の読書会に際し、本の内容おさらいしよう!ということで、エンドウさん、ちょさんの記事に続き、ブログを書かせていただきます!
まずはお二人のブログに目を通していただいてから、読んでいただけると嬉しいです!
第一部の紹介記事:【データ解釈学読書会感想1】データの性質の基礎知識
第二部の紹介記事:【データ解釈学読書会感想2】データの分析に関する基礎知識
*本記事は書籍『分析者のためのデータ解釈学入門 / 江崎 貴裕 著』の第9章~第13章の部分を参考に書かせていただきました。
気になる事があった方は、是非、原著も確認してみてください!
(CMです)
LINE登録特典ができました!
有機系博士ともよしがイベントで使用したスライド資料①②の2点です!
↓
①「有機化合物の分離/精製 基礎から上級テクニックまで @ 異分野融合Bar」
②「有機化学Bar 〜有機分子の構造決定をしてみよう!〜」
もっとたくさんのデータ同士の関係を探りたい!
さて、ちょさんの記事(【データ解釈学読書会感想2】データの分析に関する基礎知識)にある第8章までは、2つの量に差があるか、相関があるかを調べる方法を紹介してきました。では、3つ以上の変数を含んだ”多変量データ”を処理するにはどうしたら良いでしょう?
単純な私はこんなことを思ったのですが、実は”できない”のです。
本記事では、この”できない”に関係している「検定の多重性」についての解説、実際の多変量データ解析の実例と、検定の多重性とは別でデータ分析で気を付けなければいけない事について紹介していきます!
1. 検定の多重性の問題
では、「検定の多重性」とは何か?
ここまで2つの量の比較では、データ同士に偶然ではない関係、つまり有意な関係が存在するかを、仮説検定を利用して判断してきました。多変量についても、それぞれの間に差や相関があるか比較したい時に仮説検定が有効です。
例えば、A, B, Cの3つの学部のテストの点数について、A-B、B-C、A-Cと2つの学部ごとにt検定で比較検定したとします。(有意水準 α = 5%)
この検定の仮説検定では「各学部のテスト点数同士に見られる差が、標本誤差などにより偶然発生しただけの差である」という帰無仮説について、その確率を考え棄却するか否かを判断します。作業としては、この事象の発生確率が有意水準より低い事を確認 (p<0.05) できれば、帰無仮説は棄却という判断になります。
とすると、A-B、B-C、A-Cをそれぞれ比較したすべての検定でp<0.05となれば、「各データ間の差が、偶然起きた異常値によるものである確率は5%未満であり、帰無仮説は棄却。A-B、B-C、A-Cの2つの学部それぞれの点数には有意な差があるので、A, B, Cの3学部の点数には有意な差がある。」と言えそうですね。
…実はここに落とし穴があります。よくよく見るとこの一連の検定では、各2群の検定でp<0.05となっても、偶然差が出てしまう確率は約14%未満としか言えず、当初設定したα = 5%の有意水準で検定が行えていないのです。
便宜上、各データ間に偶然有意差がみられる確率を5%として検証します。
今回の帰無仮説棄却のためには、3通り (A-B, B-C, A-C) あるすべてのデータ間比較で偶然に差が発生する確率が、5%未満である必要があります。
つまり、3通りの組み合わせの比較で、1つも偶然の有意差が出ない確率が95%以上であればよい事になります。
しかしここで、「3通りの組み合わせの比較のすべてで、偶然の有意差がみられない確率」を計算すると、
0.95×0.95×0.95 ≒ 0.857
そう、1回の試行では5%しか生じない事象も、試行を3回繰り返すと約14%の確率で発生するため、1つも偶然の差が出ない確率は約86%しかない事が示されます。
これでは有意水準 α = 0.14で検定しているような状態ですね…(´・ω・`)
このように一群のデータを比較するために検定を重ねた結果、誤判定の確率が本来設定した有意水準より高まる事を、「検定の多重性の問題」と呼びます。
検定の多重性のイメージ
(分析者のためのデータ解釈学入門 P.162より引用)
2. 検定の多重性の問題を解決するには?
検定の多重性の問題を回避するため、多変量の解析では多重性を補正できる検定を選択します。例えば、前述の例のように「A, B, C学部のどこかに有意な差があるかないか」を確認する場合には、分散分析 (ANOVA; analysis of variance) などが使用できます。分析の詳細は割愛しますが、ANOVAなどで比較を行う背景には、検定多重性の問題を回避する意図がある、という事を理解しておきましょう。
分散分析 (ANOVA) の考え方
(分析者のためのデータ解釈学入門 P.169より引用)
3. 検定目的を忘れずにデータ分析を行おう!
さて、検定の多重性にも注意する事で、データが3つ以上あっても分析ができるようになりそうです。理論上、これでどんなデータでも分析ができるはず! (雑)
データの分析手法は多種多様であり、それらを有効に活用するには、自分が比較したいデータ群の数や特性、目的に合わせた分析方法を選択する事が重要です。
また、一度戻って「分析するデータそのものを変更する」という選択肢を常に忘れない事も重要です。
データには興味のある変数に対して大きな影響を与えているものとそうでないものがあります。大して情報を持っていないデータをいくら分析しても良い結果は得られませんが、対象と関連度の高いデータを取得できれば簡単に結論が得られます。しかし、最初からお宝データを掴めず、いつの間にかゴミデータを集めてしまう事もあります。(だって人間だもの。)
せっかく集めたデータはしっかり使って意味を見出したいと思い、ついつい「自分の欲しい結果が出るまで、色々な手法を利用してデータをこねくり回す」なんてことをやってしまいがちです。虫の目で分析しつつも、出てきた結果は鳥の目で見る。このバランス感覚が大事だなと、本書を読んで改めて思いました。
目的・データ・分析手法の選択
(分析者のためのデータ解釈学入門 P.225より引用)
さらに、手に入る中で一番影響度が高いデータを検討しても、十分に目的が達成できないこともあります。その場合は、どこまでの事ができるかに応じて、目的の設定まで立ち返り、別の方法で問題が解決できないか考えてみるのも良いはずです。
時にはデータ分析をしない事も選択肢に含めた課題の解決が重要です。分析に一生懸命になるあまり、分析という”手段”を目的化しないように注意しましょう!
(CMです)
理系とーくの公式LINEに登録すると…
無料イベント、理系バー、科学系オンラインコミュニティの情報に加えて、
LINE登録特典としてプレゼント(有機化学のスライド資料)もお受け取りが可能です!
↓
まとめ
今回は3人のメンバーで、本書の解説・感想をまとめてみました。分析を行う時に誰もが気にしなければいけない基本のき!が分かりやすく詰まった1冊でした。
blog記事ではほんの一部しか紹介できておりませんので、「いまさら統計の事なんて聞けない!」「統計を作業としてやっているけど、何に気を付けたらいいのか不安!」という方はぜひ本書を手に取ってみてください!
また、理系とーくラボ内の勉強会では、本書1冊を輪読しながら2か月ほどかけて勉強しました。一人ではさらっと読んで終わってしまうところも、「これってどういう事?」「ここの具体例は?」などと、お互いディスカッションしながらまとめ、読み進めたので非常に勉強になりました。
6月から、「データ分析のための数理モデル入門 / 江崎 貴裕 著」についても、同じ形式で勉強会を実施しています!聞き専参加もOKですので、「この機会に勉強してみたいなー」という方は、是非ご参加いただけますと嬉しいです。
科学系オンラインコミュニティ「理系とーくラボ」の詳細を確認する
以上、ここまでお付き合いいただきありがとうございます!
勉強会でお会いできることを楽しみにしております!
2つの量の比較を繰り返せば同じように比較や相関の調査ができるのでは?