【データ解釈学読書会感想1】データの性質の基礎知識

The following two tabs change content below.
エンドウです。大学院で神経科学の研究をしているD2です。 2020.9に理系とーくを初めて知った新参者ですが、色々なイベントごとに参加させてもらっています。フリーで基礎研究をしつつ生活するのが目標です。色々な人と関わっていけたらと思うので、理系とーく経由でもtwitterなど個人アカウント経由でもどんどんコンタクト取ってもらえたら嬉しいです。 よろしくお願いしますm(_ _)m

研究において、データの扱い方って難しくないですか? 例えばどの統計検定を使うべきか、などは最も良くぶち当たる問題ですね。
また全然難しくないと思っている人でも、気を付けるべき部分に気付けていないことは少なからずあるでしょう。

しかしデータの扱い方に関してまとまった情報が欲しくても、良い情報源はあまり見つかりません。
そんな困った状況の中で、2020年に刊行された『分析者のためのデータ解釈学入門』(以下、データ解釈学)は頼りにできる本の一つです。

今回、理系とーくラボの有志メンバーで行った『データ解釈学』の読書会(コミュニティ内にて読書会の録画を公開しています!)に際して、この本がどんな内容でどう役に立ちそうかをまとめてみたいと思います。 また理系とーくラボではこれから、本書を書かれた江崎貴裕先生が書かれた『データ分析のための数理モデル入門』の読書会を予定しています。
ぜひあなたも理系とーくラボに入って、一緒に読書会をやりましょう!

『データ解釈学』はこんな人に読んでほしい!

まずこの本をオススメしたいターゲットは、次の人たちです!
・ 研究を始めて1, 2年が経過した方(修士院生相当)
・ 研究を教える立場の方

この本はデータの扱い方の基礎知識をまとめた本ですので、これから研究を始める学部生の方に読んでいただきたいのはもちろんです。
しかしそれ以上に修士相当の方にオススメしたい理由は、少し研究に慣れてきた頃にこの本を読むことで改めて気付けることも多く、気付きを実際に自分の研究に活かせるのがこの修士相当以降だと思うからです。
これから研究を始める方が読まれた場合は、ぜひ研究に慣れてきた頃にもう一度読み返してみてください。

さらに研究を教える立場の人も、データの扱い方について何をどう教えるべきかが整理整頓されているでしょうか?
ぜひ一度『データ解釈学』を読んで、データを扱う上で何に気を付けるべきかまとめ直してみてください。

ちなみに本書の目次は次のようになっていますので、内容の参考としてください。

第一部 データの性質に関する基礎知識
 第1章 観測は簡単ではない
 第2章 誤差とばらつき
 第3章 データに含まれるバイアス
 第4章 交絡因子と因果関係
 第5章 データサンプリングの方法論

第二部 データの分析に関する基礎知識
 第6章 データの扱い
 第7章 一変数データの振る舞い
 第8章 変数の間の関係を調べる
 第9章 多変量データを解釈する
 第10章 数理モデリングの要点

第三部 データの解釈・活用に関する基礎知識
 第11章 データ分析の罠
 第12章 データ解釈の罠
 第13章 データ活用の罠

 

(CMです)
理系とーくラボ

第1章〜第5章:データの基本のき!

さて、はじめの第一部(1~5章)には、データの性質の基礎が概説されています。
データとはそもそも何らかのバイアスを含むだとか、Garbage in, garbage out(質の悪いデータをいくら分析にかけても質の悪い結果しか得られない)など、改めて「なるほど」と気付かされる事が数多く書かれています。
具体的な内容は本書を購入して読んでいただきたいので、ここではどんな内容が書かれているのかを簡単に挙げてみたいと思います。

まず本書の冒頭では、「実験データって全然完璧じゃない」と語られます。
これは非常に重要で、実験やデータ分析など研究全体への姿勢を正してくれます。

この”データの不完全性“とも言える姿勢は本書全体を通じて読み取れます
例えば本書の中盤以降は、「完璧で万能な解析方法なんて存在しない、目的をはっきりとさせた上で適切な方法を選ぶ必要がある」と思わされる内容となっています。
第一部はデータそのものの性質についてですが、例えば現象を観測すること自体にバイアスがあり、特定のデータは現象のある一つの側面の観測結果に過ぎない、などと書かれています。
私自身の研究では生物の神経細胞内のカルシウム濃度を測定してそれを神経活動の指標としていますが、測っているのはあくまでカルシウム濃度に過ぎないことは常に頭の片隅にあります。
本書の第一部はそうしたことを思い出させてくれます。

データが持ちうるバイアスとは?

もう少しバイアスに関して話すと、本書ではバイアスを4種類に分類しています。
すなわち測定基準に関するバイアス、選択バイアス、観測介入によるバイアス、データの扱いによるバイアスの4つです。
中でも有名なのは選択バイアスの一つである生存バイアスではないでしょうか。有名人の成功体験を「所詮は結果論」と感じるのはこの生存バイアスを意識するせいでしょう。

こうしたバイアスの話をどう研究に活かせるかといえば、本書を読むと「じゃあ自分のデータにはどんなバイアスがあるか」が体系的に洗い出しやすくなります。
本書のバイアスに対する姿勢は「データは必ずバイアスを持っている事実をまず受け入れて、可能な限りバイアスを小さくするようにしましょう、その方法をいくつか例示しますよ」というもので、ぜひご自身のデータにどんなバイアスがありうるか、改めて見直してみてはどうでしょうか。

その他に、相関と因果関係をごっちゃにしてはいけない、という有名な話も語られます。
これは特に実験を必要とする研究をやっていると常に付きまとう話でしょう。
この相関と因果関係を見分ける方法は、本書の後半で概説され、またより詳細に勉強したい方向けの参考書も紹介されています。

データの統計の基礎

さらに第一部のより実践的な内容として、データの統計的な性質が解説されます。
平均値とは何か、(標準)誤差と標準偏差について、などデータを扱う上でほぼ必須ともいえる内容がまとまっています。
もちろん統計をがっつり勉強したい場合は別の書籍で学ぶのが適切ですし、そのような本はたくさんあるので本書の役割ではありません。

それをふまえても本書の内容には改めて気づかされることが多くあります。
例えば、データの誤差というのは系統誤差ランダム誤差に分けられるのですが、それぞれどんな誤差か知っているでしょうか?(私は知りませんでした)
誤差の話だけでも、自分の実験データがどの程度の誤差を持っていてどう対処すべきかを見直せる内容になっています。

 

(CMです)
理系とーくラボ

最後に:データ解釈学の紹介記事について

以上、第一部の内容を大雑把にまとめました。 本書は三部構成ですが、最も実践的なデータ分析に関する内容は第二部にまとまっています。
データ分析は読者それぞれがどのようなデータを扱っているかによって参考になる部分が違ってきますが、この第一部はデータを扱うおよそ全ての人に共通する内容となっています。
D3の学生である私も、この第一部だけでも時折読み返してみようと思っているくらい改めて教えてもらったことばかりでした。
ぜひ一読して、ご自身の研究に活かしてみてください!

 

第二部の紹介記事はこちら:【データ解釈学読書会感想2】データの分析に関する基礎知識
第三部の紹介記事はこちら:【データ解釈学読書会感想3】複数データ同士の分析・データ活用に関する注意

この記事が気に入ったら
いいね ! しよう

Twitter で

▼Special Thanks

化学系薬剤師takashiの薬学科学講座

この記事に関して質問するなら?

科学系オンラインコミュニティ
「理系とーくラボ」!

「理系とーくラボ」とは?

●Slack(チャットツール)に、各分野の専門家が集まっています!
●この記事↑(or 科学・研究周辺について何でも!)について質問・相談したら、メンバーが答えてくれます!
Slackで毎日交流Zoom等で勉強会や交流会も行います!

コメントを残す

メールアドレスが公開されることはありません。

ABOUTこの記事をかいた人

エンドウです。大学院で神経科学の研究をしているD2です。 2020.9に理系とーくを初めて知った新参者ですが、色々なイベントごとに参加させてもらっています。フリーで基礎研究をしつつ生活するのが目標です。色々な人と関わっていけたらと思うので、理系とーく経由でもtwitterなど個人アカウント経由でもどんどんコンタクト取ってもらえたら嬉しいです。 よろしくお願いしますm(_ _)m