ちょ
最新記事 by ちょ (全て見る)
- 【データ解釈学読書会感想2】データの分析に関する基礎知識 - 2021年6月17日
- 理系を目指す高校生や入りたての大学生に薦めたい!科学にときめく本5選 - 2019年6月11日
- 大発見?ニセ科学?科学リテラシーを磨くススメ - 2019年6月10日
- ちょの「自己紹介・おすすめ記事」 - 2019年6月6日
『分析者のためのデータ解釈学入門』第二部では、データを分析する上での基礎知識や分析の考え方が解説されています。
(第一部の紹介記事はこちら:【データ解釈学読書会感想1】データの性質の基礎知識)
私の稿では、第6から8章までで取り上げられている
データの扱い方から、見方や表現の仕方、さらには分析方法の基礎について紹介します!
本書で紹介されている数々の陥りやすい罠について再確認する絶好の機会になると思われます。
・データの読み取り、分析の初学者の方
・基礎的な見方を確認したい方
・初学者の方に基礎から教える機会がある方
データを扱うの際の注意点
第6章では「データの扱い」について説明されています。
皆さんは論文やデータベース等、もしくは他者から得られた加工済みデータを「正しく取得、処理されたものである」と考えていませんか?
論文データの共有やオープンリソースが増えた昨今、この考え方は非常に危険で、意図的でないにしろ一定の割合で誤りが含まれてしまう可能性があります。
つまり、データは手で触れば触るほどエラーが載ると考えるべきです。
外れ値のように明らかに疑問を抱くデータなら、生データに立ち返ることも多いかもしれませんが、
計算している参照セルや、解析コードが正しいかなど、データ処理の過程を振り返られるような機構を作り、チェックする癖をつけておくことで過誤を減らすことができます。
一変数データの表現方法
第7章では解析方法の基礎として、「一変数データの振る舞い」が説明されています。
まず様々な記述統計量について概説されています。
基本となる指標として、平均値が用いられますが、中央値や最頻値といった指標も目的に応じて使い分けられます。
さらにばらつきを考慮したデータ分布の表現の様々な仕方についても紹介されています (図7.2.1)。
(分析者のためのデータ解釈学入門 データの本質をとらえる技術; p126より)
例えば、私の研究分野である生物学だと、以前は棒グラフのみの表現が多かったですが、
最近では、棒グラフor箱ひげ図+スウォームプロットで表すのがトレンドです。
平均値だけのグラフでは個々のデータの分布、ばらつきが読み取れず、
フェアな様々な解釈ができない為、このような表現が求められるケースが増えています。
(解析者自身が傾向を確認する上でも有用です。)
このように分布の表現の特徴をお浚いしておくのは、データを正しく読み取る上で重要です。
得られたデータを表現する手法の一つに、パラメータ推定、フィッティングという手法があります。
幾何分布やポアソン分布など理論分布に当てはめて表現 (統計モデリング) することによりデータの特徴の理解を深めることができます。
2つの量の関係性を調べる
第8章では、「変数の間の関係を調べる」方法の基礎として、
まず、2つの量やグループを「量を比べる」または「相関を調べる」といった比較する方法が説明されています。
2つの量を比べる時には、データで見られた差が、(何回も計測することで得られる計測時の) ばらつきの範囲と比較して「十分に大きい」のか調べる必要があります。
本書で紹介されている一例に、どちらの商品が売れているか?というものがあります。
ある日のコンビニ一店舗における商品AとBの売上データを比較します。
この時、商品Aは54個、商品Bは62個でした。
さて、この事実を持って商品Bの方が売れる商品だと結論付けて良いでしょうか?
勿論、これだけでは「判断できません」。
他の店舗では?他の日にはどうか?などのばらつきのあるデータを参照して判断する必要があります。
それでは、どのように2つの量の間に差があるのか判断すれば良いのでしょうか?
これを評価するにあたり、仮説検定と呼ばれる方法を用います。
仮説検定を用いる事で、対象のデータ群について、たまたまでは説明できない差や特徴がデータに見られるか否か確率に基づいて議論することができます。
代表的な仮説検定にスチューデントのt検定がありますが、実際にはデータの分布の仕方やデータ間の対応の有無に応じて、妥当な検定方法を用いる必要があります。
2つの量の相関を調べる時には、1つの観測対象から2つの情報を得る必要があります。
そして、散布図にプロットし、相関係数を計算することが最初のステップになります (図8.2.1)。
(分析者のためのデータ解釈学入門 データの本質をとらえる技術; p151より)
しかし、相関係数は万能な指標ではありません。
外れ値や複数のデータ集団の存在など、大きく影響される為 (図8.2.2)、
可視化したデータを見て、信用していい相関係数なのかを判定します。
さらには、「たまたま」相関係数の値が大きくなってしまっているか否か議論するために
無相関検定も組み合わせて、相関の有無は総合的に判断することが求められます。
(分析者のためのデータ解釈学入門 データの本質をとらえる技術; p153より)
(CMです)
本サイトを運営する理系とーくのLINEができました!
研究者・科学好きの方とつながれるイベントの情報等を配信します!
ぜひ友だちになってやってください。
↓
↑
「理系とーくLINE」の友だち追加はこちら
まとめ
上記の章ではこのデータの扱いの作法から、
表現や比較の仕方について、実践的に学ぶことができます。
研究過程で得られたデータを正しく取り扱い、表現し、比較・検討することは
分析した科学現象を公正に理解するための必要条件になります。
データを扱うための免許講習の気持ちでお読み頂けたら幸いです。
第一部の紹介記事はこちら:【データ解釈学読書会感想1】データの性質の基礎知識
第三部の紹介記事はこちら:【データ解釈学読書会感想3】複数データ同士の分析・データ活用に関する注意
コメントを残す