データ分析を行う上で留意すべきことを、統計のウソという観点から紹介します。問題点とその原因を整理し、それらを回避するための方法を説明します。

## 誤差とバイアス

データ分析におけるバイアス（bias）とは、データの収集、処理、分析の過程で生じる誤差や偏りのことを指します。バイアスは、真の値からのずれや、データの歪みを引き起こす要因となります。以下に、バイアスの主な種類とその問題点を説明します。

- 選択バイアス: 調査対象の選択に偏りがあることによるバイアスを指します。特定のグループがサンプリングされやすい場合や、欠損データが無作為ではない場合などが考えられます。
    - 生存バイアス
- 測定バイアス: データの収集プロセスや測定方法に起因する誤差や偏りです。例えば、故障した体重計を使って体重を測定すると、体重が実際よりも小さく（あるいは大きく）測定されるというバイアスが考えられます。
- 情報バイアス: データの収集や報告の過程において情報が偏っている状況です。例えば、ある病気の治療法の効果を調べる臨床試験において、治療法の有効性を示すデータは発表されやすいが、有効性がないことを示すデータは発表されにくいというバイアスが考えられます。

## 第一種の過誤・第二種の過誤

仮説検定を行う際には、意図的であるにしろ、そうでないにしろ、2種類の誤りを導くことがあります。それぞれ、第一種の過誤と第二種の過誤と呼ばれます。

- 第一種の過誤（Type I error）: 帰無仮説が真であるにもかかわらず、帰無仮説を棄却してしまうことです。言い換えると、差がないものを差があると判断してしまうこと。
- 第二種の過誤（Type II error）: 帰無仮説が間違いであるにもかかわらず、帰無仮説を棄却できないことです。対立仮説が正しい事実を検出できないことを示します。言い換えると、差があるものを差がないと判断してしまうことです。

第一種の過誤は誤った結果を得る可能性を示しており、誤った結論に基づいて行動を決定したり、誤った方針を立ててしまうことになりかねません。第二種の過誤は、正しい結果を得られない可能性を示しており、真実を見落として、本来得られるはずの結果を得られない可能性があります。

これらの過ちが注意が必要な理由は、統計的推論に基づいて意思決定を行う場合、誤った結論によって誤った判断を下すリスクがあるからです。たとえば、医薬品の効果を評価する臨床試験において、第一種の過誤が起こると、実際には有効な治療法であるにもかかわらず、効果がないと誤って結論付けてしまう可能性があります。逆に、第二種の過誤が起こると、実際には効果がない治療法を有効と誤って判断して、無駄な治療を行ってしまう可能性があります。

誤りの可能性をできるだけ小さくするためには、有意水準を小さな値に設定し、標本サイズを大きくすることが有効です。しかし、有意水準を小さくすると、第一種の過誤の可能性は小さくなりますが、第二種の過誤の可能性は大きくなります。また、標本サイズを大きくすると、第二種の過誤の可能性は小さくなりますが、第一種の過誤の可能性は大きくなります。つまり、第一種の過誤と第二種の過誤はトレードオフの関係にあります。

## p値の誤解と悪用

p値は統計的な仮説検定において使用される指標であり、帰無仮説が真であるという前提の下で、観測されたデータ以上に極端な結果が得られる確率を示します。しかし、伝統的に用いられるp値には、しばしば誤解や悪用が問題視されることがあります

### p値の誤解

例えば「p値は帰無仮説が真である確率を示す」という表現はp値のよくある誤解です。p値は、「帰無仮説が真であるという前提の下で、観測されたデータ以上に極端な結果が得られる確率」を示します。つまりp値が小さいということは、観測されたデータが帰無仮説のもとでは非常に稀な結果であることを示しています。

また「p値が有意水準未満ならば結果は重要である」というのも誤解です。p値は統計的な有意性を示す指標であり、実用的な意義や効果の大きさを評価するものではありません。

### p値の悪用: p-hacking

意図する・しないに係わらず、p値を都合の良いように操作することをp-hackingと呼びます。p-hackingの例として、以下のようなものがあります。

- 標本サイズを大きくする... 一般的には標本サイズが大きいほど、p値は小さくなる傾向があります。そのため、p値が有意水準未満になるように標本サイズを大きくすることで、有意差が得られるように見せかけることができます。
- 多重比較を行う...
- データを選択的に削除する

### 誤解や悪用を避けるために

p値の誤解や悪用を避けるためには、p値の意味を正しく理解することが要となります。また、p値だけでなく、信頼区間や効果の大きさなど他の統計的な指標も含めた総合的な評価が必要です。さらに統計分析の透明性と信頼性を確保することも重要です。そのためには科学的な透明性と倫理的な規範を守り、データの公開や再現性の確保を行うことが重要です。

## 再現性

科学的な研究やデータ分析には再現性（Reproducibility）が求められます。再現性とは同じデータや手法を用いることで、一貫性のある結果が得られる性質を指します。

再現性が高いことは、科学的な研究やデータ分析において重要な要素です。なぜなら、再現性が高いことで、研究結果の信頼性が高まり、研究結果を用いた意思決定がより信頼性の高いものになるからです。そのためには、研究・分析結果を再現するための情報を公開することが重要となります。

実験を伴う研究成果の公表には、研究の透明性と信頼性を確保するために、研究の方法や結果を記述した論文を公開することが一般的です。

プログラミングを用いたデータ分析では、利用したデータだけでなくコードを公開することで、データ分析の再現性を確保することができます。また、利用したコンピュータ環境やパッケージのバージョンを明示することで、再現性を高めることが可能です。