# **Chapter 4**： データの記述統計

データ分析の最初のステップとして、データの特徴を把握することが重要です。そのための方法が**記述統計**です。記述統計では、データの分布や傾向を数値化・可視化することで、データの尺度を理解し、データの傾向や分布などの特徴を把握します。これに対し、データから一般的な傾向を推測し結論を導く手法が**推測統計**です。本章では、まず記述統計と推測統計の概念を説明します。その後、記述統計に関するデータの種類、代表的な統計量、さらには変数間の関係を分析するための指標について学び、Pythonの**Pandas**、**NumPy**、**SciPy**、**Matplotlib**を用いた実践的な計算方法も紹介します。 推測統計については、後続の章で扱います。

---

## 4.1 記述統計と推測統計  

### **記述統計とは？**  
記述統計（Descriptive Statistics）は、収集したデータの特徴を要約し、分かりやすく表現するための統計学の手法です。データの平均値や中央値などの代表値を求めたり、データのばらつきを表す標準偏差や四分位数を計算したりします。データの可視化も記述統計の一部であり、ヒストグラムや散布図を用いることでデータの分布や関係性を視覚的に理解できます。  
例として、学校のテストの点数を考えたとき、平均点が70点であることを知るだけではなく、中央値や最頻値、標準偏差などを計算することで、学生全体のパフォーマンスをより詳細に理解することができます。

### **推測統計とは？**  
推測統計（Inferential Statistics）は、サンプルデータ（収集したデータ）から母集団全体の性質を推測するための手法です。例えば、調査対象の一部（サンプル）を分析し、その結果をもとに全体（母集団）の傾向を推測します。推測統計には、仮説検定や回帰分析などの手法が含まれます。

以下の表は、記述統計と推測統計の比較をまとめたものです。

| 統計手法 | 説明 | 例 |
|----------|------|----|
| **記述統計** | データを整理し、可視化する | 平均値・中央値・ヒストグラム |
| **推測統計** | サンプルデータをもとに母集団を推測 | t検定・回帰分析 |


## 4.2 質的データと量的データ
データは、データの性質により**質的データ（Qualitative Data）**と**量的データ（Qantitative Data）**の2種類に分類されます。

| 種類       | 説明 | 例 |
|------------|--------------------------------|----------------------------|
| **質的データ** | 数値ではなくカテゴリを表す | 血液型、職業、好きな色 |
| **量的データ** | 数値で表され計算が可能     | 身長、体重、試験の点数 |

### 1. **質的データ**  
質的データとは、数値ではなく、分類や特徴を表すデータのことです。これは計算や数値の大小比較には適さず、グループ分けやカテゴリーの識別に用いられます。  

#### 例  
- **血液型**（A型、B型、O型、AB型）  
- **好きな果物**（りんご、みかん、ぶどう）  
- **職業**（教師、医師、エンジニア）  
- **アンケートの選択肢**（「はい」「いいえ」「わからない」）  

### 2. **量的データ**  
量的データとは、数値で表され、加減乗除の計算が可能なデータのことです。これはさらに「離散データ」と「連続データ」に分けられます。  

- **離散データ**（Discrete Data）  整数値をとり、数え上げが可能なデータです。  
  - **例**：人数（クラスの生徒数）、試験の得点、工場で生産された製品の個数  

- **連続データ**（Continuous Data）  小数を含む連続した値をとるデータで、測定によって得られるものです。  
  - **例**：身長（cm）、体重（kg）、温度（℃）、時間（秒）  


データの種類を正しく理解することで、適切な統計手法を選択し、正確な分析を行うことができます。

## 4.3　1変数データと多変数データ  
データは、含まれる変数の数に応じて、1つの変数を持つデータは**1変数データ**、2つの変数を持つデータは**1変数データ**、複数の変数を持つデータは**多変数データ**と呼ばれます。これらは、データの分析方法や目的によって使い分けられます。


| 分類 | 説明 | 例 |
|------|----------------------|------------------------------|
| **1変数データ** | 1つの変数のみを観測 | クラスの生徒の体重 |
| **2変数・多変数データ** | 2つ・複数の変数を同時に観測 | クラスの生徒身長と体重の関係 |

### **1. １変数データ**  
1変数データとは、1つの変数のみを観測したデータのことです。各データは1つの値を持ち、その分布や傾向を調べることが主な目的となります。  

#### **例**  
- クラスの生徒の身長（cm）  
- 一日の平均気温（℃）  
- テストの点数  

1変数データの分析では、**平均値、中央値、最頻値（モード）、分散、標準偏差**などの統計量を求めたり、**ヒストグラムや箱ひげ図**を使ってデータの分布を視覚的に表したりします。  

### **2. 多変数データ**  
多変数データとは、**複数の変数**を同時に観測したデータのことです。複数の要素の関係を分析し、相関や因果関係を調べるのに用いられます。  

#### **例**  
- 身長と体重の関係  
- 気温とアイスクリームの売上の関係  
- 勉強時間とテストの点数の関係  

多変数データの分析では、**散布図や相関係数**を用いて、変数間の関係を明らかにします。また、より複雑な場合には、**回帰分析や主成分分析**などの手法を使うこともあります。  

## **4.3 データの要約統計量**  
$n$個のデータ $x_i \ (i=1,2,\dots,N)$ が与えられたとき、データの特性を表す代表値や、データのばらつきを示す指標について説明する。

### (1) 代表値
- **平均値（Mean）**：平均値 $\mu$ は、データの合計をデータの数で割った値。  
$$
\mu = \bar{x} =  \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
$$
- **中央値（Median）、最小値（Minimum）、最大値（Maximum）**  
$n$個のデータ $x_i \ (i=1,2,\dots,N)$ を大きさの順に並べた
$$
x_{(1)}  \leq   x_{(2)} \leq  \cdots x_{(n)}
$$
データ $x_{(i)} \ (i=1,2,\dots,N)　$  を順序統計量 （Order Statistic）と呼び、中央値の$x_{\rm{me}}$は、データ$x_{(i)}$　の「中央」の値である、データの個数 $n$ が奇数の場合と偶数の場合に、以下のように計算する。

$$
x_{\rm{me}} =
\begin{cases}
x_{\left((n+1)/2\right)}, \space \space \space \space \space\space \space \space  nは奇数の場合  \\
\frac{x_{\left(n/2\right)} + x_{\left(n/2+1\right)}}{2}, \space \space \space \space  nは偶数の場合
\end{cases}
$$  
最小値の$x_{\rm{min}}$、最大値の$x_{\rm{max}}$をそれぞれ、
$$x_{\rm{min}} = x_{(1)}、　x_{\rm{max}} = x_{(n)}$$
と表す。
- **四分位数（Quartiles）**
データを4分の1に区切った位置にあるデータの値を四分位数と呼ぶ。Fig 4.1に示すように、大きさの順に並べたデータ$x_{(i)} \ (i=1,2,\dots,N)$を用いて、第1四分位数$Q(1/4)$、第3四分位数$Q(3/4)$を計算する。
  - 第1四分位数
$$
Q(1/4) =
\begin{cases}
\left(x_{(n/4)} + x_{(n/4+1)} \right)/2,\space \space\space \space \space \space\space \space \space \space\space \space   n=4m \\
x_{((n+1)/4)},  \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-1 \\
x_{((n+2)/4)}, \space \space\space \space \space \space\space \space \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-2 \\
\left(x_{((n-1)/4)} + x_{((n+3)/4)} \right)/2,  \space \space\space \space  n=4m-3 \\
\end{cases}
$$  
  - 第3四分位数
$$
Q(3/4) =
\begin{cases}
\left(x_{(3n/4)} + x_{(3n/4+1)} \right)/2,\space \space \space \space\space \space \space \space\space \space   n=4m \\
x_{((3n+3)/4)},  \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-1 \\
x_{((3n+2)/4)}, \space \space\space \space \space \space\space \space \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-2 \\
\left(x_{((3n-1)/4)} + x_{((3n+5)/4)} \right)/2,  \space \space  n=4m-3 \\
\end{cases}
$$     
ここで、$m$は2以上の自然数である。第2四分位値$Q(2/4)$は中央値 $x_{\rm{me}}$ である。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_1_Quartile.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.1 順序統計量を用いて最小値、中央値、最大値、四分位値の計算.</figcaption>
</figure>

### (2) データのばらつきを示す指標
データのばらつきを測る指標として、**分散**（variance）と**標準偏差**（standard deviation）があります。　  

- **分散：** 分散は、データが平均からどの程度散らばっているかを示す指標です。  
データ $( x_1, x_2, \dots, x_N )$ の平均を $\mu$ とすると、分散 $\sigma^2$ は次の式で求められます。  
$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 = \frac{1}{N} \left[ (x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2 \right]
$$
この式では、各データ点と平均の差を2乗し、それをすべてのデータについて足し合わせた後、データの個数 $N$ で割っています。 分散が大きいほど、データのばらつきが大きいことを意味します。  

- **標準偏差：** 標準偏差は、分散の平方根を取ったもので、次の式で表されます。  
$$
\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}
$$
標準偏差は、分散とは異なり、元のデータと同じ単位を持つため、データのばらつきを直感的に理解しやすくなります。  

このように、分散と標準偏差を使うことで、データの散らばり具合を定量的に評価することができます。

### (3) 変数間の関係性を示す指標
$n$個の2つの変数データ $(x_i,y_i) \ (i=1,2,\dots,N)$ が与えられたとき、2つの変数データの間にどのような関係があるかを示すために、**共分散**（covariance）と**相関係数**（correlation coefficient）という指標を使います。  

- **共分散：**  
2変数データ $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n) $の共分散 $\sigma_{xy} $ は、次の式で求められます。  
$$
\sigma_{xy} = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)
$$
ここで、$\mu_x$と$\mu_y$ は、それぞれ$ x_i$ と $ y_i$の平均である。

共分散の値が
  - 正の値 → $x_i$ が大きいとき $y_i$ も大きくなる傾向（正の相関）  
  - 負の値 → $x_i$  が大きいとき $y_i$ は小さくなる傾向（負の相関）  
  - 0 に近い値 → $x_i$  と $y_i$ の間に明確な関係がない  

ただし、共分散の値はデータの単位によって変わるため、直接比較しにくいことがあります。  

- **相関係数：**  
相関係数 $\rho$ は次の式で求められます。  

$$
\rho = \frac{\sigma_{xy}}{\sigma_x \sigma_y}
$$

ここで、$\sigma_x$と$\sigma_y$ は、それぞれ$ x_i$ と $ y_i$の標準偏差である。
相関係数は **−1 から 1 の範囲** で表され、  
- $\rho=1$ → 完全に正の相関$x_i$が増えると $y_i$も必ず増える）  
- $\rho=-1$ → 完全に負の相関（$x_i$が増えると $y_i$は必ず減る）  
- $\rho=0$ → 相関がない（$x_i$と $y_i$は無関係）  
相関係数を使うと、異なる単位のデータでも関係性の強さを比較できます。  

このように、共分散と相関係数を使うことで、2つの変数の関係性を数値的に把握することができます。



## 4.4 Pythonでデータの記述統計を計算
本節では、第1章で説明したPima Indians Diabetes Dataset を用いて、Pythonでデータの記述統計の計算方法を学びます。具体的には、データの読み込み、ヒストグラムを用いた分布の観察、要約統計量の計算、および特定の変数間の関係を可視化し相関を分析する方法について説明します。

### 1. データの読み込み
まず、pandasライブラリを使用し、GitHubリポジトリから **Pima Indians Diabetes** データセットをインポートし、分析の準備を行います。

```python
# データ操作と分析のためにpandasライブラリをインポート
import pandas as pd

# GitHubリポジトリに保存されているデータセット（生のCSVファイル）のURL
url = "https://raw.githubusercontent.com/XiaoyongZHANG/Data_Literacy/main/Chapter_01/pima-indians-diabetes.csv"

# データセットの各列に意味のある名前を定義
column_names = [
    "Pregnancies",               # 妊娠回数
    "Glucose",                   # 血糖値 (mg/dL)
    "BloodPressure",             # 血圧 (mmHg）
    "SkinThickness",             # 皮下脂肪厚 (mm)
    "Insulin",                   # 血清インスリン値（μU/ml）
    "BMI",                       # BMI（体重kg / (身長m)^2）
    "DiabetesPedigreeFunction",  # 糖尿病家系指数（遺伝的要因）
    "Age",                       # 年齢（歳）
    "Diabetes"                   # 糖尿病有無（1 = 糖尿病, 0 = 非糖尿病）
]

# pandasを使用してURLからデータセットを読み込む
# 'header=None' は、ファイル内に既存のヘッダーがないことを指定し、データとして誤解釈されるのを防ぐ
# 'names=column_names' で定義した列名をデータセットに適用
dataset = pd.read_csv(url, header=None, names=column_names)

# データセットの形状（行数と列数）を表示
print(dataset.shape)

# データセットの最初の5行を表示し、その構造と内容の概要を確認
print(dataset.head())

```
**実行結果:**
```
(768, 9)
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Diabetes  
0                     0.627   50         1  
1                     0.351   31         0  
2                     0.672   32         1  
3                     0.167   21         0  
4                     2.288   33         1  
```

## 2. データのヒストグラム観察
データの分布を理解するために、`pandas`の`hist()`関数と`matplotlib`ライブラリを用いて各変数のヒストグラムを描画します。
```python
# Matplotlibライブラリをインポート
import matplotlib.pyplot as plt

# 各列のヒストグラムを作成
dataset.hist(figsize=(12, 8), bins=20, edgecolor='black')

# グラフの横軸と縦軸のラベルを設定
for ax in plt.gcf().get_axes():  # 現在の図の各軸をループ
    ax.set_xlabel('Value')  # 横軸ラベル
    ax.set_ylabel('Frequency')  # 縦軸ラベル

# グラフを表示
plt.tight_layout()  # レイアウトの調整
plt.show()
```
**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_2_hist.png?raw=true?raw=1" width="900">
<figcaption align = "center"> Fig 4.2 順序統計量を用いて最小値、中央値、最大値、四分位値の計算.</figcaption>
</figure>

## 3. 要約統計量計算
`describe()`関数を用いて、各変数の基本的な統計量を計算する。
```python
# 記述統計量の表示
dataset.describe()
```
**実行結果:**

|index|Pregnancies|Glucose|BloodPressure|SkinThickness|Insulin|BMI|DiabetesPedigreeFunction|Age|Diabetes|
|---|---|---|---|---|---|---|---|---|---|
|count|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|
|mean|3\.8|120\.9|69\.1|20\.5|79\.8|32\.0|0\.5|33\.2|0\.3|
|std|3\.4|32\.0|19\.4|16\.0|115\.2|7\.9|0\.3|11\.8|0\.5|
|min|0\.0|0\.0|0\.0|0\.0|0\.0|0\.0|0\.1|21\.0|0\.0|
|25%|1\.0|99\.0|62\.0|0\.0|0\.0|27\.3|0\.2|24\.0|0\.0|
|50%|3\.0|117\.0|72\.0|23\.0|30\.5|32\.0|0\.4|29\.0|0\.0|
|75%|6\.0|140\.2|80\.0|32\.0|127\.2|36\.6|0\.6|41\.0|1\.0|
|max|17\.0|199\.0|122\.0|99\.0|846\.0|67\.1|2\.4|81\.0|1\.0|

この表には、各計測量の平均（mean）、標準偏差（std）、最小値（min）、最大値（max）、四分位数（25%、50%、75%）が含まれます。

## 4. 散布図と相関係数を計算
これまでは1変数データに着目して、変数の記述統計量を計算しました。次に、変数間の関係性を把握するために、散布図と相関係数を説明する。

**散布図**は、データの2つの変数間の関係を視覚的に表現するためのグラフです。各データ点は、2つの変数の値に対応する位置にプロットされます。横軸には1つの変数（独立変数）、縦軸にはもう1つの変数（従属変数）が置かれます。このグラフを使うことで、2つの変数がどのように関連しているか、例えば、正の相関（変数が同じ方向に変動する）、負の相関（変数が反対方向に変動する）、または無相関（変数間に明確な関係がない）を視覚的に確認できます。

次のPythonコードは、調査対象の皮下脂肪厚とBMIのの関係を散布図で視覚化し、相関係数を計算します。


```python
import matplotlib.pyplot as plt
import numpy as np

# 皮下脂肪厚とBMIの関係を散布図でプロット
plt.figure(figsize=(8, 6))
plt.scatter(dataset['SkinThickness'], dataset['BMI'], color='purple', edgecolor='black')

# 相関係数を計算
correlation = np.corrcoef(dataset['SkinThickness'], dataset['BMI'])[0, 1]

# 相関係数を計算
correlation = np.corrcoef(dataset['SkinThickness'], dataset['BMI'])[0, 1]

# 横軸と縦軸のラベルを設定
plt.xlabel('Skin Thickness (mm)')
plt.ylabel('BMI')
plt.grid(True)

# 図のタイトルを設定
plt.title('Relationship between Skin Thickness and BMI')

# 相関係数をLegendに表示
plt.legend([f'Correlation coefficient: {correlation:.2f}'], loc='lower right', fontsize = 18) # Fixed the location parameter

# 図を表示
plt.show()
```

**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_3_scatter_cor.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.3 皮下脂肪厚とBMIのの散布図と相関係数.</figcaption>
</figure>

**解説:**
相関係数が0.39となったということは、皮下脂肪厚（`SkinThickness`）とBMI（`BMI`）の間に中程度の正の相関があることを意味します。しかし、相関係数は異常値の影響を受けるため、これらの異常値を取り除くことで、より正確な分析が可能です。


### 実施した手順:
1. **相関係数の計算**:
   - `np.corrcoef()` を使用して、皮下脂肪厚（`SkinThickness`）とBMI（`BMI`）の相関係数を計算しました。結果として、相関係数が0.39となり、やや低い相関が確認されました。
   
2. **異常値の確認**:
   - 散布図中に、皮下脂肪厚が0㎜となる異常値が含まれていることがわかりました。これらの異常値は、データに誤差を引き起こし、相関関係の分析に影響を与える可能性があります。

3. **異常値の削除**:
   - Pandasを使って、皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除します。

### 異常値を削除し、再度相関係数を計算する方法:

```python
# 皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除
cleaned_dataset = dataset[(dataset['SkinThickness'] > 0) &  (dataset['SkinThickness'] < 80) &  (dataset['BMI'] > 0) ]

# 皮下脂肪厚とBMIの関係を散布図でプロット
plt.figure(figsize=(8, 6))
plt.scatter(cleaned_dataset['SkinThickness'], cleaned_dataset['BMI'], color='purple', edgecolor='black')

# 異常値を削除した後の相関係数を計算
correlation_cleaned = np.corrcoef(cleaned_dataset['SkinThickness'], cleaned_dataset['BMI'])[0, 1]

# 横軸と縦軸のラベルを設定
plt.xlabel('Skin Thickness (mm)')
plt.ylabel('BMI')
plt.grid(True)

# タイトルを設定
plt.title('Relationship between Skin Thickness and BMI (After Removing Outliers)')

# 相関係数をLegendに表示
plt.legend([f'Correlation coefficient: {correlation_cleaned:.2f}'], fontsize = 18)

# 図を表示
plt.show()
```
**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_4_scatter_cor.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.4 異常値を削除した皮下脂肪厚とBMIのの散布図と相関係数.</figcaption>
</figure>

### 解説:
- `dataset[(dataset['SkinThickness'] > 0) &  (dataset['SkinThickness'] < 80) &  (dataset['BMI'] > 0) ]` を使って、皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除されます。
- 異常値を削除した後で、再度相関係数を計算しています。これにより、相関係数が 0.67 になったということは、皮下脂肪厚（SkinThickness）とBMI（BMI）の間に **中程度から強い正の相関**があることを示しています。



**演習問題**: Irisデータセットを読み込み、がく片の長さと幅の相関係数を計算し、散布図を描画してください。