# データサイエンス基礎 第6回：記述統計

# 統計解析の種類：記述統計 と 推論統計

統計解析は，集めたデータの特徴を掴んだりわかりやすく整理したり見やすくしたりする方法です．

その手法は「記述統計」と「推論統計」に大きく別れます．

## 記述統計

記述統計は，集めたデータの**特徴を掴んだりわかりやすく整理したり見やすくしたりする**方法．

例：
- 平均，分散，標準偏差
- データの分類
- データを図やグラフを用いて表現する

## 推論統計

推論統計は，**集めたデータから推論する方法**です．

例：

- ランダムに抽出した身長データから，日本人の身長を推論
- 世論調査・選挙の支持率の調査
- Webサービス・アプリのA/Bテスト
- 医薬品の臨床試験

部分的なデータしかないものから，確率分布に基づいたモデルを用いて精密な解析をし，全体を推論して統計を求める．


## データの読み込み

今回はカリフォルニア大学アーバイン校（UCI）が提供しているサンプルデータ`student.zip`を使用します
(https://archive.ics.uci.edu/ml/machine-learning-databases/00356/student.zip )。

>このサイト（https://archive.ics.uci.edu ）では様々なサンプルデータが公開されており，眺めているだけでもちょっと楽しいです．ライセンスはデータセットごとに違うので，もし使用する場合はしっかり確認しましょう．

以下の手順でファイルを解凍しましょう．

1. 上記URLまたはmoodleからZIPファイルをダウンロード
2. jupyter notebookに ZIPファイルをアップロード．<br>**このファイルと同じフォルダにアップロードしてください．**
3. 以下のプログラムを実行して，ZIPファイルが入っているフォルダを確認して`student-mat.csv`や`student-por.csv`が増えていれば成功です

In [None]:
import zipfile

filename = './student.zip' # ファイルパスを定義
z = zipfile.ZipFile(filename) # パスのzipファイルを読み込む
z.extractall() # 読み込んだファイルを解凍
print('解凍完了')

## データの確認

ダウンロードしたデータのうち，まずは「student-nat.csv」がどのようなファイルなのかを観察してみます．

## データをDataFrameとして読み込む

対象のデータを読み取り，PandasのDataFrameオブジェクトとして扱います．
次のように`pd.read_csv`の引数にファイル名`student-mat.csv`ファイルを記載して実行すると，そのファイルが読み込まれ，DataFrameオブジェクトとなります．

In [None]:
import pandas as pd

student_data_math = pd.read_csv('student-mat.csv')

#何も表示されません

## データを確認する

データを読み込んだら，実際のデータの中身を確認しましょう．
headを使うと，データの先頭から一部をサンプルとして参照できます．

括弧の中に何も指定しないと先頭の5行が表示されます．
括弧の中に行数を指定した場合は，指定した行数だけ表示されます．

例えば，`head(10)`とすれば，10行分表示されます．

In [None]:
import pandas as pd

student_data_math = pd.read_csv('student-mat.csv')
student_data_math.head()

# student_data_math.head(10) # 10行分表示

## カンマで区切ってデータを読む

データが入っているのはわかりますが，このままではよくわかりません．

よくデータを見てみると，ダウンロードしたデータは「;」(セミコロン)で区切られているようです．

ほとんどのCSVデータは「,」(カンマ)が区切り文字として使われるのが慣例なのですが，ダウンロードしたデータは「;」が区切りのため，データを正しく識別できずに，このような表示になります．

区切り文字を変えるには`read_csv`のパラメータとして「sep='区切り文字'」を指定します．
「;」を区切り文字にするために以下のようにして，データを再度読み込みましょう．

```python
student_data_math = pd.read_csv('student-mat.csv', sep=';')
```

In [None]:
import pandas as pd

student_data_math = pd.read_csv('student-mat.csv') #変更してみましょう
student_data_math.head()

実際のデータ分析の業務では，試行錯誤しながら区切り文字を探すことも多いため，今回は上記のような流れで実施してみました．

## データの性質を確認する

先ほど読み込んだデータを見てみると，schoolやageなどの学生の属性情報が入っているのはわかります．ただ，

- いくつデータがあるのか？
- どんな種類のデータがあるのか？

などはわかりません．

## データの個数や型を確認する

infoを使うと，全ての変数について，nullでないデータの個数や変数の型がわかります．

In [None]:
# pandasで正しいデータの読み込みを行った前提のコード
student_data_math.info()

ここからどんなことがわかるでしょうか？

- **RangeIndex: 395 entries, 0 to 394 ** : 番号0から394までの395個のデータがある
- **Data columns (total 33 columns):** : 33列（種類）が含まれている
- 全ての列について「395 non-null」となっているので，nullのデータは存在しない

...など．

さて，このデータ，何のデータでしょうか？

## ドキュメントでデータ項目を確認する

さらにこのデータを理解していくために，このデータのカラム（列）が一体何のデータなのかを把握していきましょう．

実は，ダウンロードしたデータに含まれている`student.txt`ファイルには，カラムに関する詳しい情報が書かれています．

ちょっと見ずらいですが，jupyter notebookで`student.txt`を確認してみましょう．
英語でカラムの説明が書かれているのがわかりますね．

よくわからない場合，翻訳したり，ChatGPTにブチ込んで日本語で説明してもらったりしてください．どんなデータを集めたファイルなのか，理解できると思います．

> 実際のビジネスの現場では，データに詳しい人から情報をもらったり，仕様書を読み解いて確認していくことで確認していくこともあります．

## 量的データと質的データ



`student.txt`をみると数字のデータや男女などの属性データがあったりします．

データは基本的に**量的データ**と**質的データ**の二つに分けることができます．

- **量的データ**：四則演算を**適応可能**な連続値で表現されるデータであり，比率に意味があるもの．例）人数や金額などのデータ
- **質的データ**：四則演算を**適応不可能**な不連続値で表現されるデータであり，状態を表現するために利用される．例）順位，カテゴリ，男女など

## 量的データと質的データの例

次のコードは先ほど読み込んだデータの中にある「性別」を指定しています．

このデータは特に数値化されておらず，比較もできないので，**質的データ**です．

In [None]:
student_data_math['sex'].head()

次のコードは，データの列にある「欠席数」を指定しています．このデータは**量的データ**です．

In [None]:
student_data_math['absences'].head()

## 軸別に基本統計量を求める

ここで前に学んだPandasのテクニックを使って，性別を軸にして，年齢の平均値・中央値・最頻値・最大値・最小値・分散・標準偏差をそれぞれ計算してみましょう．

次のようにすると求められます．

### 平均値

In [None]:
#　年齢全体の平均値
student_data_math['age'].mean()

In [None]:
# 性別を軸とした年齢の平均値
student_data_math.groupby('sex')['age'].mean()

### 中央値

In [None]:
# 年齢全体の中央値
student_data_math['age'].median()

In [None]:
# 性別を軸とした年齢の中央値
student_data_math.groupby('sex')['age'].median()

### 最頻値

In [None]:
# 年齢全体の最頻値
student_data_math['age'].mode()

In [None]:
# 性別を軸とした年齢の最頻値
student_data_math.groupby('sex')['age'].apply(lambda x: x.mode())
#gourpbyした上で最頻値を求める方法はなぜかちょっとややこしい．

### 最大値

In [None]:
# 年齢全体の最大値
student_data_math['age'].max()

In [None]:
# 性別を軸とした年齢の最大値
student_data_math.groupby('sex')['age'].max()

### 最小値

In [None]:
# 年齢全体の最小値
student_data_math['age'].min()

In [None]:
# 性別を軸とした年齢の最小値
student_data_math.groupby('sex')['age'].min()

## 分散・標準偏差

In [None]:
# 全体の分散
student_data_math.groupby('sex')['age'].var()

In [None]:
# 年齢を軸とした分散
student_data_math.groupby('sex')['age'].var()

In [None]:
# 全体の標準偏差
student_data_math.groupby('sex')['age'].std()

In [None]:
# 年齢を軸とした標準偏差
student_data_math.groupby('sex')['age'].std()

データの中身について，カラムやその数値を見てきました．

他にも，いろいろな視点でデータ集計ができるので，何か仮説を持って，その仮説があっているかどうか，実装して確かめてみましょう．

## 仮説を立てて，実験する

例えば「**男性の方がアルコール摂取量が多い**」という仮説を立てて，その仮説があっているかどうかを記述統計の範囲で確かめてみましょう．

- Dalc: 平日のアルコール摂取量
- Walc: 週末のアルコール摂取量

から，性別ごとに平均値と中央値を比較します．

男性群の方が mean / median が高いなら、仮説支持と考えます．

In [None]:
# sex（M/F）ごとに、Dalc と Walc の記述統計を表示
stats_dalc_mean = student_data_math.groupby("sex")["Dalc"].mean()
stats_walc_mean = student_data_math.groupby("sex")["Walc"].mean()
stats_dalc_median = student_data_math.groupby("sex")["Dalc"].median()
stats_walc_median = student_data_math.groupby("sex")["Walc"].median()
print(stats_dalc_mean)
print(stats_walc_mean)
print(stats_dalc_median)
print(stats_walc_median)

結果から，男性（M）の方が摂取量が多いと言えそうです．

`男性(M)-女性(F)` を計算して，0より大きいことを確認しましょう．

In [None]:
diff_dalc_mean = stats_dalc_mean['M'] - stats_dalc_mean['F']
diff_walc_mean = stats_walc_mean['M'] - stats_walc_mean['F']
diff_dalc_median = stats_dalc_median['M'] - stats_dalc_median['F']
diff_walc_median = stats_walc_median['M'] - stats_walc_median['F']

print(diff_dalc_mean)
print(diff_walc_mean)
print(diff_dalc_median)
print(diff_walc_median)

また，前回学習したグラフの描画を用いて視覚化を行い，考察をします．

In [None]:
import matplotlib.pyplot as plt

# グラフサイズ調整
plt.figure(figsize=(14, 5))

# --------- 平日飲酒 Dalc ----------
plt.subplot(1, 2, 1)
plt.hist(student_data_math[student_data_math["sex"]=="M"]["Dalc"],
         bins=range(1,7), alpha=0.5, label="Male", density=True)
plt.hist(student_data_math[student_data_math["sex"]=="F"]["Dalc"],
         bins=range(1,7), alpha=0.5, label="Female", density=True)
plt.title("Distribution of Weekday Alcohol Consumption (Dalc)")
plt.xlabel("Dalc (1 = low, 5 = high)")
plt.ylabel("Density")
plt.legend()

# --------- 週末飲酒 Walc ----------
plt.subplot(1, 2, 2)
plt.hist(student_data_math[student_data_math["sex"]=="M"]["Walc"],
         bins=range(1,7), alpha=0.5, label="Male", density=True)
plt.hist(student_data_math[student_data_math["sex"]=="F"]["Walc"],
         bins=range(1,7), alpha=0.5, label="Female", density=True)
plt.title("Distribution of Weekend Alcohol Consumption (Walc)")
plt.xlabel("Walc (1 = low, 5 = high)")
plt.ylabel("Density")
plt.legend()

plt.tight_layout()
plt.show()


## 仮説に対する結論

本実験では、「男性の方がアルコール摂取量が多い」という仮説を、平日飲酒量 `Dalc` と週末飲酒量 `Walc` を用いて検証した。

### 平日飲酒（Dalc）について
- 男性の平均値は女性より高く（`diff_dalc_mean > 0`）、
  記述統計の範囲では「男性の方が平日にやや多く飲酒している」と言える。
- しかし中央値は男女で同じであり、多くの学生はそもそも平日にほとんど飲酒していない。
- 平日については、差はあるものの、強い差とは言いにくい側面もある。

### 週末飲酒（Walc）について
- 男性の平均値が女性よりも明確に高く（`diff_walc_mean` が比較的大きい）、
  さらに中央値も男性の方が 1 ポイント高い（`diff_walc_median = 1`）。
- ヒストグラムでも、男性の分布が女性より右にシフトしていることが確認でき、
  分布全体としても男性の方が飲酒量が多いことが示されている。

### 結論（記述統計に基づく仮説の評価）
- 平日飲酒については、**男性の方がやや多く飲む傾向がある** 程度の差が見られた。
- 週末飲酒については、平均・中央値・分布形状のいずれも男性の方が高く、
  記述統計の範囲では **「男性の方がアルコール摂取量が多い」という仮説は強く支持される**。

次回の課題では以上のようなレポートを作ってもらいます．

# 課題3: Student Performance データセットを用いた仮説立案

## 課題概要

UCI Student Performance データセットの`student-math.csv`を題材にして、データに基づく仮説を 3つ立てて提出してください。

今回は 分析は行わず、仮説を立てることだけが目的 です。

この課題では「仮説の正しさ」は評価しません。

評価するのは 
- 仮説が明確に書けているか、
- 形式として正しいか、
- 幅広い視点を使えているか

の3点です。


## 1. 仮説とは何か？

仮説（hypothesis）とは、**「こうではないか？」という予想や主張をデータによって検証できる形にしたもの**です。

たとえば：

* 「勉強時間が多い人は成績が高いのではないか？」
* 「欠席が多い人は成績が低いのでは？」

のように、**現象の関係をわかりやすく言い表したもの**が仮説です。

---

##  2. 仮説の立て方

仮説を立てるときには、次の3つの型を使うとスムーズです。

### （A）数量の関係を示す型

> **〇〇が大きい（高い）学生は、XX も大きい（高い）**

例：

* 学習時間（studytime）が長い学生は、最終成績（G3）も高い

---

## （B）2グループを比較する型

> **A グループの学生の方が、B グループより YY が高い（低い）**

例：

* 男性の方が飲酒量（Walc）が高い

---

## （C）行動や状態と特徴を結びつける型

> **C の状態の違いによって、ZZ が高い（低い）**

例：

* 課外活動（activities）をしている学生は健康（health）が高い


## 3. 課題内容

### あなたが考える仮説を 3つ 提出してください

条件は以下の通り：

* 各仮説は **1行で記述**
* **例のように仮説の中に変数名を（）で含めること**
* 上の「仮説の型（A/B/C）」のいずれかに当てはめてよい．
* 使う変数は自由
* 仮説が合っている必要はない

後の課題で実際にこれらの仮説を検証していきます


---

## 4. 提出形式

以下のようなテキスト形式でmoodleで提出してください。

```
【仮説1】
～～～～～～～～～～～～～～～～～～～～～～～～～

【仮説2】
～～～～～～～～～～～～～～～～～～～～～～～～～

【仮説3】
～～～～～～～～～～～～～～～～～～～～～～～～～
```
