In [1]:
# 必要ライブラリのインポート
import pandas as pd

## 📊 クロス集計（交差集計）の仕組み

### ✅ 概要

クロス集計（交差集計、`crosstab`）とは、**2つ以上のカテゴリ変数の組み合わせごとに件数（頻度）を集計する手法**である。  
これは、カテゴリ間の関係性を定量的かつ視覚的に捉えるための基本的な集計方法であり、Excelにおける「ピボットテーブル」と同様の操作である。

---

### 🛠 使用方法（pandas）

```python
pd.crosstab(行方向のカテゴリ変数, 列方向のカテゴリ変数)
```

例：

```python
pd.crosstab(df["gender"], df["region"])
```

---

### 📋 出力される表の構造

- **行（index）**：最初の引数（例：`gender`）
- **列（columns）**：2番目の引数（例：`region`）
- **セルの値**：行と列のカテゴリが一致する行数（＝件数）

| gender | 関東 | 関西 |
|--------|------|------|
| 女性   | 120  | 85   |
| 男性   | 100  | 95   |
| その他 | 5    | 2    |

---

### 🔍 背後で行われている処理

1. `gender` と `region` のすべてのユニークな値の組み合わせを列挙
2. 各組み合わせに対して該当する行をフィルタ（例：`df[(df["gender"] == "女性") & (df["region"] == "関東")]`）
3. その行数をカウントして表にまとめる

---

### 🎯 クロス集計の用途

- カテゴリ同士の**関係性・分布の可視化**
- **偏りやバイアスの検出**
- 層別サンプリングやセグメント分析の前準備
- モデル学習時の**クラスバランスの確認**

---

### 💡 応用例

- **合計行・列の表示**：
  
  ```python
  pd.crosstab(df["gender"], df["region"], margins=True)
  ```

- **割合で表示**（行ごとに正規化）：

  ```python
  pd.crosstab(df["gender"], df["region"], normalize="index")
  ```

- **複数の変数を組み合わせる**：

  ```python
  pd.crosstab([df["gender"], df["age_group"]], df["region"])
  ```

---

### ✅ まとめ

クロス集計は、カテゴリデータの傾向を把握するための基本かつ強力な手法である。  
特に前処理や探索的データ分析（EDA）において、その活用は欠かせない。

In [2]:
# master_customerをdfに取り込み、df にあるgenderとregionをクロス集計
master_customer = pd.read_csv("../data/master_customer.csv", dtype={"customer_id": str})
df = master_customer

# genderとregionのクロス集計
cross_tab = pd.crosstab(df["gender"], df["region"])
cross_tab

region,京都府,佐賀県,北海道,和歌山県,埼玉県,大分県,大阪府,奈良県,宮城県,富山県,...,神奈川県,福岡県,秋田県,茨城県,長野県,青森県,静岡県,高知県,鳥取県,鹿児島県
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0.0,226,127,249,119,255,136,365,131,134,119,...,276,273,101,241,135,124,127,128,115,123
1.0,147,88,154,76,161,72,229,73,80,79,...,134,168,81,158,70,79,76,77,81,83
2.0,5,1,8,3,4,3,9,2,0,2,...,1,3,3,6,2,1,2,1,3,1
