<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMining2024/blob/main/20241015/%E5%9F%BA%E7%A4%8E%E9%9B%86%E8%A8%881.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第3回（20241015）

#本日の講義の目的


*   データ分析の流れの理解
*   データの前処理方法の理解
  * データのアップロード
  * データの理解
  * 前処理



# 本日の講義の資料

本日の資料の保管場所

https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241015

#データ分析の流れ

データ分析の基本的なステップは以下の通り。
1. 目的設定
1. データ収集
1. **データ前処理**
1. **データ探索**
1. **モデル構築**
1. レポート

この講義では、主に
3. から 5. の部分の知識や技術を身に着けることになる。




# 環境を使うための準備
日本語を表示するための準備、
および、データ分析で共通で用いる
以下のPythonライブラリー（モジュール）
の読み込みを施します。


*   numpy：数値計算
*   pandas：主にデータ加工
*   matplotlib：グラフを作成
*   japanize_matplotlib：日本語を表示
*   seaborn：グラフ作成



In [None]:
# グラフ等で日本語を表示するために必要な操作
!pip install japanize-matplotlib

モジュールを使うための命令文

モジュール名が長い場合、以下のように  「as ○○」とすることで短縮できる。
短縮名は自由に変更が可能。

```
import モジュール名 as 短縮名
```

In [None]:
# データ分析で必要となるモジュールの読み込み
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

# データのファイルからの読み込み
パソコン上のエクセルファイルを Google Drive にアップロードして、Pythonプログラムで読み込んでみる。

## エクセルファイルのPCへのダウンロード

講義で使うデータを、
以下に示したサイトからPCにダウンロードする。

https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241015

にアクセスし、
エクセルファイル（customer_data.xlsx）を各自のPCにダウンロードする。


## ファイルのGoogle Drive へのアップロード
1. Google Drive にアクセス
  
  右のリンクをクリックすればよい https://drive.google.com/drive/my-drive

2. Google Drive 上で適当なフォルダーを作成
3. PCのファイルをドラッグ＆ドロップでアップロード、  
あるいは、Google Driveで右クリックでメニューを開き、ファイルのアップロードを選択してもアップロードが可能である。

## Colabで操作

### Googleドライブのマウント
1. Colabにて、左端のフォルダーのアイコンをクリックし、ファイルメニューを開く。

1. マウントアイコンをクリックし Google Driveをマウントする。

1. drive の中の「MyDrive」が Google Drive のマイドライブとなる。

1. PCからアップロードしたエクセルファイル（customer_data.xlsx）が
存在することを確認する。


### ファイルパスのコピーとペースト
1. Driveメニューで目的のファイルにマウスを合わせ、ファイル名の右にある縦3つの「・」部分をクリックして「パスをコピー」を選択する。

1. 以下のPythonコードの 4行目の
シングルクォーテーションの中を先ほどコピーしたパスに変更する。ctrl+v でペーストされる。

## ファイルを読み込むための Pythonプログラム

エクセルファイルをPython環境に読み込むためには、
Pandas の read_excel()というメソッド（関数）を使う。

以下の例では、変数 data に格納される。
data という変数名は自由に変更が可能である。

変数 data は、**データフレーム**と呼ばれる。


In [None]:
# 読み込むファイルを指定する
# ファイルパスは、シングルクオーテーションで囲む必要がある。

file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/customer_data.xlsx'

# ファイルのデータを data という変数に読み込む
# 上で「import pandas as pd」としたことを確認。
data = pd.read_excel(file_path)

上で実行したように、
```
import pandas as pd
```
**pd** という省略名を付与しているので


```
pd.read_excel(file_path)
```
としていることに注意する。

変数 data に格納したデータは様々に処理が可能。
例えば、先頭のデータの表示ができる。


In [None]:
# 先頭部分のデータを表示
data.head()

金額列の**合計**を計算するためには以下のようにする。
列名は
```
'金額'
```
のようにシングルクートで囲む必要がある。


In [None]:
data['金額'].sum()

平均であれば、以下のようにすればよい。

In [None]:
data['金額'].mean()

# 本日の講義で使うデータの説明

以下に示したサイト

https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241015

からダウンロードしたエクセルファイルには以下のようなデータが格納されている


データの定義 (各列の説明)


列名 | 型 | 説明
--   | -- | --
顧客ID | 数値（整数） |
性別	 | カテゴリ型 |
年齢	 | 数値（整数）|
職業	 | カテゴリ型|
年収	 | 数値（整数）|
スマホの所有	| カテゴリ型 |
スマホ利用時間	| 数値（実数）| 1日の平均使用時間
Aの利用回数	|  数値（整数）|
Bの利用回数 |  数値（整数） |


# データを表示
変数に読み込んデータの内容を表示させる。



In [None]:
# データの最初の10行を表示する
data.head(10)

NaNと表示されているのは数値が入力されいないという意味で,
 **欠損値**
 と呼ぶ。


In [None]:
# 最後の 5 行を表示する
data.tail()

# レコード（行）数と、項目（列）数を表示

In [None]:
# data 変数のレコード数と項目数をタプルとして取得する。最初の要素が行数、次の要素が列数である。
data.shape

#データの概要を確認する

まず、データの概要として以下を確認する。

*   レコード数
*   項目数
*   各項目の属性
  * 数値型：int64, float64
  * カテゴリ型：object

> 参考：https://pandas.pydata.org/docs/user_guide/basics.html#dtypes


以下の命令を使い、概要が確認できる。
```
data.info()
```



In [None]:
#データの全体概要を表示
data.info()

---
---
---



#データ分析とは

データ分析とは、分析の対象をデータを通じて理解することである。
ここでいう対象とは、例えば


*   顧客の行動
*   社会現象
*   生物（生命）現象
*   物理現象

などである。また、データを取得することを**観測**と呼ぶ。




# 記述統計量

データの特徴を表す量のことを
**記述統計量**と呼ぶ。

数値型の列に対しては、統計量として以下のものが良く用いられる。
* データ個数
* 平均
* 分散、標準偏差
* 最小値、最大値
* 第一四分位数
* 第二四分位数
* 第三四分位数

また、カテゴリ型のデータに対しては、以下のものがある。
* データ個数
* ユニーク数
* 最頻値
* 最頻値のデータ数

### 平均
**平均**はデータ全体を代表するもっとも基本的な記述統計量である。

### 中央値
平均によく似た統計量として
**中央値**がある。
これは、データを小さい順に並べたときに
真ん中にくる数値のことである。
年収など極端に大きい（小さい）数値が含まれるデータの場合では、
平均値は全体の傾向を表さなくなってしまうことがある。


### パーセンタイル
中央値は小さい順に並べた場合の真ん中、
すなわち全体の**50%**の場所の数値であることから
**50パーセンタイル**と呼ばれる。

小さい順に並べた際の25パーセントや
75パーセントの場所の数値もよく用いられられ、
25パーセンタイル、50パーセンタイル、75パーセンタイルは、それぞれ
**第一四分位点**、
**第二四分位点**、
**第三四分位点**
と呼ばれる。


### 分散（標準偏差）
平均値と並んで代表的な記述統計量として**分散**がある。
分散（標準偏差）により、データのばらつきの程度を把握することができる。
分散の平方根が標準偏差である。


## カテゴリ型の変数に対する統計量

性別などカテゴリ型のデータでは、以下の統計量が基本である。
*   ユニーク数：カテゴリ値の種類の数。
性別の項目の場合は、カテゴリ値が「男性」「女性」なので、
ユニーク数は2である。

*   最頻値：最もデータ数の多いカテゴリ値




---

# Pandas を使った統計量の確認

Pandasを使うことで、記述統計量を求めることが可能である。

In [None]:
#@title 数値型の変数に対する統計量の表示
data.describe()

カテゴリ型の変数の基本的な統計量としては、
ユニーク数および最頻値があげられる。

In [None]:
#@title カテゴリ型の変数に関する統計量の表示
data.describe(include='object')

「性別」の場合には、男性、女性の2つのカテゴリ値があるので、unique 数は2となる。

top は、最も多いカテゴリ値は「男性」で
freq でそのレコード数が350レコードあることを示している。

### 項目ごとに関数を使って平均などの統計量を算出できる。

主な関数には以下のものが使える。

関数  | 意味
--    |   --
sum()    | 合計
mean()   | 平均
var()    | 分散
std()    | 標準偏差
median() | 中央値
min()    | 最小値
max()    | 最大値
quantile(0.25)  | 四分位点、0.25 とすると小さな方から並べた場合の、25%の位置のデータとなる
unique() | カテゴリ値の確認

In [None]:
# 年収の平均値
data['年収'].mean()

In [None]:
# 年収の四分位点
data['年収'].quantile(0.25)

**5パーセンタイル**や
**95パーセンタイル**は、
極端に大きな値や小さな値を除外した場合の最小値や最大値として扱われる場合がある。
一般に、極端に大きな（小さな）値が含まれる場合には、単純な最大や最小と比べ頑健な指標と考えられる。

職業の unique 数は4である。
unique() 関数でカテゴリ値が確認できる。

In [None]:
#カテゴリ値を確認する
data['職業'].unique()



---



# データクレンジング

実務上は、分析に用いるデータが正しく記録されていない場合も多い。
今回用意したエクセルファイルには、数値が記録されていないセルを含んでいる。

データ分析から正しい結果を得るために、まず初めにデータを
**きれいに**
整える必要があり、
この過程を**クレンジング**と呼ぶ。

クレンジングの代表的な処理には


*   欠損値の処理
*   異常値の処理
*   重複行の処理

がある。



## 欠損値の処理

データが記録されていない部分を**欠損値**と呼ぶ。

### 欠損値の確認

In [None]:
# 欠損値の個数を調べる
# data という変数に読み込む
data = pd.read_excel(file_path)
data.isnull().sum()

### 欠損値のあるレコードを削除

```
dropna()
```
を用いると、欠損値を一つでも含むレコードを削除できる。

以下のように記述した場合には、元の変数 data は値が変化せず、
欠損値を一つでも含むレコードが削除された状態のデータが、
data_dropped にコピーされる。

In [None]:
data_dropped = data.dropna()

In [None]:
# 欠損値が無いことを確認する
data_dropped.isnull().sum()
# data_dropped.info()

元の変数 data には欠損値が残ったままとなっていることを確認する。

In [None]:
data.isnull().sum()

以下のように inplace=True とすると
dataの内容が変更される。

In [None]:
# data という変数に読み込む
data = pd.read_excel(file_path)
# print( data.isnull().sum() )
data.dropna(inplace=True)
data.isnull().sum()

In [None]:
data.info()

### 数値で置き換える場合

欠損値を数値で置き換えるためには以下のようにする。
例えば、'Aの利用回数' の欠測値を 0 で置き換えるのであれば、以下のようにする。

```
data['Aの利用回数'] = data['Aの利用回数'].fillna(0)
```

平均値で置き換える場合は以下のようになる。

```
data['Aの利用回数'] = data['Aの利用回数'].fillna(data['Aの利用回数'].mean())
```



In [None]:
# もう一度ファイルからデータを読み込んで、欠損値のある状態にする。
data = pd.read_excel(file_path)

# Aの利用回数の欠損値を平均値で補完
data['Aの利用回数'] = data['Aの利用回数'].fillna(data['Aの利用回数'].mean())

# 結果の確認
print(data.isnull().sum())

### 列を削除する場合
欠損値が非常に多く含まれている項目は、
分析には用いることができないと判断することもある。


In [None]:
data = pd.read_excel(file_path)
# data.info()

# スマホ利用時間の列をすべて削除する場合
data.drop(columns=['スマホ利用時間'], inplace=True)
data.info()

## 異常値の処理

このデータには年齢が130といった数値が含まれている。
このようなありえない数値を**異常値**と呼ぶ。

異常値を含むレコードを削除して、
分析は用いないようにする。

レコードの削除には

```
drop([削除したいレコード番号のインデックス])
```

を用いる。

例えば、'年齢' が90歳以上のレコードのインデックスを得るためには
以下のように行う。

```
data[data['年齢'] >= 90].index
```


In [None]:
# 年齢が90歳以上のレコードのインデックスを取得
idx = data[data['年齢'] >= 90].index

# 指定したインデックスのレコードを削除したもの data_dropped に代入する
data_dropped = data.drop(idx)

## 重複レコードの削除

このデータには、以下のような重複行がある。

In [None]:
# data = pd.read_excel(file_path)
data.tail()

In [None]:
data.drop_duplicates(inplace=True)
data.tail()

削除した結果、行数が減っていることを確認する

In [None]:
data.shape



---



# 主なDataFrame の操作

## 特定の行の選択

### 行番号で選択する

In [None]:
# 20行目から21行目までを選択
data[20:22]

### 条件式で選択する

```
data[ 条件式 ]
```
とすることで、条件式に合致する行を選択することができる。


In [None]:
# 年齢が30未満の行を選択する
data[ data['年齢'] < 30]

In [None]:
# 職業が'会社員' と等しいものを選択する
# == を使う点に注意
data[ data['職業']=='会社員']

In [None]:
# '職業が会社員' と等しいものを選択し年収の平均を求める
data[ data['職業']=='会社員']['年収'].mean()

In [None]:
# 年齢が30歳未満の顧客の年収の平均を求める
data[ data['年齢'] < 30]['年収'].mean()

In [None]:
# 複数条件をANDする
# 年収が300以上かつ600以下の場合
data[ (data['年収'] >= 300) & (data['年収'] <= 600) ]['年齢'].mean()

In [None]:
# 複数条件をORする
# 職業が会社員または公務員の場合
data[ (data['職業'] == '会社員') | (data['職業'] == '公務員') ]['年収'].mean()

---

## 並べ替え

* 小さい順に並べる場合
```
sort_values()
```

* 大きい順に並べる場合
```
sort_values(ascending=False)
```






In [None]:
data['年収'].sort_values()

In [None]:
data['年収'].sort_values(ascending=False)

In [None]:
# ソートし、先頭の10行を表示する場合は以下のようにする
data['年収'].sort_values(ascending=False).head(10)

表全体を対象に並べ借ることも可能。

sort_values( by = '列名' ) とする

In [None]:
# スマホ利用時間の小さな順に並べる
data.sort_values(by = 'スマホ利用時間')

In [None]:
# 年収で大きい順に並べる
data.sort_values(by = '年収', ascending=False)

---

##列名の変更

In [None]:
data_renamed = data.rename(columns={'Aの利用回数': 'A回数','Bの利用回数': 'B回数'})
data_renamed.info()

## 行や列を番号で指定して限定する

iloc を使い、DataFrame に格納された表の一部だけを取り出すことが可能。

基本的な使い方は、

> iloc[ 行の範囲を指定, 列の範囲を指定 ]

In [None]:
# 0行目から2行目まで、2列目から4列目まで
data.iloc[0:3,2:5]

In [None]:
# 0行目から2行目まで
data.iloc[0:3,:]

In [None]:
# 1列目から最後まで
data.iloc[1:3,1:]

In [None]:
# 1列目から最後の1つ前まで
data.iloc[1:3,:-1]

## 行番号と列番号による指定

> iloc[ 行のリスト, 列のリスト ]

In [None]:
data.iloc[[100,1,102],[0,2,3]]

In [None]:
# 行番号や列番号を省略すると全て選択される
data.iloc[[100,1,102],]



---



---



---



# 参考サイト
- Google Colaboratory のWebページ
 - https://colab.research.google.com/


- 授業の資料保管場所
 - https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241015


---
---
# 宿題
以下は各自で行う

# CSVファイルの読み込み

csv ファイルを読み込むためには、read_csv() を用いる。

> csvファイルはUTF-8で保存されている必要がある。うまく読み込めない場合は、エクセルで保存する際に「CSV UTF-8」とすればよい。

In [None]:
data= pd.read_csv('/content/drive/MyDrive/データアップロード/商品金額.csv')

In [None]:
# 先頭の数行を表示させる
data.head()

In [None]:
# 先頭部分のデータを10行表示
data.head(10)

# 平均値と中央値

例として、50個の観測値をヒストグラムで可視化した。
合わせて、平均値を計算してしてしてある。

左右に同じように分布するデータの場合では、
平均値は全体の中央付近になる。

In [None]:
#@title ある50個の観測値のヒストグラムと平均の様子
#平均400、標準偏差100の数正規分布に従う確率変数を50個生成してヒストグラムで可視化する。色は薄い青にする。ビンの幅を100、階級の分かれ目を示す。平均値に縦線を加え、図の中に平均値を表示する

import matplotlib.pyplot as plt
import numpy as np

np.random.seed(99)

# 平均400、標準偏差100の正規分布に従う乱数を50個生成
_data = np.random.normal(400, 100, 50)

# ヒストグラムを描画
plt.hist(_data, bins=range(0, 801, 100), color='lightblue', edgecolor='black')  # ビンの幅を100に設定

# 平均値を計算
mean_value = np.mean(_data)

# 平均値の位置に赤い縦線を追加
plt.axvline(x=mean_value, color='red', linestyle='--')

# 平均値を図の中に表示
plt.text(mean_value + 10, 5, f'平均: {mean_value:.2f}', color='red')

# 軸ラベルとタイトルを設定
plt.xlabel('値')
plt.ylabel('頻度')
plt.title('ある50個の観測値のヒストグラム')

# グリッドを表示
plt.grid(True)

# グラフを表示
plt.show()


以下の図のように、データの中に非常に大きな値（小さな値）が加わると、
平均値はその影響を受けることに注意が必要である。

In [None]:
#@title 外れ値を含む場合の平均値
# prompt: 2つの平均値を求め図の中に書きこむ。ヒストグラムの色を薄い水色にする。

import matplotlib.pyplot as plt
import numpy as np
# 大きな外れ値としてサンプルを3個加える
data_with_outliers = np.concatenate((_data, [2000, 2200, 2500]))

# ヒストグラムを作成
plt.hist(data_with_outliers, bins=range(0, 2501, 100), edgecolor='black', color='lightblue')  # ビンの幅を100に設定、階級の分かれ目を表示

# 元データの平均値に縦線を追加
plt.axvline(x=400, color='red', linestyle='--', label='元の平均値')

# 外れ値を含むデータの平均値に縦線を追加
plt.axvline(x=data_with_outliers.mean(), color='blue', linestyle='--', label='外れ値を含む平均値')

# 平均値を計算して表示
mean_original = _data.mean()
mean_with_outliers = data_with_outliers.mean()
plt.text(mean_original + 20, 10, f'{mean_original:.2f}', color='red')
plt.text(mean_with_outliers + 20, 8, f'{mean_with_outliers:.2f}', color='blue')

# ラベルとタイトルを設定
plt.xlabel('値')
plt.ylabel('頻度')
plt.title('外れ値を含むデータのヒストグラム')
plt.legend()  # 凡例を表示

# グリッドを表示
plt.grid(True)


# グラフを表示
plt.show()


In [None]:
#@title 中央値の可視化
# prompt: 中央値を計算して図の中に可視化する。小数点以下1桁で表示する

import matplotlib.pyplot as plt
import numpy as np
# 大きな外れ値としてサンプルを3個加える
data_with_outliers = np.concatenate((_data, [2000, 2200, 2500]))

# ヒストグラムを作成
plt.hist(data_with_outliers, bins=range(0, 2501, 100), edgecolor='black', color='lightblue')  # ビンの幅を100に設定、階級の分かれ目を表示

# 元データの平均値に縦線を追加
# plt.axvline(x=400, color='red', linestyle='--', label='元の平均値')

# 外れ値を含むデータの平均値に縦線を追加
# plt.axvline(x=data_with_outliers.mean(), color='blue', linestyle='--', label='外れ値を含む平均値')

# 中央値を計算して表示
median_original = np.median(_data)
median_with_outliers = np.median(data_with_outliers)
plt.axvline(x=median_original, color='green', linestyle='--', label='元のデータの中央値')
plt.axvline(x=median_with_outliers, color='purple', linestyle='--', label='外れ値を含むデータの中央値')

# 平均値を計算して表示
mean_original = _data.mean()
mean_with_outliers = data_with_outliers.mean()
#plt.text(mean_original + 20, 10, f'{mean_original:.2f}', color='red')
#plt.text(mean_with_outliers + 20, 8, f'{mean_with_outliers:.2f}', color='blue')
plt.text(median_original + 20, 12, f'{median_original:.1f}', color='green') # 中央値を表示（小数点以下1桁）
plt.text(median_with_outliers + 20, 6, f'{median_with_outliers:.1f}', color='purple') # 中央値を表示（小数点以下1桁）

# ラベルとタイトルを設定
plt.xlabel('値')
plt.ylabel('頻度')
plt.title('外れ値を含むデータのヒストグラム')
plt.legend()  # 凡例を表示

# グリッドを表示
plt.grid(True)


# グラフを表示
plt.show()


In [None]:
#@title 外れ値の影響
# prompt: 上の2つの図を左右に並べて表示する

import matplotlib.pyplot as plt
import numpy as np
# 図の設定
fig, axes = plt.subplots(1, 2, figsize=(12, 5))  # 1行2列の図を作成

# 1つ目の図 (平均値)
data_with_outliers = np.concatenate((_data, [2000, 2200, 2500]))
axes[0].hist(data_with_outliers, bins=range(0, 2501, 100), edgecolor='black', color='lightblue')
mean_original = np.mean(_data)
mean_with_outliers = np.mean(data_with_outliers)
axes[0].axvline(x=mean_original, color='green', linestyle='--', label='元のデータの中央値')
axes[0].axvline(x=mean_with_outliers, color='purple', linestyle='--', label='外れ値を含むデータの中央値')
axes[0].text(mean_original + 20, 12, f'{mean_original:.1f}', color='green')
axes[0].text(mean_with_outliers + 20, 6, f'{mean_with_outliers:.1f}', color='purple')
axes[0].set_xlabel('値')
axes[0].set_ylabel('頻度')
axes[0].set_title('外れ値による平均値の変化')
axes[0].legend()
axes[0].grid(True)

# 2つ目の図 (外れ値あり)
data_with_outliers = np.concatenate((_data, [2000, 2200, 2500]))
axes[1].hist(data_with_outliers, bins=range(0, 2501, 100), edgecolor='black', color='lightblue')
median_original = np.median(_data)
median_with_outliers = np.median(data_with_outliers)
axes[1].axvline(x=median_original, color='green', linestyle='--', label='元のデータの中央値')
axes[1].axvline(x=median_with_outliers, color='purple', linestyle='--', label='外れ値を含むデータの中央値')
axes[1].text(median_original + 20, 12, f'{median_original:.1f}', color='green')
axes[1].text(median_with_outliers + 20, 6, f'{median_with_outliers:.1f}', color='purple')
axes[1].set_xlabel('値')
axes[1].set_ylabel('頻度')
axes[1].set_title('外れ値による中央値の変化')
axes[1].legend()
axes[1].grid(True)

# 図を表示
plt.tight_layout()  # 図の間隔を調整
plt.show()


以下の図は、平均は80であるが分散の異なるデータを可視化したものである。
データのばらつきが大きくなると、分散も大きくなることが分かる。

# 分散の比較

以下の図は、平均は80であるが分散の異なるデータを可視化したものである。
データのばらつきが大きくなると、分散も大きくなることが分かる。

In [None]:
#@title 分散の異なる分布の比較
# prompt: 平均が80の正規分布から点を100個生成してヒストグラムで可視します。分散が1, 10, 20, 40 の4パターンの図をまとめて表示してください。軸の目盛りは縦も横も統一します。seabornを使います。

import matplotlib.pyplot as plt
import numpy as np
# 平均が50の正規分布から点を100個生成
np.random.seed(0)  # 乱数シードを設定
data1 = np.random.normal(80, 1, 100)
data2 = np.random.normal(80, 10, 100)
data3 = np.random.normal(80, 20, 100)
data4 = np.random.normal(80, 40, 100)

# 4つのサブプロットを作成
fig, axes = plt.subplots(2, 2, figsize=(10, 8))

# ヒストグラムを描画
sns.histplot(data1, ax=axes[0, 0], kde=False)
axes[0, 0].set_title('分散 = 1')
axes[0, 0].grid(True)

sns.histplot(data2, ax=axes[0, 1], kde=False)
axes[0, 1].set_title('分散 = 10')
axes[0, 1].grid(True)

sns.histplot(data3, ax=axes[1, 0], kde=False)
axes[1, 0].set_title('分散 = 20')
axes[1, 0].grid(True)

sns.histplot(data4, ax=axes[1, 1], kde=False, bins=25)
axes[1, 1].set_title('分散 = 40')
axes[1, 1].grid(True)

# 軸の範囲を統一
for ax in axes.flat:
    ax.set_xlim(-40, 180)
    ax.set_ylim(0, 30)

# ラベルを設定
fig.supxlabel('値')
fig.supylabel('頻度')

# タイトルを設定
fig.suptitle('異なる分散を持つ正規分布のヒストグラム', fontsize=16)

# レイアウトを調整
plt.tight_layout()

# 図を表示
plt.show()



---
---
---