# 第6章 Matplotlibによるデータ可視化

私たちの身の回りには、日々の売上記録やアンケートの回答結果、気温の変化など、さまざまな「データ」があふれています。こうした大量の数値データをそのまま眺めても、その意味や傾向をすぐに読み取ることは容易ではありません。そこで重要となるのが「データの可視化」です。データの可視化とは、数字の羅列をグラフや図などの視覚的な形に変換することで、情報をより直感的に理解しやすくする手法です。傾向やパターン、外れ値などを素早く把握できるだけでなく、他者に情報を伝える際にも非常に有効です。

本章では、折れ線グラフや棒グラフなど代表的な可視化の種類について紹介するとともに、Pythonの強力な可視化ライブラリである「Matplotlib」を用いて、実際にグラフを作成する方法を学びます。データを「見える化」することで、その背後にある意味を深く理解する力を身につけましょう。



## 6.1 データ可視化の基本

データの可視化は、数値データをグラフや図などに変換することで、データの傾向やパターン、外れ値を素早く把握することを可能にします。適切な可視化手法を選択することで、データの持つ情報を効果的に伝えることができます。

代表的なグラフには、折れ線グラフ、棒グラフ、箱ひげ図、散布図などがあります。それぞれのグラフは特定のデータ表現に適しており、目的に応じて選択する必要があります。

### 代表的なグラフとその目的

| グラフの種類 | 主な目的 | 適したデータ |
|------------|---------|------------|
| 折れ線グラフ | 時系列データの変化や傾向を表現する | 時間経過に伴う連続的な変化を持つデータ |
| 棒グラフ | カテゴリ間の値を比較する | カテゴリ別の数値データ、頻度データ |
| 箱ひげ図 | データの分布や外れ値を可視化する | 数値データの分布、複数グループの比較 |
| 散布図 | 2つの変数間の関係性を調べる | 2つの連続変数を持つデータセット |

前章では、可視化ライブラリであるMatplotlibの基本的な使い方について学びました。本章では、まずMatplotlibを用いて基本的なグラフを描画する方法に焦点を当てます。そのうえで、さらに表現力の高いグラフを作成するために、高度な可視化を可能にするライブラリ「Seaborn」にも触れていきます。



## 6.2 折れ線グラフ

折れ線グラフは、時系列データの変化や傾向を視覚化するのに適しています。株価の推移、気温の変化、売上の推移など、時間とともに変化するデータを表現するのに効果的です。

Matplotlibで折れ線グラフを描画するには、 `plt.plot()` 関数を使用します。基本的な使い方は、X軸のデータとY軸のデータをリストやNumPy配列などで与えることです。

- **基本構文**
  ```python
  import matplotlib.pyplot as plt
  plt.plot(x, y, format_string, other_options)
  ```
  - `x`：x 軸のデータ（リストや NumPy 配列など）
  - `y`：y 軸のデータ
  - `format_string`（省略可）：色・線種・マーカーの指定（例：'ro--'）
  - `other_options`：ラベルやスタイルなどのキーワード引数（例：label,

| 文字 | 意味         | 例      |
|------|--------------|---------|
| `'r'`  | 赤           | `'r'`     |
| `'g'`  | 緑           | `'g--'`   |
| `'b'`  | 青           | `'b^:'`   |
| `'-'`  | 実線         | `'k-'`    |
| `'--'` | 破線         | `'m--'`   |
| `'o'`  | 丸マーカー   | `'ro'`    |
| `'^'`  | 三角マーカー | `'g^'`    |  


  


- **例1：月ごとの平均気温の変化**

  ここでは、都市における月ごとの平均気温データを折れ線グラフで表示してみましょう。
  ```python
  # リスト6.1

  import matplotlib.pyplot as plt
  import numpy as np
  # サンプルデータ (月と平均気温)
  months = np.arange(1, 13) # 1月から12月
  temperatures = np.array([5, 6, 10, 15, 20, 24, 28, 27, 23, 17, 11, 7])
  # 折れ線グラフの描画
  plt.plot(months, temperatures)
  # グラフの表示
  plt.show()
  ```
  このコードを実行すると、図6.1に示すように、月（X軸）に対する平均気温（Y軸）の変化を表す折れ線グラフが表示される。ただし、このグラフにはタイトルや軸ラベルが付けられていないため、何を示しているのかが読み取りにくい。
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_1_Simple.png?raw=true" width="400">
<figcaption align = "center"> Fig 6.1： 月ごとの平均気温データを折れ線グラフ.</figcaption>
</figure>
  そこで、plt.title()、plt.xlabel()、plt.ylabel() などの関数を用いて、グラフにタイトルや軸のラベルを追加することで、図6.2のように視覚的に分かりやすいグラフにすることができる。

  ```python
  # リスト6.2

  plt.plot(months, temperatures, marker='o', color='blue', label='Average Temperature')
  # タイトルの追加
  plt.title('Average Monthly Temperature')
  # 軸ラベルの追加
  plt.xlabel('Month ')
  plt.ylabel('Temperature(℃)')
  # x軸の目盛りを1月〜12月に設定
  plt.xticks(months)
  # グリッドの追加（読みやすく）
  plt.grid(True)
  # 凡例の表示
  plt.legend()
  # グラフの表示
  plt.show()
  ```
  

  | 機能     | コマンド                               | 効果                             |
  |----------|----------------------------------------|----------------------------------|
  | タイトル | `plt.title('...')`                    | グラフ全体の説明を追加           |
| 横軸ラベル | `plt.xlabel('...')`  | 横軸の意味を明確にする             |
| 縦軸ラベル |  `plt.ylabel('...')` | 縦軸の意味を明確にする
| 目盛     | `plt.xticks(...)`                     | 月などの具体的な値に変更         |
| 凡例     | `plt.legend()`                        | 線が何を示すか明記               |
| マーカー | `marker='o'`                          | データ点を目立たせる             |
| グリッド線 | `plt.grid(True)`                      | 読み取りやすさアップ             |


<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06//Fig6_2_Setting.png?raw=true" width="800">
<figcaption align = "center"> Fig 6.2： グラフにタイトルや軸のラベルを追加した月ごとの平均気温データを折れ線グラフ.</figcaption>
</figure>

- **例2：複数の折れ線グラフの比較**

  データの傾向を比較する際に、複数の折れ線グラフを1つのグラフにまとめて表示することで、視覚的に違いや共通点を把握しやすくなります。たとえば、2つの都市や2つの年の月ごとの平均気温を比較する場合などに有効です。

  ```python
  # リスト6.3

  import numpy as np
  import matplotlib.pyplot as plt
  # 月（1月〜12月）
  months = np.arange(1, 13)
  # 都市Aの平均気温データ
  temps_city_a = np.array([5, 6, 10, 15, 20, 24, 28, 27, 23, 17, 11, 7])
  # 都市Bの平均気温データ
  temps_city_b = np.array([2, 3, 7, 13, 18, 22, 26, 25, 20, 14, 8, 4])
  # 折れ線グラフの描画（都市A）
  plt.plot(months, temps_city_a, marker='o', color='orange', label='City A')
  # 折れ線グラフの描画（都市B）
  plt.plot(months, temps_city_b, marker='s', color='blue', label='City B')
  # タイトルと軸ラベル
  plt.title('Monthly Average Temperature Comparison')
  plt.xlabel('Month')
  plt.ylabel('Temperature (℃)')
  # x軸目盛り
  plt.xticks(months)
  # グリッドと凡例の表示
  plt.grid(True)
  plt.legend()
  # グラフの表示
  plt.show()
  ```
  このコードを実行すると、図6.3に示すように、コードでは、2つの異なる地域（City A と City B）の月ごとの平均気温を比較し、それぞれ異なる色とマーカーを用いて折れ線グラフに表示しています。
  <figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_3_curves.png?raw=true" width="400">
<figcaption align = "center"> Fig 6.3： 複数の折れ線グラフの例：2つの異なる地域（City A と City B）の月ごとの平均気温を比較.</figcaption>
</figure>

## 6.4 棒グラフ

棒グラフ（bar chart）は、カテゴリごとの数値データの大小を視覚的に比較するのに適したグラフです。たとえば、果物の売上数やクラスごとの平均点など、分類されたデータを見やすく整理・比較する際に用いられます。

- **基本構文**
  
  PythonのMatplotlibでは、`plt.bar()`という関数を使って棒グラフを描くことができます。基本的な構文は以下のとおりです：

  ```python
  plt.bar(x, height,, color=..., width=..., label=...)
  ```

  - `x`: 横軸（カテゴリ名など）
  - `height`: 縦軸（対応する値）
  - `color`（オプション）：棒の色を指定します。例： `blue`、`red`、'#88CCEE' など
  - `width`（オプション）：棒の幅を指定します。1.0が標準で、0.5にすると細く、1.5にすると太くなります
  - `label`（オプション）：凡例（ラベル）に表示される名前を指定します。`plt.legend()`と組み合わせて使います


- **例1：果物の販売個数**

  以下は、果物の販売個数を棒グラフで表した例です：

  ```python
  # リスト6.4

  import matplotlib.pyplot as plt
  # 果物の名前と売上データを用意
  fruits = ['Apple', 'Orange', 'Banana', 'Grape']
  sales = [30, 25, 45, 10]
  # 棒グラフを描画
  plt.bar(fruits, sales)
  # グラフのタイトルと軸ラベルを設定
  plt.title('Fruit Sales')
  plt.xlabel('Type of Fruit')
  plt.ylabel('Number of Sales')
  # グラフを表示
  plt.show()
  ```
  Fig 6.4を見ることで、どの果物が最も売れているかが一目でわかります。
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_4_bar.png?raw=true" width="400">
<figcaption align = "center"> Fig 6.4： 果物の販売個数を棒グラフ.</figcaption>
</figure>


- **例2：グループ化された棒グラフ**

  複数のカテゴリに対して、複数の系列のデータを比較したい場合には、「グループ化された棒グラフ（grouped bar chart）」が便利です。
  
  次の例では、2つの店舗での果物の売上を比較しています：

  ```python
  #　リスト6.5

  # 果物のカテゴリと2つの店舗の売上データを用意
  fruits = ['Apple', 'Orange', 'Banana', 'Grape']
  sales_A = [30, 25, 45, 10]
  sales_B = [20, 30, 35, 15]
  # x軸の位置を計算
  x = np.arange(len(fruits))
  # 棒の幅を設定
  width = 0.35
  # グループ化された棒グラフを描画
  plt.bar(x - width/2, sales_A, width, label='Store A')
  plt.bar(x + width/2, sales_B, width, label='Store B')
  # x軸のラベル（果物名）を設定
  plt.xticks(x, fruits)
  # 軸ラベルとタイトルを設定
  plt.xlabel('Type of Fruit')
  plt.ylabel('Number of Sales')
  plt.title('Fruit Sales by Store')
  # 凡例を表示
  plt.legend()
  # グラフを表示
  plt.grid(True)
  plt.show()
  ```
  Fig 6.5ように、並べた棒を比較することで、2つの店舗間の売上の違いが明確に表現されます。
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_5_group_bar.png?raw=true" width="400">
<figcaption align = "center"> Fig 6.5： 2つの店舗間の売上の棒グラフ.</figcaption>
</figure>

- **ヒストグラム**

  ヒストグラム（histogram）は、数値データの分布のようすを視覚的に表すためのグラフです。棒グラフと似ていますが、ヒストグラムでは**連続する数値をいくつかの区間（**ビン：bin）に分けて、その区間ごとのデータの数を棒の高さで表します。

  たとえば、以下のプログラムでは、あるクラスのテストの点数がどの点数帯に集中しているかを確認することができます。

  ```python
  #　リスト6.6
  import matplotlib.pyplot as plt
  # テストの点数データ
  scores = [55, 67, 78, 70, 90, 88, 76, 85, 60, 73, 82, 91, 77]
  # 区間（ビン）の境界を指定
  bins_10 = [50, 60, 70, 80, 90, 100]
  # ヒストグラムを作成（binsは点数の区間の数を指定）
  plt.hist(scores, bins=bins_10, width=9.5, edgecolor='black')
  # グラフのタイトルを設定
  plt.title('Distribution of Test Scores')  # テスト点数の分布
  # 横軸のラベルを設定
  plt.xlabel('Score Range')  # 点数の範囲
  # 縦軸のラベルを設定
  plt.ylabel('Number of Students')  # 人数
  # 縦軸のグリッドのみ表示
  plt.grid(axis='y')
  # グラフを表示
  plt.show()
  ```
  Fig 6.6に示すヒストグラムを使うと、どの点数の範囲に多くの生徒がいるのかを一目で知ることができます。たとえば、70点〜80点のあいだに多くの生徒がいることが分かる場合、その点数帯に集中していることがわかります。
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_6_Histogram.png?raw=true" width="400">
<figcaption align = "center"> Fig 6.6： テストの点数のヒストグラム.</figcaption>
</figure>



## 6.5 箱ひげ図

箱ひげ図（boxplot）は、データの分布の要約を視覚的に表現するのに適しています。中央値、四分位範囲、外れ値などの統計量を一度に表示できるため、複数のデータセットを比較する場合に特に有用です。

第4章では、データの要約統計量について説明しました。本節では、具体的なデータ例を用いて、要約統計量の計算方法と、それに基づく箱ひげ図の作成方法について解説します。Fig 6.7には、あるクラスの23人の生徒の毎日学習時間（分）のデータが示されています。このデータに対して要約統計量を計算した結果と箱ひげ図は、同じくFig 6.7に示されています。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_7_data_ex.png?raw=true" width="800">
<figcaption align = "center"> Fig 6.7： データの要約統計量と箱ひげ図の例。</figcaption>
</figure>

このデータには、極端に大きい値や小さい値が含まれている可能性があります。そのため、外れ値を取り除いたうえで、箱ひげ図に描かれる5つの代表的な統計量を以下に求めます。

1. **中央値（Q2）**：
   データの中央に位置する値です。データセットの中央値は、昇順に並べた場合、11番目の値 `72` です。
2. **第1四分位数（Q1）**：
   データを昇順に並べ、下位25%の位置にある値が第1四分位数です。データセットを並べると、6番目の値 `54` です。
3. **第3四分位数（Q3）**：
   データを昇順に並べ、上位25%の位置にある値が第3四分位数です。データセットを並べると、17番目の値 `79` です。
4. **外れ値（outlier）**：第1四分位数や第3四分位数から四分位範囲（IQR: $ Q_3-Q_1$）の1.5倍以上離れた値。
5. **最小値（minimum）**：
   最小値はデータの中で最も小さい値です（外れ値を除く）。このデータセットの最小値は `35` です。
6. **最大値（maximum）**：
   最大値はデータの中で最も大きい値です（外れ値を除く）。このデータセットの最大値は `88` です。

これらの値を使って、次のような構造が作られます。

- **箱（box）**：Q1 から Q3 までの範囲を表し、箱の中に中央値の線が引かれます。
- **ひげ（whisker）**：箱の上下に伸びる線で、最小値から最大値までの範囲を表します（ただし、外れ値は除く）。
- **外れ値（outlier）**：通常の範囲を超えているデータで、個別の点として表示されます。


### 6.5.1 箱ひげ図の作成
Matplotlib では、`plt.boxplot()` 関数を使って箱ひげ図を作成することができます。基本的な構文は以下の通りです。

```python
plt.boxplot(x, オプション)
```

主な引数：

| 引数 | 説明 |
|------|------|
| `x` | 数値データ。1つまたは複数のデータ系列をリストや配列の形式で指定します。 |
| `vert` | 箱ひげ図を縦向きに描くか（`True`）横向きに描くか（`False`）を指定します。初期値は `True`。 |
| `patch_artist` | `True` にすると箱を塗りつぶすことができます（色付きの箱になります）。 |
| `labels` | 複数の箱ひげ図にラベル（カテゴリ名）をつけるときに指定します。 |
| `showfliers` | 外れ値を表示するかどうか（`True` で表示、`False` で非表示）。初期値は `True`。 |
| `meanline` | 平均値を線として表示するかどうか（`True` で表示、初期値は `False`）。 |

Fig 6.7 に描かれる箱ひげ図は、以下のように生成できます。
```python
# リスト 6.7
import matplotlib.pyplot as plt

# データ
data = [62, 77, 44, 41, 77, 69, 79, 79, 75, 35, 48, 81, 75, 64, 72, 88, 81, 56, 54, 59, 118, 123, 18]

# 箱ひげ図を描く
plt.boxplot(data)
plt.title("Fig 6.7: boxplot")
plt.ylabel("Values")
plt.show()
```
このコードを実行すると、Fig 6.7 のような箱ひげ図が表示され、中央値（`72`）、第1四分位数（`54`）、第3四分位数（`79`）がに示されます。また、外れ値として `18` ,`118` と `123` がひげより外に描かれ、最小値（`35`）、最大値（`88`）がに示されます。


### 6.4.2 複数グループの箱ひげ図
複数のグループ間でデータの分布を比較したい場合、それぞれのグループに対して箱ひげ図を並べて描画することで、中央値やばらつき、外れ値の有無を視覚的に把握できます。リスト6.8では、Fig6.8に示すように、異なる標準偏差をもつ4つのグループのデータを用いて、比較のための箱ひげ図を作成します。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_06/Fig6_8_multi_boxplot.png?raw=true" width="800">
<figcaption align = "center"> Fig 6.7： データの要約統計量と箱ひげ図の例。</figcaption>
</figure>

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備：標準偏差が異なる正規分布データを4グループ分生成
data = [np.random.normal(0, std, 100) for std in range(1, 5)]
labels = ['Group 1', 'Group 2', 'Group 3', 'Group 4']

# 箱ひげ図の作成
box = plt.boxplot(data, patch_artist=True, tick_labels=labels)

# 各グループの箱に色を設定
colors = ['lightblue', 'lightgreen', 'tan', 'pink']
for patch, color in zip(box['boxes'], colors):
    patch.set_facecolor(color)

# グラフの装飾
plt.title('Group boxplot')       # グラフタイトル
plt.ylabel('Value')              # Y軸ラベル
plt.grid(True, linestyle='--', alpha=0.7)  # 罫線の表示
plt.show()
```
関数の説明：
- `np.random.normal(0, std, 100)` により、平均0、標準偏差 `std` の正規分布に従うデータを100個生成しています。これを `std = 1` から `std = 4` まで変化させて4つの異なるグループを用意しています。
- `plt.boxplot()` は複数グループの箱ひげ図を同時に描くために使われます。
- 引数 `patch_artist=True` により、箱を塗りつぶすことができるようになります。
- `tick_labels=labels` により、各箱に対応するグループ名（ラベル）を表示しています。
- 色の指定には `box['boxes']` を用いて各箱（patch）に異なる色を設定しています。
- グリッド線を表示することで、数値の比較がしやすくなっています。

このようにして描かれた箱ひげ図では、各グループの中央値・ばらつき（四分位範囲）・外れ値などが一目で比較できます。特に標準偏差が大きくなるにつれて箱（四分位範囲）やひげの長さが広がる様子が視覚的に確認でき、分布の広がりの違いを理解する上で有効な手法です。



## 6.5 散布図

散布図（scatter plot）は、2つの数値データの関係を把握するために表すグラフです。縦軸（Y軸）と横軸（X軸）にそれぞれ異なる変数をとり、それぞれのデータ点を点（プロット）として表示します。

散布図は次のような目的で使用されます。

- 2つの変数の間に相関関係があるかを確認する  
- 外れ値（他のデータと大きく異なる値）を見つける  
- データの広がりや分布の傾向を理解する

例えば、学生の「勉強時間」と「テストの点数」の関係を見るときに散布図を使うと、勉強時間が長いほど点数が高くなるという傾向が見えるかもしれません。

### 6.5.1 散布図の作成
PythonのMatplotlibライブラリでは、`plt.scatter()` を使って散布図を作成します。基本的な構文は以下のとおりです。

```python
plt.scatter(x, y)
```

- `x`：X軸に対応するデータ（リストやNumPy配列など）  
- `y`：Y軸に対応するデータ

オプションを使えば、点の色や大きさ、透明度などを調整することもできます。例えば：

```python
plt.scatter(x, y, color='blue', s=50, alpha=0.7)
```

- `color`：点の色  
- `s`：点の大きさ（size）  
- `alpha`：透明度（0〜1）

以下の例では、ある町の賃貸マンション30件の「月額家賃（万円）」と「専有面積（㎡）」のデータをもとに散布図を作成するPythonコードです。

```python
#リスト 6.9
import matplotlib.pyplot as plt
import numpy as np

# データ：30件の賃貸マンション
area = [67,54,59,72,68,40,59,48,48,54,51,64,57,51,54,53,64,47,53,41,24,56,58,42,72,35,50,48,65,64]   # 専有面積（㎡）
rent = [17,14,13,14,16,10,17,14,11,12,10,13,10,16,12,12,13,13,10, 9, 4,14,13, 8,18, 9,12,12,15,15]  # 家賃（万円）

# 散布図の作成
plt.scatter(area, rent, color='blue', alpha=0.7)

# グラフの装飾
plt.title('Relationship between Rent and Floor Area')
plt.xlabel('Floor Area (m²)')
plt.ylabel('Monthly Rent (10,000 JPY)')
plt.grid(True)
```
Fig 6.9に示すように、面積が広くなるほど家賃も高くなる傾向があることがわかります。このように、散布図は変数間の関係を直感的に把握するのに役立ちます。



## **まとめ**
この章では、Pythonの代表的な可視化ライブラリであるMatplotlibを用いて、基本的なグラフの作成方法を学びました。折れ線グラフ、棒グラフ、円グラフ、ヒストグラム、箱ひげ図、散布図など、さまざまなグラフの種類とその使い分けについて具体的な例とともに紹介しました。また、`plt.plot()` や `plt.bar()`、`plt.scatter()` などの基本的な関数の使い方、ラベルやタイトルの追加、色やスタイルのカスタマイズといった、実践的な可視化のスキルも習得しました。データを視覚的にとらえる力は、分析結果を分かりやすく伝える上で非常に重要です。本章で学んだ内容は、今後のデータ分析やプレゼンテーションにおいて基礎となるスキルとなります。


# 第6章 Matplotlibによるデータ可視化(Claude)

## 6.1 データ可視化の基本

データ分析において、データを可視化することは非常に重要です。データの可視化は、大量の数値データを視覚的な形式に変換することで、データの傾向やパターン、外れ値を素早く把握することを可能にします。適切な可視化手法を選択することで、データの持つ情報を効果的に伝えることができます。

データの可視化を行う目的は主に以下の通りです：
- データの全体像を把握する
- データ間の関係性や傾向を見つける
- 異常値や外れ値を検出する
- 分析結果を他者に効果的に伝える
- 意思決定のサポートをする

代表的なグラフには、折れ線グラフ、棒グラフ、箱ひげ図、散布図などがあります。それぞれのグラフは特定のデータ表現に適しており、目的に応じて選択する必要があります。

### 代表的なグラフとその目的

| グラフの種類 | 主な目的 | 適したデータ |
|------------|---------|------------|
| 折れ線グラフ | 時系列データの変化や傾向を表現する | 時間経過に伴う連続的な変化を持つデータ |
| 棒グラフ | カテゴリ間の値を比較する | カテゴリ別の数値データ、頻度データ |
| 箱ひげ図 | データの分布や外れ値を可視化する | 数値データの分布、複数グループの比較 |
| 散布図 | 2つの変数間の関係性を調べる | 2つの連続変数を持つデータセット |

## 6.2 Pythonの可視化ライブラリ：MatplotlibとSeaborn

### Matplotlib

Matplotlibは、Pythonにおける最も基本的で広く使われているデータ可視化ライブラリです。科学計算やデータ分析のための豊富な機能を備えており、様々な種類のグラフを作成することができます。Matplotlibは柔軟性が高く、グラフの細部まで細かくカスタマイズすることが可能です。

基本的なMatplotlibの使用方法：

```python
import matplotlib.pyplot as plt

# データの準備
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# グラフの作成
plt.plot(x, y)
plt.title('基本的な折れ線グラフ')
plt.xlabel('X軸')
plt.ylabel('Y軸')
plt.show()
```

### Seaborn

Seabornは、Matplotlibをベースにして構築された高水準のデータ可視化ライブラリです。統計的なグラフ作成に特化しており、デフォルトで美しいグラフが作成できます。また、Pandasと連携しやすく、データフレームから直接可視化することが可能です。

Seabornの基本的な使用方法：

```python
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# サンプルデータセットの読み込み
tips = sns.load_dataset('tips')

# 散布図の作成
sns.scatterplot(x='total_bill', y='tip', data=tips)
plt.title('Seabornを使用した散布図')
plt.show()
```

## 6.3 折れ線グラフとMatplotlib実例

折れ線グラフは、時系列データの変化や傾向を視覚化するのに適しています。株価の推移、気温の変化、売上の推移など、時間とともに変化するデータを表現するのに効果的です。

### 折れ線グラフの基本

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)  # 0から10まで100点生成
y1 = np.sin(x)               # sin関数
y2 = np.cos(x)               # cos関数

# グラフの作成
plt.figure(figsize=(10, 6))  # グラフサイズ指定
plt.plot(x, y1, label='sin(x)')
plt.plot(x, y2, label='cos(x)')

# グラフの装飾
plt.title('三角関数のグラフ')
plt.xlabel('x')
plt.ylabel('y')
plt.grid(True)               # グリッド線表示
plt.legend()                 # 凡例表示
plt.show()
```

### 複数の折れ線グラフの比較

```python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 時系列データの準備
dates = pd.date_range('2023-01-01', periods=100, freq='D')
data1 = np.cumsum(np.random.randn(100))  # ランダムウォーク
data2 = np.cumsum(np.random.randn(100) * 0.5 + 0.1)

# グラフの作成
plt.figure(figsize=(12, 6))
plt.plot(dates, data1, 'b-', label='シリーズ1')
plt.plot(dates, data2, 'r--', label='シリーズ2')

# グラフの装飾
plt.title('時系列データの比較')
plt.xlabel('日付')
plt.ylabel('値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()
```

## 6.4 棒グラフとMatplotlib実例、ヒストグラム

### 棒グラフ

棒グラフは、カテゴリデータの比較に適しています。異なるグループ間の値を比較したり、時間の経過に伴う変化を離散的に表現したりするのに効果的です。

#### 基本的な棒グラフ

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 56, 78, 32]

# グラフの作成
plt.figure(figsize=(8, 6))
plt.bar(categories, values, color='skyblue')

# グラフの装飾
plt.title('カテゴリ別の値')
plt.xlabel('カテゴリ')
plt.ylabel('値')
plt.grid(True, axis='y', linestyle='--', alpha=0.7)
plt.show()
```

#### グループ化された棒グラフ

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
categories = ['A', 'B', 'C', 'D']
men_means = [20, 34, 30, 35]
women_means = [25, 32, 34, 20]

# 棒の位置を設定
x = np.arange(len(categories))
width = 0.35

# グラフの作成
fig, ax = plt.subplots(figsize=(10, 6))
rects1 = ax.bar(x - width/2, men_means, width, label='男性')
rects2 = ax.bar(x + width/2, women_means, width, label='女性')

# グラフの装飾
ax.set_title('性別ごとのカテゴリ別平均値')
ax.set_xlabel('カテゴリ')
ax.set_ylabel('平均値')
ax.set_xticks(x)
ax.set_xticklabels(categories)
ax.legend()

# 各棒の上に値を表示
def autolabel(rects):
    for rect in rects:
        height = rect.get_height()
        ax.annotate(f'{height}',
                    xy=(rect.get_x() + rect.get_width() / 2, height),
                    xytext=(0, 3),  # 3ポイント上方向にオフセット
                    textcoords="offset points",
                    ha='center', va='bottom')

autolabel(rects1)
autolabel(rects2)

plt.tight_layout()
plt.show()
```

### ヒストグラム

ヒストグラムは、連続的なデータの分布を表現するのに適しています。データの頻度や密度を可視化し、データの分布形状を把握するのに役立ちます。

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
data = np.random.normal(0, 1, 1000)  # 平均0、標準偏差1の正規分布

# ヒストグラムの作成
plt.figure(figsize=(10, 6))
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)

# グラフの装飾
plt.title('正規分布のヒストグラム')
plt.xlabel('値')
plt.ylabel('頻度')
plt.grid(True, linestyle='--', alpha=0.7)
plt.axvline(data.mean(), color='red', linestyle='dashed', linewidth=1)
plt.text(data.mean()+0.1, plt.ylim()[1]*0.9, f'平均: {data.mean():.2f}')
plt.show()
```

## 6.5 箱ひげ図とMatplotlib実例

箱ひげ図（ボックスプロット）は、データの分布の要約を視覚的に表現するのに適しています。中央値、四分位範囲、外れ値などの統計量を一度に表示できるため、複数のデータセットを比較する場合に特に有用です。

### 基本的な箱ひげ図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
data = [np.random.normal(0, std, 100) for std in range(1, 5)]
labels = ['グループ1', 'グループ2', 'グループ3', 'グループ4']

# 箱ひげ図の作成
plt.figure(figsize=(10, 6))
box = plt.boxplot(data, patch_artist=True, labels=labels)

# 箱の色を設定
colors = ['lightblue', 'lightgreen', 'tan', 'pink']
for patch, color in zip(box['boxes'], colors):
    patch.set_facecolor(color)

# グラフの装飾
plt.title('グループ別の箱ひげ図')
plt.ylabel('値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()
```

### 水平方向の箱ひげ図

```python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# データの準備
np.random.seed(42)
data = pd.DataFrame({
    'A': np.random.normal(0, 2, 100),
    'B': np.random.normal(3, 1.5, 100),
    'C': np.random.normal(-2, 1, 100),
    'D': np.random.normal(1, 3, 100)
})

# 水平方向の箱ひげ図を作成
plt.figure(figsize=(12, 6))
plt.boxplot(data.values, vert=False, labels=data.columns)

# グラフの装飾
plt.title('水平方向の箱ひげ図による比較')
plt.xlabel('値')
plt.grid(True, axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
```

## 6.6 散布図とMatplotlib実例

散布図は、2つの変数間の関係性を調べるのに適しています。相関関係やパターンを視覚的に確認できるため、変数間の関連性を分析する際に重要なツールとなります。

### 基本的な散布図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = 2 * x + np.random.randn(50) * 2  # 線形関係 + ノイズ

# 散布図の作成
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='blue', alpha=0.6)

# グラフの装飾
plt.title('基本的な散布図')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
```

### カラーマップを使用した散布図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(100) * 10
y = np.random.rand(100) * 10
sizes = np.random.rand(100) * 200 + 50  # 点の大きさ
colors = np.random.rand(100)  # 色の値

# 散布図の作成
plt.figure(figsize=(10, 8))
scatter = plt.scatter(x, y, s=sizes, c=colors, cmap='viridis',
                     alpha=0.7, edgecolors='black', linewidths=0.5)

# カラーバーの追加
plt.colorbar(scatter, label='値')

# グラフの装飾
plt.title('カラーマップと大きさを使用した散布図')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()
```

### バブルチャート（大きさが変わる散布図）

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(20) * 10
y = np.random.rand(20) * 10
sizes = np.random.rand(20) * 1000 + 100  # 点の大きさ（面積に比例）

# バブルチャートの作成
plt.figure(figsize=(10, 8))
plt.scatter(x, y, s=sizes, alpha=0.5, edgecolors='black')

# グラフの装飾
plt.title('バブルチャート（大きさが異なる散布図）')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.7)

# 凡例の追加（サイズの参考）
for size in [100, 500, 1000]:
    plt.scatter([], [], s=size, alpha=0.5, edgecolors='black',
               label=f'サイズ: {size}')
plt.legend(scatterpoints=1, frameon=True, labelspacing=1)

plt.tight_layout()
plt.show()
```

## 6.7 グラフの調整

Matplotlibでは、グラフの様々な要素を細かく調整することができます。以下では、軸ラベル、グラフサイズ、線や点のスタイル、テキストの書式などの調整方法を説明します。

### 軸ラベルとタイトルの調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x)

# グラフの作成
plt.figure(figsize=(10, 6))
plt.plot(x, y)

# タイトルと軸ラベルの調整
plt.title('サイン関数のグラフ', fontsize=18, fontweight='bold', color='navy')
plt.xlabel('x値', fontsize=14, color='darkgreen')
plt.ylabel('sin(x)', fontsize=14, color='darkred')

plt.show()
```

### グラフサイズと余白の調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x)

# グラフサイズの指定
plt.figure(figsize=(12, 6))  # 幅12インチ、高さ6インチ

plt.plot(x, y)
plt.title('グラフサイズの調整例')

# 余白の調整
plt.subplots_adjust(left=0.1, right=0.95, top=0.9, bottom=0.15)
# または
# plt.tight_layout()  # 自動で最適な余白を設定

plt.show()
```

### 線のスタイル、色、マーカーの調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 20)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x) * np.cos(x)

# グラフの作成
plt.figure(figsize=(12, 8))

# 線のスタイル、色、マーカーを指定
plt.plot(x, y1, 'r-o', linewidth=2, markersize=8, label='sin(x)')  # 赤い実線、丸マーカー
plt.plot(x, y2, 'b--s', linewidth=2, markersize=8, label='cos(x)')  # 青い破線、四角マーカー
plt.plot(x, y3, 'g-.^', linewidth=2, markersize=8, label='sin(x)*cos(x)')  # 緑の一点鎖線、三角マーカー

# 凡例の表示
plt.legend(fontsize=12)

# グリッド線の表示
plt.grid(True, linestyle='--', alpha=0.7)

plt.title('線のスタイル、色、マーカーの調整')
plt.xlabel('x値')
plt.ylabel('y値')

plt.show()
```

### テキスト、注釈、矢印の追加

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

# グラフの作成
plt.figure(figsize=(12, 8))
plt.plot(x, y, 'b-', linewidth=2)

# テキストの追加
plt.text(np.pi/2, 0, 'π/2', fontsize=12, ha='center')
plt.text(np.pi, 0, 'π', fontsize=12, ha='center')
plt.text(3*np.pi/2, 0, '3π/2', fontsize=12, ha='center')
plt.text(2*np.pi, 0, '2π', fontsize=12, ha='center')

# 注釈と矢印の追加
plt.annotate('最大値', xy=(np.pi/2, 1), xytext=(np.pi/2+0.5, 0.8),
            arrowprops=dict(facecolor='black', shrink=0.05, width=1.5),
            fontsize=12)

plt.annotate('最小値', xy=(3*np.pi/2, -1), xytext=(3*np.pi/2-0.5, -0.8),
            arrowprops=dict(facecolor='black', shrink=0.05, width=1.5),
            fontsize=12)

plt.title('テキスト、注釈、矢印の追加')
plt.xlabel('x値')
plt.ylabel('sin(x)')
plt.grid(True)
plt.tight_layout()
plt.show()
```

### グラフの保存

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x) * np.exp(-0.1*x)

# グラフの作成
plt.figure(figsize=(10, 6), dpi=100)  # DPIを指定すると解像度が変わる
plt.plot(x, y, 'b-', linewidth=2)

plt.title('減衰する正弦波')
plt.xlabel('時間')
plt.ylabel('振幅')
plt.grid(True)

# グラフを保存（様々なフォーマットで保存可能）
plt.savefig('damped_sine.png', dpi=300)  # PNG形式で保存
plt.savefig('damped_sine.pdf')  # PDF形式で保存
plt.savefig('damped_sine.svg')  # SVG形式で保存

plt.show()
```

### サブプロットの活用

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x) * np.cos(x)
y4 = np.sin(x) * np.exp(-0.1*x)

# 2×2のサブプロットを作成
fig, axs = plt.subplots(2, 2, figsize=(12, 10))

# 1つ目のサブプロット
axs[0, 0].plot(x, y1, 'r-')
axs[0, 0].set_title('sin(x)')
axs[0, 0].grid(True)

# 2つ目のサブプロット
axs[0, 1].plot(x, y2, 'g-')
axs[0, 1].set_title('cos(x)')
axs[0, 1].grid(True)

# 3つ目のサブプロット
axs[1, 0].plot(x, y3, 'b-')
axs[1, 0].set_title('sin(x) * cos(x)')
axs[1, 0].grid(True)

# 4つ目のサブプロット
axs[1, 1].plot(x, y4, 'm-')
axs[1, 1].set_title('sin(x) * exp(-0.1x)')
axs[1, 1].grid(True)

# レイアウトの調整
plt.tight_layout()
plt.show()
```

以上のように、Matplotlibを使用することで、データを様々な形式で可視化し、グラフの見た目を細かく調整することができます。データの特性や伝えたいメッセージに合わせて、適切なグラフの種類と設定を選択することが重要です。

In [1]:
# 第6章 Matplotlibによるデータ可視化(Claude)

## 6.1 データ可視化の基本

私たちは日々、数値や記録などの「データ」を多く扱っています。しかし、たくさんの数字をそのまま見ても、意味を読み取るのは簡単ではありません。データの可視化は、大量の数値データを視覚的な形式に変換することで、データの傾向やパターン、外れ値を素早く把握することを可能にします。適切な可視化手法を選択することで、データの持つ情報を効果的に伝えることができます。

データの可視化を行う目的は主に以下の通りです：
- データの全体像を把握する
- データ間の関係性や傾向を見つける
- 異常値や外れ値を検出する
- 分析結果を他者に効果的に伝える
- 意思決定のサポートをする

代表的なグラフには、折れ線グラフ、棒グラフ、箱ひげ図、散布図などがあります。それぞれのグラフは特定のデータ表現に適しており、目的に応じて選択する必要があります。

### 代表的なグラフとその目的

| グラフの種類 | 主な目的 | 適したデータ |
|------------|---------|------------|
| 折れ線グラフ | 時系列データの変化や傾向を表現する | 時間経過に伴う連続的な変化を持つデータ |
| 棒グラフ | カテゴリ間の値を比較する | カテゴリ別の数値データ、頻度データ |
| 箱ひげ図 | データの分布や外れ値を可視化する | 数値データの分布、複数グループの比較 |
| 散布図 | 2つの変数間の関係性を調べる | 2つの連続変数を持つデータセット |

## 6.2 Pythonの可視化ライブラリ：MatplotlibとSeaborn

### Matplotlib

Matplotlibは、Pythonにおける最も基本的で広く使われているデータ可視化ライブラリです。科学計算やデータ分析のための豊富な機能を備えており、様々な種類のグラフを作成することができます。Matplotlibは柔軟性が高く、グラフの細部まで細かくカスタマイズすることが可能です。

基本的なMatplotlibの使用方法：

```python
import matplotlib.pyplot as plt

# データの準備
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

# グラフの作成
plt.plot(x, y)
plt.title('基本的な折れ線グラフ')
plt.xlabel('X軸')
plt.ylabel('Y軸')
plt.show()
```

### Seaborn

Seabornは、Matplotlibをベースにして構築された高水準のデータ可視化ライブラリです。統計的なグラフ作成に特化しており、デフォルトで美しいグラフが作成できます。また、Pandasと連携しやすく、データフレームから直接可視化することが可能です。

Seabornの基本的な使用方法：

```python
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# サンプルデータセットの読み込み
tips = sns.load_dataset('tips')

# 散布図の作成
sns.scatterplot(x='total_bill', y='tip', data=tips)
plt.title('Seabornを使用した散布図')
plt.show()
```

## 6.3 折れ線グラフとMatplotlib実例

折れ線グラフは、時系列データの変化や傾向を視覚化するのに適しています。株価の推移、気温の変化、売上の推移など、時間とともに変化するデータを表現するのに効果的です。

### 折れ線グラフの基本

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)  # 0から10まで100点生成
y1 = np.sin(x)               # sin関数
y2 = np.cos(x)               # cos関数

# グラフの作成
plt.figure(figsize=(10, 6))  # グラフサイズ指定
plt.plot(x, y1, label='sin(x)')
plt.plot(x, y2, label='cos(x)')

# グラフの装飾
plt.title('三角関数のグラフ')
plt.xlabel('x')
plt.ylabel('y')
plt.grid(True)               # グリッド線表示
plt.legend()                 # 凡例表示
plt.show()
```

### 複数の折れ線グラフの比較

```python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 時系列データの準備
dates = pd.date_range('2023-01-01', periods=100, freq='D')
data1 = np.cumsum(np.random.randn(100))  # ランダムウォーク
data2 = np.cumsum(np.random.randn(100) * 0.5 + 0.1)

# グラフの作成
plt.figure(figsize=(12, 6))
plt.plot(dates, data1, 'b-', label='シリーズ1')
plt.plot(dates, data2, 'r--', label='シリーズ2')

# グラフの装飾
plt.title('時系列データの比較')
plt.xlabel('日付')
plt.ylabel('値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()
```

## 6.4 棒グラフとMatplotlib実例、ヒストグラム

### 棒グラフ

棒グラフは、カテゴリデータの比較に適しています。異なるグループ間の値を比較したり、時間の経過に伴う変化を離散的に表現したりするのに効果的です。

#### 基本的な棒グラフ

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
categories = ['A', 'B', 'C', 'D', 'E']
values = [23, 45, 56, 78, 32]

# グラフの作成
plt.figure(figsize=(8, 6))
plt.bar(categories, values, color='skyblue')

# グラフの装飾
plt.title('カテゴリ別の値')
plt.xlabel('カテゴリ')
plt.ylabel('値')
plt.grid(True, axis='y', linestyle='--', alpha=0.7)
plt.show()
```

#### グループ化された棒グラフ

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
categories = ['A', 'B', 'C', 'D']
men_means = [20, 34, 30, 35]
women_means = [25, 32, 34, 20]

# 棒の位置を設定
x = np.arange(len(categories))
width = 0.35

# グラフの作成
fig, ax = plt.subplots(figsize=(10, 6))
rects1 = ax.bar(x - width/2, men_means, width, label='男性')
rects2 = ax.bar(x + width/2, women_means, width, label='女性')

# グラフの装飾
ax.set_title('性別ごとのカテゴリ別平均値')
ax.set_xlabel('カテゴリ')
ax.set_ylabel('平均値')
ax.set_xticks(x)
ax.set_xticklabels(categories)
ax.legend()

# 各棒の上に値を表示
def autolabel(rects):
    for rect in rects:
        height = rect.get_height()
        ax.annotate(f'{height}',
                    xy=(rect.get_x() + rect.get_width() / 2, height),
                    xytext=(0, 3),  # 3ポイント上方向にオフセット
                    textcoords="offset points",
                    ha='center', va='bottom')

autolabel(rects1)
autolabel(rects2)

plt.tight_layout()
plt.show()
```

### ヒストグラム

ヒストグラムは、連続的なデータの分布を表現するのに適しています。データの頻度や密度を可視化し、データの分布形状を把握するのに役立ちます。

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
data = np.random.normal(0, 1, 1000)  # 平均0、標準偏差1の正規分布

# ヒストグラムの作成
plt.figure(figsize=(10, 6))
plt.hist(data, bins=30, color='skyblue', edgecolor='black', alpha=0.7)

# グラフの装飾
plt.title('正規分布のヒストグラム')
plt.xlabel('値')
plt.ylabel('頻度')
plt.grid(True, linestyle='--', alpha=0.7)
plt.axvline(data.mean(), color='red', linestyle='dashed', linewidth=1)
plt.text(data.mean()+0.1, plt.ylim()[1]*0.9, f'平均: {data.mean():.2f}')
plt.show()
```

## 6.5 箱ひげ図とMatplotlib実例

箱ひげ図（ボックスプロット）は、データの分布の要約を視覚的に表現するのに適しています。中央値、四分位範囲、外れ値などの統計量を一度に表示できるため、
複数のデータセットを比較する場合に特に有用です。

### 基本的な箱ひげ図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
data = [np.random.normal(0, std, 100) for std in range(1, 5)]
labels = ['グループ1', 'グループ2', 'グループ3', 'グループ4']

# 箱ひげ図の作成
plt.figure(figsize=(10, 6))
box = plt.boxplot(data, patch_artist=True, labels=labels)

# 箱の色を設定
colors = ['lightblue', 'lightgreen', 'tan', 'pink']
for patch, color in zip(box['boxes'], colors):
    patch.set_facecolor(color)

# グラフの装飾
plt.title('グループ別の箱ひげ図')
plt.ylabel('値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()
```

### 水平方向の箱ひげ図

```python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# データの準備
np.random.seed(42)
data = pd.DataFrame({
    'A': np.random.normal(0, 2, 100),
    'B': np.random.normal(3, 1.5, 100),
    'C': np.random.normal(-2, 1, 100),
    'D': np.random.normal(1, 3, 100)
})

# 水平方向の箱ひげ図を作成
plt.figure(figsize=(12, 6))
plt.boxplot(data.values, vert=False, labels=data.columns)

# グラフの装飾
plt.title('水平方向の箱ひげ図による比較')
plt.xlabel('値')
plt.grid(True, axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
```

## 6.6 散布図とMatplotlib実例

散布図は、2つの変数間の関係性を調べるのに適しています。相関関係やパターンを視覚的に確認できるため、変数間の関連性を分析する際に重要なツールとなります。

### 基本的な散布図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = 2 * x + np.random.randn(50) * 2  # 線形関係 + ノイズ

# 散布図の作成
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='blue', alpha=0.6)

# グラフの装飾
plt.title('基本的な散布図')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
```

### カラーマップを使用した散布図

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(100) * 10
y = np.random.rand(100) * 10
sizes = np.random.rand(100) * 200 + 50  # 点の大きさ
colors = np.random.rand(100)  # 色の値

# 散布図の作成
plt.figure(figsize=(10, 8))
scatter = plt.scatter(x, y, s=sizes, c=colors, cmap='viridis',
                     alpha=0.7, edgecolors='black', linewidths=0.5)

# カラーバーの追加
plt.colorbar(scatter, label='値')

# グラフの装飾
plt.title('カラーマップと大きさを使用した散布図')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()
```

### バブルチャート（大きさが変わる散布図）

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
np.random.seed(42)
x = np.random.rand(20) * 10
y = np.random.rand(20) * 10
sizes = np.random.rand(20) * 1000 + 100  # 点の大きさ（面積に比例）

# バブルチャートの作成
plt.figure(figsize=(10, 8))
plt.scatter(x, y, s=sizes, alpha=0.5, edgecolors='black')

# グラフの装飾
plt.title('バブルチャート（大きさが異なる散布図）')
plt.xlabel('x値')
plt.ylabel('y値')
plt.grid(True, linestyle='--', alpha=0.7)

# 凡例の追加（サイズの参考）
for size in [100, 500, 1000]:
    plt.scatter([], [], s=size, alpha=0.5, edgecolors='black',
               label=f'サイズ: {size}')
plt.legend(scatterpoints=1, frameon=True, labelspacing=1)

plt.tight_layout()
plt.show()
```

## 6.7 グラフの調整

Matplotlibでは、グラフの様々な要素を細かく調整することができます。以下では、軸ラベル、グラフサイズ、線や点のスタイル、テキストの書式などの調整方法を説明します。

### 軸ラベルとタイトルの調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x)

# グラフの作成
plt.figure(figsize=(10, 6))
plt.plot(x, y)

# タイトルと軸ラベルの調整
plt.title('サイン関数のグラフ', fontsize=18, fontweight='bold', color='navy')
plt.xlabel('x値', fontsize=14, color='darkgreen')
plt.ylabel('sin(x)', fontsize=14, color='darkred')

plt.show()
```

### グラフサイズと余白の調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x)

# グラフサイズの指定
plt.figure(figsize=(12, 6))  # 幅12インチ、高さ6インチ

plt.plot(x, y)
plt.title('グラフサイズの調整例')

# 余白の調整
plt.subplots_adjust(left=0.1, right=0.95, top=0.9, bottom=0.15)
# または
# plt.tight_layout()  # 自動で最適な余白を設定

plt.show()
```

### 線のスタイル、色、マーカーの調整

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 20)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x) * np.cos(x)

# グラフの作成
plt.figure(figsize=(12, 8))

# 線のスタイル、色、マーカーを指定
plt.plot(x, y1, 'r-o', linewidth=2, markersize=8, label='sin(x)')  # 赤い実線、丸マーカー
plt.plot(x, y2, 'b--s', linewidth=2, markersize=8, label='cos(x)')  # 青い破線、四角マーカー
plt.plot(x, y3, 'g-.^', linewidth=2, markersize=8, label='sin(x)*cos(x)')  # 緑の一点鎖線、三角マーカー

# 凡例の表示
plt.legend(fontsize=12)

# グリッド線の表示
plt.grid(True, linestyle='--', alpha=0.7)

plt.title('線のスタイル、色、マーカーの調整')
plt.xlabel('x値')
plt.ylabel('y値')

plt.show()
```

### テキスト、注釈、矢印の追加

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

# グラフの作成
plt.figure(figsize=(12, 8))
plt.plot(x, y, 'b-', linewidth=2)

# テキストの追加
plt.text(np.pi/2, 0, 'π/2', fontsize=12, ha='center')
plt.text(np.pi, 0, 'π', fontsize=12, ha='center')
plt.text(3*np.pi/2, 0, '3π/2', fontsize=12, ha='center')
plt.text(2*np.pi, 0, '2π', fontsize=12, ha='center')

# 注釈と矢印の追加
plt.annotate('最大値', xy=(np.pi/2, 1), xytext=(np.pi/2+0.5, 0.8),
            arrowprops=dict(facecolor='black', shrink=0.05, width=1.5),
            fontsize=12)

plt.annotate('最小値', xy=(3*np.pi/2, -1), xytext=(3*np.pi/2-0.5, -0.8),
            arrowprops=dict(facecolor='black', shrink=0.05, width=1.5),
            fontsize=12)

plt.title('テキスト、注釈、矢印の追加')
plt.xlabel('x値')
plt.ylabel('sin(x)')
plt.grid(True)
plt.tight_layout()
plt.show()
```

### グラフの保存

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y = np.sin(x) * np.exp(-0.1*x)

# グラフの作成
plt.figure(figsize=(10, 6), dpi=100)  # DPIを指定すると解像度が変わる
plt.plot(x, y, 'b-', linewidth=2)

plt.title('減衰する正弦波')
plt.xlabel('時間')
plt.ylabel('振幅')
plt.grid(True)

# グラフを保存（様々なフォーマットで保存可能）
plt.savefig('damped_sine.png', dpi=300)  # PNG形式で保存
plt.savefig('damped_sine.pdf')  # PDF形式で保存
plt.savefig('damped_sine.svg')  # SVG形式で保存

plt.show()
```

### サブプロットの活用

```python
import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
y3 = np.sin(x) * np.cos(x)
y4 = np.sin(x) * np.exp(-0.1*x)

# 2×2のサブプロットを作成
fig, axs = plt.subplots(2, 2, figsize=(12, 10))

# 1つ目のサブプロット
axs[0, 0].plot(x, y1, 'r-')
axs[0, 0].set_title('sin(x)')
axs[0, 0].grid(True)

# 2つ目のサブプロット
axs[0, 1].plot(x, y2, 'g-')
axs[0, 1].set_title('cos(x)')
axs[0, 1].grid(True)

# 3つ目のサブプロット
axs[1, 0].plot(x, y3, 'b-')
axs[1, 0].set_title('sin(x) * cos(x)')
axs[1, 0].grid(True)

# 4つ目のサブプロット
axs[1, 1].plot(x, y4, 'm-')
axs[1, 1].set_title('sin(x) * exp(-0.1x)')
axs[1, 1].grid(True)

# レイアウトの調整
plt.tight_layout()
plt.show()
```

以上のように、Matplotlibを使用することで、データを様々な形式で可視化し、グラフの見た目を細かく調整することができます。データの特性や伝えたいメッセージに合わせて、適切なグラフの種類と設定を選択することが重要です。

SyntaxError: invalid character '、' (U+3001) (<ipython-input-1-7d13744f15d5>, line 5)

# **Chapter 5： Numpy入門**

NumPy（Numerical Python）は、Pythonにおける科学技術計算のための基本的なライブラリです。大規模な数値データを効率的に扱うための多次元配列オブジェクト`ndarray`を提供します。データ分析や科学技術計算において不可欠なツールであり、PandasやSciPy、Matplotlib、scikit-learnなどの多くのライブラリの基盤となっています。

本章では、NumPyの基本的な使い方を学びます。まず、NumPy配列の作成方法について解説し、次に配列の要素へのアクセス方法を学びます。さらに、NumPyを用いたベクトルや行列の計算方法を理解し、最後に配列データの可視化方法を学びます。これらの知識は、今後のデータ分析や機械学習を学ぶ上での重要な基礎となります。

## **5.1 ベクトル・行列の基礎**

データサイエンスや機械学習では、数値データを効率的に処理するためにベクトルや行列の計算が頻繁に用いられます。例えば、機械学習のモデルではデータを行列として扱い、モデルのパラメータの更新や特徴量の変換に行列演算が活用されます。また、画像処理では画像をピクセルの集合（行列）として扱い、フィルタリングや変換処理を行うことが一般的です。このように、ベクトルや行列の理解はデータ処理において重要な要素となります。

### 1. 数学的定義

- **ベクトル（Vector）**

  ベクトルとは、複数の数値（スカラ）を並べたものであり、通常は縦または横の1次元配列として表されます。数学的には、$n$次元のベクトル $\mathbf{v}$ は次のように表されます。

$$
\mathbf{v} = \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} \quad \text{または} \quad \mathbf{v} = \begin{bmatrix} v_1 & v_2 & \dots & v_n \end{bmatrix}
$$
縦方向のベクトルを**列ベクトル**、横方向のベクトルを**行ベクトル**と呼びます。
スカラーとベクトルを表す文字は、区別しやすいように、それぞれ通常の書体（例：$x$、$v$）と太字（例：$\mathbf{v}$、$\mathbf{x}$）で記すのが一般的です。


- **行列 （Matrix）**

  行列とは、数値を縦横に並べたもので、一般的に $m \times n$ のサイズを持つ2次元配列として表現されます。行列 $\mathbf{A}$ は次のように表されます。

$$
\mathbf{A} = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix}
$$

  ここで、$a_{ij}$ は行列の $i$ 行 $j$ 列目の要素を表します。

通常、行列は2次元ですが、これをさらに奥行き（depth）の方向に拡張したものが 3次元行列です。**3次元行列**とは、下図のように縦（行）・横（列）・奥行き（層） の3つの方向にデータが並んだ構造になっており、数学的には3階・3次元配列のテンソル（third-order tensor） とも呼ばれます。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_05/Fig5_1_Tensor.png?raw=true?raw=1" width="400">
<figcaption align = "center"> Fig 5.1： 3階・3次元配列のテンソル（third-order tensor）構造.</figcaption>
</figure>


例えば、カラー画像は 高さ × 幅 × 色（RGBの3チャンネル） で構成されており、3次元のデータとして扱われます。これを数値の配列として表現したものが、3次元配列のテンソルです。

### 2. 基本計算

- **同士の和と差**

  行列の加算および減算は、同じサイズのベクトル・行列同士でのみ行うことができます。各要素ごと（element-wise）に加算または減算を行います。以下に、行列およびベクトル同士の加算を具体例で示します。

  - **ベクトル**
  $$
\mathbf{u} \pm \mathbf{v} = \begin{bmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{bmatrix} \pm \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} = \begin{bmatrix} u_{1} \pm v_{1}  \\ u_{2} \pm v_{2} \\ \vdots \\ u_{n} \pm v_{n} \end{bmatrix}
$$
     **例：**
 $$
 \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}+\begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}=\begin{bmatrix} 1 + 4 \\ 2 + 5 \\ 3 + 6 \end{bmatrix}=\begin{bmatrix} 5 \\ 7 \\ 9 \end{bmatrix}
 $$

  - **行列**
$$
\begin{split}
\mathbf{A} \pm \mathbf{B} & = \begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{bmatrix} \pm \begin{bmatrix} b_{11} & b_{12} & \dots & b_{1n} \\ b_{21} & b_{22} & \dots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \dots & b_{mn} \end{bmatrix}
\\ & =  \begin{bmatrix} a_{11} \pm b_{11} & a_{12} \pm b_{12} & \dots & a_{1n} \pm b_{1n} \\ a_{21} \pm b_{21} & a_{22} \pm b_{22} & \dots & a_{2n} \pm b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} \pm b_{m1} & a_{m2} \pm b_{m2} & \dots & a_{mn} \pm b_{mn} \end{bmatrix}
\end{split}
$$
     **例：**
 $$
\begin{split}
 \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}+\begin{bmatrix}
7 & 8 & 9 \\
10 & 11 & 12
\end{bmatrix} &=\begin{bmatrix}
1+7 & 2+8 & 3+9 \\
4+10 & 5+11 & 6+12
\end{bmatrix} \\ &=\begin{bmatrix}
8 & 10 & 12 \\
14 & 16 & 18
\end{bmatrix}
\end{split}
 $$


- **スカラー倍**

 行列のすべての要素に同じ定数（スカラー）$c$ を掛ける操作をスカラー倍と呼びます。
$$
 c \mathbf{A} = \begin{bmatrix} c a_{11} & c a_{12} & \dots & c a_{1n} \\ c a_{21} & c a_{22} & \dots & c a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c a_{m1} & c a_{m2} & \dots & c a_{mn} \end{bmatrix}
$$

     **例：**
 $$
 10
\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix}=\begin{bmatrix}
10 \times 1 \\
10 \times 2 \\
10 \times 3
\end{bmatrix}=\begin{bmatrix}
10 \\
20 \\
30
\end{bmatrix}
 $$

- **行列の積**

  行列の積（行列乗算）は、次のように定義されます。行列 $\mathbf{A}$ を $m \times n$ の行列、$\mathbf{B}$ を $n \times p$ の行列とすると、それらの積 $\mathbf{C} = \mathbf{A} \mathbf{B}$ は $m \times p$ の行列となる。  
具体的な式は次のように表される：

$$
\mathbf{C} = \mathbf{A} \mathbf{B}
$$

$\mathbf{A}$, $\mathbf{B}$, $\mathbf{C}$ の要素を明示すると、

$$
\mathbf{A} =
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix},
\quad
\mathbf{B} =
\begin{bmatrix}
b_{11} & b_{12} & \cdots & b_{1p} \\
b_{21} & b_{22} & \cdots & b_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
b_{n1} & b_{n2} & \cdots & b_{np}
\end{bmatrix}
$$

$$
\mathbf{C} = \mathbf{A} \mathbf{B} =
\begin{bmatrix}
c_{11} & c_{12} & \cdots & c_{1p} \\
c_{21} & c_{22} & \cdots & c_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
c_{m1} & c_{m2} & \cdots & c_{mp}
\end{bmatrix}
$$

各要素 $c_{ij}$ は、行列 $\mathbf{A}$ の $i$ 行目と行列 $\mathbf{B}$ の $j$ 列目の内積として次のように求められる：

$$
c_{ij} = \sum_{k=1}^{n} a_{ik} b_{kj}, \quad (1 \leq i \leq m, 1 \leq j \leq p)
$$


行列積では、行列のサイズが適切でなければ計算できないため、$\mathbf{A}$ の列数と $\mathbf{B}$ の行数が一致している必要があります。

**例：**
 $$
 \begin{split}
 \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix} × \begin{bmatrix}
7 & 8  \\
9 & 10 \\
11 & 12
\end{bmatrix} &=\begin{bmatrix}
1×7+2×9+3×11 & 1×8+2×10+3×12  &  \\
4×7+5×9+6×11 & 4×8+5×10+6×12
\end{bmatrix} \\ & =\begin{bmatrix}
58 & 64  \\
139 & 154
\end{bmatrix}
\end{split}
 $$

- **転置行列**
行列 $\mathbf{A}$ の転置行列 $\mathbf{A}^{\rm T}$ は、行と列を入れ替えた行列です。

$$
\mathbf{A}^{\rm T} = \begin{bmatrix} a_{11} & a_{21} & \dots & a_{m1} \\ a_{12} & a_{22} & \dots & a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{mn} \end{bmatrix}
$$

**例：**
 $$
\begin{split}{\bf A}
=\begin{bmatrix}
1 & 4 \\
2 & 5 \\
3 & 6
\end{bmatrix}, \
{\bf A}^{\rm T}=\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}\end{split}
 $$

この節では、データ処理におけるベクトル・行列の重要性、数学的な定義、および基本的な演算について説明しました。次の節では、NumPy を用いた具体的な実装方法について学びます。



## **5.2 NumPy配列の作成**
NumPyの中心的なデータ構造は`ndarray`（N-dimensional array：N次元配列）です。NumPyの`ndarray`は、Pythonの`list`を基にして設計されたデータ構造であり、数値計算やデータ処理を効率的に行うために最適化されています。




これを用いることで、同じデータ型の要素を多次元の配列として効率的に扱うことができます。以下では、様々な次元の配列作成方法と、便利な配列生成関数を紹介します。

### 1. 1次元配列（ベクトル）の作成
1次元配列（ベクトル）は最も基本的な配列形式です。リストからNumPy配列を作成する例を示します。
```python
#　リスト5.1
import numpy as np　#　NumPyをnpという短縮名で使う

# リストから1次元配列を作成
a = np.array([1, 2, 3, 4])
print(a)         # [1 2 3 4]
print(type(a))   # <class 'numpy.ndarray'>
print(a.shape)   # (4,) - 4要素の1次元配列
```
- `np.array([1, 2, 3, 4])` は、リスト `[1, 2, 3, 4]` をNumPy配列に変換します。  
- `type(a)` の結果は `<class 'numpy.ndarray'>` で、NumPyの `ndarray` であることがわかります。
- `a.shape` の結果 `(4,)` は、4つの要素を持つ1次元配列を意味します。  

### 2. 2次元配列（行列）の作成
2次元配列（行列）は、行と列からなる表形式のデータを表現します。
```python
#　リスト5.2
# 2次元配列を作成
b = np.array([[1, 2, 3], [4, 5, 6]])
print(b)
# [[1 2 3]
#  [4 5 6]]
print(b.shape)   # (2, 3) - 2行3列の行列
```
- `b.shape` の結果 `(2,3)` は、2行3列の2次元配列を意味します。

### 3. 3次元配列（テンソル）の作成
3次元以上の配列は、多次元データを表現するのに有用です。画像処理や時系列データの分析などで使用されます。
```python
#　リスト5.3
# 3次元配列の作成
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(c)
# [[[1 2]
#   [3 4]]
#  [[5 6]
#   [7 8]]]
print(c.shape)   # (2, 2, 2) - 2x2x2の3次元配列
```
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_05/Fig5_2_narray.png?raw=true?raw=1" width="600">
<figcaption align = "center"> Fig 5.2： リスト5.1、リスト5.2とリスト5.3で作成した配列.</figcaption>
</figure>

### 4. 便利な配列生成関数
NumPyには、特定のパターンの配列を簡単に生成するための関数が多数用意されています。
- `arange()`: 等差数列の配列を作成
  
  `arange(start, stop, step)`は、指定した範囲の等差数列を作成します。
  ```python
  # リスト5.4
  arr = np.arange(0, 10, 2)
  print(arr)
  # 出力: [0 2 4 6 8]
  ```
  ここで、`stop`は含まれず、`step`の値を変更することで間隔を調整できます。

-  `linspace()`: 指定した範囲を均等に分割した配列を作成
  
  `linspace(start, stop, num)`は、`start`から`stop`までを`num`個の要素に均等分割した配列を生成します。

  ```python
  # リスト5.5
  arr = np.linspace(0, 10, 5)
  print(arr)
  # 出力: [ 0.   2.5  5.   7.5 10. ]
  ```

-  `zeros()`, `ones()`, `full()`: 特定の値で埋められた配列を作成
  - `zeros(shape)`: 指定した形状のゼロ配列を作成  
  - `ones(shape)`: 指定した形状の1の配列を作成  
  - `full(shape, fill_value)`: 指定した形状で、すべての要素が`fill_value`の配列を作成  

  ```python
  # リスト5.6
  arr_zeros = np.zeros((2, 3))
  arr_ones = np.ones((2, 3))
  arr_full = np.full((2, 3), 7)

  print(arr_zeros)
  # 出力:
  # [[0. 0. 0.]
  #  [0. 0. 0.]]

  print(arr_ones)
  # 出力:
  # [[1. 1. 1.]
  #  [1. 1. 1.]]

  print(arr_full)
  # 出力:
  # [[7 7 7]
  #  [7 7 7]]
```

-   `eye()`: 単位行列を作成

  `eye(N)`は、`N×N`の単位行列（対角成分が1、それ以外が0の行列）を作成します。

  ```python
  # リスト5.7
  arr = np.eye(3)
  print(arr)
  # 出力:
  # [[1. 0. 0.]
  #  [0. 1. 0.]
  #  [0. 0. 1.]]
```

-   `random`モジュールを使用した配列の作成

  NumPyの`random`モジュールを使うと、乱数を含む配列を作成できます。

  - `np.random.rand(shape)`: 0〜1の一様分布乱数
  - `np.random.randn(shape)`: 標準正規分布乱数
  - `np.random.randint(low, high, size)`: 整数乱数

  ```python
  # リスト5.8
  arr_rand = np.random.rand(2, 3)  # 0〜1の乱数
  arr_randn = np.random.randn(2, 3)  # 平均0、標準偏差1の正規分布
  arr_randint = np.random.randint(1, 10, (2, 3))  # 1〜9の整数乱数

  print(arr_rand)
  print(arr_randn)
  print(arr_randint)
  ```

| 関数                | 説明                                       | 例 |
|---------------------|------------------------------------------|------------------------------|
| `np.array()`       | リストやタプルから配列を作成               | `np.array([1, 2, 3])` |
| `np.arange()`      | 等差数列の配列を作成                       | `np.arange(0, 10, 2)` |
| `np.linspace()`    | 指定範囲を等間隔に分割した配列を作成         | `np.linspace(0, 10, 5)` |
| `np.zeros()`       | すべての要素が0の配列を作成                 | `np.zeros((2, 3))` |
| `np.ones()`        | すべての要素が1の配列を作成                 | `np.ones((2, 3))` |
| `np.full()`        | 指定した値で埋められた配列を作成             | `np.full((2, 3), 7)` |
| `np.eye()`         | 単位行列を作成                             | `np.eye(3)` |
| `np.random.rand()` | 0〜1の一様分布乱数を生成                    | `np.random.rand(2, 3)` |
| `np.random.randn()`| 平均0、標準偏差1の正規分布乱数を生成         | `np.random.randn(2, 3)` |
| `np.random.randint()` | 指定範囲の整数乱数を生成                 | `np.random.randint(1, 10, (2, 3))` |





## **5.3 配列のインデックス参照**

NumPyの配列（`ndarray`）は、大量の数値データを効率的に扱うための基本的なデータ構造です。インデックス参照の仕組みを理解することで、特定の要素の取得やデータの操作を素早く行うことができます。

NumPyでは、通常のリストと同様にインデックス（0から始まる）を指定して要素にアクセスできるほか、スライシング（Slicing: 特定の範囲の要素を取得する）やブールインデックス（Boolean Indexing: 条件式を使ってデータを選択する）などを活用し、より柔軟なデータ処理が可能です。

- **スライシングインデックス(Slicing Indexing)基本構文**
```python
ndarray名[start:stop:step]
```

 - `start`：開始インデックス（この位置の要素を含む）
 - `stop`：終了インデックス（この位置の要素は含まない）
 - `step`：間隔（省略すると1）

- **ブールインデックス（Boolean Indexing）基本構文**
```python
ndarray名[条件式]　　             #条件に合う要素を取得
ndarray名[(条件式1) & (条件2)]　　#複数条件の組み合わせ
```

 - `条件式`：配列の各要素に対する比較演算（`>`,`<`, `==`, `!=` など）

  条件を満たす要素のみが新しい配列として返されます。



### 5.3.1 1次元配列のインデックス参照

```python
# リスト5.9

# 1次元配列
a = np.array([10, 20, 30, 40, 50])

# 単一要素へのアクセス
print(a[0])     # 10 - 最初の要素
print(a[4])     # 50 - 最後の要素
print(a[-1])    # 50 - -1のインデックスはの要素
print(a[-3])    # 30 - -3のインデックスは末尾から3番目の要素

# スライシングインデックス参照
print(a[1:4])   # [20 30 40] - インデックス1から3までの要素
print(a[:3])    # [10 20 30] - 最初から3つの要素
print(a[2:])    # [30 40 50] - インデックス2から最後までの要素
print(a[::2])   # [10 30 50] - 2つおきに要素を取得

# ブールインデックス参照
print(a[a >= 30])  # [30 40 50]
#　a >= 30 が True になる要素（30, 40, 50）だけが選ばれています。

# 30より大きい要素を99に変更
print(arr[arr > 30] = 99)  # [10 20 30 99 99]

```


### 5.3.2 2次元配列のインデックス参照

```python
# リスト5.10

# 2次元配列
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 単一要素へのアクセス
print(b[0, 0])   # 1 - 1行目、1列目の要素
print(b[1, 2])   # 6 - 2行目、3列目の要素

# 行単位のアクセス
print(b[0])      # [1 2 3] - 1行目全体
print(b[2])      # [7 8 9] - 3行目全体

# スライシングインデックス参照
print(b[0:2, 1:3])
# [[2 3]
#  [5 6]] - 1〜2行目の2〜3列目

# 特定の行・列の取得
print(b[:, 1])   # [2 5 8] - すべての行の2列目
print(b[1:, :2])
# [[4 5]
#  [7 8]] - 2行目以降の1〜2列目

# ブールインデックス参照
print(b[b >= 4])  # [4 5 6 7 8]
#　b >= 4 が True になる要素（4,5,6,7,8）だけが選ばれています。
```

### 5.3.3 3次元配列のインデックス参照

```python
# リスト5.11

# 3次元配列
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

# 単一要素へのアクセス
print(c[0, 0, 0])  # 1 - 最初の要素
print(c[1, 1, 1])  # 8 - 最後の要素

# 2次元部分配列の取得
print(c[0])
# [[1 2]
#  [3 4]] - 最初の2次元ブロック

# 特定の次元でのスライシング
print(c[:, 0, :])
# [[1 2]
#  [5 6]] - すべての最初の行から全要素
```

## **5.4 ベクトルと行列計算**
NumPyの強力な機能の一つは、ベクトルや行列に対する効率的な数学演算です。これにより、複雑な数値計算を簡潔かつ高速に実行できます。

### 5.4.1 要素ごとの演算
NumPyでは、ベクトルや行列同士の四則演算（加算、減算、乗算、除算）は、Pythonの四則演算に用いられる`+`、`-`、`*`、`/`という記号を使用して、それぞれの要素ごとに実行されます。このような演算を**要素ごとの演算（Element-Wise Operations）**と呼びます。  

```python
#5.12

# 1次元配列（ベクトル）要素ごとのの演算
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 要素ごとの加算
print(a + b)      # [5 7 9]

# 要素ごとの減算
print(b - a)      # [3 3 3]

# 要素ごとの乗算
print(a * b)      # [4 10 18]

# 要素ごとの除算
print(b / a)      # [4.  2.5 2. ]

# スカラーとの演算
print(a * 2)      # [2 4 6]
print(a + 10)     # [11 12 13]
```

```python
#5.12

# 1次元配列（ベクトル）要素ごとのの演算
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 要素ごとの加算
print(a + b)      # [5 7 9]

# 要素ごとの減算
print(b - a)      # [3 3 3]

# 要素ごとの乗算
print(a * b)      # [4 10 18]

# 要素ごとの除算
print(b / a)      # [4.  2.5 2. ]

# スカラーとの演算
print(a * 2)      # [2 4 6]
print(a + 10)     # [11 12 13]
```

### 5.4.2 行列演算
### 行列積の計算方法  

行列の各要素ごとの積（アダマール積）は `*` 演算子を用いて計算できます。しかし、通常の行列積（線形代数における行列の積）を求める場合、`*` 演算子ではなく、以下の2つの方法を使用します。  

- **`np.dot()` 関数**  
`np.dot()` は NumPy の関数で、2つの引数をとり、それらの行列積を計算して返します。たとえば、次のように記述します。  

  ```python
  # 5.13

  A = np.array([[1, 2], [3, 4]])
  B = np.array([[5, 6], [7, 8]])

  C = np.dot(A, B)  # A と B の行列積を計算
  print(C)
  #[[19 22]
  # [43 50]]
  ```

 行列積の計算方法：
$$
C = A \cdot B =
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
\cdot
\begin{bmatrix}
5 & 6 \\
7 & 8
\end{bmatrix}
=
\begin{bmatrix}
(1×5 + 2×7) & (1×6 + 2×8) \\
(3×5 + 4×7) & (3×6 + 4×8)
\end{bmatrix}
=
\begin{bmatrix}
19 & 22 \\
43 & 50
\end{bmatrix}
$$

- **`dot()` メソッド**  
NumPy の `ndarray` オブジェクトには `dot()` メソッドが備わっており、これを用いて行列積を求めることもできます。  

  ```python
  # リスト 5.14
  C = A.dot(B)  # A の dot() メソッドを使用して B との行列積を計算
  print(C)
  #[[19 22]
  # [43 50]]
  ```
このように、`np.dot(A, B)` と `A.dot(B)` はどちらも同じ行列積を計算します。


### 5.4.3 ブロードキャスト

行列同士の四則演算は、通常は行列の形が同じでなければ定義できません。しかし、NumPyの**ブロードキャスト（Broadcasting）**機能により、形状の異なる配列間でも演算が可能です。ブロードキャストを利用することで、ループを明示的に書かずに効率的な計算が可能になります。

```python
# リスト 5.15

# ベクトルと行列のブロードキャスト
A = np.array([[1, 2, 3], [4, 5, 6]])
v = np.array([10, 20, 30])

# スカラーとのブロードキャスト
print(A * 2)
# [[ 2  4  6]
#  [ 8 10 12]]

# 各行にベクトルを加算
print(A + v)
# [[11 22 33]
#  [14 25 36]]
```

## **5.5 統計量計算**

前章では、`pandas`ライブラリの`describe()`関数を用いて、データフレームの要約統計量（平均、標準偏差、最大値、最小値、四分位数など）を一度に求める方法について学びました。

本節では、**NumPyライブラリ**を使って、**多次元配列（ndarray）に含まれる値の要約統計量**を個別に計算する方法を学びます。特に、**平均、分散、標準偏差、最大値、最小値、四分位数**の求め方に注目します。

### 5.5.1 配列の全体の統計値
まずは、5×5の2次元配列を作成し、この中に含まれる値全体に渡るこれらの統計値を計算してみましょう。。

```python
#リスト 5.16

# 1〜25の連続する整数からなる5×5の2次元配列を作成
data = np.arange(1, 26).reshape(5, 5)
print(data)
```

出力結果：
```
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]]
```

NumPyでは、以下のような関数を使って統計量を計算できます。

- **平均（mean）**: 配列に含まれる全体の平均値を求めます。
  ```python
  np.mean(data)
  ```

- **分散（variance）**: データのばらつきの度合いを表します。
  ```python
  np.var(data)
  ```

- **標準偏差（standard deviation）**: 分散の平方根で、ばらつきの大きさを直感的に表します。
  ```python
  np.std(data)
  ```

- **最大値・最小値（maximum / minimum）**:配列内の最大・最小の値を求めます。
  ```python
  np.max(data)
  np.min(data)
  ```
- **四分位数（quantiles）**: NumPyでは直接四分位数を計算する関数は用意されていませんが、`percentile`関数を使うことで求められます。

  ```python
  np.percentile(data, 25)  # 第1四分位数（Q1）
  np.percentile(data, 50)  # 第2四分位数（中央値、Q2）
  np.percentile(data, 75)  # 第3四分位数（Q3）
  ```
- **統計関数の一覧表**:

| 統計量       | 関数名                     | 説明                         |
|--------------|----------------------------|------------------------------|
| 平均         | `np.mean(array)`           | 配列全体の平均値を返す       |
| 分散         | `np.var(array)`            | 平均からのばらつきを表す     |
| 標準偏差     | `np.std(array)`            | 分散の平方根                 |
| 最大値       | `np.max(array)`            | 配列内の最大の値             |
| 最小値       | `np.min(array)`            | 配列内の最小の値             |
| 第1四分位数  | `np.percentile(array, 25)` | データの下位25%の値          |
| 第2四分位数  | `np.percentile(array, 50)` | 中央値（中央値）             |
| 第3四分位数  | `np.percentile(array, 75)` | データの上位25%の開始点      |

---

### 5.5.2 配列の全体の統計値

NumPyでは、多次元配列のどの「方向（軸）」に対して統計量を計算するかを指定できます。これを「**軸の指定（`axis`）**」と呼びます。

**軸（axis）とは？**

2次元配列の場合、次のように考えます。

- `axis=0`：**列方向（縦）**に処理を行う（→ 各列ごとの計算）
- `axis=1`：**行方向（横）**に処理を行う（→ 各行ごとの計算）

NumPyでは、以下のような軸（axis）を指定した統計量を計算できます。
- **各列ごとの平均値（axis=0）**: 各列の平均値を計算する。
  ```python
  np.mean(data, axis=0)
  ```
  出力結果：
  ```
  [11. 12. 13. 14. 15.]
  ```
  各列の平均値を計算しています。たとえば、1列目は `[1, 6, 11, 16, 21]` の平均である `11` になります。

- **各行ごとの平均値（axis=1）**: 各列の平均値を計算する。
  ```python
  np.mean(data, axis=1)
  ```
  出力結果：
  ```
  [ 3.  8. 13. 18. 23.]
  ```
  各行の平均値を計算しています。たとえば、2行目は `[6, 7, 8, 9, 10]` の平均である `8` になります。

- **`axis`の指定と統計関数の組み合わせ例**

  以下の表に、`axis`の指定と統計関数の組み合わせ例をまとめます。

| 関数                     | `axis=0`（列ごと）             | `axis=1`（行ごと）             |
|--------------------------|-------------------------------|-------------------------------|
| `np.mean(data, axis=...)`| 各列の平均値を返す            | 各行の平均値を返す            |
| `np.std(data, axis=...)` | 各列の標準偏差を返す          | 各行の標準偏差を返す          |
| `np.max(data, axis=...)` | 各列の最大値を返す            | 各行の最大値を返す            |
| `np.percentile(data, 50, axis=...)` | 各列または各行の中央値を返す | 各行または各列の中央値を返す |

---


## **5.6 NumPy配列の描画**

NumPy配列には、たくさんの数値データを保存することができます。しかし、数値だけを見ていても、データの特徴や傾向を理解するのは難しいことがあります。そこで、グラフや図を使ってデータを視覚化することがとても役立ちます。

Pythonでは、NumPy配列のデータを視覚化するために、Matplotlibライブラリを使うと、折れ線グラフや棒グラフ、ヒストグラムなど、さまざまなグラフを簡単に作ることができます。本章では、NumPy配列の描画方法として、一次元配列および二次元配列の代表的な例を紹介する。データの可視化のより詳しい内容については、第6章「Matplotlibよりデータの可視化」で説明する。

### 5.6.1 1次元配列の描画
ここでは、NumPyを用いて生成した一次元配列のデータから、Matplotlibを使って正弦波の折れ線グラフを描画する方法を示す。リスト5.17は、横軸に角度（ラジアン）、縦軸にその正弦値をとるグラフの例である。

```python
#リスト5.17

import numpy as np
import matplotlib.pyplot as plt

# 1次元配列のデータ生成
x = np.linspace(0, 2*np.pi, 100)  # 0から2πまでの100点
y = np.sin(x)                      # 正弦波

# 線グラフの描画
plt.plot(x, y)                # xとyのデータを使って折れ線グラフを描画
plt.title('sin function')     # グラフのタイトルを設定（ここでは「sin function」）
plt.xlabel('x')               # x軸のラベルを「x」に設定
plt.ylabel('sin(x)')          # y軸のラベルを「sin(x)」に設定       
plt.grid(True)                # グリッド（背景の格子線）を表示
```
**描画結果:**

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_05/Fig5_3_sin_function.png?raw=1" width="400">
<figcaption align = "center"> Fig 5.3 $y = \sin (x)$の線グラフ.</figcaption>
</figure>

### 5.6.2 2次元配列の描画

二次元配列のデータは、三次元グラフを用いることで直感的に視覚化することができる。リスト5.18では、NumPyで作成した二次元の格子点に対して、関数$ z =\sin(x^2 + y^2) $を適用し、その結果をMatplotlibの3D描画機能を用いてサーフェス（曲面）として表示する例を示す。
```python
# リスト5.18

from mpl_toolkits.mplot3d import Axes3D  # 3D描画用ツールキット

# 2次元配列のデータ生成
x = np.linspace(-5, 5, 100)             # -5から5までを100分割したxの配列を生成
y = np.linspace(-5, 5, 100)             # 同様にyの配列も生成
X, Y = np.meshgrid(x, y)                # xとyの値から2次元の格子点（メッシュグリッド）を作成
Z = np.sin(np.sqrt(X**2 + Y**2))        # 各点におけるzの値を関数z = sin(√(x² + y²))で計算

fig = plt.figure(figsize=(10, 6))             # 図全体のサイズを指定
ax = fig.add_subplot(111, projection='3d')    # 3Dプロット用の軸を作成

# サーフェスを描画
surf = ax.plot_surface(X, Y, Z, cmap='viridis')  # viridisカラーマップを使って曲面を描画
ax.set_xlabel('x')               # x軸のラベルを「x」に設定
ax.set_ylabel('y')               # y軸のラベルを「y」に設定
ax.set_zlabel('z')               # z軸のラベルを「z」に設定
plt.show()     # グラフを表示
```
**描画結果:**

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_05/Fig5_4_3d_surface.png?raw=1" width="400">
<figcaption align = "center"> Fig 5.4 関数$ z =\sin(x^2 + y^2) $の3Dサーフェイス（リスト5.18）.</figcaption>
</figure>

また、二次元配列のデータは、三次元的な情報を二次元の図として表現することで、データの傾向や分布を視覚的に把握しやすくなる。代表的な手法として、同じ値を線で結ぶ等高線図や、値の大きさを色の濃淡で表現するヒートマップがある。リスト5.19では、以上の例によって得られた二次元配列データをもとに、等高線図とヒートマップの描画例を紹介する。等高線図では同じ値を線で結んで立体的な構造を表現し、ヒートマップでは色の濃淡によって値の分布を視覚化する。
```python
# リスト5.19

# 等高線図とヒートマップの描画
plt.figure(figsize=(11, 4))  # 図のサイズを横長に指定（幅11、高さ4）

# 等高線図（contour plot）
plt.subplot(1, 2, 1)  # 1行2列の1番目のプロット
contour = plt.contour(X, Y, Z, 20)     # 等高線を20本描画
plt.xlabel('x')                        # x軸ラベルを設定
plt.ylabel('y')                        # y軸ラベルを設定
plt.title('contour')                   # グラフのタイトルを設定

# ヒートマップ（heatmap）
plt.subplot(1, 2, 2)  # 1行2列の2番目のプロット
heatmap = plt.imshow(
    Z,
    extent=[-5, 5, -5, 5],            # 表示範囲をxとy軸に合わせて設定
    origin='lower',                   # 原点を左下に設定
    cmap='viridis'                    # カラーマップに"viridis"を指定
)
plt.xlabel('x')                        # x軸ラベルを設定
plt.ylabel('y')                        # y軸ラベルを設定
plt.title('heatmap')                  # グラフのタイトルを設定

plt.show()                             # グラフを表示
```
**描画結果:**

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_05/Fig5_5_contour_heatmap.png?raw=1" width="800">
<figcaption align = "center"> Fig 5.5 関数$ z =\sin(x^2 + y^2) $の等高線図およびヒートマップ（リスト5.19）.</figcaption>
</figure>



## **まとめ**
本章では、数値計算ライブラリNumPyの基本的な使い方を学んだ。まず、ベクトルや行列といった配列の基本概念を確認し、`array`、`arange`、`linspace`などを使った配列の作成方法を紹介した。次に、配列のインデックス参照やスライス、条件による抽出方法を学び、ベクトル・行列の演算や統計量の計算についても理解を深めた。最後に、`Matplotlib`を用いた1次元および2次元配列の可視化方法として、折れ線グラフや3Dサーフェス、等高線図、ヒートマップの描画を体験した。これらの内容を通して、NumPyを用いた配列操作と可視化の基礎を習得した。

---
---
---


付加説明

### **NumPyの`ndarray`とPythonのリストの関係および相違点**  

#### **1. NumPyの`ndarray`とPythonのリストの関係**  
Pythonのリスト（`list`）は、複数の要素を格納できる基本的なデータ構造であり、異なるデータ型の要素を含むことができます。一方、NumPyの`ndarray`（N次元配列）は、Pythonのリストを基にして設計されたデータ構造であり、数値計算やデータ処理を効率的に行うために最適化されています。`ndarray`は、Pythonのリストから作成することが可能であり、以下のように変換できます。  

```python
import numpy as np

py_list = [1, 2, 3, 4, 5]  # Pythonのリスト
np_array = np.array(py_list)  # NumPyのndarrayに変換

print(np_array)  # [1 2 3 4 5]
print(type(np_array))  # <class 'numpy.ndarray'>
```

#### **2. NumPyの`ndarray`とPythonのリストの相違点**  
NumPyの`ndarray`とPythonのリストの主な違いを以下に示します。  

| 項目 | Pythonのリスト (`list`) | NumPyの配列 (`ndarray`) |
|------|-------------------------|-------------------------|
| **データの型** | 異なる型の要素を混在可能 | 同じ型の要素のみ格納可能 |
| **メモリ効率** | 各要素がオブジェクトとして管理されるため非効率 | 連続したメモリ領域に格納されるため効率的 |
| **計算処理の速度** | 遅い（ループを使用） | 速い（ベクトル化演算が可能） |
| **要素の追加・削除** | 柔軟に可能 | 事前に決めたサイズで管理されることが多い |
| **多次元データの扱い** | ネストしたリストで表現 | 多次元配列として直接管理可能 |

#### **3. NumPyの`ndarray`の高速性**  
数値計算を行う場合、NumPyの`ndarray`はPythonのリストよりも高速に動作します。以下の例では、100万個の要素に対して同じ計算を実行し、処理時間を比較します。  

```python
import time

# Pythonのリストを使用
py_list = list(range(1000000))
start = time.time()
py_result = [x * 2 for x in py_list]
print("Pythonリストの処理時間:", time.time() - start)

# NumPyのndarrayを使用
np_array = np.array(py_list)
start = time.time()
np_result = np_array * 2  # ベクトル化演算
print("NumPyの処理時間:", time.time() - start)
```
このコードを実行すると、NumPyの`ndarray`がPythonのリストよりも高速に処理できることが確認できます。

#### **4. まとめ**
- **Pythonのリストは、異なる型の要素を含むことができ、汎用性が高い。**
- **NumPyの`ndarray`は、同じ型の数値データを効率的に管理し、高速な演算が可能。**
- **大規模な数値データの処理や科学技術計算には、NumPyの`ndarray`を使用するのが適している。**  

このように、用途に応じて適切なデータ構造を選択することが重要です。

# **Chapter 5**： Numpy入門（Seek）

# 第5章 NumPy入門

## 5.1 NumPyの世界へようこそ
**NumPy**（Numerical Python）は科学計算の基盤となるライブラリで、大規模な数値データを効率的に扱うための多次元配列オブジェクト`ndarray`を提供します。機械学習やデータ分析において、画像処理・時系列データ・センサーデータなど、現実世界のデータはほとんどが多次元構造を持つため、NumPyの理解は必須です。本章では、配列の生成方法から高度な数学演算、可視化技術まで、AI開発の現場で実際に使われる実践的なスキルを体系的に習得します。

![NumPyの多次元配列概念図]
（ここに1次元/2次元/3次元配列のビジュアル図を挿入）

## 5.2 NumPy配列の生成術
### 1次元配列の作成
```python
import numpy as np
vector = np.array([1, 2, 3, 4, 5])  # リストから直接生成
zeros_arr = np.zeros(5)             # [0., 0., 0., 0., 0.]
ones_arr = np.ones(5)               # [1., 1., 1., 1., 1.]
range_arr = np.arange(0, 10, 2)     # [0 2 4 6 8]
```

### 2次元配列（行列）の構築
```python
matrix = np.array([[1,2,3], [4,5,6], [7,8,9]])
identity = np.eye(3)                # 3x3単位行列
random_matrix = np.random.rand(3,3) # 0〜1の乱数で埋める
```

### 3次元配列（テンソル）の生成
```python
tensor = np.array([[[1,2], [3,4]], [[5,6], [7,8]]])
empty_tensor = np.empty((2,3,4))    # 未初期化のメモリ領域確保
linspace_arr = np.linspace(0, 1, 5) # 等間隔な5点を生成 [0.0, 0.25, 0.5, 0.75, 1.0]
```

## 5.3 配列操作の達人になる
### インデクシングの基本
```python
arr_1d = np.array([10, 20, 30, 40, 50])
print(arr_1d[2])       # 30（3番目の要素）
print(arr_1d[-1])      # 50（最後の要素）

matrix = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(matrix[1, 2])    # 6（2行目3列目）
print(matrix[:, 1])    # [2,5,8]（全行の2列目）

tensor = np.array([[[1,2], [3,4]], [[5,6], [7,8]]])
print(tensor[1, 0, 1]) # 6（2番目のブロック、1行目、2列目）
```

### 高度なスライシング
```python
arr = np.arange(1, 11)
print(arr[3:7])        # [4 5 6 7]
print(arr[::2])        # [1 3 5 7 9]（ステップ2）
print(matrix[1:, :2])  # [[4,5], [7,8]]（2行目以降、最初の2列）
```

## 5.4 数学的演算のパワーハウス
### ベクトル演算
```python
a = np.array([1,2,3])
b = np.array([4,5,6])
print(a + b)   # [5 7 9]（要素ごと加算）
print(a * 2)   # [2 4 6]（ブロードキャスト）
```

### 行列演算
```python
A = np.array([[1,2], [3,4]])
B = np.array([[5,6], [7,8]])
print(np.dot(A, B))    # 行列積 [[19 22][43 50]]
print(A @ B.T)         # 転置行列との乗算（@演算子）
```

### 統計処理
```python
data = np.random.normal(0, 1, 1000)
print(np.mean(data))   # 平均
print(np.std(data))    # 標準偏差
print(np.percentile(data, 90)) # 90パーセンタイル
```

## 5.5 データ可視化の技法
### 1次元データのプロット
```python
import matplotlib.pyplot as plt

x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

plt.figure(figsize=(8,4))
plt.plot(x, y, label='Sine Wave')
plt.title("1D Array Visualization")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.show()
```

### 2次元データの可視化
```python
matrix = np.random.rand(10,10)

plt.figure(figsize=(6,6))
plt.imshow(matrix, cmap='viridis')
plt.colorbar()
plt.title("2D Heatmap")
plt.show()
```

## 5.6 機械学習におけるNumPy活用例
1. **データ前処理**：画像の正規化（0-255 → 0-1）
   ```python
   images = images.astype('float32') / 255.0
   ```

2. **特徴量エンジニアリング**：多項式特徴量の生成
   ```python
   X_poly = np.column_stack((X, X**2, np.exp(X)))
   ```

3. **バッチ処理**：ミニバッチ生成
   ```python
   batch_size = 32
   indices = np.random.choice(len(data), batch_size)
   batch = data[indices]
   ```

4. **評価指標計算**：混同行列
   ```python
   confusion_matrix = np.zeros((10,10))
   for true, pred in zip(y_true, y_pred):
       confusion_matrix[true, pred] += 1
   ```

![ニューラルネットワークの重み行列可視化例]
（ここに行列演算のML応用例の画像を挿入）

## 章末演習問題
1. 10×10の単位行列を作成し、対角成分だけ2に変更する
2. 正弦波と余弦波を重ねてプロットし、位相差を可視化
3. 画像データ（3D配列）のチャンネル平均を計算
4. 行列の固有値分解をNumPyで実装

> **AIプロフェッショナルからのアドバイス**  
> 「NumPy配列操作はGPU対応ライブラリ（CuPy）と互換性を持つ設計です。大規模データ処理時はメモリレイアウト（C連続/Fortran連続）に注意し、viewとcopyの違いを理解しておくとパフォーマンス向上に役立ちます」

この章で学んだNumPyの技術は、Pandas・Scikit-learn・TensorFlow/PyTorchなど、より高度なライブラリの基盤となります。配列操作の思想は深層学習のテンソル操作に直接通じるため、反復練習を通じて身体に染み込ませてください。

# 第5章 Numpy入門（GPT）

## 5.1 Numpyとは？
Numpy（Numerical Python）は、Pythonで数値計算を効率的に行うためのライブラリです。特に、多次元配列（ndarray）を扱う機能が充実しており、科学技術計算や機械学習の分野で広く利用されています。本章では、Numpyの基本的な使い方として、配列の定義、インデクス参照、ベクトル・行列計算、データの可視化について学びます。

## 5.2 Numpyによる配列定義
Numpyでは`numpy.array()`を用いて配列（ndarray）を作成できます。1次元、2次元、3次元の配列をそれぞれ定義する方法を示します。

### 5.2.1 1次元配列
```python
import numpy as np
arr1 = np.array([1, 2, 3, 4, 5])
print(arr1)
```

### 5.2.2 2次元配列
```python
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2)
```

### 5.2.3 3次元配列
```python
arr3 = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(arr3)
```

### 5.2.4 配列生成関数
Numpyには、特定の形状の配列を簡単に作成できる関数が用意されています。

```python
np.zeros((2,3))    # すべて0の2×3配列
np.ones((3,3))     # すべて1の3×3配列
np.eye(3)          # 3×3の単位行列
np.arange(0, 10, 2) # 0から10まで2刻みの配列
np.linspace(0, 1, 5) # 0から1まで5分割した配列
```

## 5.3 配列インデクス参照
Numpyの配列はPythonのリストと同様にインデクスで要素を参照できます。

### 5.3.1 1次元配列のインデクス
```python
arr1[2]  # 3番目の要素（0から数える）
```

### 5.3.2 2次元配列のインデクス
```python
arr2[1, 2]  # 2行目の3列目（5）
```

### 5.3.3 3次元配列のインデクス
```python
arr3[0, 1, 1]  # 最初のブロック、2行目、2列目の値（4）
```

## 5.4 Numpyによるベクトルと行列計算
Numpyはベクトルや行列の演算に強力な機能を提供します。

```python
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print(a + b)  # [5 7 9]
print(a * b)  # [4 10 18]
```

### 5.4.1 行列の演算
```python
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(np.dot(A, B))  # 行列積
print(np.linalg.inv(A))  # 逆行列
```

## 5.5 1次元・2次元配列の描画
Numpyで生成したデータを可視化するために、Matplotlibを使用します。

### 5.5.1 1次元配列のプロット
```python
import matplotlib.pyplot as plt
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y)
plt.show()
```

### 5.5.2 2次元配列のヒートマップ
```python
import seaborn as sns
sns.heatmap(np.random.rand(5, 5), annot=True)
plt.show()
```

## 5.6 機械学習・AIへの応用
Numpyは機械学習の前処理や特徴量計算にも役立ちます。

### 5.6.1 データの標準化
```python
X = np.array([[1, 2], [3, 4], [5, 6]])
X_mean = np.mean(X, axis=0)
X_std = np.std(X, axis=0)
X_standardized = (X - X_mean) / X_std
```

### 5.6.2 主成分分析（PCA）の前処理
```python
cov_matrix = np.cov(X.T)
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
```

本章では、Numpyの基本的な使い方を学びました。次章では、Pandasを用いたデータ処理について学びます。



## 第5章 NumPy入門（Gemini）

### 1. NumPyの概要と本章の流れ

NumPy（ナムパイ）は、Pythonで数値計算を効率的に行うためのライブラリです。多次元配列を扱うための`ndarray`（エヌディーアレイ）という独自のデータ構造を提供し、高速な数値演算を可能にします。機械学習やデータ分析の分野では、NumPyは事実上の標準ライブラリとして広く利用されています。

本章では、NumPyの基本的な使い方として、`ndarray`の定義、要素へのアクセス、ベクトルや行列の演算、そして簡単な描画について学びます。

### 2. NumPyによる配列定義

NumPyの配列は、`numpy.array()`関数を使って定義します。リストやタプルなどのPythonのシーケンス型データを引数に与えることで、`ndarray`を生成できます。

```python
import numpy as np

# 1次元配列
a = np.array([1, 2, 3])
print(a)  # 出力: [1 2 3]

# 2次元配列
b = np.array([[1, 2, 3], [4, 5, 6]])
print(b)
# 出力:
# [[1 2 3]
#  [4 5 6]]

# 3次元配列
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(c)
# 出力:
# [[[1 2]
#   [3 4]]
#
#  [[5 6]
#   [7 8]]]
```

NumPyには、配列を生成するための様々な関数が用意されています。

* `numpy.zeros()`：要素がすべて0の配列を生成
* `numpy.ones()`：要素がすべて1の配列を生成
* `numpy.arange()`：等差数列を生成
* `numpy.linspace()`：指定した範囲で等間隔な数列を生成
* `numpy.random.rand()`：0以上1未満の乱数を要素とする配列を生成

### 3. 配列のインデックス参照

NumPyの配列では、要素のインデックスを指定して値を取得したり、値を変更したりできます。

```python
import numpy as np

a = np.array([1, 2, 3, 4, 5])
print(a[0])  # 出力: 1
print(a[1:3])  # 出力: [2 3]

b = np.array([[1, 2, 3], [4, 5, 6]])
print(b[0, 1])  # 出力: 2
print(b[:, 2])  # 出力: [3 6]

c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(c[1, 0, 1]) # 出力: 6
```

### 4. NumPyによるベクトルと行列計算

NumPyでは、配列同士の四則演算や、行列積、転置など、様々なベクトルや行列の計算を簡単に行うことができます。

```python
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# ベクトル同士の足し算
print(a + b)  # 出力: [5 7 9]

# 行列積
c = np.array([[1, 2], [3, 4]])
d = np.array([[5, 6], [7, 8]])
print(np.dot(c, d))
# 出力:
# [[19 22]
#  [43 50]]

# 転置
print(c.T)
# 出力:
# [[1 3]
#  [2 4]]
```

### 5. 1次元、2次元配列の描画

NumPyの配列は、Matplotlibなどのグラフ描画ライブラリと組み合わせて、データの可視化にも利用できます。

```python
import numpy as np
import matplotlib.pyplot as plt

# 1次元配列の描画
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y)
plt.show()

# 2次元配列の描画
data = np.random.rand(10, 10)
plt.imshow(data)
plt.show()
```

### 機械学習やAIとの関連

NumPyは、機械学習やAIの分野で非常によく使われています。

* **データの前処理:** NumPyは、データの正規化、標準化、欠損値処理など、機械学習モデルに入力する前のデータの前処理に利用されます。
* **モデルの構築:** NumPyは、ニューラルネットワークなどの機械学習モデルの構築において、重みやバイアスの保持、順伝播や逆伝播の計算などに利用されます。
* **画像処理:** NumPyは、画像を多次元配列として扱うことで、画像処理や画像認識の分野で利用されます。
* **自然言語処理:** NumPyは、テキストデータをベクトルや行列に変換し、自然言語処理の分野で利用されます。

このように、NumPyは機械学習やAIの分野において、基盤となる重要なライブラリです。

この章では、NumPyの基本的な使い方を学びましたが、NumPyには他にも多くの便利な機能があります。さらに学習を進めることで、NumPyを使いこなし、データ分析や機械学習の分野で活躍できるようになるでしょう。


# 第5章 NumPy入門（Claude）

## 5.1 NumPyとは

NumPy（Numerical Python）は、Pythonにおける科学技術計算のための基本的なライブラリです。大規模な多次元配列やマトリックスを効率的に扱うための様々な高水準の数学関数を提供しています。データ分析や科学技術計算において不可欠なツールであり、PandasやSciPy、Matplotlib、scikit-learnなどの多くのライブラリの基盤となっています。

本章では、NumPyの基本的な使い方を学びます。まず、NumPy配列の作成方法について解説し、次に配列の要素へのアクセス方法を学びます。さらに、NumPyを用いたベクトルや行列の計算方法を理解し、最後に配列データの可視化方法を学びます。これらの知識は、今後のデータ分析や機械学習を学ぶ上での重要な基礎となります。

## 5.2 NumPy配列の作成

NumPyの中心的なデータ構造は`ndarray`（N-dimensional array：N次元配列）です。これを用いることで、同じデータ型の要素を多次元の配列として効率的に扱うことができます。以下では、様々な次元の配列作成方法と、便利な配列生成関数を紹介します。

### 5.2.1 1次元配列の作成

1次元配列（ベクトル）は最も基本的な配列形式です。リストからNumPy配列を作成する例を示します。

```python
import numpy as np

# リストから1次元配列を作成
a = np.array([1, 2, 3, 4, 5])
print(a)         # [1 2 3 4 5]
print(type(a))   # <class 'numpy.ndarray'>
print(a.shape)   # (5,) - 5要素の1次元配列
```

### 5.2.2 2次元配列の作成

2次元配列（行列）は、行と列からなる表形式のデータを表現します。

```python
# リストのリストから2次元配列を作成
b = np.array([[1, 2, 3], [4, 5, 6]])
print(b)
# [[1 2 3]
#  [4 5 6]]
print(b.shape)   # (2, 3) - 2行3列の行列
```

### 5.2.3 3次元配列の作成

3次元以上の配列は、多次元データを表現するのに有用です。画像処理や時系列データの分析などで使用されます。

```python
# 3次元配列の作成
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(c)
# [[[1 2]
#   [3 4]]
#  [[5 6]
#   [7 8]]]
print(c.shape)   # (2, 2, 2) - 2x2x2の3次元配列
```

### 5.2.4 便利な配列生成関数

NumPyには、特定のパターンの配列を簡単に生成するための関数が多数用意されています。

```python
# 0で満たされた配列
zeros = np.zeros((3, 4))
print(zeros)
# [[0. 0. 0. 0.]
#  [0. 0. 0. 0.]
#  [0. 0. 0. 0.]]

# 1で満たされた配列
ones = np.ones((2, 3))
print(ones)
# [[1. 1. 1.]
#  [1. 1. 1.]]

# 特定の値で満たされた配列
full = np.full((2, 2), 7)
print(full)
# [[7 7]
#  [7 7]]

# 単位行列
identity = np.eye(3)
print(identity)
# [[1. 0. 0.]
#  [0. 1. 0.]
#  [0. 0. 1.]]

# 等間隔の数値を生成
arange = np.arange(0, 10, 2)
print(arange)  # [0 2 4 6 8]

# 指定した区間を均等に分割
linspace = np.linspace(0, 1, 5)
print(linspace)  # [0.   0.25 0.5  0.75 1.  ]

# ランダムな値の配列
random = np.random.random((2, 2))
print(random)
# 例: [[0.12345678 0.98765432]
#      [0.56789012 0.34567890]]
```

## 5.3 配列のインデックス参照

NumPy配列の要素には、インデックスを用いてアクセスします。Pythonのリストと同様にインデックスは0から始まりますが、多次元配列では各次元のインデックスを指定する必要があります。

### 5.3.1 1次元配列のインデックス参照

```python
# 1次元配列
a = np.array([10, 20, 30, 40, 50])

# 単一要素へのアクセス
print(a[0])     # 10 - 最初の要素
print(a[4])     # 50 - 最後の要素
print(a[-1])    # 50 - 負のインデックスも使用可能

# スライシング
print(a[1:4])   # [20 30 40] - インデックス1から3までの要素
print(a[:3])    # [10 20 30] - 最初から3つの要素
print(a[2:])    # [30 40 50] - インデックス2から最後までの要素
print(a[::2])   # [10 30 50] - 2つおきに要素を取得
```

### 5.3.2 2次元配列のインデックス参照

```python
# 2次元配列
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 単一要素へのアクセス
print(b[0, 0])   # 1 - 1行目、1列目の要素
print(b[1, 2])   # 6 - 2行目、3列目の要素

# 行単位のアクセス
print(b[0])      # [1 2 3] - 1行目全体
print(b[2])      # [7 8 9] - 3行目全体

# スライシング
print(b[0:2, 1:3])
# [[2 3]
#  [5 6]] - 1〜2行目の2〜3列目

# 特定の行・列の取得
print(b[:, 1])   # [2 5 8] - すべての行の2列目
print(b[1:, :2])
# [[4 5]
#  [7 8]] - 2行目以降の1〜2列目
```

### 5.3.3 3次元配列のインデックス参照

```python
# 3次元配列
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

# 単一要素へのアクセス
print(c[0, 0, 0])  # 1 - 最初の要素
print(c[1, 1, 1])  # 8 - 最後の要素

# 2次元部分配列の取得
print(c[0])
# [[1 2]
#  [3 4]] - 最初の2次元ブロック

# 特定の次元でのスライシング
print(c[:, 0, :])
# [[1 2]
#  [5 6]] - すべての最初の行から全要素
```

## 5.4 NumPyによるベクトルと行列計算

NumPyの強力な機能の一つは、ベクトルや行列に対する効率的な数学演算です。これにより、複雑な数値計算を簡潔かつ高速に実行できます。

### 5.4.1 基本的な算術演算

```python
# 1次元配列（ベクトル）の演算
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# 要素ごとの加算
print(a + b)      # [5 7 9]

# 要素ごとの減算
print(b - a)      # [3 3 3]

# 要素ごとの乗算
print(a * b)      # [4 10 18]

# 要素ごとの除算
print(b / a)      # [4.  2.5 2. ]

# スカラーとの演算
print(a * 2)      # [2 4 6]
print(a + 10)     # [11 12 13]
```

### 5.4.2 行列演算

```python
# 2次元配列（行列）の演算
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# 要素ごとの加算
print(A + B)
# [[ 6  8]
#  [10 12]]

# 行列積（ドット積）
print(np.dot(A, B))
# [[19 22]
#  [43 50]]

# または @ 演算子を使用（Python 3.5以降）
print(A @ B)
# [[19 22]
#  [43 50]]

# 行列の転置
print(A.T)
# [[1 3]
#  [2 4]]

# 逆行列
A_inv = np.linalg.inv(A)
print(A_inv)
# [[-2.   1. ]
#  [ 1.5 -0.5]]

# 行列式
print(np.linalg.det(A))  # -2.0

# 固有値と固有ベクトル
eigenvalues, eigenvectors = np.linalg.eig(A)
print("固有値:", eigenvalues)
print("固有ベクトル:\n", eigenvectors)
```

### 5.4.3 ブロードキャスト

NumPyのブロードキャスト機能により、形状の異なる配列間でも演算が可能です。

```python
# ベクトルと行列のブロードキャスト
A = np.array([[1, 2, 3], [4, 5, 6]])
v = np.array([10, 20, 30])

# 各行にベクトルを加算
print(A + v)
# [[11 22 33]
#  [14 25 36]]

# スカラーとのブロードキャスト
print(A * 2)
# [[ 2  4  6]
#  [ 8 10 12]]
```

## 5.5 NumPy配列の描画

NumPy配列のデータを視覚化するには、主にMatplotlibライブラリを使用します。1次元と2次元の配列の基本的な描画方法を紹介します。

### 5.5.1 1次元配列の描画

```python
import numpy as np
import matplotlib.pyplot as plt

# 1次元配列のデータ生成
x = np.linspace(0, 2*np.pi, 100)  # 0から2πまでの100点
y = np.sin(x)                      # 正弦波

# 線グラフの描画
plt.figure(figsize=(8, 4))
plt.plot(x, y)
plt.title('正弦波')
plt.xlabel('x')
plt.ylabel('sin(x)')
plt.grid(True)
plt.show()
```

### 5.5.2 2次元配列の描画

```python
# 2次元配列のデータ生成
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
X, Y = np.meshgrid(x, y)
Z = np.sin(np.sqrt(X**2 + Y**2))

# 等高線図
plt.figure(figsize=(10, 8))
plt.subplot(2, 1, 1)
contour = plt.contour(X, Y, Z, 20)
plt.colorbar(contour)
plt.title('等高線図')

# ヒートマップ
plt.subplot(2, 1, 2)
heatmap = plt.imshow(Z, extent=[-5, 5, -5, 5], origin='lower', cmap='viridis')
plt.colorbar(heatmap)
plt.title('ヒートマップ')
plt.tight_layout()
plt.show()
```

## 5.6 機械学習とAIにおけるNumPy

NumPyは機械学習やAIのアルゴリズム実装において基礎となるライブラリです。ここでは、機械学習に関連するNumPyの追加機能を紹介します。

### 5.6.1 統計関数

NumPyには、データ分析や機械学習で頻繁に使用される統計関数が豊富に用意されています。

```python
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# 基本統計量
print("平均値:", np.mean(data))
print("中央値:", np.median(data))
print("標準偏差:", np.std(data))
print("分散:", np.var(data))
print("最小値:", np.min(data))
print("最大値:", np.max(data))
print("合計:", np.sum(data))

# 2次元配列の統計
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("行方向の平均:", np.mean(A, axis=1))  # 各行の平均
print("列方向の平均:", np.mean(A, axis=0))  # 各列の平均
```

### 5.6.2 行列分解

行列分解は、特徴抽出や次元削減など多くの機械学習アルゴリズムの基礎となる重要な操作です。

```python
# SVD（特異値分解）
A = np.array([[1, 2], [3, 4], [5, 6]])
U, S, VT = np.linalg.svd(A)
print("U:", U)
print("S:", S)
print("VT:", VT)

# 次元削減の例（低ランク近似）
# Sから最大の特異値だけを使用して近似
S_reduced = np.zeros((2, 2))
S_reduced[0, 0] = S[0]
A_approx = U[:, :2] @ S_reduced @ VT
print("元の行列:\n", A)
print("低ランク近似:\n", A_approx)
```

### 5.6.3 乱数生成と確率分布

機械学習では、サンプリングやモデルの初期化に乱数生成が重要です。NumPyの`random`モジュールは様々な確率分布からのサンプリングをサポートしています。

```python
# 乱数シードの設定（再現性のため）
np.random.seed(42)

# 様々な分布からのサンプリング
uniform_samples = np.random.uniform(0, 1, 1000)  # 一様分布
normal_samples = np.random.normal(0, 1, 1000)    # 正規分布
poisson_samples = np.random.poisson(5, 1000)     # ポアソン分布

# ヒストグラムで分布を可視化
plt.figure(figsize=(15, 5))
plt.subplot(1, 3, 1)
plt.hist(uniform_samples, bins=30)
plt.title('一様分布')

plt.subplot(1, 3, 2)
plt.hist(normal_samples, bins=30)
plt.title('正規分布')

plt.subplot(1, 3, 3)
plt.hist(poisson_samples, bins=30)
plt.title('ポアソン分布')
plt.tight_layout()
plt.show()
```

### 5.6.4 データ前処理

機械学習モデルの学習前に行うデータの正規化や標準化も、NumPyを使って簡単に実装できます。

```python
# サンプルデータ
data = np.array([
    [1.0, -1.0, 2.0],
    [2.0, 0.0, 0.0],
    [0.0, 1.0, -1.0]
])

# Min-Max正規化（0-1の範囲に変換）
def min_max_normalize(x):
    min_val = np.min(x, axis=0)
    max_val = np.max(x, axis=0)
    return (x - min_val) / (max_val - min_val)

# Z-score標準化（平均0、標準偏差1）
def z_score_standardize(x):
    mean = np.mean(x, axis=0)
    std = np.std(x, axis=0)
    return (x - mean) / std

normalized_data = min_max_normalize(data)
standardized_data = z_score_standardize(data)

print("元のデータ:\n", data)
print("正規化データ:\n", normalized_data)
print("標準化データ:\n", standardized_data)
```

---

NumPyは、データリテラシーを身につける上で不可欠なライブラリです。本章で学んだ配列操作や数値計算の基礎知識は、今後のデータ分析や機械学習の学習において重要な基盤となります。特に、効率的な数値計算や行列演算の機能は、大規模なデータセットを扱う際に威力を発揮します。次章以降では、これらの基礎知識を応用して、より高度なデータ分析手法や機械学習アルゴリズムについて学んでいきます。

## 第5章: Numpy入門（Copilot）

### 5.1 Numpyの概要と本章の流れ
Numpyは、Python言語を用いた数値計算やデータ操作において欠かせないライブラリです。その高効率な配列操作と、ベクトル・行列計算を可能にする機能により、科学計算や機械学習の分野で広く利用されています。本章では、Numpyの基本概念を解説し、配列の生成や操作方法を中心に学びます。また、Numpyを活用したベクトル・行列計算や、データの描画方法についても触れます。最後に、機械学習やAIに応用可能なNumpyの活用事例を補足します。

---

### 5.2 配列の定義
Numpyでは、`numpy.array`関数を使用して配列を定義します。ここでは1次元、2次元、3次元配列の具体例を示し、さまざまな配列生成方法を解説します。

- **1次元配列の例**:
```python
import numpy as np
arr_1d = np.array([1, 2, 3, 4, 5])
print(arr_1d)
```

- **2次元配列の例**:
```python
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)
```

- **3次元配列の例**:
```python
arr_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(arr_3d)
```

- **配列生成関数の紹介**:
  - `np.zeros()`: ゼロ配列を作成
  - `np.ones()`: すべての要素が1の配列を作成
  - `np.arange()`: 等間隔な数値配列を作成
  - `np.linspace()`: 指定した範囲内で等間隔に分割された配列を作成

---

### 5.3 配列のインデックス参照
Numpyでは、シンプルかつ効率的なインデックス参照が可能です。以下に1次元、2次元、3次元配列のインデックス操作の例を示します。

- **1次元配列の参照**:
```python
print(arr_1d[2])  # 3番目の要素
```

- **2次元配列の参照**:
```python
print(arr_2d[1, 2])  # 2行3列の要素
```

- **3次元配列の参照**:
```python
print(arr_3d[1, 0, 1])  # 2ブロック1行2列の要素
```

---

### 5.4 ベクトルと行列計算
Numpyはベクトルおよび行列計算を効率よく行える強力な機能を持っています。以下に計算例を示します。

- **ベクトル演算**:
```python
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])
print(vector_a + vector_b)  # 要素ごとの加算
```

- **行列演算**:
```python
matrix_a = np.array([[1, 2], [3, 4]])
matrix_b = np.array([[5, 6], [7, 8]])
print(np.dot(matrix_a, matrix_b))  # 行列積
```

---

### 5.5 配列の描画
Numpyとmatplotlibを組み合わせることで、1次元および2次元データを描画できます。

- **1次元配列のプロット**:
```python
import matplotlib.pyplot as plt
plt.plot(arr_1d)
plt.show()
```

- **2次元配列のヒートマップ表示**:
```python
plt.imshow(arr_2d, cmap='hot', interpolation='nearest')
plt.colorbar()
plt.show()
```

---

### 5.6 機械学習やAIとの関係
Numpyは、機械学習やAIの基礎となるデータ操作で重要な役割を果たします。
- **特徴量スケーリング**: データを正規化するために`np.mean()`や`np.std()`を使用。
- **重み行列の初期化**: ランダム配列生成によるモデルの初期化 (`np.random.rand()` など)。
- **大規模データセットの操作**: メモリ効率の良い操作が可能で、高速にデータを処理。

---

以上の内容で「Numpy入門」章を作成しました。ご意見や追加リクエストがあればお知らせください！



データ分析の最初のステップとして、データの特徴を把握することが重要です。そのための方法が**記述統計**です。記述統計では、データの分布や傾向を数値化・可視化することで、データの尺度を理解し、データの傾向や分布などの特徴を把握します。これに対し、データから一般的な傾向を推測し結論を導く手法が**推測統計**です。本章では、まず記述統計と推測統計の概念を説明します。その後、記述統計に関するデータの種類、代表的な統計量、さらには変数間の関係を分析するための指標について学び、Pythonの**Pandas**、**NumPy**、**SciPy**、**Matplotlib**を用いた実践的な計算方法も紹介します。 推測統計については、後続の章で扱います。

---

## 4.1 記述統計と推測統計  

### **記述統計とは？**  
記述統計（Descriptive Statistics）は、収集したデータの特徴を要約し、分かりやすく表現するための統計学の手法です。データの平均値や中央値などの代表値を求めたり、データのばらつきを表す標準偏差や四分位数を計算したりします。データの可視化も記述統計の一部であり、ヒストグラムや散布図を用いることでデータの分布や関係性を視覚的に理解できます。  
例として、学校のテストの点数を考えたとき、平均点が70点であることを知るだけではなく、中央値や最頻値、標準偏差などを計算することで、学生全体のパフォーマンスをより詳細に理解することができます。

### **推測統計とは？**  
推測統計（Inferential Statistics）は、サンプルデータ（収集したデータ）から母集団全体の性質を推測するための手法です。例えば、調査対象の一部（サンプル）を分析し、その結果をもとに全体（母集団）の傾向を推測します。推測統計には、仮説検定や回帰分析などの手法が含まれます。

以下の表は、記述統計と推測統計の比較をまとめたものです。

| 統計手法 | 説明 | 例 |
|----------|------|----|
| **記述統計** | データを整理し、可視化する | 平均値・中央値・ヒストグラム |
| **推測統計** | サンプルデータをもとに母集団を推測 | t検定・回帰分析 |


## 4.2 質的データと量的データ
データは、データの性質により**質的データ（Qualitative Data）**と**量的データ（Qantitative Data）**の2種類に分類されます。

| 種類       | 説明 | 例 |
|------------|--------------------------------|----------------------------|
| **質的データ** | 数値ではなくカテゴリを表す | 血液型、職業、好きな色 |
| **量的データ** | 数値で表され計算が可能     | 身長、体重、試験の点数 |

### 1. **質的データ**  
質的データとは、数値ではなく、分類や特徴を表すデータのことです。これは計算や数値の大小比較には適さず、グループ分けやカテゴリーの識別に用いられます。  

#### 例  
- **血液型**（A型、B型、O型、AB型）  
- **好きな果物**（りんご、みかん、ぶどう）  
- **職業**（教師、医師、エンジニア）  
- **アンケートの選択肢**（「はい」「いいえ」「わからない」）  

### 2. **量的データ**  
量的データとは、数値で表され、加減乗除の計算が可能なデータのことです。これはさらに「離散データ」と「連続データ」に分けられます。  

- **離散データ**（Discrete Data）  整数値をとり、数え上げが可能なデータです。  
  - **例**：人数（クラスの生徒数）、試験の得点、工場で生産された製品の個数  

- **連続データ**（Continuous Data）  小数を含む連続した値をとるデータで、測定によって得られるものです。  
  - **例**：身長（cm）、体重（kg）、温度（℃）、時間（秒）  


データの種類を正しく理解することで、適切な統計手法を選択し、正確な分析を行うことができます。

## 4.3　1変数データと多変数データ  
データは、含まれる変数の数に応じて、1つの変数を持つデータは**1変数データ**、2つの変数を持つデータは**1変数データ**、複数の変数を持つデータは**多変数データ**と呼ばれます。これらは、データの分析方法や目的によって使い分けられます。


| 分類 | 説明 | 例 |
|------|----------------------|------------------------------|
| **1変数データ** | 1つの変数のみを観測 | クラスの生徒の体重 |
| **2変数・多変数データ** | 2つ・複数の変数を同時に観測 | クラスの生徒身長と体重の関係 |

### **1. １変数データ**  
1変数データとは、1つの変数のみを観測したデータのことです。各データは1つの値を持ち、その分布や傾向を調べることが主な目的となります。  

#### **例**  
- クラスの生徒の身長（cm）  
- 一日の平均気温（℃）  
- テストの点数  

1変数データの分析では、**平均値、中央値、最頻値（モード）、分散、標準偏差**などの統計量を求めたり、**ヒストグラムや箱ひげ図**を使ってデータの分布を視覚的に表したりします。  

### **2. 多変数データ**  
多変数データとは、**複数の変数**を同時に観測したデータのことです。複数の要素の関係を分析し、相関や因果関係を調べるのに用いられます。  

#### **例**  
- 身長と体重の関係  
- 気温とアイスクリームの売上の関係  
- 勉強時間とテストの点数の関係  

多変数データの分析では、**散布図や相関係数**を用いて、変数間の関係を明らかにします。また、より複雑な場合には、**回帰分析や主成分分析**などの手法を使うこともあります。  

## **4.3 データの要約統計量**  
$n$個のデータ $x_i \ (i=1,2,\dots,N)$ が与えられたとき、データの特性を表す代表値や、データのばらつきを示す指標について説明する。

### (1) 代表値
- **平均値（Mean）**：平均値 $\mu$ は、データの合計をデータの数で割った値。  
$$
\mu = \bar{x} =  \frac{1}{n} \sum_{i=1}^{n} x_i = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
$$
- **中央値（Median）、最小値（Minimum）、最大値（Maximum）**  
$n$個のデータ $x_i \ (i=1,2,\dots,N)$ を大きさの順に並べた
$$
x_{(1)}  \leq   x_{(2)} \leq  \cdots x_{(n)}
$$
データ $x_{(i)} \ (i=1,2,\dots,N)　$  を順序統計量 （Order Statistic）と呼び、中央値の$x_{\rm{me}}$は、データ$x_{(i)}$　の「中央」の値である、データの個数 $n$ が奇数の場合と偶数の場合に、以下のように計算する。

$$
x_{\rm{me}} =
\begin{cases}
x_{\left((n+1)/2\right)}, \space \space \space \space \space\space \space \space  nは奇数の場合  \\
\frac{x_{\left(n/2\right)} + x_{\left(n/2+1\right)}}{2}, \space \space \space \space  nは偶数の場合
\end{cases}
$$  
最小値の$x_{\rm{min}}$、最大値の$x_{\rm{max}}$をそれぞれ、
$$x_{\rm{min}} = x_{(1)}、　x_{\rm{max}} = x_{(n)}$$
と表す。
- **四分位数（Quartiles）**
データを4分の1に区切った位置にあるデータの値を四分位数と呼ぶ。Fig 4.1に示すように、大きさの順に並べたデータ$x_{(i)} \ (i=1,2,\dots,N)$を用いて、第1四分位数$Q(1/4)$、第3四分位数$Q(3/4)$を計算する。
  - 第1四分位数
$$
Q(1/4) =
\begin{cases}
\left(x_{(n/4)} + x_{(n/4+1)} \right)/2,\space \space\space \space \space \space\space \space \space \space\space \space   n=4m \\
x_{((n+1)/4)},  \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-1 \\
x_{((n+2)/4)}, \space \space\space \space \space \space\space \space \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-2 \\
\left(x_{((n-1)/4)} + x_{((n+3)/4)} \right)/2,  \space \space\space \space  n=4m-3 \\
\end{cases}
$$  
  - 第3四分位数
$$
Q(3/4) =
\begin{cases}
\left(x_{(3n/4)} + x_{(3n/4+1)} \right)/2,\space \space \space \space\space \space \space \space\space \space   n=4m \\
x_{((3n+3)/4)},  \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-1 \\
x_{((3n+2)/4)}, \space \space\space \space \space \space\space \space \space \space\space \space  \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space \space \space\space \space n=4m-2 \\
\left(x_{((3n-1)/4)} + x_{((3n+5)/4)} \right)/2,  \space \space  n=4m-3 \\
\end{cases}
$$     
ここで、$m$は2以上の自然数である。第2四分位値$Q(2/4)$は中央値 $x_{\rm{me}}$ である。

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_1_Quartile.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.1 順序統計量を用いて最小値、中央値、最大値、四分位値の計算.</figcaption>
</figure>

### (2) データのばらつきを示す指標
データのばらつきを測る指標として、**分散**（variance）と**標準偏差**（standard deviation）があります。　  

- **分散：** 分散は、データが平均からどの程度散らばっているかを示す指標です。  
データ $( x_1, x_2, \dots, x_N )$ の平均を $\mu$ とすると、分散 $\sigma^2$ は次の式で求められます。  
$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 = \frac{1}{N} \left[ (x_1 - \mu)^2 + (x_2 - \mu)^2 + \cdots + (x_n - \mu)^2 \right]
$$
この式では、各データ点と平均の差を2乗し、それをすべてのデータについて足し合わせた後、データの個数 $N$ で割っています。 分散が大きいほど、データのばらつきが大きいことを意味します。  

- **標準偏差：** 標準偏差は、分散の平方根を取ったもので、次の式で表されます。  
$$
\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}
$$
標準偏差は、分散とは異なり、元のデータと同じ単位を持つため、データのばらつきを直感的に理解しやすくなります。  

このように、分散と標準偏差を使うことで、データの散らばり具合を定量的に評価することができます。

### (3) 変数間の関係性を示す指標
$n$個の2つの変数データ $(x_i,y_i) \ (i=1,2,\dots,N)$ が与えられたとき、2つの変数データの間にどのような関係があるかを示すために、**共分散**（covariance）と**相関係数**（correlation coefficient）という指標を使います。  

- **共分散：**  
2変数データ $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n) $の共分散 $\sigma_{xy} $ は、次の式で求められます。  
$$
\sigma_{xy} = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)
$$
ここで、$\mu_x$と$\mu_y$ は、それぞれ$ x_i$ と $ y_i$の平均である。

共分散の値が
  - 正の値 → $x_i$ が大きいとき $y_i$ も大きくなる傾向（正の相関）  
  - 負の値 → $x_i$  が大きいとき $y_i$ は小さくなる傾向（負の相関）  
  - 0 に近い値 → $x_i$  と $y_i$ の間に明確な関係がない  

ただし、共分散の値はデータの単位によって変わるため、直接比較しにくいことがあります。  

- **相関係数：**  
相関係数 $\rho$ は次の式で求められます。  

$$
\rho = \frac{\sigma_{xy}}{\sigma_x \sigma_y}
$$

ここで、$\sigma_x$と$\sigma_y$ は、それぞれ$ x_i$ と $ y_i$の標準偏差である。
相関係数は **−1 から 1 の範囲** で表され、  
- $\rho=1$ → 完全に正の相関$x_i$が増えると $y_i$も必ず増える）  
- $\rho=-1$ → 完全に負の相関（$x_i$が増えると $y_i$は必ず減る）  
- $\rho=0$ → 相関がない（$x_i$と $y_i$は無関係）  
相関係数を使うと、異なる単位のデータでも関係性の強さを比較できます。  

このように、共分散と相関係数を使うことで、2つの変数の関係性を数値的に把握することができます。



## 4.4 Pythonでデータの記述統計を計算
本節では、第1章で説明したPima Indians Diabetes Dataset を用いて、Pythonでデータの記述統計の計算方法を学びます。具体的には、データの読み込み、ヒストグラムを用いた分布の観察、要約統計量の計算、および特定の変数間の関係を可視化し相関を分析する方法について説明します。

### 1. データの読み込み
まず、pandasライブラリを使用し、GitHubリポジトリから **Pima Indians Diabetes** データセットをインポートし、分析の準備を行います。

```python
# データ操作と分析のためにpandasライブラリをインポート
import pandas as pd

# GitHubリポジトリに保存されているデータセット（生のCSVファイル）のURL
url = "https://raw.githubusercontent.com/XiaoyongZHANG/Data_Literacy/main/Chapter_01/pima-indians-diabetes.csv"

# データセットの各列に意味のある名前を定義
column_names = [
    "Pregnancies",               # 妊娠回数
    "Glucose",                   # 血糖値 (mg/dL)
    "BloodPressure",             # 血圧 (mmHg）
    "SkinThickness",             # 皮下脂肪厚 (mm)
    "Insulin",                   # 血清インスリン値（μU/ml）
    "BMI",                       # BMI（体重kg / (身長m)^2）
    "DiabetesPedigreeFunction",  # 糖尿病家系指数（遺伝的要因）
    "Age",                       # 年齢（歳）
    "Diabetes"                   # 糖尿病有無（1 = 糖尿病, 0 = 非糖尿病）
]

# pandasを使用してURLからデータセットを読み込む
# 'header=None' は、ファイル内に既存のヘッダーがないことを指定し、データとして誤解釈されるのを防ぐ
# 'names=column_names' で定義した列名をデータセットに適用
dataset = pd.read_csv(url, header=None, names=column_names)

# データセットの形状（行数と列数）を表示
print(dataset.shape)

# データセットの最初の5行を表示し、その構造と内容の概要を確認
print(dataset.head())

```
**実行結果:**
```
(768, 9)
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Diabetes  
0                     0.627   50         1  
1                     0.351   31         0  
2                     0.672   32         1  
3                     0.167   21         0  
4                     2.288   33         1  
```

## 2. データのヒストグラム観察
データの分布を理解するために、`pandas`の`hist()`関数と`matplotlib`ライブラリを用いて各変数のヒストグラムを描画します。
```python
# Matplotlibライブラリをインポート
import matplotlib.pyplot as plt

# 各列のヒストグラムを作成
dataset.hist(figsize=(12, 8), bins=20, edgecolor='black')

# グラフの横軸と縦軸のラベルを設定
for ax in plt.gcf().get_axes():  # 現在の図の各軸をループ
    ax.set_xlabel('Value')  # 横軸ラベル
    ax.set_ylabel('Frequency')  # 縦軸ラベル

# グラフを表示
plt.tight_layout()  # レイアウトの調整
plt.show()
```
**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_2_hist.png?raw=true?raw=1" width="900">
<figcaption align = "center"> Fig 4.2 順序統計量を用いて最小値、中央値、最大値、四分位値の計算.</figcaption>
</figure>

## 3. 要約統計量計算
`describe()`関数を用いて、各変数の基本的な統計量を計算する。
```python
# 記述統計量の表示
dataset.describe()
```
**実行結果:**

|index|Pregnancies|Glucose|BloodPressure|SkinThickness|Insulin|BMI|DiabetesPedigreeFunction|Age|Diabetes|
|---|---|---|---|---|---|---|---|---|---|
|count|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|768\.0|
|mean|3\.8|120\.9|69\.1|20\.5|79\.8|32\.0|0\.5|33\.2|0\.3|
|std|3\.4|32\.0|19\.4|16\.0|115\.2|7\.9|0\.3|11\.8|0\.5|
|min|0\.0|0\.0|0\.0|0\.0|0\.0|0\.0|0\.1|21\.0|0\.0|
|25%|1\.0|99\.0|62\.0|0\.0|0\.0|27\.3|0\.2|24\.0|0\.0|
|50%|3\.0|117\.0|72\.0|23\.0|30\.5|32\.0|0\.4|29\.0|0\.0|
|75%|6\.0|140\.2|80\.0|32\.0|127\.2|36\.6|0\.6|41\.0|1\.0|
|max|17\.0|199\.0|122\.0|99\.0|846\.0|67\.1|2\.4|81\.0|1\.0|

この表には、各計測量の平均（mean）、標準偏差（std）、最小値（min）、最大値（max）、四分位数（25%、50%、75%）が含まれます。

## 4. 散布図と相関係数を計算
これまでは1変数データに着目して、変数の記述統計量を計算しました。次に、変数間の関係性を把握するために、散布図と相関係数を説明する。

**散布図**は、データの2つの変数間の関係を視覚的に表現するためのグラフです。各データ点は、2つの変数の値に対応する位置にプロットされます。横軸には1つの変数（独立変数）、縦軸にはもう1つの変数（従属変数）が置かれます。このグラフを使うことで、2つの変数がどのように関連しているか、例えば、正の相関（変数が同じ方向に変動する）、負の相関（変数が反対方向に変動する）、または無相関（変数間に明確な関係がない）を視覚的に確認できます。

次のPythonコードは、調査対象の皮下脂肪厚とBMIのの関係を散布図で視覚化し、相関係数を計算します。


```python
import matplotlib.pyplot as plt
import numpy as np

# 皮下脂肪厚とBMIの関係を散布図でプロット
plt.figure(figsize=(8, 6))
plt.scatter(dataset['SkinThickness'], dataset['BMI'], color='purple', edgecolor='black')

# 相関係数を計算
correlation = np.corrcoef(dataset['SkinThickness'], dataset['BMI'])[0, 1]

# 相関係数を計算
correlation = np.corrcoef(dataset['SkinThickness'], dataset['BMI'])[0, 1]

# 横軸と縦軸のラベルを設定
plt.xlabel('Skin Thickness (mm)')
plt.ylabel('BMI')
plt.grid(True)

# 図のタイトルを設定
plt.title('Relationship between Skin Thickness and BMI')

# 相関係数をLegendに表示
plt.legend([f'Correlation coefficient: {correlation:.2f}'], loc='lower right', fontsize = 18) # Fixed the location parameter

# 図を表示
plt.show()
```

**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_3_scatter_cor.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.3 皮下脂肪厚とBMIのの散布図と相関係数.</figcaption>
</figure>

**解説:**
相関係数が0.39となったということは、皮下脂肪厚（`SkinThickness`）とBMI（`BMI`）の間に中程度の正の相関があることを意味します。しかし、相関係数は異常値の影響を受けるため、これらの異常値を取り除くことで、より正確な分析が可能です。


### 実施した手順:
1. **相関係数の計算**:
   - `np.corrcoef()` を使用して、皮下脂肪厚（`SkinThickness`）とBMI（`BMI`）の相関係数を計算しました。結果として、相関係数が0.39となり、やや低い相関が確認されました。
   
2. **異常値の確認**:
   - 散布図中に、皮下脂肪厚が0㎜となる異常値が含まれていることがわかりました。これらの異常値は、データに誤差を引き起こし、相関関係の分析に影響を与える可能性があります。

3. **異常値の削除**:
   - Pandasを使って、皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除します。

### 異常値を削除し、再度相関係数を計算する方法:

```python
# 皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除
cleaned_dataset = dataset[(dataset['SkinThickness'] > 0) &  (dataset['SkinThickness'] < 80) &  (dataset['BMI'] > 0) ]

# 皮下脂肪厚とBMIの関係を散布図でプロット
plt.figure(figsize=(8, 6))
plt.scatter(cleaned_dataset['SkinThickness'], cleaned_dataset['BMI'], color='purple', edgecolor='black')

# 異常値を削除した後の相関係数を計算
correlation_cleaned = np.corrcoef(cleaned_dataset['SkinThickness'], cleaned_dataset['BMI'])[0, 1]

# 横軸と縦軸のラベルを設定
plt.xlabel('Skin Thickness (mm)')
plt.ylabel('BMI')
plt.grid(True)

# タイトルを設定
plt.title('Relationship between Skin Thickness and BMI (After Removing Outliers)')

# 相関係数をLegendに表示
plt.legend([f'Correlation coefficient: {correlation_cleaned:.2f}'], fontsize = 18)

# 図を表示
plt.show()
```
**実行結果:**
<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_04/Fig4_4_scatter_cor.png?raw=true?raw=1" width="500">
<figcaption align = "center"> Fig 4.4 異常値を削除した皮下脂肪厚とBMIのの散布図と相関係数.</figcaption>
</figure>

### 解説:
- `dataset[(dataset['SkinThickness'] > 0) &  (dataset['SkinThickness'] < 80) &  (dataset['BMI'] > 0) ]` を使って、皮下脂肪厚が0㎜またはBMIが0または80以上の異常値を削除されます。
- 異常値を削除した後で、再度相関係数を計算しています。これにより、相関係数が 0.67 になったということは、皮下脂肪厚（SkinThickness）とBMI（BMI）の間に **中程度から強い正の相関**があることを示しています。



**演習問題**: Irisデータセットを読み込み、がく片の長さと幅の相関係数を計算し、散布図を描画してください。