# **Chapter 3**：データサイエンスのためのPythonライブラリ入門

データサイエンスとは、大量のデータを収集・解析し、そこから有益な情報や知見を得る学問分野です。近年、機械学習や人工知能の発展に伴い、多くの分野でデータサイエンスの技術が活用されています。

データサイエンスにおいて、Pythonは非常に強力なプログラミング言語であり、その理由の一つとして豊富なライブラリが挙げられます。以下に、データサイエンスでよく利用される主要なPythonライブラリについて簡単に説明します。

1. **NumPy**  
   NumPyは、数値計算を効率的に行うためのライブラリです。多次元配列（ndarray）を扱うことができ、ベクトルや行列の演算、数学関数の適用などが可能です。科学技術計算の基盤として広く利用されています。

2. **SciPy**  
   SciPyは、科学技術計算のためのライブラリです。NumPyを基盤としており、最適化、積分、補間、信号処理、統計関数など、高度な数学的機能を提供します。科学技術計算全般に広く利用されます。

3. **pandas**  
   pandasは、データの操作と解析を容易にするライブラリです。データフレーム（DataFrame）という表形式のデータ構造を提供し、データの読み込み、クリーニング、変換、集計などを行うことができます。特に、時系列データの処理に優れています。

4. **Matplotlib**  
   Matplotlibは、データの可視化を行うためのライブラリです。折れ線グラフ、棒グラフ、散布図、ヒストグラムなど、さまざまな種類のグラフを作成することができます。データの傾向やパターンを視覚的に理解するために重要なツールです。

5. **Seaborn**  
   Seabornは、Matplotlibを基盤とした高レベルな可視化ライブラリです。統計データの可視化に特化しており、美しいグラフを簡単に作成することができます。ヒートマップやペアプロットなど、複雑なデータの関係性を視覚化するのに適しています。

6. **Scikit-learn**  
   Scikit-learnは、機械学習のためのライブラリです。分類、回帰、クラスタリング、次元削減、モデル選択など、さまざまな機械学習アルゴリズムを提供しています。データの前処理やモデルの評価にも役立つツールが含まれています。

7. **TensorFlow / PyTorch**  
   TensorFlowとPyTorchは、深層学習（ディープラーニング）のためのライブラリです。ニューラルネットワークの構築や訓練を行うことができ、大規模なデータセットを扱うのに適しています。研究から実運用まで幅広く利用されています。

これらのライブラリを組み合わせることで、データの収集、前処理、解析、可視化、モデリングまで、データサイエンスの一連のプロセスを効率的に行うことができます。

本章では、データ解析の基本となるPythonライブラリである**Numpy、SciPy、pandas、Matplotlib**について学びます。

## 3.1 Pythonライブラリの導入
Pythonでライブラリを利用するためには、まず必要なライブラリをインストールし、スクリプト内で読み込む必要があります。

### 3.1.1．**ライブラリのインストール**
Google Colabはクラウド上で動作するPython環境であり、NumPy、pandas、Matplotlib、scikit-learn、TensorFlow などのデータ分析や機械学習でよく使われるライブラリが最初からインストールされています。そのため、これらのライブラリを使う際に追加のインストールは不要です。
ただし、Colabにないライブラリ（例：seabornなど）が必要な場合は、以下のように `pip` を使ってインストールできます。
```bash
!pip install seaborn
```
`!`をつけることで、Colabのセル内でシステムコマンドを実行できます。


### 3.1.2．**ライブラリのインポート**
Pythonでは、外部のライブラリやモジュールを利用するために、`import`または`from ... import ...`構文を使用します。これらの構文について、以下に説明します。


#### 1. **`import`構文**
`import`構文は、ライブラリやモジュール全体をインポートするために使用されます。インポート後、そのライブラリやモジュール内の関数やクラスを利用する際には、`ライブラリ名.関数名`のようにドット（`.`）を使ってアクセスします。

**例**:
```python
import numpy
import pandas
```

**使用例**:
```python
import numpy as np  # NumPyをnpというエイリアスでインポート
array = np.array([1, 2, 3])  # npを使ってNumPyの関数にアクセス
```

- **エイリアスの使用**:  
  `import ライブラリ名 as エイリアス名`とすることで、ライブラリ名を短縮して使用できます。例えば、`numpy`を`np`、`pandas`を`pd`とすることが一般的です。


#### 2. **`from ... import ...`構文**
`from ... import ...`構文は、ライブラリやモジュールから特定の関数やクラスだけをインポートするために使用されます。これにより、関数やクラスを直接呼び出すことができ、ドット（`.`）を使わずにアクセスできます。

**例**:
```python
from math import sqrt  # mathモジュールからsqrt関数だけをインポート
from pandas import DataFrame  # pandasモジュールからDataFrameクラスだけをインポート
```

**使用例**:
```python
from math import sqrt
result = sqrt(16)  # 直接sqrt関数を呼び出せる
```

- **ワイルドカードを使ったインポート**:  
  `from モジュール名 import *`とすることで、モジュール内のすべての関数やクラスをインポートできます。ただし、名前の衝突が起こる可能性があるため、推奨されません。


#### 3. **両者の違いと使い分け**
- **`import`構文**:  
  ライブラリ全体をインポートする場合に使用します。ドット（`.`）を使ってアクセスするため、コードの可読性が高くなります。特に、複数のライブラリを利用する場合に便利です。

- **`from ... import ...`構文**:  
  特定の関数やクラスだけをインポートする場合に使用します。コードが簡潔になりますが、名前の衝突が起こる可能性があるため、注意が必要です。


| 構文                 | 使用場面                           | メリット                                   | デメリット                     |
|----------------------|-----------------------------------|------------------------------------------|------------------------------|
| `import`             | ライブラリ全体をインポートする場合 | ・ドット記法で明確なアクセス<br>・複数ライブラリ使用時に可読性向上 | ・記述が冗長になる可能性がある |
| `from ... import ...` | 特定機能のみインポートする場合     | ・コードが簡潔に記述できる                 | ・名前衝突のリスクがある       |

#### 4. **一般的なインポートの例**
以下は、データサイエンスでよく使われるライブラリのインポート例です。

```python
import numpy as np  # NumPyをnpとしてインポート
import pandas as pd  # pandasをpdとしてインポート
import matplotlib.pyplot as plt  # Matplotlibのpyplotをpltとしてインポート
from sklearn.linear_model import LinearRegression  # scikit-learnからLinearRegressionクラスをインポート
```

これらの構文を適切に使い分けることで、効率的にPythonのライブラリを利用できます。

___



## 3.2 NumPy

NumPy（Numerical Python）は、数値計算を効率的に行うためのPythonライブラリです。特に多次元配列（ndarray）を中心に、高速な計算を可能にする機能を提供します。NumPyを利用することで、大量のデータを効率的に扱うことができ、データサイエンスや機械学習の分野でも広く活用されています。

### 3.2.1 NumPyの主な特徴

1. **多次元配列（ndarray）**
   - NumPyの基本データ構造であり、リストと異なり同じ型の要素のみを格納します。
   - 高速な計算が可能で、行列演算や統計処理に適しています。

2. **ベクトル化演算（Vectorized Operations）**
   - ループを使用せず、配列単位での計算が可能です。
   - 通常のPythonのループ処理よりも高速に実行されます。

3. **豊富な数学関数**
   - 線形代数、統計関数、フーリエ変換などの多様な数値計算関数が組み込まれています。

4. **データ操作の利便性**
   - スライシングやインデックス操作が強力で、特定の要素や範囲を簡単に抽出できます。
   - 異なる形状の配列を変換するリシェイプ（reshape）機能も備えています。

### 3.2.2 NumPyの基本的な使い方

まず、NumPyを利用するためにライブラリをインストールします。Google Colabはクラウド上で動作するPython環境の場合はNumPyのインストールは不要です。

```bash
pip install numpy
```

Pythonスクリプト内でNumPyを使用するには、通常 `numpy` を `np` という別名でインポートします。

```python
import numpy as np

# 1次元配列の作成
arr = np.array([1, 2, 3, 4, 5])
print(arr)
```

配列の形状を確認するには `shape` プロパティを使用します。

```python
# 2次元配列の作成
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(matrix.shape)  # 出力: (2, 3)
```

さらに、NumPyでは要素ごとの演算が可能です。

```python
# 配列同士の演算
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
result = arr1 + arr2  # 各要素ごとに加算
print(result)  # 出力: [5 7 9]
```

このように、NumPyを活用すると、大量のデータを効率的に扱い、数値計算を簡単に実装できます。後続の章では、NumPyを用いたデータの作成、変形、計算、および分析手法について詳しく学びます。

## 3.3 SciPy
SciPy（Scientific Python）は、数値計算や科学技術計算を行うためのPythonライブラリであり、NumPyを基盤として構築されています。線形代数、最適化、統計、信号処理など、多岐にわたる科学計算機能を提供することから、エンジニアや研究者に広く利用されています。

### 3.3.1 SciPyの特徴
SciPyは、以下のような主要な機能を提供します。

- **線形代数（scipy.linalg）**: 行列演算、固有値問題、QR分解など
- **最適化（scipy.optimize）**: 最小二乗法、制約付き・制約なし最適化
- **統計（scipy.stats）**: 確率分布、統計的検定、回帰分析
- **補間（scipy.interpolate）**: データの補間、スプライン曲線の作成
- **信号処理（scipy.signal）**: フィルタ設計、周波数解析
- **積分（scipy.integrate）**: 数値積分、微分方程式の解法

## 3.3.1 SciPyの基本的な使い方
SciPyはモジュールごとに機能が分かれており、必要な部分のみをインポートして使用します。以下に、代表的な計算の例を示します。

### (1) 線形方程式の解法
次の連立一次方程式を考えます。

$$
\begin{cases}
2x + 3y = 8 \\
5x + 7y = 19
\end{cases}
$$

これを行列の形で表すと、以下のようになります。
$$
Ax = b
$$

ここで、

$$
A = \begin{bmatrix} 2 & 3 \\ 5 & 7 \end{bmatrix}, \quad
x = \begin{bmatrix} x \\ y \end{bmatrix}, \quad
b = \begin{bmatrix} 8 \\ 19 \end{bmatrix}
$$

この方程式を SciPy を使って解きます。

```python
import numpy as np
from scipy.linalg import solve

# 行列 A と ベクトル b を定義
A = np.array([[2, 3], [5, 7]])
b = np.array([8, 19])

# 線形方程式を解く
x = solve(A, b)

print("解: x =", x[0], ", y =", x[1])
```
**実行結果:**
```
解: x = 1.0 , y = 2.0
```

このように、SciPy の `solve` 関数を使うと、行列 $A$ とベクトル $b$ を指定するだけで簡単に解を求めることができます。

### (2) 数値積分
SciPyを使用して、次の定積分を数値的に計算する方法を示します。  

$$
I = \int_0^{\infty} e^{-x^2} dx
$$
この積分は**ガウス積分**の一部であり、解析的には以下の値になります。
$$I = \frac{\sqrt{\pi}}{2}$$

SciPyの `quad` 関数を用いて、この積分を数値的に求めます。
```python
import numpy as np
from scipy.integrate import quad

# 被積分関数を定義
def f(x):
    return np.exp(-x**2)

# 数値積分の計算
result, error = quad(f, 0, np.inf)

print("積分値:", result)
print("推定誤差:", error)
```
**実行結果:**
```
積分値: 0.8862269254527579
推定誤差: 1.0405008393194724e-10
```
これは理論値 $\frac{\sqrt{\pi}}{2} \approx 0.8862269255\$ に非常に近い結果になっています。

このように、SciPy の `quad` 関数を使えば、不定積分の解析解が求められない場合でも、高精度な数値積分を行うことができます。

### (3) 確率の計算
標準正規分布の$P(X \leq 1.96)$を計算の例を示す。

標準正規分布（**Standard Normal Distribution**）とは、平均 $\mu = 0 $、標準偏差 $ \sigma = $ の正規分布のことを指します。その確率密度関数（PDF）は次のように表されます：

$$
f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2 / 2}
$$

ここで、  
$P(X \leq 1.96)$は、標準正規分布の累積分布関数（**CDF: Cumulative Distribution Function**）を用いて、  
$$
P(X \leq 1.96) = F(1.96)
$$
と表されます。

この値は統計的に重要で、Fig 3.1に示すように、**標準正規分布において 1.96 は片側 2.5% の上側確率に対応し、片側 95% の信頼区間に関連する**ことが知られています。  
具体的には：
$$
P(X \leq 1.96) \approx 0.975
$$

<figure align="center">
<img src="https://github.com/XiaoyongZHANG/Data_Literacy/blob/main/Chapter_03/CDF_Norm.png?raw=1" width="500">
<figcaption align = "center"> Fig 3.1 標準正規分布の$P(X \leq 1.96)$を計算.</figcaption>
</figure>

SciPy の `scipy.stats.norm.cdf()` 関数を使用して、この確率を求めます。
```python
from scipy.stats import norm

mean, std = 0, 1  # 平均0、標準偏差1の正規分布
prob = norm.cdf(1.96)  # 標準正規分布の累積分布関数（CDF）
print("P(X <= 1.96):", prob)
```

**実行結果**
```
P(X ≤ 1.96): 0.9750021048517796
```

SciPyは、科学技術計算において広く使用される強力なライブラリであり、NumPyと組み合わせることで高度な数値解析を効率的に行うことができます。数学、統計、信号処理などの分野で活用されており、Pythonを用いたデータ分析や機械学習の基盤としても重要な役割を果たします。



## 3.4 pandasの概要
Pandasは、データ操作や分析を容易にするために設計されたPythonのライブラリです。特に、表形式のデータを効率的に扱うための機能が充実しており、データの読み込み、前処理、可視化、統計的分析など、幅広い用途に対応しています。データサイエンスや機械学習の分野で頻繁に使用されるライブラリの一つであり、CSVやExcelファイル、SQLデータベースなどからデータを簡単に取り込むことができます。

Pandasは、主に **Series（1次元データ）** と **DataFrame（2次元データ）** という2つの主要なデータ構造を提供し、直感的なデータ操作が可能です。これにより、データのフィルタリング、グルーピング、統計処理、欠損値処理などを効率よく行うことができます。

### 3.4.1 Pandasの主な特徴

Pandasには、以下のような特徴があります。

1. **強力なデータ構造**
   - `Series`（1次元データ）と `DataFrame`（2次元データ）を提供し、データの操作を簡単に行える。
   
2. **多様なデータソースに対応**
   - CSV、Excel、JSON、SQL、Parquetなど、さまざまな形式のデータを簡単に読み書きできる。
   
3. **高度なデータ操作が可能**
   - データの選択、フィルタリング、ソート、集約、結合、グループ化などが簡単にできる。
   
4. **欠損値処理**
   - 欠損データを特定し、補完や削除などの処理が容易にできる。
   
5. **統計・分析機能**
   - 基本的な統計量の計算、時系列データの処理、データの要約などの機能が組み込まれている。
   
6. **データの可視化**
   - MatplotlibやSeabornと連携し、データの視覚的な分析が可能。

### 3.4.2 Pandasの基本的な使い方

ここでは、Pandasの基本的な操作について説明します。

#### （1）Pandasのインポート
PythonでPandasを使用する際は、以下のようにインポートします。
```python
import pandas as pd
```

#### （2）データの読み込み
Pandasでは、CSVやExcelなどのファイルを簡単に読み込むことができます。ここで、第1章の**Pima Indians Diabetes (糖尿病) Dataset**を用いて，Pandasの基本的な使い方を説明します。

| No. | 妊娠回数 | 血糖値 (mg/dL) | 血圧 (mmHg) | 皮下脂肪厚 (mm) | 血清インスリン (μU/mL) | BMI (kg/m²) | 糖尿病家系指数 |　年齢 | 糖尿病有無 |
|------|----------|--------------|-------------|---------------|----------------|-------------|----------------|------|------------------------|
| 0    | 6        | 148          | 72          | 35            | 0              | 33.6        | 0.627          | 50   | 1                      |
| 1    | 1        | 85           | 66          | 29            | 0              | 26.6        | 0.351          | 31   | 0                      |
| 2    | 8        | 183          | 64          | 0             | 0              | 23.3        | 0.672          | 32   | 1                      |
| 3    | 1        | 89           | 66          | 23            | 94             | 28.1        | 0.167          | 21   | 0                      |
| 4    | 0        | 137          | 40          | 35            | 168            | 43.1        | 2.288          | 33   | 1                      |



```python
# GitHubリポジトリに保存されているデータセット（生のCSVファイル）のURL
url = "https://raw.githubusercontent.com/XiaoyongZHANG/Data_Literacy/main/Chapter_01/pima-indians-diabetes.csv"
df = pd.read_csv(url)  # CSVファイルの読み込み
```

#### （3）データの表示
データの先頭や末尾を確認するには、`head()` または `tail()` メソッドを使用します。また、`iloc[特定の行の番号]` を用いて、データの特定の行を確認できます。
```python
print(df.head())  # 最初の5行を表示
print(df.tail())  # 最初の5行を表示
print(df.iloc[1] ) #第2行を表示（0から始まるインデックスなので `1` を指定）
print(df.iloc[:,2] ) #第3列（年齢）を表示（0から始まるインデックスなので `1` を指定）
```

#### （4）データの基本情報の確認
データの基本的な情報を取得するためのメソッドを紹介します。
```python
print(df.info())   # データの構造を確認
print(df.describe())  # 統計情報を確認
```

Pandasを活用することで、データの整理・分析が効率的に行えます。後続の章では、より高度なデータ処理の方法について説明します。



## 3.5 Matplotlibの概要

### 3.5 Matplotlibの概要

Matplotlibは、Pythonでデータの可視化を行うための代表的なライブラリの一つです。折れ線グラフ、棒グラフ、散布図、ヒストグラムなど、さまざまな種類のグラフを作成することができます。データ分析や機械学習の分野で広く利用されており、シンプルなインターフェースと高いカスタマイズ性を備えているため、初心者から上級者まで幅広く使用されています。

本節では、Matplotlibの主な特徴と基本的な使い方について解説します。

### 3.5.1 Matplotlibの主な特徴

Matplotlibには以下のような特徴があります。

1. **多様なグラフの作成**
   - 折れ線グラフ、棒グラフ、散布図、ヒストグラム、箱ひげ図など、多様なグラフを作成できます。

2. **高いカスタマイズ性**
   - 軸ラベルやタイトルの設定、凡例の追加、色や線のスタイルの変更など、細かなカスタマイズが可能です。

3. **簡単なインターフェース**
   - `pyplot` モジュールを利用することで、簡単にグラフを作成できます。

4. **他のライブラリとの連携**
   - NumPyやPandasと組み合わせることで、データ解析と可視化をスムーズに行うことができます。

5. **多様な出力形式**
   - PNG、SVG、PDFなどの形式でグラフを保存することができます。

### 3.5.2 Matplotlibの基本的な使い方

Matplotlibを利用するには、まずライブラリをインストールし、`pyplot` モジュールをインポートする必要があります。

#### 1. インストール
Matplotlibは、以下のコマンドでインストールできます。
```python
pip install matplotlib
```

#### 2. 基本的なグラフの作成
以下のコードは、Matplotlibを使って簡単な折れ線グラフを作成する例です。

```python
import matplotlib.pyplot as plt

# データの準備
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 40]

# グラフの作成
plt.plot(x, y, marker='o', linestyle='-')

# タイトルとラベルの設定
plt.title("サンプル折れ線グラフ")
plt.xlabel("X軸")
plt.ylabel("Y軸")

# グラフの表示
plt.show()
```

このコードでは、リスト `x` と `y` の値を使って折れ線グラフを作成し、`marker='o'` でデータ点を表示、`linestyle='-'` で線のスタイルを設定しています。また、`title`、`xlabel`、`ylabel` を使ってグラフのタイトルや軸ラベルを設定しています。

後続の章では、、より詳細なグラフのカスタマイズ方法や、異なる種類のグラフの作成方法について解説します。

