# 常用套件介紹與實作範例

本 Notebook 將介紹機器學習與資料分析中最常使用的一些 Python 套件，包括：

- **NumPy**：科學計算基礎工具，提供高效能的 n 維陣列、向量化運算、數學函數
- **Pandas**：資料處理與分析利器，以 DataFrame 資料結構為核心，有豐富的資料清洗、轉換與聚合功能
- **Matplotlib**：繪圖與資料視覺化基礎套件，可產生折線圖、直方圖、散佈圖等多種圖表
- **Scikit-learn**：機器學習中最常用的套件之一，包含各種分類、回歸、分群演算法，以及特徵工程、模型評估工具
- **Spark (PySpark)**：分散式運算與大數據處理框架，透過 RDD、DataFrame API 快速處理大型資料集，並有 MLlib 提供基本的機器學習功能

本 Notebook 將透過簡單範例示範這些套件的基本功能與常用技巧，完成後您將對其有基本掌握並能在未來專案中熟練運用。

## 1. NumPy

NumPy 提供高效的 n 維陣列（`ndarray`），並支援向量化運算。許多科學計算與機器學習套件的底層都仰賴 NumPy。

### NumPy 常用功能
- 建立陣列：`np.array()`, `np.zeros()`, `np.ones()`, `np.arange()`, `np.linspace()`
- 形狀操作：`reshape`, `ravel`, `transpose`
- 基本運算：向量化加減乘除、矩陣乘法 `@`、統計函數 `mean`, `sum`, `std`, `max`, `min`
- 高級索引與切片


In [None]:
import numpy as np

# 建立陣列
a = np.array([1, 2, 3])
b = np.zeros((2, 3))
c = np.arange(0, 10, 2)

print("a =", a)
print("b =\n", b)
print("c =", c)

# 形狀操作
d = np.arange(12).reshape(3,4)
print("d =\n", d)

# 基本運算
print("d 的平均值:", d.mean())
print("d 的行相加:", d.sum(axis=0))

## 2. Pandas

Pandas 是資料分析必備套件，透過 DataFrame 結構提供直覺的資料操作。Pandas 常用於：
- 讀寫檔案（CSV、Excel、SQL）
- 資料清洗（處理缺失值、重塑資料表格、合併與連接）
- 資料聚合與群組運算（groupby）
- 資料切片與篩選


In [None]:
import pandas as pd

# 建立 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 30, 35, 40, 29],
    'City': ['NY', 'SF', 'NY', 'LA', 'SF'],
    'Salary': [50000, 60000, 70000, 80000, 65000]
})

print("DataFrame:")
print(df)

# 基本資料概覽
print("\n資料描述:")
print(df.describe())

# 篩選與切片
print("\n篩選 Age > 30:")
print(df[df['Age'] > 30])

# groupby 聚合
print("\n以 City 分組，計算 Salary 平均值:")
print(df.groupby('City')['Salary'].mean())

Pandas 也能輕鬆讀取 CSV 等資料檔案：

```python
df_csv = pd.read_csv('data.csv')  # 若有 data.csv 檔案
```

並進行資料清洗與轉換：

```python
df['NewCol'] = df['Salary'] * 1.1  # 增加新欄位
df.dropna()  # 移除缺失值列
df.fillna(df.mean())  # 用平均值填補缺失值
```

## 3. Matplotlib

Matplotlib 是基本繪圖套件，能快速產生各種圖表，以理解資料分佈與模型結果。

常用繪圖類型:
- Line Plot (折線圖)
- Scatter Plot (散佈圖)
- Histogram (直方圖)
- Bar Plot (長條圖)
- Pie Chart (圓餅圖)

透過 `%matplotlib inline` (在 Jupyter 中) 或 `%matplotlib inline` 設定可直接在 Notebook 中顯示圖表。

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# 基本折線圖
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.figure(figsize=(8,5))
plt.plot(x, y, label='sin wave', color='blue')
plt.title('Sin Wave')
plt.xlabel('X')
plt.ylabel('sin(X)')
plt.legend()
plt.grid(True)
plt.show()

也可利用 Pandas 的 DataFrame 搭配 plot 方法簡化繪圖流程：

```python
df.plot(x='Age', y='Salary', kind='scatter', title='Age vs Salary')
plt.show()
```

## 4. Scikit-learn

Scikit-learn 是機器學習中最常使用的套件之一。它包含：
- 各種 ML 模型（分類：LogisticRegression、SVC；回歸：LinearRegression；分群：KMeans；降維：PCA 等）
- 特徵工程（StandardScaler、MinMaxScaler、OneHotEncoder）
- 模型評估（train_test_split、cross_val_score、metrics 下的 accuracy_score、f1_score 等）
- Pipeline 機制將特徵轉換與建模串接


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 假設我們有一些簡單的人造資料，用於分類
X = df[['Age', 'Salary']].values  # 特徵
y = (df['City'] == 'NY').astype(int).values  # 標籤: NY=1, 其他=0

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 使用 LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

上述只是 Scikit-learn 功能的冰山一角。您可以嘗試其他模型，如 SVC、RandomForestClassifier、KMeans 分群、PCA 降維等等。

特徵工程範例:
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```

Pipeline 範例:
```python
from sklearn.pipeline import Pipeline
pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('clf', LogisticRegression())
])
pipe.fit(X_train, y_train)
```

## 5. Spark (PySpark)

當資料量龐大或需要分散式計算時，Apache Spark 是常用的解決方案。PySpark 是 Spark 的 Python API，提供：
- Spark DataFrame：類似 Pandas 的 DataFrame，但可在叢集上分散儲存與處理
- 分散式計算：透過 Transformation 與 Action 在多節點上運行
- Spark MLlib：提供基本的 ML 模型與轉換器，能在大型資料集上進行機器學習訓練

注意：在 Notebook 或本地開發環境中使用 PySpark 需要安裝 Spark 並啟動對應服務。Colab 中可透過安裝與環境設定達成，此處範例以小規模示範為主。

In [None]:
# 若在 colab 執行，需事先安裝 pyspark
!pip install pyspark

In [None]:
from pyspark.sql import SparkSession

# 建立 SparkSession
spark = SparkSession.builder.master("local[*]").appName("SparkExample").getOrCreate()

# 建立 Spark DataFrame
data = [("Alice", 24), ("Bob", 30), ("Charlie", 35)]
columns = ["Name", "Age"]
spark_df = spark.createDataFrame(data, columns)

spark_df.show()

# Spark DataFrame 的操作
spark_df.filter(spark_df.Age > 25).show()

# 使用 Spark SQL
spark_df.createOrReplaceTempView("people")
sql_result = spark.sql("SELECT Name, Age FROM people WHERE Age > 25")
sql_result.show()

# 結束 Spark Session
spark.stop()

在實務中，PySpark 可以用於處理 TB 級數據，透過 DataFrame API 或 SQL Query 進行數據轉換，並利用 MLlib 進行機器學習任務。

範例（MLlib）：
```python
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import LogisticRegression

# 假設已讀入大型 DataFrame spark_df，並有 features 與 label 欄位
# VectorAssembler 將多欄位組合成特徵向量
assembler = VectorAssembler(inputCols=["Age"], outputCol="features")
train_data = assembler.transform(spark_df)

lr = LogisticRegression(featuresCol='features', labelCol='label')
# lr.fit(train_data) # 訓練模型
```


# 總結

透過此 Notebook，我們已經介紹了五大常用套件：
- **NumPy**：高效 N 維陣列與數學運算
- **Pandas**：靈活強大的資料處理與分析
- **Matplotlib**：資料視覺化的基礎繪圖工具
- **Scikit-learn**：機器學習建模與評估的入門套件
- **PySpark**：面對大數據的分散式運算與 ML 能力

掌握這些套件後，您已具備應對多數資料分析與機器學習工作流程的能力。未來可根據專案需求更深入探索各套件的進階功能與最佳實踐。