# Python 新手指南：資料分析 01 - 資料分析概述

**作者：** tsung-min pai  
**單位：** NTUEE

---

## 課程目標

在這個 Notebook 中，我們將學習：
1. 什麼是資料分析及其重要性
2. Python 在資料科學中的地位
3. 資料分析的完整工作流程
4. 常用的資料分析函式庫介紹

讓我們開始探索資料的世界！

## 1. 什麼是資料分析

**資料分析的定義：**
資料分析是從原始資料中提取有意義的見解和模式的過程。它涉及檢查、清理、轉換和建模資料，以發現有用的資訊、得出結論並支援決策制定。

**為什麼資料分析重要？**
- 🎯 **改善決策品質**：基於事實而非直覺做決定
- 💰 **降低成本**：找出效率不彰的環節
- 📈 **發現機會**：識別新的商業機會或趨勢
- 🔍 **風險管理**：提前識別潛在問題
- 🎭 **了解客戶**：深入洞察客戶行為和需求

In [None]:
# 資料分析的簡單範例
import pandas as pd
import numpy as np

# 假設我們有一個銷售資料集
sales_data = {
    '月份': ['1月', '2月', '3月', '4月', '5月'],
    '銷售額': [100000, 120000, 95000, 140000, 160000],
    '訂單數': [150, 180, 140, 200, 220]
}

df = pd.DataFrame(sales_data)
print("銷售資料：")
print(df)

# 簡單的分析
print(f"\n平均月銷售額：{df['銷售額'].mean():,.0f} 元")
print(f"總銷售額：{df['銷售額'].sum():,.0f} 元")
print(f"銷售額成長率：{((df['銷售額'].iloc[-1] - df['銷售額'].iloc[0]) / df['銷售額'].iloc[0] * 100):.1f}%")

## 資料分析的類型

**描述性分析 (Descriptive Analytics)：**
- **目標**：了解「發生了什麼」
- **方法**：統計摘要、圖表、報表
- **範例**：月銷售報告、網站流量統計

**診斷性分析 (Diagnostic Analytics)：**
- **目標**：了解「為什麼發生」
- **方法**：相關性分析、因果分析
- **範例**：為什麼某產品銷量下降

**預測性分析 (Predictive Analytics)：**
- **目標**：預測「將會發生什麼」
- **方法**：機器學習、時間序列分析
- **範例**：預測下個月的銷售額

**規範性分析 (Prescriptive Analytics)：**
- **目標**：建議「應該做什麼」
- **方法**：最佳化演算法、模擬
- **範例**：最佳定價策略、庫存管理

In [None]:
# 描述性分析範例
import pandas as pd
import numpy as np

# 建立範例資料
np.random.seed(42)
student_scores = {
    '數學': np.random.normal(75, 15, 100),
    '英文': np.random.normal(80, 12, 100),
    '物理': np.random.normal(70, 18, 100)
}

scores_df = pd.DataFrame(student_scores)

# 描述性統計
print("學生成績描述性統計：")
print(scores_df.describe())

# 相關性分析
print("\n科目間相關性：")
print(scores_df.corr())

## 2. Python 在資料科學中的地位

**為什麼選擇 Python？**

1. **簡潔易學的語法**：Python 程式碼簡潔直觀
2. **豐富的函式庫生態系統**：只需幾行程式碼就能完成複雜分析
3. **強大的社群支援**：豐富的學習資源和活躍的開發者社群

**Python vs 其他工具比較：**

| 特性 | Python | R | Excel | SQL |
|------|--------|---|-------|-----|
| 學習難度 | 中等 | 中等 | 簡單 | 中等 |
| 程式設計能力 | 強 | 強 | 弱 | 有限 |
| 資料處理規模 | 大 | 大 | 小-中 | 大 |
| 視覺化功能 | 強 | 強 | 中等 | 有限 |
| 機器學習 | 強 | 強 | 有限 | 有限 |
| 產業採用度 | 高 | 中等 | 高 | 高 |

In [None]:
# Python 程式碼簡潔直觀
data = [1, 2, 3, 4, 5]
squared = [x**2 for x in data]
average = sum(squared) / len(squared)
print(f"平方數的平均值：{average}")

# 只需幾行程式碼就能完成複雜分析
import pandas as pd
import matplotlib.pyplot as plt

# 這裡展示概念，實際使用時需要真實的資料檔案
# df = pd.read_csv('data.csv')
# df.groupby('category').mean().plot(kind='bar')
# plt.show()

print("Python 讓複雜的資料分析變得簡單！")

## 3. 資料分析的工作流程

資料分析遵循一個系統化的流程：

1. **問題定義 (Problem Definition)**：明確分析目標
2. **資料收集 (Data Collection)**：取得相關資料
3. **資料清理 (Data Cleaning)**：處理缺失值、異常值
4. **探索性資料分析 (EDA)**：初步了解資料特性
5. **資料分析與建模**：應用統計方法或機器學習
6. **結果解釋與呈現**：將發現轉化為可行的見解

讓我們透過實際範例來了解每個步驟：

In [None]:
# 1. 問題定義範例
analysis_goals = {
    "主要問題": "哪些因素影響客戶滿意度？",
    "次要問題": [
        "不同年齡層的滿意度是否有差異？",
        "服務品質如何影響滿意度？",
        "價格敏感度如何？"
    ],
    "成功指標": "能夠識別影響滿意度的前3大因素"
}

print("分析目標：")
for key, value in analysis_goals.items():
    print(f"{key}: {value}")

In [None]:
# 2. 資料清理範例
import pandas as pd
import numpy as np

# 建立包含問題的範例資料
dirty_data = pd.DataFrame({
    'name': ['Alice', 'Bob', None, 'Diana', 'Eve'],
    'age': [25, -5, 30, 200, 28],  # 包含不合理值
    'salary': [50000, 60000, None, 75000, 'unknown'],  # 混合類型
    'city': ['台北', 'TAIPEI', '台北 ', '高雄', '台中']  # 格式不一致
})

print("原始資料（包含問題）：")
print(dirty_data)
print(f"\n資料形狀：{dirty_data.shape}")
print(f"缺失值統計：\n{dirty_data.isnull().sum()}")

# 資料清理步驟
def clean_data(df):
    # 1. 處理缺失值
    df = df.dropna(subset=['name'])  # 刪除姓名為空的行
    
    # 2. 處理異常值
    df = df[(df['age'] >= 0) & (df['age'] <= 120)]  # 合理年齡範圍
    
    # 3. 處理資料類型
    df['salary'] = pd.to_numeric(df['salary'], errors='coerce')
    
    # 4. 標準化格式
    df['city'] = df['city'].str.strip().str.upper()
    
    return df

cleaned_data = clean_data(dirty_data.copy())
print("\n清理後的資料：")
print(cleaned_data)

## 4. 常用的資料分析函式庫介紹

Python 有豐富的資料分析生態系統，以下是最重要的幾個函式庫：

**NumPy - 數值運算基礎**
- 高效的多維陣列操作
- 數學函式和線性代數運算
- 是其他函式庫的基礎

**Pandas - 資料操作工具**
- DataFrame 和 Series 資料結構
- 資料讀取、清理、轉換
- 分組、聚合、合併操作

**Matplotlib - 視覺化基礎**
- 基本繪圖功能
- 高度客製化的圖表
- 其他視覺化函式庫的基礎

**Seaborn - 進階視覺化**
- 統計圖表
- 美觀的預設樣式
- 與 Pandas 無縫整合

In [None]:
# NumPy 範例：高效的數值運算
import numpy as np

print("=== NumPy 範例 ===")

# 建立陣列
arr = np.array([1, 2, 3, 4, 5])
print(f"陣列：{arr}")

# 向量化運算（比迴圈快很多）
squared = arr ** 2
print(f"平方：{squared}")

# 統計函式
print(f"平均值：{np.mean(arr)}")
print(f"標準差：{np.std(arr)}")

# 多維陣列
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(f"矩陣形狀：{matrix.shape}")
print(f"矩陣：\n{matrix}")

In [None]:
# Pandas 範例：資料操作工具
import pandas as pd

print("=== Pandas 範例 ===")

# 建立 DataFrame
data = {
    'product': ['A', 'B', 'C', 'A', 'B'],
    'sales': [100, 150, 200, 120, 180],
    'region': ['North', 'South', 'North', 'South', 'North']
}

df = pd.DataFrame(data)
print("原始資料：")
print(df)

# 分組聚合
grouped = df.groupby('product')['sales'].sum()
print(f"\n各產品總銷售：\n{grouped}")

# 篩選資料
high_sales = df[df['sales'] > 120]
print(f"\n高銷售記錄：\n{high_sales}")

In [None]:
# Matplotlib 範例：基礎視覺化
import matplotlib.pyplot as plt
import numpy as np

print("=== Matplotlib 範例 ===")

# 建立簡單圖表
x = np.linspace(0, 10, 100)
y = np.sin(x)

plt.figure(figsize=(10, 6))
plt.plot(x, y, label='sin(x)', linewidth=2)
plt.title('正弦函數圖', fontsize=16)
plt.xlabel('x', fontsize=12)
plt.ylabel('sin(x)', fontsize=12)
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

print("圖表已建立並顯示")

## 函式庫安裝與設定

**安裝必要套件：**
```bash
# 基礎套件
pip install numpy pandas matplotlib seaborn

# 進階套件
pip install scikit-learn jupyter notebook

# 或使用 conda
conda install numpy pandas matplotlib seaborn scikit-learn jupyter
```

**標準匯入慣例：**
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```

In [None]:
# 標準匯入慣例
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 設定顯示選項
pd.set_option('display.max_columns', None)  # 顯示所有欄位
pd.set_option('display.precision', 2)      # 小數點後2位

# Matplotlib 中文字型設定（避免亂碼）
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

# Jupyter 內嵌圖表
%matplotlib inline

print("函式庫匯入完成，環境設定完畢！")

## 總結與下一步

**本章重點回顧：**

1. **資料分析的重要性**：在現代商業和科學研究中不可或缺
2. **Python 的優勢**：簡潔語法、豐富生態系統、強大社群
3. **分析工作流程**：從問題定義到結果呈現的系統化方法
4. **核心工具**：NumPy、Pandas、Matplotlib、Seaborn

**接下來的學習計畫：**
- 第2章：深入學習 NumPy 數值運算
- 第3章：掌握 Pandas 資料處理技巧
- 第4章：建立專業的資料視覺化
- 第5章：完成完整的資料分析專案

**練習建議：**
1. 確保所有必要的函式庫都已安裝
2. 找一個有興趣的資料集進行初步探索
3. 練習使用 Jupyter Notebook
4. 重現本章的所有範例程式碼

準備好深入 NumPy 的世界了嗎？

In [None]:
# 🎯 實作練習：試著執行這個練習來鞏固學習

# 練習 1：建立你自己的資料分析範例
my_data = {
    '學生': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    '數學': [85, 92, 78, 96, 87],
    '英文': [88, 85, 92, 89, 94],
    '科學': [90, 88, 85, 92, 89]
}

# TODO: 使用 pandas 建立 DataFrame
# TODO: 計算每個學生的平均分數
# TODO: 找出各科目的最高分
# TODO: 計算各科目的平均分數

# 你的程式碼寫在這裡：
df = pd.DataFrame(my_data)
print("學生成績資料：")
print(df)

# 計算每個學生的平均分數
df['平均分數'] = df[['數學', '英文', '科學']].mean(axis=1)
print(f"\n各學生平均分數：\n{df[['學生', '平均分數']]}")

# 找出各科目的最高分
subjects = ['數學', '英文', '科學']
print("\n各科目最高分：")
for subject in subjects:
    max_score = df[subject].max()
    top_student = df[df[subject] == max_score]['學生'].iloc[0]
    print(f"{subject}: {max_score} 分 ({top_student})")

print("\n🎉 恭喜完成第一個資料分析練習！")