# 統計學簡述

統計學是一門利用數據進行收集、整理、分析和解釋的學科，旨在幫助人們從數據中提取有意義的信息。
統計學主要分為以下兩大分支：

1. **描述統計 (Descriptive Statistics)**:
   - 用於總結和描述數據的特徵。
   - 包括：
     - **集中趨勢測量**：平均數 (Mean)、中位數 (Median)、眾數 (Mode)。
     - **離散程度測量**：範圍 (Range)、四分位距 (IQR)、方差 (Variance)、標準差 (Standard Deviation)。
     - **圖形表示**：直方圖 (Histogram)、餅圖 (Pie Chart)、箱型圖 (Box Plot) 等。

2. **推論統計 (Inferential Statistics)**:
   - 用於從樣本數據中推斷總體特徵。
   - 包括：
     - **點估計與區間估計**：估計總體參數（如平均數）。
     - **假設檢定**：t 檢定、卡方檢定、ANOVA。
     - **相關性與迴歸分析**：分析變數之間的關係。

# 常用方法與應用

1. **數據收集**：
   - 問卷調查、實驗數據、觀察數據。

2. **數據分析**：
   - 探索性數據分析 (EDA)：檢查數據的基本結構與分佈。
   - 模型建構：利用統計模型解釋數據行為。

3. **應用領域**：
   - 醫學：臨床試驗、流行病學研究。
   - 商業：市場分析、風險評估。
   - 社會科學：人口統計、行為研究。

# 統計工具
- **軟體**：
  - Python（pandas, numpy, scipy, matplotlib, seaborn 等）
  - R
  - SPSS
- **方法**：
  - 樣本抽樣
  - 資料清理
  - 統計檢定


# 1. 描述性統計 (Descriptive Statistics)
- 用於總結和描述數據的特徵。
  - 平均數 (Mean)：數據的集中趨勢。
  - 中位數 (Median)：將數據分成兩部分的中間值。
  - 標準差 (Standard Deviation)：衡量數據的分散程度。
  - 直方圖 (Histogram)：展示數據分佈的圖形。

# 2. 假設檢定 (Hypothesis Testing)
- 用於判斷數據是否支持某個假設。
  - t 檢定 (t-test)：比較兩組數據的均值。
    - 單樣本 t 檢定：檢驗樣本均值是否與特定值相等。
    - 成對樣本 t 檢定：比較同一組樣本在不同條件下的均值。
    - 獨立樣本 t 檢定：比較兩組獨立樣本的均值。
  - 卡方檢定 (Chi-square Test)：檢查分類數據的分佈是否符合預期。
    - 獨立性檢定：測試兩個變數是否相關。
    - 擬合優度檢定：檢驗觀測值是否符合理論分佈。
  - ANOVA (分析變異數)：檢測三個或更多組的均值是否有顯著差異。

# 3. 相關性分析 (Correlation Analysis)
- 衡量兩個變數之間的關聯程度。
  - 皮爾森相關係數 (Pearson Correlation Coefficient)：測試線性相關性。
  - 斯皮爾曼相關係數 (Spearman Rank Correlation)：測試秩次相關性，對非線性數據更適用。

# 4. 回歸分析 (Regression Analysis)
- 用於研究變數之間的依賴關係。
  - 線性回歸 (Linear Regression)：檢查一個自變數與應變數之間的線性關係。
  - 多元線性回歸 (Multiple Linear Regression)：檢查多個自變數與應變數之間的關係。
  - 邏輯回歸 (Logistic Regression)：用於處理二元或多分類數據。

# 5. 聚類分析 (Clustering)
- 將數據分組，以識別具有相似特徵的群體。
  - K 均值聚類 (K-Means Clustering)。
  - 階層聚類 (Hierarchical Clustering)。

# 6. 主成分分析 (PCA, Principal Component Analysis)
- 減少數據維度，同時保留盡可能多的信息。

# 7. 生存分析 (Survival Analysis)
- 研究時間到事件的分佈。
  - Kaplan-Meier 曲線：用於生存概率的估計。
  - Cox 比例風險模型：研究多個變數對生存時間的影響。

# 8. 時間序列分析 (Time Series Analysis)
- 分析數據隨時間變化的趨勢和模式。
  - 自迴歸模型 (AR)。
  - 移動平均模型 (MA)。
  - ARIMA 模型：結合 AR 和 MA，用於預測。

# 9. 數據分佈檢測
- 檢測數據是否符合某種分佈。
  - Shapiro-Wilk 檢定：檢測數據是否為正態分佈。
  - Kolmogorov-Smirnov 檢定：檢驗數據分佈與參考分佈的相符程度。

# 10. 數據降維
- 用於處理高維數據，降低計算複雜度。
  - 主成分分析 (PCA)。
  - 奇異值分解 (SVD)。

# 常見應用領域
1. **醫學研究**：臨床試驗、疾病風險評估。
2. **市場分析**：顧客行為建模、銷售預測。
3. **社會科學**：人口統計、心理測量。
4. **金融分析**：投資風險評估、股票價格預測。
