<a href="https://colab.research.google.com/github/zhe0/demo/blob/main/Survival_and_longtitude.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import sys
# 安裝 R 與 rpy2
!apt-get update -qq && apt-get install -y r-base
!pip install rpy2
print("R and rpy2 installed successfully!")

## `lung` 數據集使用 Survival Analysis

### 數據集概覽 (Dataset Overview)
`lung` 數據集是源自 North Central Cancer Treatment Group (NCCTG) 的肺癌研究。它包含晚期肺癌患者的臨床數據，為理解影響患者生存率的因素提供了豐富的背景。由於其臨床相關性及包含 Censored Data，該數據集是演示與測試 Survival Analysis 。

### 關鍵變數與數據特性 (Key Variables and Data Characteristics)
該數據集通常包含以下關鍵變數：
* **`time`**: 代表以天計的 Survival Time。這是分析的主要 Outcome，表示從起點（如診斷或治療開始）到事件發生或 Censoring 的持續時間。
* **`status`**: 類別變數，指示患者的 Censoring 狀態。通常 `1` 代表 Censored（最後隨訪時仍存活），`2` 代表死亡。
* **`age`**: 定量變數，代表入組時的年齡。
* **`sex`**: 類別變數，指示生物性別（`1` 為男性，`2` 為女性）。
* **`ph.ecog`**: 定量變數，ECOG Performance Score（0-5），評估患者的功能狀態。
* **`ph.karno` / `pat.karno`**: Karnofsky Performance Score，由醫師或患者評分（0-100）。
* **`meal.cal`**: 每日攝取的卡路里。
* **`wt.loss`**: 過去六個月的體重減輕量。

### Survival Analysis 的重要性
對於 `lung` 數據集，Survival Analysis 至關重要，因為它專門設計用於處理 Time-to-event Data，特別是當存在 Censoring 時。標準回歸方法（如 Linear Regression 或 Logistic Regression）無法處理這些不完整的觀測值。

### 預期結果與洞察
透過分析，我們可以：
* **識別 Prognostic Factors**: 確定哪些特徵與生存時間顯著相關。
* **估算 Median Survival Times**: 計算整體或特定亞群的存活中位數。
* **比較 Survival Probabilities**: 例如比較不同性別間的生存曲線差異。

### 繪圖與統計顯著性的潛在觀察
* **Kaplan-Meier Curves**: 階梯狀下降的曲線。下降越陡代表預後越差。例如觀察男性與女性的曲線是否存在明顯分離。
* **Log-Rank Test**: 若 p-value < 0.05，表示不同組別間的 Survival Distributions 存在顯著差異。
* **Cox Proportional Hazards Model**: 估算 Hazard Ratio (HR)。HR > 1 代表風險增加，HR < 1 代表風險降低。

## `Orthodont` 數據集：縱向生長研究

### 數據集概覽 (Dataset Overview)
`Orthodont` 是 Longitudinal Data Analysis 的經典案例，常用於演示 Mixed-Effects Models。它記錄了青少年在數年間從 Pituitary 到 Pterygomaxillary Fissure 的距離。這是研究 Growth Curves 以及個人生長軌跡如何受 Age 和 Sex 影響的理想數據。

### 關鍵變數與數據特性
* **`distance`**: 定量變數（mm），主要的 Dependent Variable，反映生長狀況。
* **`age`**: 定量變數（年），Time-varying Covariate。
* **`Subject`**: 類別變數，標識不同受試者，構成 Repeated-measures Design。
* **`Sex`**: 類別變數，關鍵的 Fixed Effect。

### Longitudinal Analysis (Mixed-Effects Models) 的重要性
1. **Repeated Measurements**: 同一受試者的多次觀測具有相關性，需處理 Correlated Observations。
2. **Individual Variability**: 每個人的初始值（Intercept）與生長速率（Slope）不同，Mixed-effects Models 能區分 Fixed Effects 與 Random Effects。
3. **Missing Data**: 該模型對 Longitudinal 研究中常見的遺漏數據具有較強的 Robustness。

### 預期結果與洞察
* **Population-Average Growth Curve**: 估算整體的平均生長趨勢。
* **Sex-Specific Growth Differences**: 判斷男女生長模式（截距或斜率）是否有顯著不同。
* **Individual Growth Variation**: 量化個體與群體平均值的偏差。

### 繪圖與統計顯著性的潛在觀察
* **Spaghetti Plots**: 視覺化每個受試者的 Growth Trajectories，識別 Heterogeneity。
* **Mixed-Effects Model Coefficients**: `age` 的係數若為正且顯著，代表距離隨年齡增加。`age * Sex` 的 Interaction Term 若顯著，代表男女生長速率不同。

In [None]:
get_ipython().run_line_magic('load_ext', 'rpy2.ipython')

In [None]:
get_ipython().run_cell_magic('R', '', 'if (!require("survival")) install.packages("survival");\nlibrary(survival)\nlung <- survival::lung\nif (!require("nlme")) install.packages("nlme");\nlibrary(nlme)\ndata(Orthodont)\nprint("R packages and datasets loaded successfully!")')

## 總結：

### 數據分析關鍵發現
* 成功載入 `rpy2.ipython` 擴充套件，啟用 R Magic 指令。
* 透過 `survival::lung` 解決了 `lung` 數據集載入失敗的問題。
* `lung_df` 包含 228 筆條目，發現 `meal.cal` 與 `wt.loss` 存在缺失值，後續需處理 Missing Values。
* `orthodont_df` 包含 108 筆條目，無缺失值，適用於縱向分析。

### 後續步驟
* 下一步將執行分析程式碼以產生 Plots 與統計模型結果，並與上述「潛在觀察」進行對照。