# 探索性資料分析 (Exploratory Data Analysis)
## 第三期大腸癌存活預測研究

本筆記本進行資料的初步探索與分析

In [4]:
# 導入必要的套件
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys

# 設定路徑
project_root = Path.cwd().parent
sys.path.append(str(project_root))

# 設定繪圖風格
sns.set_style('whitegrid')
plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei', 'Arial']
plt.rcParams['axes.unicode_minus'] = False

print("套件載入完成")

ModuleNotFoundError: No module named 'pandas'

In [3]:
# 載入資料
data_path = r"C:\Users\4937\Desktop\Stage III Surv\data\raw\raw_data.csv"
df = pd.read_csv(data_path)

print(f"資料形狀: {df.shape}")
print(f"\n資料欄位:\n{df.columns.tolist()}")
df.head()

NameError: name 'pd' is not defined

In [None]:
# 使用 ydata-profiling 進行自動化 EDA
try:
    from ydata_profiling import ProfileReport
    
    # 生成完整的資料分析報告
    print("正在生成 ydata-profiling 報告...")
    profile = ProfileReport(
        df, 
        title="第三期大腸癌存活預測 - 資料分析報告",
        explorative=True,
        minimal=False
    )
    
    # 儲存 HTML 報告
    report_path = project_root / 'results' / 'data_profile_report.html'
    profile.to_file(report_path)
    print(f"報告已儲存至: {report_path}")
    
    # 在 Jupyter 中顯示報告
    # profile.to_notebook_iframe()
    
except ImportError:
    print("未安裝 ydata-profiling，請執行: pip install ydata-profiling")
    print("繼續使用基本的 EDA 方法...")

In [None]:
# 基本統計資訊
print("資料基本資訊:")
df.info()

print("\n描述性統計:")
df.describe()

In [None]:
# 檢查缺失值
missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100

missing_df = pd.DataFrame({
    '缺失數量': missing_data,
    '缺失比例(%)': missing_percent
})

missing_df = missing_df[missing_df['缺失數量'] > 0].sort_values('缺失數量', ascending=False)

if len(missing_df) > 0:
    print("缺失值統計:")
    print(missing_df)
else:
    print("沒有缺失值")

In [None]:
# 視覺化缺失值
if len(missing_df) > 0:
    plt.figure(figsize=(10, 6))
    sns.barplot(x=missing_df['缺失比例(%)'], y=missing_df.index)
    plt.xlabel('缺失比例 (%)')
    plt.ylabel('變數')
    plt.title('各變數缺失值比例')
    plt.tight_layout()
    plt.show()

In [None]:
# 數值變數分佈視覺化
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

if len(numeric_cols) > 0:
    n_cols = 3
    n_rows = (len(numeric_cols) + n_cols - 1) // n_cols
    
    fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, n_rows*4))
    axes = axes.flatten() if n_rows > 1 else [axes]
    
    for idx, col in enumerate(numeric_cols):
        if idx < len(axes):
            df[col].hist(bins=30, ax=axes[idx], edgecolor='black')
            axes[idx].set_title(f'{col} 分佈')
            axes[idx].set_xlabel(col)
            axes[idx].set_ylabel('頻率')
    
    # 隱藏多餘的子圖
    for idx in range(len(numeric_cols), len(axes)):
        axes[idx].axis('off')
    
    plt.tight_layout()
    plt.show()

In [None]:
# 類別變數分佈
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

if len(categorical_cols) > 0:
    for col in categorical_cols:
        plt.figure(figsize=(10, 5))
        df[col].value_counts().plot(kind='bar')
        plt.title(f'{col} 分佈')
        plt.xlabel(col)
        plt.ylabel('數量')
        plt.xticks(rotation=45)
        plt.tight_layout()
        plt.show()

In [None]:
# 相關性矩陣 (僅數值變數)
if len(numeric_cols) > 1:
    plt.figure(figsize=(12, 10))
    correlation_matrix = df[numeric_cols].corr()
    sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, square=True, linewidths=1)
    plt.title('變數相關性矩陣')
    plt.tight_layout()
    plt.show()

In [None]:
# 存活分析相關視覺化 (如果有相關欄位)
# 這部分需要根據實際資料欄位調整
print("\n探索性資料分析完成！")
print("請根據資料特性調整後續分析步驟")