In [None]:
# =============================================================================
# venv 환경 설정 및 확인
# =============================================================================
# 같은 코드를 VSCode 및 Venv 환경을 사용하는 IDE에서 쓰기 위해 변경했습니다.
# 해당 코드는 0925.ipynb 파일과 동일한 역할을 합니다.

# 현재 사용중인 Python 환경 확인
import sys
print("현재 사용중인 Python 경로:", sys.executable)
print("가상환경 경로:", sys.prefix)
print("Python 버전:", sys.version)

# venv 환경에서 Jupyter 커널로 등록하려면 터미널에서 다음 명령어 실행:
# python -m ipykernel install --user --name datamining-venv --display-name "Python (DataMining venv)"


현재 사용중인 Python 경로: /Users/lee/Desktop/Project/2025_DataMining/.venv/bin/python
가상환경 경로: /Users/lee/Desktop/Project/2025_DataMining/.venv
Python 버전: 3.10.8 (v3.10.8:aaaf517424, Oct 11 2022, 10:14:40) [Clang 13.0.0 (clang-1300.0.29.30)]


In [2]:
# 등록된 커널 확인 (선택사항)
# !cat ~/.local/share/jupyter/kernels/datamining-venv/kernel.json

# 현재 커널 정보 확인
import sys
print("현재 커널의 Python 실행 파일:", sys.executable)
print("현재 작업 디렉터리:", sys.path[0] if sys.path else "N/A")


현재 커널의 Python 실행 파일: /Users/lee/Desktop/Project/2025_DataMining/.venv/bin/python
현재 작업 디렉터리: /Library/Frameworks/Python.framework/Versions/3.10/lib/python310.zip


In [3]:
import sys, platform, os
print("Kernel exe:", sys.executable)           # ← /opt/conda/envs/cnidium-ssp/bin/python
print("sys.prefix:", sys.prefix)               # ← /opt/conda/envs/cnidium-ssp
!which python                                  # ← /opt/conda/envs/cnidium-ssp/bin/python


Kernel exe: /Users/lee/Desktop/Project/2025_DataMining/.venv/bin/python
sys.prefix: /Users/lee/Desktop/Project/2025_DataMining/.venv
/Users/lee/Desktop/Project/2025_DataMining/.venv/bin/python


In [4]:
# 목적: venv 환경에서 필요한 패키지 설치 및 환경 확인
# 입출력: 설치 로그 및 환경 정보
# 주의: venv가 활성화된 상태에서 실행해야 함

import sys, platform, subprocess

print("현재 Python 실행 파일:", sys.executable)
print("운영체제:", platform.platform())
print("Python 버전:", sys.version)

# 필요한 패키지들을 현재 환경에 설치
required_packages = ["numpy", "pandas", "scikit-learn", "matplotlib", "ipykernel"]

print("\n필요한 패키지 설치 중...")
for package in required_packages:
    try:
        subprocess.run([sys.executable, "-m", "pip", "install", package], 
                      check=True, capture_output=True)
        print(f"✅ {package} 설치 완료")
    except subprocess.CalledProcessError as e:
        print(f"❌ {package} 설치 실패: {e}")

print("\n패키지 설치가 완료되었습니다!")

현재 Python 실행 파일: /Users/lee/Desktop/Project/2025_DataMining/.venv/bin/python
운영체제: macOS-15.6.1-arm64-arm-64bit
Python 버전: 3.10.8 (v3.10.8:aaaf517424, Oct 11 2022, 10:14:40) [Clang 13.0.0 (clang-1300.0.29.30)]

필요한 패키지 설치 중...
✅ numpy 설치 완료
✅ pandas 설치 완료
✅ scikit-learn 설치 완료
✅ matplotlib 설치 완료
✅ ipykernel 설치 완료

패키지 설치가 완료되었습니다!


In [5]:
# 목적: 현재 프로젝트 디렉터리를 ROOT로 설정 + 표준 폴더 생성
from pathlib import Path
import os

# 현재 노트북이 있는 디렉터리를 프로젝트 루트로 설정
ROOT = Path.cwd().resolve()
print(f"프로젝트 루트 디렉터리: {ROOT}")

# 표준 폴더 구조 생성
RAW = ROOT/"data"/"raw"
PROC = ROOT/"data"/"processed"
RPT = ROOT/"reports"
FIG = RPT/"figures"
EXP = ROOT/"experiments"
LOGS = ROOT/"logs"

print("폴더 구조 생성 중...")
for p in [RAW, PROC, RPT, FIG, EXP, LOGS]:
    p.mkdir(parents=True, exist_ok=True)
    print(f"✅ 생성: {p.relative_to(ROOT)}")

print(f"\n✅ ROOT = {ROOT}")
print("표준 프로젝트 폴더 구조가 생성되었습니다!")

프로젝트 루트 디렉터리: /Users/lee/Desktop/Project/2025_DataMining
폴더 구조 생성 중...
✅ 생성: data/raw
✅ 생성: data/processed
✅ 생성: reports
✅ 생성: reports/figures
✅ 생성: experiments
✅ 생성: logs

✅ ROOT = /Users/lee/Desktop/Project/2025_DataMining
표준 프로젝트 폴더 구조가 생성되었습니다!


In [6]:
# 목적: RAW 폴더에 CSV가 없으면 샘플 데이터 생성 (파이프라인 점검용)
from pathlib import Path
import pandas as pd

# RAW 폴더 확인 및 생성
try:
    RAW  # 이전 셀에서 정의된 변수 사용
except NameError:
    ROOT = Path.cwd().resolve()
    RAW = ROOT/"data"/"raw"
    RAW.mkdir(parents=True, exist_ok=True)

print(f"RAW 데이터 폴더: {RAW}")

# 기존 CSV 파일 확인
existing_csvs = list(RAW.glob("*.csv"))
print(f"기존 CSV 파일들: {[p.name for p in existing_csvs]}")

# CSV 파일이 없으면 샘플 데이터 생성
if not existing_csvs:
    print("CSV 파일이 없어서 샘플 데이터를 생성합니다...")
    df = pd.DataFrame({
        "month": [1,2,3,4,5]*27,
        "CO2ppm":[400,405,410,395,402]*27,
        "Temp":[20,21,19,22,20]*27,
        "Humid":[60,62,58,63,59]*27,
        "VPD":[1.1,1.0,1.2,1.05,1.08]*27,
        "Leaf_TPC":[0.8,0.82,0.78,0.85,0.81]*27
    })
    sample_file = RAW/"sample_datamining.csv"
    df.to_csv(sample_file, index=False, encoding="utf-8-sig")
    print(f"✅ 샘플 데이터 생성: {sample_file.name}")
else:
    print("✅ 기존 CSV 파일을 사용합니다")

# 최종 CSV 파일 목록 출력
final_csvs = list(RAW.glob("*.csv"))
print(f"\n사용 가능한 CSV 파일들: {[p.name for p in final_csvs]}")

RAW 데이터 폴더: /Users/lee/Desktop/Project/2025_DataMining/data/raw
기존 CSV 파일들: ['3. 천궁 샘플데이터.csv']
✅ 기존 CSV 파일을 사용합니다

사용 가능한 CSV 파일들: ['3. 천궁 샘플데이터.csv']


In [8]:
# 목적: 프로젝트 루트 재확인 + 폴더 구조 보장
# 입출력: 폴더 생성 및 경로 확인
# 주의: 이미 이전 셀에서 설정했지만 안전을 위해 재확인

from pathlib import Path

# 프로젝트 루트 재설정 (중복 실행 방지)
try:
    ROOT, RAW, PROC, RPT, FIG, EXP, LOGS  # 이전에 정의된 변수들 확인
    print("✅ 기존 폴더 구조 변수들을 재사용합니다")
except NameError:
    print("폴더 구조 변수들을 새로 설정합니다...")
    ROOT = Path.cwd().resolve()
    RAW = ROOT/"data"/"raw"
    PROC = ROOT/"data"/"processed"
    RPT = ROOT/"reports"
    FIG = RPT/"figures"
    EXP = ROOT/"experiments"
    LOGS = ROOT/"logs"
    
    # 폴더 생성
    for p in [RAW, PROC, RPT, FIG, EXP, LOGS]:
        p.mkdir(parents=True, exist_ok=True)

print(f"✅ ROOT = {ROOT}")
print("프로젝트 폴더 구조가 준비되었습니다!")

✅ 기존 폴더 구조 변수들을 재사용합니다
✅ ROOT = /Users/lee/Desktop/Project/2025_DataMining
프로젝트 폴더 구조가 준비되었습니다!


In [9]:
# 목적: 데이터 마이닝에 필요한 핵심 패키지 설치 및 버전 확인
# 입출력: 설치 로그 및 버전 정보 출력
# 주의: venv 환경에서 pip를 사용하여 패키지 설치

import sys, subprocess

def install_and_check_packages():
    """필요한 패키지들을 설치하고 버전을 확인합니다"""
    packages = ["numpy", "pandas", "scikit-learn", "matplotlib", "seaborn", "jupyter"]
    
    print("📦 필수 패키지 설치 중...")
    for pkg in packages:
        try:
            result = subprocess.run([sys.executable, "-m", "pip", "install", pkg, "-q"], 
                                  capture_output=True, text=True, check=True)
            print(f"✅ {pkg} 설치/업데이트 완료")
        except subprocess.CalledProcessError as e:
            print(f"❌ {pkg} 설치 실패: {e.stderr}")
    
    print("\n📋 설치된 패키지 버전 확인:")
    try:
        import numpy as np
        import pandas as pd
        import sklearn
        import matplotlib
        print(f"• NumPy: {np.__version__}")
        print(f"• Pandas: {pd.__version__}")
        print(f"• Scikit-learn: {sklearn.__version__}")
        print(f"• Matplotlib: {matplotlib.__version__}")
        
        try:
            import seaborn as sns
            print(f"• Seaborn: {sns.__version__}")
        except ImportError:
            print("• Seaborn: 설치되지 않음")
            
    except ImportError as e:
        print(f"❌ 패키지 import 오류: {e}")

# 패키지 설치 및 확인 실행
install_and_check_packages()
print("\n✅ 모든 필수 패키지가 준비되었습니다!")

📦 필수 패키지 설치 중...
✅ numpy 설치/업데이트 완료
✅ pandas 설치/업데이트 완료
✅ scikit-learn 설치/업데이트 완료
✅ matplotlib 설치/업데이트 완료
✅ seaborn 설치/업데이트 완료
✅ jupyter 설치/업데이트 완료

📋 설치된 패키지 버전 확인:
• NumPy: 2.2.6
• Pandas: 2.3.2
• Scikit-learn: 1.7.2
• Matplotlib: 3.10.6
• Seaborn: 0.13.2

✅ 모든 필수 패키지가 준비되었습니다!


In [10]:
# 목적: joblib 임시폴더를 영문 경로로 고정(향후 병렬 실행 대비)
# 입출력: 없음
import os
TMP = ROOT/"tmp_joblib"; TMP.mkdir(exist_ok=True)
os.environ["JOBLIB_TEMP_FOLDER"] = str(TMP)

In [11]:
# 목적: Leaf_TPC 예측을 위한 5-Fold 교차검증 실행 및 결과 저장
# 입출력: 모델 성능 지표를 JSON 파일로 저장
# 주의: 현재 프로젝트 경로를 기준으로 동작

import json
import numpy as np
import pandas as pd
from pathlib import Path
from datetime import datetime
from sklearn.model_selection import KFold, cross_validate
from sklearn.preprocessing import StandardScaler, FunctionTransformer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import ElasticNet

SEED = 42

print("🚀 머신러닝 파이프라인 시작...")

# 경로 확인 및 설정
try:
    RAW, EXP  # 이전에 정의된 변수들 확인
    print("✅ 기존 경로 변수들을 사용합니다")
except NameError:
    print("📁 경로 변수들을 새로 설정합니다...")
    ROOT = Path.cwd().resolve()
    RAW = ROOT / "data" / "raw"
    EXP = ROOT / "experiments"
    RAW.mkdir(parents=True, exist_ok=True)
    EXP.mkdir(parents=True, exist_ok=True)

print(f"데이터 경로: {RAW}")
print(f"실험 결과 경로: {EXP}")

# 데이터 로드
print("\n📊 데이터 로딩 중...")
csvs = sorted(RAW.glob("*.csv"))
if not csvs:
    raise FileNotFoundError(f"❌ CSV 파일이 {RAW}에 없습니다!")

src = csvs[0]
print(f"사용할 데이터 파일: {src.name}")

try:
    df = pd.read_csv(src, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv(src, encoding="cp949")

print(f"✅ 데이터 로드 완료: {len(df)}행, {len(df.columns)}열")

# 특성 컬럼 정의
num_cand = [
    "CO2ppm","Temp","Humid","VPD","Chl_a","Chl_b","TChl","Car",
    "ABS-RC","Dio-RC","Tro-RC","Eto-RC","PI_abs","DF_abs","SFI_abs","Fv-Fm",
    "Leaf_ExtractionYield","Root_ExtractionYield"
]
num_cols = [c for c in num_cand if c in df.columns]
print(f"사용 가능한 수치형 특성: {len(num_cols)}개")

# month 컬럼 확인/생성
if "month" not in df.columns:
    df["month"] = 1
    print("⚠️ month 컬럼이 없어서 기본값 1로 설정했습니다")

# 타겟 변수 설정
target = "Leaf_TPC" if "Leaf_TPC" in df.columns else df.columns[-1]
print(f"타겟 변수: {target}")

X = df[["month"] + num_cols].copy()
y = df[target].copy()
print(f"최종 특성 수: {X.shape[1]}, 샘플 수: {X.shape[0]}")

# 파이프라인 구성
print("\n🔧 머신러닝 파이프라인 구성 중...")
month_cycle = FunctionTransformer(
    lambda X_: np.c_[np.sin(2*np.pi*(X_.values[:, 0]/12.0)),
                     np.cos(2*np.pi*(X_.values[:, 0]/12.0))],
    feature_names_out="one-to-one"
)

transformers = [("month_cycle", month_cycle, ["month"])]
if num_cols:
    transformers.append(("scale", StandardScaler(), num_cols))

preprocessor = ColumnTransformer(transformers, remainder="drop")
pipeline = Pipeline([("prep", preprocessor), ("model", ElasticNet(random_state=SEED))])

# 5-Fold 교차검증 실행
print("\n🎯 5-Fold 교차검증 실행 중...")
cv = KFold(n_splits=5, shuffle=True, random_state=SEED)
scoring = {"MAE": "neg_mean_absolute_error", "MSE": "neg_mean_squared_error", "R2": "r2"}
results = cross_validate(pipeline, X, y, cv=cv, scoring=scoring, return_train_score=False)

def calc_mean_std(scores):
    """평균과 표준편차 계산"""
    scores = np.asarray(scores)
    return float(scores.mean()), float(scores.std())

# 결과 정리
mae_mean, mae_std = calc_mean_std(-results["test_MAE"])
mse_mean, mse_std = calc_mean_std(-results["test_MSE"])
r2_mean, r2_std = calc_mean_std(results["test_R2"])

# 결과 딕셔너리 생성
experiment_results = {
    "timestamp": datetime.now().isoformat(),
    "target": target,
    "dataset_info": {
        "filename": src.name,
        "n_samples": int(len(df)),
        "n_features": int(X.shape[1])
    },
    "cv_method": "KFold(n_splits=5, shuffle=True, random_state=42)",
    "model": "ElasticNet",
    "metrics": {
        "MAE_mean": mae_mean, "MAE_std": mae_std,
        "MSE_mean": mse_mean, "MSE_std": mse_std,
        "R2_mean": r2_mean, "R2_std": r2_std
    }
}

# 실험 결과 저장
timestamp = datetime.now().strftime("%Y%m%d_%H%M")
exp_dir = EXP / f"exp_{timestamp}"
exp_dir.mkdir(parents=True, exist_ok=True)
save_path = exp_dir / "metrics.json"

with open(save_path, 'w', encoding='utf-8-sig') as f:
    json.dump(experiment_results, f, ensure_ascii=False, indent=2)

print("\n📈 교차검증 결과:")
print(f"• MAE: {mae_mean:.4f} ± {mae_std:.4f}")
print(f"• MSE: {mse_mean:.4f} ± {mse_std:.4f}")
print(f"• R²: {r2_mean:.4f} ± {r2_std:.4f}")
print(f"\n💾 결과 저장 완료: {save_path}")
print("✅ 머신러닝 파이프라인 완료!")


🚀 머신러닝 파이프라인 시작...
✅ 기존 경로 변수들을 사용합니다
데이터 경로: /Users/lee/Desktop/Project/2025_DataMining/data/raw
실험 결과 경로: /Users/lee/Desktop/Project/2025_DataMining/experiments

📊 데이터 로딩 중...
사용할 데이터 파일: 3. 천궁 샘플데이터.csv
✅ 데이터 로드 완료: 135행, 25열
사용 가능한 수치형 특성: 18개
타겟 변수: Leaf_TPC
최종 특성 수: 19, 샘플 수: 135

🔧 머신러닝 파이프라인 구성 중...

🎯 5-Fold 교차검증 실행 중...

📈 교차검증 결과:
• MAE: 0.5574 ± 0.0450
• MSE: 0.3820 ± 0.0587
• R²: 0.2044 ± 0.0460

💾 결과 저장 완료: /Users/lee/Desktop/Project/2025_DataMining/experiments/exp_20250925_2030/metrics.json
✅ 머신러닝 파이프라인 완료!


In [12]:
# 목적: 현재 실행 환경 정보 기록 → 재현성 확보
# 입출력: logs/환경기록_날짜.md 파일 생성
# 주의: utf-8-sig 인코딩으로 저장하여 한글 호환성 보장

import sys, platform, json
from datetime import datetime

# 현재 날짜와 시간 정보
now = datetime.now()
date_str = now.strftime("%Y%m%d")
timestamp = now.strftime("%Y-%m-%d %H:%M:%S")

# 환경 정보 수집
environment_info = {
    "기록_시간": timestamp,
    "python_정보": {
        "버전": sys.version,
        "실행파일": sys.executable,
        "prefix": sys.prefix
    },
    "시스템_정보": {
        "플랫폼": platform.platform(),
        "운영체제": platform.system(),
        "아키텍처": platform.architecture()[0]
    },
    "프로젝트_설정": {
        "시드값": 42,
        "프로젝트_루트": str(ROOT) if 'ROOT' in locals() else "미설정"
    }
}

# 로그 파일 경로 설정
try:
    LOGS  # 이전에 정의된 변수 확인
except NameError:
    ROOT = Path.cwd().resolve()
    LOGS = ROOT / "logs"
    LOGS.mkdir(parents=True, exist_ok=True)

log_file = LOGS / f"환경기록_{date_str}.md"

# 마크다운 형식으로 환경 정보 저장
markdown_content = f"""# 환경 기록 ({timestamp})

## 실행 환경 정보

```json
{json.dumps(environment_info, ensure_ascii=False, indent=2)}
```

## 설치된 주요 패키지

"""

# 주요 패키지 버전 정보 추가
try:
    import numpy as np
    import pandas as pd
    import sklearn
    import matplotlib
    
    markdown_content += f"""
- NumPy: {np.__version__}
- Pandas: {pd.__version__}
- Scikit-learn: {sklearn.__version__}
- Matplotlib: {matplotlib.__version__}
"""
    
    try:
        import seaborn as sns
        markdown_content += f"- Seaborn: {sns.__version__}\n"
    except ImportError:
        markdown_content += "- Seaborn: 설치되지 않음\n"
        
except ImportError as e:
    markdown_content += f"⚠️ 패키지 정보 수집 실패: {e}\n"

markdown_content += "\n---\n이 파일은 실험 재현성을 위해 자동 생성되었습니다.\n"

# 파일 저장
with open(log_file, 'w', encoding='utf-8-sig') as f:
    f.write(markdown_content)

print(f"✅ 환경 정보가 기록되었습니다: {log_file}")
print(f"📝 파일 내용: {log_file.stat().st_size} bytes")

# 결과 반환
log_file

✅ 환경 정보가 기록되었습니다: /Users/lee/Desktop/Project/2025_DataMining/logs/환경기록_20250925.md
📝 파일 내용: 864 bytes


PosixPath('/Users/lee/Desktop/Project/2025_DataMining/logs/환경기록_20250925.md')