# 01. 데이터 로딩 및 분석 테스트

R 스크립트를 Python으로 변환한 코드 테스트

In [None]:
# 필요한 패키지 설치 (최초 1회)
# !pip install pandas openpyxl

In [None]:
import sys
from pathlib import Path

# 프로젝트 루트 경로 설정
PROJECT_ROOT = Path.cwd().parent.parent
sys.path.append(str(PROJECT_ROOT))
sys.path.append(str(PROJECT_ROOT / 'python'))

print(f"프로젝트 루트: {PROJECT_ROOT}")

In [None]:
# 모듈 임포트
from src.01_data_loading_and_analysis import Config, DataLoader, DataAnalyzer

In [None]:
# 설정 초기화
config = Config()
print(f"Raw data path: {config.raw_data_path}")
print(f"Processed data path: {config.processed_data_path}")
print(f"Reports path: {config.reports_path}")

In [None]:
# 데이터 로더 초기화 및 파일 찾기
loader = DataLoader(config)
excel_files = loader.find_excel_files()
print(f"\n찾은 Excel 파일 수: {len(excel_files)}")

In [None]:
# 데이터 로드 및 병합
combined_data = loader.load_and_combine()

if combined_data is not None:
    print(f"\n병합된 데이터 shape: {combined_data.shape}")
    print(f"컬럼 목록: {list(combined_data.columns)[:10]}")  # 처음 10개만 표시

In [None]:
# 데이터 분석
if combined_data is not None:
    analyzer = DataAnalyzer(config)
    
    # 데이터 표준화
    combined_data = analyzer.standardize_data(combined_data)
    
    # 구조 분석
    analysis_result = analyzer.analyze_structure(combined_data)
    
    print(f"\n텍스트 컬럼 수: {len(analysis_result['text_columns'])}")
    print(f"텍스트 컬럼: {analysis_result['text_columns'][:5]}")  # 처음 5개만 표시

In [None]:
# 결과 저장
if combined_data is not None:
    saved_files = analyzer.save_results(combined_data, analysis_result)
    
    print("\n저장된 파일:")
    for key, value in saved_files.items():
        print(f"  {key}: {Path(value).name}")

In [None]:
# 데이터 샘플 확인
if combined_data is not None:
    print("\n데이터 샘플 (처음 5행):")
    display(combined_data.head())

In [None]:
# 데이터 타입 확인
if combined_data is not None:
    print("\n데이터 타입:")
    print(combined_data.dtypes)

In [None]:
# 결측치 확인
if combined_data is not None:
    print("\n결측치 비율:")
    missing_ratio = (combined_data.isna().sum() / len(combined_data) * 100).round(2)
    print(missing_ratio[missing_ratio > 0].sort_values(ascending=False))