In [1]:
import os
import tensorflow as tf
import numpy as np
import trimesh
import pickle
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from typing import List, Dict, Tuple, Optional
from sklearn.model_selection import train_test_split
import shutil
import json
import warnings
warnings.filterwarnings('ignore')

In [2]:
# =============================================================================
# 메쉬 파일을 불러오는 역할
# =============================================================================

class MeshLoader:
    def __init__(self, data_dir: str, supported_formats=None):
        self.data_dir = Path(data_dir)
        self.supported_formats = supported_formats or ['.npy', '.obj', '.ply', '.stl', '.off']
        self.mesh_files = self._collect_mesh_files()

    def _collect_mesh_files(self) -> List[Path]:
        files = []
        for ext in self.supported_formats:
            files.extend(self.data_dir.glob(f"**/*{ext}"))
        return sorted(files)

    def get_all_file_paths(self) -> List[str]:
        return [str(f) for f in self.mesh_files]

    def load_mesh_data(self, file_path: str) -> Dict:
        try:
            mesh = trimesh.load(file_path, force='mesh')
            if hasattr(mesh, 'geometry'):
                mesh = list(mesh.geometry.values())[0]
            vertices = np.array(mesh.vertices, dtype=np.float32)
            faces = np.array(mesh.faces, dtype=np.int32)
            if len(vertices) == 0 or len(faces) == 0:
                raise ValueError("빈 메쉬")
            return {'vertices': vertices, 'faces': faces, 'file_path': file_path}
        except Exception as e:
            print(f"⚠️ 로딩 실패 {file_path}: {e}")
            return self._create_dummy_mesh()

    def _create_dummy_mesh(self) -> Dict:
        vertices = np.array([
            [0.0, 0.0, 0.0],
            [1.0, 0.0, 0.0],
            [0.5, 0.866, 0.0],
            [0.5, 0.289, 0.816]
        ], dtype=np.float32)
        faces = np.array([
            [0, 1, 2],
            [0, 2, 3],
            [0, 3, 1],
            [1, 3, 2]
        ], dtype=np.int32)
        return {'vertices': vertices, 'faces': faces, 'file_path': 'dummy'}

In [3]:
class MeshPreprocessor:
    def __init__(self, max_vertices: int, max_faces: int):
        self.max_vertices = max_vertices
        self.max_faces = max_faces

    def preprocess(self, mesh_data: Dict) -> Dict:
        vertices = self._normalize_vertices(mesh_data['vertices'])
        vertices, faces = self._resize_mesh(vertices, mesh_data['faces'])
        normals = self._compute_face_normals(vertices, faces)
        features = self._compute_edge_features(vertices, faces)

        return {
            'vertices': tf.constant(vertices, dtype=tf.float32),
            'faces': tf.constant(faces, dtype=tf.int32),
            'normals': tf.constant(normals, dtype=tf.float32),
            'features': tf.constant(features, dtype=tf.float32)
        }

    def _normalize_vertices(self, vertices: np.ndarray) -> np.ndarray:
        center = vertices.mean(axis=0)
        vertices -= center
        max_dist = np.max(np.linalg.norm(vertices, axis=1))
        if max_dist > 0:
            vertices /= max_dist
        return vertices

    def _resize_mesh(self, vertices: np.ndarray, faces: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
        n_vertices = len(vertices)
        n_faces = len(faces)
        if n_vertices > self.max_vertices:
            indices = np.linspace(0, n_vertices-1, self.max_vertices, dtype=int)
            vertices = vertices[indices]
            faces = self._remap_faces(faces, indices)
        elif n_vertices < self.max_vertices:
            padding = np.tile(vertices[-1:], (self.max_vertices - n_vertices, 1)) if n_vertices else np.zeros((self.max_vertices, 3), np.float32)
            vertices = np.vstack([vertices, padding])
        if len(faces) > self.max_faces:
            indices = np.linspace(0, len(faces)-1, self.max_faces, dtype=int)
            faces = faces[indices]
        elif len(faces) < self.max_faces:
            padding = np.tile(faces[-1:], (self.max_faces - len(faces), 1)) if len(faces) else np.zeros((self.max_faces, 3), dtype=np.int32)
            faces = np.vstack([faces, padding])
        return vertices, faces

    def _remap_faces(self, faces: np.ndarray, vertex_indices: np.ndarray) -> np.ndarray:
        old_to_new = {old: new for new, old in enumerate(vertex_indices)}
        valid_faces = [[old_to_new[v] for v in face] for face in faces if all(v in old_to_new for v in face)]
        return np.array(valid_faces, dtype=np.int32) if valid_faces else np.zeros((0, 3), dtype=np.int32)

    def _compute_face_normals(self, vertices: np.ndarray, faces: np.ndarray) -> np.ndarray:
        normals = []
        for face in faces:
            if len(np.unique(face)) == 3:
                v0, v1, v2 = vertices[face]
                normal = np.cross(v1 - v0, v2 - v0)
                norm = np.linalg.norm(normal)
                normals.append(normal / norm if norm > 1e-8 else [0.0, 0.0, 1.0])
            else:
                normals.append([0.0, 0.0, 1.0])
        while len(normals) < self.max_faces:
            normals.append([0.0, 0.0, 1.0])
        return np.array(normals[:self.max_faces], dtype=np.float32)

    def _compute_edge_features(self, vertices: np.ndarray, faces: np.ndarray) -> np.ndarray:
        features = []
        for face in faces:
            if len(np.unique(face)) == 3:
                v0, v1, v2 = vertices[face]
                e1, e2, e3 = v1-v0, v2-v0, v2-v1
                area = 0.5 * np.linalg.norm(np.cross(e1, e2))
                peri = np.linalg.norm(e1) + np.linalg.norm(e2) + np.linalg.norm(e3)
                lengths = [np.linalg.norm(e1), np.linalg.norm(e2), np.linalg.norm(e3)]
                ar = max(lengths) / (min(lengths) + 1e-8)
                angle = np.arccos(np.clip(np.dot(e1, e2)/(np.linalg.norm(e1)*np.linalg.norm(e2)+1e-8), -1.0, 1.0))
                dist = np.linalg.norm((v0 + v1 + v2) / 3.0)
                features.append([area, peri, ar, angle, dist])
            else:
                features.append([0.0, 0.0, 1.0, 0.0, 0.0])
        while len(features) < self.max_faces:
            features.append([0.0, 0.0, 1.0, 0.0, 0.0])
        return np.array(features[:self.max_faces], dtype=np.float32)

In [4]:
class MeshDataManager:
    def __init__(self, source_dir: str, training_dir: str, max_vertices: int = 5000, max_faces: int = 10000):
        self.source_dir = Path(source_dir)
        self.training_dir = Path(training_dir)
        self.max_vertices = max_vertices
        self.max_faces = max_faces

        # 학습 데이터 디렉토리 구조 생성
        self.train_dir = self.training_dir / "train"
        self.val_dir = self.training_dir / "val"
        self.test_dir = self.training_dir / "test"
        self.processed_dir = self.training_dir / "processed"
        self.cache_dir = self.training_dir / "cache"
        self.analysis_dir = self.training_dir / "analysis"

        for dir_path in [
            self.training_dir, self.train_dir, self.val_dir,
            self.test_dir, self.processed_dir, self.cache_dir, self.analysis_dir
        ]:
            dir_path.mkdir(parents=True, exist_ok=True)

        # 추후 사용을 위한 파일 리스트 저장용 변수 초기화
        self.train_files: List[str] = []
        self.val_files: List[str] = []
        self.test_files: List[str] = []

    def prepare_training_data(self, train_ratio: float = 0.7, val_ratio: float = 0.2, test_ratio: float = 0.1):
        """원본 데이터를 학습/검증/테스트 세트로 분할하여 복사"""
        print("📁 학습 데이터 준비 중...")

        loader = MeshLoader(self.source_dir)
        all_files = loader.get_all_file_paths()

        if len(all_files) == 0:
            print("❌ 원본 디렉토리에서 메쉬 파일을 찾을 수 없습니다.")
            return False

        print(f"총 {len(all_files)}개의 메쉬 파일 발견")

        # 데이터 분할
        train_files, temp_files = train_test_split(all_files, train_size=train_ratio, random_state=42)
        val_files, test_files = train_test_split(temp_files, train_size=val_ratio / (val_ratio + test_ratio), random_state=42)

        # 멤버 변수로 저장
        self.train_files = train_files
        self.val_files = val_files
        self.test_files = test_files

        # 파일 복사
        datasets = [
            (train_files, self.train_dir, "train"),
            (val_files, self.val_dir, "validation"),
            (test_files, self.test_dir, "test")
        ]

        for files, target_dir, name in datasets:
            print(f"{name} 세트: {len(files)}개 파일 복사 중...")
            for file_path in files:
                source_file = Path(file_path)
                target_file = target_dir / source_file.name
                if not target_file.exists():
                    shutil.copy2(source_file, target_file)

        # 분할 정보 저장
        split_info = {
            'total_files': len(all_files),
            'train_files': len(train_files),
            'val_files': len(val_files),
            'test_files': len(test_files),
            'train_ratio': train_ratio,
            'val_ratio': val_ratio,
            'test_ratio': test_ratio
        }

        with open(self.training_dir / "split_info.json", 'w') as f:
            json.dump(split_info, f, indent=2)

        print("✅ 데이터 분할 완료!")
        print(f"  - 학습: {len(train_files)}개")
        print(f"  - 검증: {len(val_files)}개")
        print(f"  - 테스트: {len(test_files)}개")

        return True

In [5]:
class MeshDatasetTF:
    def __init__(self, data_dir: str, cache_dir: Optional[str] = None,
                 max_vertices: int = 5000, max_faces: int = 10000):
        self.loader = MeshLoader(data_dir)
        self.preprocessor = MeshPreprocessor(max_vertices, max_faces)
        self.max_vertices = max_vertices
        self.max_faces = max_faces
        self.cache_dir = Path(cache_dir or (Path(data_dir) / "cache"))
        self.cache_dir.mkdir(parents=True, exist_ok=True)
        self.mesh_files = self.loader.get_all_file_paths()

    def _load_and_process(self, file_path_tensor):
        file_path = file_path_tensor.numpy().decode('utf-8')
        cache_file = self.cache_dir / f"{Path(file_path).stem}_{hash(file_path) % 10000}.pkl"

        if cache_file.exists():
            with open(cache_file, 'rb') as f:
                mesh_data = pickle.load(f)
        else:
            raw = self.loader.load_mesh_data(file_path)
            mesh_data = self.preprocessor.preprocess(raw)
            mesh_data_np = {k: v.numpy() for k, v in mesh_data.items()}
            with open(cache_file, 'wb') as f:
                pickle.dump(mesh_data_np, f)

        return tuple(tf.constant(mesh_data[k], dtype=tf.float32 if k != 'faces' else tf.int32)
                     for k in ['vertices', 'faces', 'normals', 'features'])

    def create_dataset(self, batch_size=8, shuffle=True, prefetch_buffer=tf.data.AUTOTUNE):
        # 파일이 없는 경우 빈 데이터셋 반환
        if len(self.mesh_files) == 0:
            print(f"⚠️ 데이터 디렉토리에 메쉬 파일이 없습니다: {self.loader.data_dir}")
            # 빈 데이터셋 생성
            dummy_data = {
                'vertices': tf.zeros([batch_size, self.max_vertices, 3], dtype=tf.float32),
                'faces': tf.zeros([batch_size, self.max_faces, 3], dtype=tf.int32),
                'normals': tf.zeros([batch_size, self.max_faces, 3], dtype=tf.float32),
                'features': tf.zeros([batch_size, self.max_faces, 5], dtype=tf.float32)
            }
            return tf.data.Dataset.from_tensor_slices(dummy_data).take(0)
        
        ds = tf.data.Dataset.from_tensor_slices(self.mesh_files)
        
        # shuffle은 파일이 1개 이상일 때만 적용
        if shuffle and len(self.mesh_files) > 1:
            ds = ds.shuffle(len(self.mesh_files))
        elif shuffle and len(self.mesh_files) == 1:
            print("⚠️ 파일이 1개뿐이므로 shuffle을 건너뜁니다.")
            
        ds = ds.map(lambda path: tf.py_function(
            self._load_and_process, inp=[path],
            Tout=[tf.float32, tf.int32, tf.float32, tf.float32]
        ))
        ds = ds.map(lambda v, f, n, feat: {
            'vertices': tf.reshape(v, [self.max_vertices, 3]),
            'faces': tf.reshape(f, [self.max_faces, 3]),
            'normals': tf.reshape(n, [self.max_faces, 3]),
            'features': tf.reshape(feat, [self.max_faces, 5])
        })
        return ds.batch(batch_size).prefetch(prefetch_buffer)

def setup_environment(source_dir: str, training_dir: str, 
                             max_vertices: int = 2048, max_faces: int = 4096):
    """학습 환경 설정 및 데이터 준비"""
    print("🚀 학습 환경 설정 시작")
    
    # 1. 데이터 매니저 생성
    data_manager = MeshDataManager(
        source_dir=source_dir,
        training_dir=training_dir,
        max_vertices=max_vertices,
        max_faces=max_faces
    )
    
    # 2. 학습 데이터 준비
    if not data_manager.prepare_training_data():
        return None
    
    # 3. 요약 정보 저장
    summary = {
        'setup_completed': True,
        'source_dir': source_dir,
        'training_dir': training_dir,
        'max_vertices': max_vertices,
        'max_faces': max_faces
    }
    
    with open(data_manager.training_dir / "setup_summary.json", 'w') as f:
        json.dump(summary, f, indent=2)
    
    print("✅ 학습 환경 설정 완료!")
    print(f"📁 학습 데이터 디렉토리: {training_dir}")
    
    return data_manager

def create_training_datasets(training_dir: str, batch_size: int = 8, 
                           max_vertices: int = 5000, max_faces: int = 10000):
    """학습용 TensorFlow 데이터셋 생성"""
    print("🔄 TensorFlow 데이터셋 생성 중...")
    
    training_path = Path(training_dir)
    cache_dir = training_path / "cache"
    
    # 각 디렉토리의 파일 개수 확인
    train_files = list((training_path / "train").glob("*.*"))
    val_files = list((training_path / "val").glob("*.*"))
    test_files = list((training_path / "test").glob("*.*"))
    
    print(f"📊 데이터 현황:")
    print(f"  - 학습: {len(train_files)}개 파일")
    print(f"  - 검증: {len(val_files)}개 파일")
    print(f"  - 테스트: {len(test_files)}개 파일")
    
    # 데이터셋 생성
    train_dataset = MeshDatasetTF(
        data_dir=str(training_path / "train"),
        cache_dir=str(cache_dir / "train"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=True)
    
    val_dataset = MeshDatasetTF(
        data_dir=str(training_path / "val"),
        cache_dir=str(cache_dir / "val"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=False)
    
    test_dataset = MeshDatasetTF(
        data_dir=str(training_path / "test"),
        cache_dir=str(cache_dir / "test"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=False)
    
    print("✅ 데이터셋 생성 완료!")
    print(f"  - 배치 크기: {batch_size}")
    print(f"  - 최대 정점 수: {max_vertices}")
    print(f"  - 최대 면 수: {max_faces}")
    
    return train_dataset, val_dataset, test_dataset

특성 분석 및 시각화 클래스

In [6]:
# =============================================================================
# 특성 분석 및 시각화 클래스
# =============================================================================

class MeshFeatureAnalyzer:
    def __init__(self, dataset: MeshDatasetTF):
        self.dataset = dataset
        self.feature_columns = ['area', 'perimeter', 'aspect_ratio', 'angle', 'centroid_distance']
        
    def analyze_features(self, num_samples: int = 75) -> pd.DataFrame:
        """메쉬 파일들의 특성을 분석하여 DataFrame으로 반환"""
        print(f"📊 {num_samples}개 샘플의 특성을 분석중...")
        
        all_features = []
        loader = MeshLoader(self.dataset.source_dir)
        file_paths = loader.get_all_file_paths()[:num_samples]
        preprocessor = MeshPreprocessor(self.dataset.max_vertices, self.dataset.max_faces)

        for i, file_path in enumerate(file_paths):
            if i % 10 == 0:
                print(f"진행률: {i+1}/{len(file_paths)}")
                
            try:
                # 메쉬 데이터 로드 및 전처리
                raw_data = self.dataset.loader.load_mesh_data(file_path)
                processed_data = self.dataset.preprocessor.preprocess(raw_data)
                
                # 특성 추출 (TensorFlow tensor를 numpy로 변환)
                features = processed_data['features'].numpy()
                
                # 각 face의 특성을 개별 행으로 저장
                for face_idx, feature in enumerate(features):
                    if not np.allclose(feature, [0.0, 0.0, 1.0, 0.0, 0.0]):  # 패딩된 face 제외
                        feature_dict = {
                            'file_path': Path(file_path).name,
                            'face_idx': face_idx,
                            'area': feature[0],
                            'perimeter': feature[1], 
                            'aspect_ratio': feature[2],
                            'angle': feature[3],
                            'centroid_distance': feature[4]
                        }
                        all_features.append(feature_dict)
                        
            except Exception as e:
                print(f"⚠️ 특성 분석 실패 {file_path}: {e}")
                continue
        
        df = pd.DataFrame(all_features)
        print(f"✅ 총 {len(df)}개의 face 특성을 분석했습니다.")
        return df
    
    def visualize_features(self, df: pd.DataFrame, save_plots: bool = True):
        """특성 데이터를 시각화"""
        print("📈 특성 데이터 시각화 중...")
        
        # 1. 기본 통계 정보
        print("\n=== 기본 통계 정보 ===")
        print(df[self.feature_columns].describe())
        
        # 2. 결측치 확인
        print("\n=== 결측치 확인 ===")
        missing_data = df[self.feature_columns].isnull().sum()
        print(missing_data)
        
        # 3. 무한값 확인
        print("\n=== 무한값 확인 ===")
        for col in self.feature_columns:
            inf_count = np.isinf(df[col]).sum()
            print(f"{col}: {inf_count}개의 무한값")
        
        # 4. 시각화
        plt.style.use('default')
        
        # 4-1. 히스토그램
        fig, axes = plt.subplots(2, 3, figsize=(15, 10))
        fig.suptitle('메쉬 특성 분포 히스토그램', fontsize=16)
        
        for i, col in enumerate(self.feature_columns):
            row, col_idx = divmod(i, 3)
            
            # 이상치 제거를 위한 percentile 기반 필터링
            q1 = df[col].quantile(0.01)
            q99 = df[col].quantile(0.99)
            filtered_data = df[col][(df[col] >= q1) & (df[col] <= q99)]
            
            axes[row, col_idx].hist(filtered_data, bins=50, alpha=0.7, edgecolor='black')
            axes[row, col_idx].set_title(f'{col}')
            axes[row, col_idx].set_xlabel('값')
            axes[row, col_idx].set_ylabel('빈도')
            axes[row, col_idx].grid(True, alpha=0.3)
        
        # 빈 subplot 제거
        fig.delaxes(axes[1, 2])
        plt.tight_layout()
        if save_plots:
            plt.savefig('mesh_feature_histograms.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        # 4-2. 박스플롯 (이상치 탐지)
        fig, axes = plt.subplots(1, 5, figsize=(20, 6))
        fig.suptitle('메쉬 특성 박스플롯 (이상치 탐지)', fontsize=16)
        
        for i, col in enumerate(self.feature_columns):
            # 로그 스케일 적용 (양수 값만)
            positive_data = df[col][df[col] > 0]
            if len(positive_data) > 0:
                axes[i].boxplot(positive_data, vert=True)
                axes[i].set_yscale('log')
            else:
                axes[i].boxplot(df[col], vert=True)
            
            axes[i].set_title(f'{col}')
            axes[i].grid(True, alpha=0.3)
        
        plt.tight_layout()
        if save_plots:
            plt.savefig('mesh_feature_boxplots.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        # 4-3. 상관관계 히트맵
        plt.figure(figsize=(10, 8))
        correlation_matrix = df[self.feature_columns].corr()
        sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
                   square=True, fmt='.3f')
        plt.title('메쉬 특성 간 상관관계')
        plt.tight_layout()
        if save_plots:
            plt.savefig('mesh_feature_correlation.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        # 4-4. 산점도 (주요 특성 간 관계)
        fig, axes = plt.subplots(2, 2, figsize=(12, 10))
        fig.suptitle('주요 특성 간 관계', fontsize=16)
        
        # area vs perimeter
        axes[0,0].scatter(df['area'], df['perimeter'], alpha=0.5, s=1)
        axes[0,0].set_xlabel('Area')
        axes[0,0].set_ylabel('Perimeter')
        axes[0,0].set_title('Area vs Perimeter')
        axes[0,0].grid(True, alpha=0.3)
        
        # aspect_ratio vs angle
        axes[0,1].scatter(df['aspect_ratio'], df['angle'], alpha=0.5, s=1)
        axes[0,1].set_xlabel('Aspect Ratio')
        axes[0,1].set_ylabel('Angle')
        axes[0,1].set_title('Aspect Ratio vs Angle')
        axes[0,1].grid(True, alpha=0.3)
        
        # area vs centroid_distance
        axes[1,0].scatter(df['area'], df['centroid_distance'], alpha=0.5, s=1)
        axes[1,0].set_xlabel('Area')
        axes[1,0].set_ylabel('Centroid Distance')
        axes[1,0].set_title('Area vs Centroid Distance')
        axes[1,0].grid(True, alpha=0.3)
        
        # perimeter vs aspect_ratio
        axes[1,1].scatter(df['perimeter'], df['aspect_ratio'], alpha=0.5, s=1)
        axes[1,1].set_xlabel('Perimeter')
        axes[1,1].set_ylabel('Aspect Ratio')
        axes[1,1].set_title('Perimeter vs Aspect Ratio')
        axes[1,1].grid(True, alpha=0.3)
        
        plt.tight_layout()
        if save_plots:
            plt.savefig('mesh_feature_scatter.png', dpi=300, bbox_inches='tight')
        plt.show()
        
    def detect_anomalies(self, df: pd.DataFrame) -> pd.DataFrame:
        """이상치 탐지"""
        print("\n🔍 이상치 탐지 중...")
        
        anomalies = []
        
        for col in self.feature_columns:
            # IQR 방법
            Q1 = df[col].quantile(0.25)
            Q3 = df[col].quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            
            outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
            
            print(f"{col}: {len(outliers)}개의 이상치 ({len(outliers)/len(df)*100:.2f}%)")
            
            # 이상치 정보 저장
            for idx, row in outliers.iterrows():
                anomalies.append({
                    'file_path': row['file_path'],
                    'face_idx': row['face_idx'],
                    'feature': col,
                    'value': row[col],
                    'lower_bound': lower_bound,
                    'upper_bound': upper_bound
                })
        
        anomaly_df = pd.DataFrame(anomalies)
        return anomaly_df

In [7]:
# =============================================================================
# 실행 함수
# =============================================================================

def setup_environment(source_dir: str, training_dir: str, 
                             max_vertices: int = 2048, max_faces: int = 4096):
    """학습 환경 설정 및 데이터 준비"""
    print("🚀 학습 환경 설정 시작")
    
    # 1. 데이터 매니저 생성
    data_manager = MeshDataManager(
        source_dir=source_dir,
        training_dir=training_dir,
        max_vertices=max_vertices,
        max_faces=max_faces
    )
    
    # 2. 학습 데이터 준비
    if not data_manager.prepare_training_data():
        return None
    
    # 3. 특성 분석
    analyzer = MeshFeatureAnalyzer(data_manager)
    feature_results = analyzer.analyze_features(num_samples=7)
    
    # 4. 시각화
    analyzer.visualize_features(feature_results)
    
    # 5. 요약 정보 저장
    summary = {
        'setup_completed': True,
        'source_dir': source_dir,
        'training_dir': training_dir,
        'max_vertices': max_vertices,
        'max_faces': max_faces,
        'datasets_analyzed': list(feature_results.keys()),
        'total_features_analyzed': sum(len(df) for df in feature_results.values())
    }
    
    with open(data_manager.training_dir / "setup_summary.json", 'w') as f:
        json.dump(summary, f, indent=2)
    
    print("✅ 학습 환경 설정 완료!")
    print(f"📁 학습 데이터 디렉토리: {training_dir}")
    print(f"📊 분석 결과: {data_manager.analysis_dir}")
    
    return data_manager

def create_training_datasets(training_dir: str, batch_size: int = 8, 
                           max_vertices: int = 5000, max_faces: int = 10000):
    """학습용 TensorFlow 데이터셋 생성"""
    print("🔄 TensorFlow 데이터셋 생성 중...")
    
    training_path = Path(training_dir)
    cache_dir = training_path / "cache"
    
    # 데이터셋 생성
    train_dataset = MeshDatasetTF(
        data_dir=str(training_path / "train"),
        cache_dir=str(cache_dir / "train"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=True)
    
    val_dataset = MeshDatasetTF(
        data_dir=str(training_path / "val"),
        cache_dir=str(cache_dir / "val"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=False)
    
    test_dataset = MeshDatasetTF(
        data_dir=str(training_path / "test"),
        cache_dir=str(cache_dir / "test"),
        max_vertices=max_vertices,
        max_faces=max_faces
    ).create_dataset(batch_size=batch_size, shuffle=False)
    
    print("✅ 데이터셋 생성 완료!")
    print(f"  - 배치 크기: {batch_size}")
    print(f"  - 최대 정점 수: {max_vertices}")
    print(f"  - 최대 면 수: {max_faces}")
    
    return train_dataset, val_dataset, test_dataset

In [8]:
# =============================================================================
# 메인 실행 부분
# =============================================================================

if __name__ == "__main__":
    # 설정
    BASE_DIR = "C:/Users/konyang/Desktop/project2025/model/data/npy"
    SOURCE_DIR = os.path.join(BASE_DIR, "결절 모델링 npy")  # 원본 메쉬 파일 디렉토리
    TRAINING_DIR = "C:/Users/konyang/Desktop/MeshCNN_TF/data/train"      # 학습 데이터 저장 디렉토리
    
    # 학습 설정 - 환경에 맞게 조정하세요
    '''
    고성능 GPU (24GB+): MAX_VERTICES=5000, MAX_FACES=10000, BATCH_SIZE=32
    중간 GPU (8-16GB): MAX_VERTICES=3000, MAX_FACES=6000, BATCH_SIZE=16  
    저사양 GPU (4-8GB): MAX_VERTICES=1500, MAX_FACES=3000, BATCH_SIZE=8
    '''
    MAX_VERTICES = 2048
    MAX_FACES = 4096
    BATCH_SIZE = 8
    
    print("=" * 60)
    print("메쉬 데이터 학습 환경 설정")
    print("=" * 60)
    print(f"🔧 하드웨어 설정: 정점={MAX_VERTICES}, 면={MAX_FACES}, 배치={BATCH_SIZE}")
    
    # 1. 학습 환경 설정
    data_manager = setup_environment(
        source_dir=SOURCE_DIR,
        training_dir=TRAINING_DIR,
        max_vertices=MAX_VERTICES,
        max_faces=MAX_FACES
    )
    
    if data_manager is None:
        print("❌ 학습 환경 설정 실패")
        exit(1)
    
    # 2. 학습용 데이터셋 생성
    train_ds, val_ds, test_ds = create_datasets(
        training_dir=TRAINING_DIR,
        batch_size=BATCH_SIZE,
        max_vertices=MAX_VERTICES,
        max_faces=MAX_FACES
    )
    
    # 3. 데이터셋 확인
    print("\n🔍 데이터셋 확인:")
    for batch in train_ds.take(1):
        print(f"Batch shape:")
        for key, value in batch.items():
            print(f"  {key}: {value.shape}")
    
    print("\n🎉 모든 준비 완료! 이제 학습을 시작할 수 있습니다.")
    print(f"📂 학습 데이터: {TRAINING_DIR}")
    print(f"📊 분석 결과: {TRAINING_DIR}/analysis/")
    print(f"💡 설정을 변경하려면 위의 MAX_VERTICES, MAX_FACES, BATCH_SIZE 값을 조정하세요.")

메쉬 데이터 학습 환경 설정
🔧 하드웨어 설정: 정점=2048, 면=4096, 배치=8
🚀 학습 환경 설정 시작
📁 학습 데이터 준비 중...
총 75개의 메쉬 파일 발견
train 세트: 52개 파일 복사 중...
validation 세트: 15개 파일 복사 중...
test 세트: 8개 파일 복사 중...
✅ 데이터 분할 완료!
  - 학습: 52개
  - 검증: 15개
  - 테스트: 8개
📊 7개 샘플의 특성을 분석중...
진행률: 1/7
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy\결절 모델링 npy\A0083.npy: 'MeshDataManager' object has no attribute 'loader'
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy\결절 모델링 npy\A0087.npy: 'MeshDataManager' object has no attribute 'loader'
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy\결절 모델링 npy\A0103.npy: 'MeshDataManager' object has no attribute 'loader'
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy\결절 모델링 npy\A0106.npy: 'MeshDataManager' object has no attribute 'loader'
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy\결절 모델링 npy\A0117.npy: 'MeshDataManager' object has no attribute 'loader'
⚠️ 특성 분석 실패 C:\Users\konyang\Desktop\project2025\model\data\npy

KeyError: "None of [Index(['area', 'perimeter', 'aspect_ratio', 'angle', 'centroid_distance'], dtype='object')] are in the [columns]"