In [3]:
import torch
import torch.nn as nn
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
import json
import pickle

class OptimizedPolynomialRootNet(nn.Module):
    """경량화된 효율적인 다항식 근 찾기 네트워크"""
    def __init__(self, input_size=6, output_size=10, hidden_size=512, num_layers=4, dropout=0.3):
        super(OptimizedPolynomialRootNet, self).__init__()
        
        layers = []
        current_size = input_size
        
        # 첫 번째 층
        layers.extend([
            nn.Linear(current_size, hidden_size),
            nn.ReLU(),
            nn.BatchNorm1d(hidden_size),
            nn.Dropout(dropout)
        ])
        current_size = hidden_size
        
        # 중간 층들 (점진적 크기 감소)
        for i in range(num_layers - 2):
            next_size = hidden_size // (2 ** (i + 1))
            next_size = max(next_size, 64)  # 최소 64개 뉴런
            
            layers.extend([
                nn.Linear(current_size, next_size),
                nn.ReLU(),
                nn.BatchNorm1d(next_size),
                nn.Dropout(dropout * 0.8)  # 점진적으로 드롭아웃 감소
            ])
            current_size = next_size
        
        # 출력층
        layers.append(nn.Linear(current_size, output_size))
        
        self.network = nn.Sequential(*layers)
        
        # 가중치 초기화
        self.apply(self._init_weights)
    
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            nn.init.xavier_uniform_(module.weight)
            nn.init.constant_(module.bias, 0)
    
    def forward(self, x):
        return self.network(x)

class PolynomialModelTester:
    def __init__(self, model_path, data_path=None):
        """
        모델 테스터 초기화
        
        Args:
            model_path: 저장된 모델 파일 경로
            data_path: 테스트 데이터 파일 경로 (선택사항)
        """
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        self.model = self.load_model(model_path)
        self.normalization_params = None
        
        if data_path:
            self.load_normalization_params(data_path)
        
        print(f"모델 로드 완료 - Device: {self.device}")
    
    def load_model(self, model_path):
        """저장된 모델 로드"""
        checkpoint = torch.load(model_path, map_location=self.device)
        
        print("체크포인트 키들:", list(checkpoint.keys()))
        
        # 저장된 state_dict에서 네트워크 구조 추론
        state_dict = checkpoint['model_state_dict']
        
        # 첫 번째 레이어에서 hidden_size 추론
        first_layer_key = 'network.0.weight'
        if first_layer_key in state_dict:
            hidden_size = state_dict[first_layer_key].shape[0]
            print(f"추론된 hidden_size: {hidden_size}")
        else:
            hidden_size = 512  # 기본값
        
        # 레이어 수 추론 (Linear 레이어만 카운트)
        linear_layers = [k for k in state_dict.keys() if '.weight' in k and 'network.' in k]
        num_linear_layers = len(linear_layers)
        print(f"발견된 Linear 레이어 수: {num_linear_layers}")
        
        # 모델 아키텍처 추론
        if num_linear_layers <= 6:
            num_layers = 4
        elif num_linear_layers <= 9:
            num_layers = 6
        else:
            num_layers = 8
        
        # 여러 가능한 아키텍처로 시도
        possible_configs = [
            {'hidden_size': hidden_size, 'num_layers': 6, 'dropout': 0.1},
            {'hidden_size': hidden_size, 'num_layers': 8, 'dropout': 0.3},
            {'hidden_size': hidden_size, 'num_layers': 4, 'dropout': 0.3},
            {'hidden_size': 896, 'num_layers': 6, 'dropout': 0.1},
            {'hidden_size': 512, 'num_layers': 4, 'dropout': 0.3},
        ]
        
        model = None
        for i, config in enumerate(possible_configs):
            try:
                print(f"시도 {i+1}: {config}")
                test_model = OptimizedPolynomialRootNet(
                    input_size=6,
                    output_size=10,
                    **config
                )
                test_model.load_state_dict(state_dict)
                model = test_model
                print(f"✅ 성공! 사용된 설정: {config}")
                break
            except Exception as e:
                print(f"❌ 실패: {str(e)[:100]}...")
                continue
        
        if model is None:
            raise RuntimeError("모든 모델 아키텍처 시도 실패. 수동으로 아키텍처를 확인해주세요.")
        
        model.to(self.device)
        model.eval()
        
        print(f"모델 정보:")
        print(f"  - 최고 테스트 손실: {checkpoint.get('best_test_loss', 'N/A')}")
        print(f"  - 파라미터 수: {sum(p.numel() for p in model.parameters()):,}")
        
        return model
    
    def load_normalization_params(self, data_path):
        """정규화 파라미터 로드"""
        if data_path.endswith('.json'):
            with open(data_path, 'r', encoding='utf-8') as f:
                data = json.load(f)
        elif data_path.endswith('.pkl'):
            with open(data_path, 'rb') as f:
                data = pickle.load(f)
        
        # 계수와 근 추출
        coeffs = []
        roots = []
        
        for item in data:
            coeffs.append(item['coefficients'])
            
            item_roots = item['roots']
            if isinstance(item_roots[0], list):
                flattened_roots = []
                for root in item_roots:
                    flattened_roots.extend(root)
                roots.append(flattened_roots)
            else:
                roots.append(item_roots)
        
        coeffs = np.array(coeffs, dtype=np.float32)
        roots = np.array(roots, dtype=np.float32)
        
        # 정규화 파라미터 계산
        self.normalization_params = {
            'coeff_mean': np.mean(coeffs, axis=0),
            'coeff_std': np.std(coeffs, axis=0) + 1e-8,
            'root_mean': np.mean(roots, axis=0),
            'root_std': np.std(roots, axis=0) + 1e-8
        }
        
        print("정규화 파라미터 로드 완료")
    
    def normalize_coeffs(self, coeffs):
        """계수 정규화"""
        if self.normalization_params is None:
            return coeffs
        return (coeffs - self.normalization_params['coeff_mean']) / self.normalization_params['coeff_std']
    
    def denormalize_roots(self, roots):
        """근 비정규화"""
        if self.normalization_params is None:
            return roots
        return roots * self.normalization_params['root_std'] + self.normalization_params['root_mean']
    
    def predict_roots(self, coefficients):
        """
        다항식 계수로부터 근 예측
        
        Args:
            coefficients: [a5, a4, a3, a2, a1, a0] (5차 다항식)
        
        Returns:
            predicted_roots: 예측된 근들 (복소수 형태)
        """
        # 입력 형태 변환
        if isinstance(coefficients, list):
            coefficients = np.array(coefficients, dtype=np.float32)
        
        # 정규화
        norm_coeffs = self.normalize_coeffs(coefficients)
        
        # 텐서 변환
        input_tensor = torch.FloatTensor(norm_coeffs).unsqueeze(0).to(self.device)
        
        # 예측
        with torch.no_grad():
            pred_roots = self.model(input_tensor)
            pred_roots = pred_roots.cpu().numpy()[0]
        
        # 비정규화
        pred_roots = self.denormalize_roots(pred_roots)
        
        # 복소수 형태로 변환
        complex_roots = []
        for i in range(5):
            real_part = pred_roots[i*2]
            imag_part = pred_roots[i*2 + 1]
            complex_roots.append(complex(real_part, imag_part))
        
        return complex_roots
    
    def verify_roots(self, coefficients, roots, tolerance=1e-3):
        """
        근이 실제로 방정식을 만족하는지 검증
        
        Args:
            coefficients: 다항식 계수
            roots: 검증할 근들
            tolerance: 허용 오차
        
        Returns:
            verification_results: 각 근의 검증 결과
        """
        results = []
        
        for i, root in enumerate(roots):
            # P(x) = a5*x^5 + a4*x^4 + a3*x^3 + a2*x^2 + a1*x + a0
            x = root
            poly_value = (coefficients[0] * x**5 + 
                         coefficients[1] * x**4 + 
                         coefficients[2] * x**3 + 
                         coefficients[3] * x**2 + 
                         coefficients[4] * x + 
                         coefficients[5])
            
            magnitude = abs(poly_value)
            is_valid = magnitude < tolerance
            
            results.append({
                'root_index': i,
                'root': root,
                'poly_value': poly_value,
                'magnitude': magnitude,
                'is_valid': is_valid
            })
        
        return results
    
    def test_single_polynomial(self, coefficients, show_verification=True, plot_graph=True):
        """
        단일 다항식 테스트
        
        Args:
            coefficients: [a5, a4, a3, a2, a1, a0]
            show_verification: 검증 결과 출력 여부
            plot_graph: 그래프 출력 여부
        """
        print(f"\n{'='*60}")
        print(f"다항식 테스트")
        print(f"{'='*60}")
        
        # 다항식 출력
        self.print_polynomial(coefficients)
        
        # 근 예측
        predicted_roots = self.predict_roots(coefficients)
        
        print(f"\n📊 예측된 근들:")
        for i, root in enumerate(predicted_roots):
            if abs(root.imag) < 1e-6:
                print(f"  근 {i+1}: {root.real:.6f}")
            else:
                print(f"  근 {i+1}: {root.real:.6f} + {root.imag:.6f}i (크기: {abs(root):.6f})")
        
        # 검증
        if show_verification:
            print(f"\n🔍 근 검증 결과:")
            verification_results = self.verify_roots(coefficients, predicted_roots)
            
            valid_count = 0
            for result in verification_results:
                status = "✅ 유효" if result['is_valid'] else "❌ 무효"
                print(f"  근 {result['root_index']+1}: P(x) = {result['poly_value']:.6e}, |P(x)| = {result['magnitude']:.6e} {status}")
                if result['is_valid']:
                    valid_count += 1
            
            print(f"\n📈 검증 통계: {valid_count}/5 개 근이 유효 ({valid_count/5*100:.1f}%)")
        
        # 그래프 그리기
        if plot_graph:
            self.plot_polynomial_and_roots(coefficients, predicted_roots)
        
        return predicted_roots
    
    def print_polynomial(self, coefficients):
        """다항식을 보기 좋게 출력"""
        terms = []
        powers = [5, 4, 3, 2, 1, 0]
        
        for i, coeff in enumerate(coefficients):
            if abs(coeff) > 1e-10:  # 0에 가까운 계수 무시
                power = powers[i]
                
                if power == 0:
                    terms.append(f"{coeff:+.3f}")
                elif power == 1:
                    terms.append(f"{coeff:+.3f}x")
                else:
                    terms.append(f"{coeff:+.3f}x^{power}")
        
        if terms:
            equation = " ".join(terms).replace("+", " + ").replace("-", " - ")
            equation = equation.lstrip(" + ")
            if equation.startswith(" - "):
                equation = "-" + equation[3:]
            print(f"방정식: {equation} = 0")
        else:
            print("방정식: 0 = 0")
    
    def plot_polynomial_and_roots(self, coefficients, roots):
        """다항식과 근을 시각화"""
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
        
        # 1. 실제 함수 그래프 (실수 범위)
        real_roots = [r.real for r in roots if abs(r.imag) < 1e-6]
        if real_roots:
            x_min, x_max = min(real_roots) - 2, max(real_roots) + 2
        else:
            x_min, x_max = -5, 5
        
        x = np.linspace(x_min, x_max, 1000)
        y = (coefficients[0] * x**5 + 
             coefficients[1] * x**4 + 
             coefficients[2] * x**3 + 
             coefficients[3] * x**2 + 
             coefficients[4] * x + 
             coefficients[5])
        
        ax1.plot(x, y, 'b-', linewidth=2, label='다항식')
        ax1.axhline(y=0, color='k', linestyle='--', alpha=0.3)
        ax1.grid(True, alpha=0.3)
        
        # 실근 표시
        for root in roots:
            if abs(root.imag) < 1e-6:  # 실근
                ax1.plot(root.real, 0, 'ro', markersize=8, label=f'실근: {root.real:.3f}')
        
        ax1.set_xlabel('x')
        ax1.set_ylabel('P(x)')
        ax1.set_title('다항식 그래프 및 실근')
        ax1.legend()
        
        # y축 범위 조정
        y_range = np.percentile(np.abs(y), 95)
        ax1.set_ylim(-y_range, y_range)
        
        # 2. 복소평면에서 모든 근 표시
        real_parts = [r.real for r in roots]
        imag_parts = [r.imag for r in roots]
        
        # 근 타입별 색상 구분
        colors = []
        labels = []
        for root in roots:
            if abs(root.imag) < 1e-6:
                colors.append('red')
                labels.append(f'{root.real:.3f}')
            else:
                colors.append('blue')
                if root.imag >= 0:
                    labels.append(f'{root.real:.3f}+{root.imag:.3f}i')
                else:
                    labels.append(f'{root.real:.3f}{root.imag:.3f}i')
        
        scatter = ax2.scatter(real_parts, imag_parts, c=colors, s=100, alpha=0.7)
        
        # 근 라벨 추가
        for i, (real, imag, label) in enumerate(zip(real_parts, imag_parts, labels)):
            ax2.annotate(f'#{i+1}: {label}', 
                        (real, imag), 
                        xytext=(5, 5), 
                        textcoords='offset points',
                        fontsize=9,
                        bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.7))
        
        ax2.axhline(y=0, color='k', linestyle='-', alpha=0.3)
        ax2.axvline(x=0, color='k', linestyle='-', alpha=0.3)
        ax2.grid(True, alpha=0.3)
        ax2.set_xlabel('실수부')
        ax2.set_ylabel('허수부')
        ax2.set_title('복소평면에서의 모든 근')
        
        # 범례
        red_patch = Rectangle((0,0),1,1, facecolor='red', alpha=0.7, label='실근')
        blue_patch = Rectangle((0,0),1,1, facecolor='blue', alpha=0.7, label='복소근')
        ax2.legend(handles=[red_patch, blue_patch])
        
        plt.tight_layout()
        plt.show()
    
    def test_multiple_examples(self, examples=None, num_random=3):
        """
        여러 예제 테스트
        
        Args:
            examples: 테스트할 계수 리스트
            num_random: 랜덤 생성할 예제 수
        """
        if examples is None:
            examples = [
                [1, 0, 0, 0, 0, -32],        # x^5 - 32 = 0
                [1, -5, 6, 4, -8, 0],        # x^5 - 5x^4 + 6x^3 + 4x^2 - 8x = 0
                [1, 2, 1, -4, 0, 1],         # x^5 + 2x^4 + x^3 - 4x^2 + 1 = 0
                [2, -3, 1, 0, -2, 5],        # 2x^5 - 3x^4 + x^3 - 2x + 5 = 0
            ]
        
        print(f"\n{'='*80}")
        print(f"다중 다항식 테스트")
        print(f"{'='*80}")
        
        # 주어진 예제들 테스트
        for i, coeffs in enumerate(examples):
            print(f"\n[예제 {i+1}]")
            self.test_single_polynomial(coeffs, show_verification=True, plot_graph=True)
        
        # 랜덤 예제들 생성 및 테스트
        if num_random > 0:
            print(f"\n{'='*60}")
            print(f"랜덤 생성 예제 테스트")
            print(f"{'='*60}")
            
            for i in range(num_random):
                # 랜덤 계수 생성 (적당한 범위로 제한)
                coeffs = np.random.uniform(-5, 5, 6).tolist()
                coeffs[0] = 1  # 최고차항 계수는 1로 고정
                
                print(f"\n[랜덤 예제 {i+1}]")
                self.test_single_polynomial(coeffs, show_verification=True, plot_graph=True)
    
    def benchmark_accuracy(self, data_path, num_samples=100):
        """
        저장된 데이터셋으로 정확도 벤치마크
        
        Args:
            data_path: 테스트 데이터 파일 경로
            num_samples: 테스트할 샘플 수
        """
        print(f"\n{'='*60}")
        print(f"정확도 벤치마크 (샘플 수: {num_samples})")
        print(f"{'='*60}")
        
        # 데이터 로드
        if data_path.endswith('.json'):
            with open(data_path, 'r', encoding='utf-8') as f:
                data = json.load(f)
        elif data_path.endswith('.pkl'):
            with open(data_path, 'rb') as f:
                data = pickle.load(f)
        
        # 샘플 선택
        if len(data) > num_samples:
            indices = np.random.choice(len(data), num_samples, replace=False)
            test_data = [data[i] for i in indices]
        else:
            test_data = data
        
        # 정확도 통계
        total_mse = 0
        total_magnitude_error = 0
        valid_predictions = 0
        
        for i, item in enumerate(test_data):
            coeffs = item['coefficients']
            true_roots_flat = item['roots']
            
            # 실제 근 형태 변환
            if isinstance(true_roots_flat[0], list):
                true_complex_roots = [complex(r[0], r[1]) for r in true_roots_flat]
            else:
                true_complex_roots = [complex(true_roots_flat[j*2], true_roots_flat[j*2+1]) for j in range(5)]
            
            # 예측
            pred_roots = self.predict_roots(coeffs)
            
            # MSE 계산
            true_flat = []
            pred_flat = []
            for true_r, pred_r in zip(true_complex_roots, pred_roots):
                true_flat.extend([true_r.real, true_r.imag])
                pred_flat.extend([pred_r.real, pred_r.imag])
            
            mse = np.mean((np.array(true_flat) - np.array(pred_flat))**2)
            total_mse += mse
            
            # 크기 오차 계산
            mag_errors = [abs(abs(true_r) - abs(pred_r)) for true_r, pred_r in zip(true_complex_roots, pred_roots)]
            avg_mag_error = np.mean(mag_errors)
            total_magnitude_error += avg_mag_error
            
            # 검증
            verification = self.verify_roots(coeffs, pred_roots, tolerance=1e-2)
            if sum(1 for v in verification if v['is_valid']) >= 3:  # 5개 중 3개 이상 유효하면 성공
                valid_predictions += 1
            
            # 진행상황 출력
            if (i + 1) % 20 == 0:
                print(f"진행률: {i+1}/{len(test_data)} ({(i+1)/len(test_data)*100:.1f}%)")
        
        # 결과 출력
        avg_mse = total_mse / len(test_data)
        avg_mag_error = total_magnitude_error / len(test_data)
        accuracy = valid_predictions / len(test_data) * 100
        
        print(f"\n📊 벤치마크 결과:")
        print(f"  평균 MSE: {avg_mse:.6f}")
        print(f"  평균 크기 오차: {avg_mag_error:.6f}")
        print(f"  검증 통과율: {accuracy:.1f}% ({valid_predictions}/{len(test_data)})")
        
        return {
            'avg_mse': avg_mse,
            'avg_magnitude_error': avg_mag_error,
            'accuracy_rate': accuracy,
            'valid_predictions': valid_predictions,
            'total_samples': len(test_data)
        }

def inspect_model_checkpoint(model_path):
    """저장된 모델 체크포인트 정보 분석"""
    print(f"🔍 모델 체크포인트 분석: {model_path}")
    print("=" * 60)
    
    try:
        checkpoint = torch.load(model_path, map_location='cpu')
        
        print("1. 체크포인트 키들:")
        for key in checkpoint.keys():
            print(f"   - {key}")
        
        if 'model_state_dict' in checkpoint:
            state_dict = checkpoint['model_state_dict']
            print(f"\n2. State Dict 분석:")
            print(f"   - 총 파라미터 그룹 수: {len(state_dict)}")
            
            # Linear 레이어 분석
            linear_layers = {}
            for key, tensor in state_dict.items():
                if '.weight' in key and 'network.' in key:
                    layer_num = key.split('.')[1]
                    if layer_num not in linear_layers:
                        linear_layers[layer_num] = {}
                    if '.weight' in key:
                        linear_layers[layer_num]['weight_shape'] = tensor.shape
                    elif '.bias' in key:
                        linear_layers[layer_num]['bias_shape'] = tensor.shape
            
            print(f"\n3. 네트워크 구조 분석:")
            for layer_num in sorted(linear_layers.keys(), key=int):
                layer_info = linear_layers[layer_num]
                if 'weight_shape' in layer_info:
                    out_features, in_features = layer_info['weight_shape']
                    print(f"   - Layer {layer_num}: {in_features} -> {out_features}")
            
            # 첫 번째와 마지막 레이어로 아키텍처 추론
            first_layer = min(linear_layers.keys(), key=int)
            last_layer = max(linear_layers.keys(), key=int)
            
            if first_layer in linear_layers and 'weight_shape' in linear_layers[first_layer]:
                hidden_size = linear_layers[first_layer]['weight_shape'][0]
                input_size = linear_layers[first_layer]['weight_shape'][1]
                
            if last_layer in linear_layers and 'weight_shape' in linear_layers[last_layer]:
                output_size = linear_layers[last_layer]['weight_shape'][0]
            
            print(f"\n4. 추론된 아키텍처:")
            print(f"   - Input size: {input_size}")
            print(f"   - Hidden size: {hidden_size}")
            print(f"   - Output size: {output_size}")
            print(f"   - Linear layers: {len(linear_layers)}")
        
        if 'model_architecture' in checkpoint:
            print(f"\n5. 저장된 아키텍처 정보:")
            arch = checkpoint['model_architecture']
            for key, value in arch.items():
                print(f"   - {key}: {value}")
        
        if 'best_test_loss' in checkpoint:
            print(f"\n6. 성능 정보:")
            print(f"   - Best test loss: {checkpoint['best_test_loss']}")
            
    except Exception as e:
        print(f"❌ 분석 실패: {e}")

def main():
    """메인 테스트 함수"""
    print("🧮 다항식 근 찾기 모델 테스터")
    print("=" * 50)
    
    # 모델과 데이터 파일 경로 설정
    model_path = "model_18.pth"  # 저장된 모델 파일
    data_path = "polynomial_dataset_sorted.json"   # 데이터 파일 (정규화를 위해)
    
    # 먼저 모델 체크포인트 분석
    import os
    if os.path.exists(model_path):
        inspect_model_checkpoint(model_path)
        print("\n" + "=" * 60 + "\n")
    
    try:
        # 테스터 초기화
        tester = PolynomialModelTester(model_path, data_path)
        
        # 1. 단일 예제 테스트
        print("\n1️⃣ 단일 다항식 테스트")
        example_coeffs = [1, -2, 1, 0, -4, 4]  # x^5 - 2x^4 + x^3 - 4x + 4 = 0
        tester.test_single_polynomial(example_coeffs)
        
        # 2. 다중 예제 테스트
        print("\n2️⃣ 다중 예제 테스트")
        examples = [
            [1, 0, 0, 0, 0, -1],      # x^5 - 1 = 0 (5차 단위근)
            [1, -5, 0, 10, 0, -12],   # x^5 - 5x^4 + 10x^2 - 12 = 0
            [2, 1, -3, 0, 1, -1],     # 2x^5 + x^4 - 3x^3 + x - 1 = 0
        ]
        tester.test_multiple_examples(examples, num_random=2)
        
        # 3. 정확도 벤치마크 (데이터 파일이 있는 경우)
        if os.path.exists(data_path):
            print("\n3️⃣ 정확도 벤치마크")
            results = tester.benchmark_accuracy(data_path, num_samples=50)
            
            print(f"\n🎯 최종 성능 요약:")
            print(f"  MSE: {results['avg_mse']:.6f}")
            print(f"  크기 오차: {results['avg_magnitude_error']:.6f}")
            print(f"  성공률: {results['accuracy_rate']:.1f}%")
        
        print(f"\n✅ 모든 테스트 완료!")
        
    except FileNotFoundError as e:
        print(f"❌ 파일을 찾을 수 없습니다: {e}")
        print("다음 파일들이 필요합니다:")
        print("  - optimized_polynomial_model.pth (훈련된 모델)")
        print("  - polynomial_dataset_sorted.json (데이터셋, 선택사항)")
    except Exception as e:
        print(f"❌ 오류 발생: {e}")
        import traceback
        traceback.print_exc()

if __name__ == "__main__":
    main()

🧮 다항식 근 찾기 모델 테스터
❌ 오류 발생: Error(s) in loading state_dict for OptimizedPolynomialRootNet:
	Unexpected key(s) in state_dict: "network.14.weight", "network.14.bias", "network.14.running_mean", "network.14.running_var", "network.14.num_batches_tracked", "network.16.weight", "network.16.bias", "network.18.weight", "network.18.bias", "network.18.running_mean", "network.18.running_var", "network.18.num_batches_tracked", "network.20.weight", "network.20.bias". 
	size mismatch for network.0.weight: copying a param with shape torch.Size([896, 6]) from checkpoint, the shape in current model is torch.Size([512, 6]).
	size mismatch for network.0.bias: copying a param with shape torch.Size([896]) from checkpoint, the shape in current model is torch.Size([512]).
	size mismatch for network.2.weight: copying a param with shape torch.Size([896]) from checkpoint, the shape in current model is torch.Size([512]).
	size mismatch for network.2.bias: copying a param with shape torch.Size([896]) from checkpoi