# 🔋 간단한 배터리 데이터 전처리 데모

개선된 배터리 데이터 전처리 시스템의 간단한 사용 예제입니다.

In [34]:
# 수정된 모듈 재로드
import importlib
import sys

if 'improved_battery_processor' in sys.modules:
    importlib.reload(sys.modules['improved_battery_processor'])

# 필수 라이브러리 임포트
import pandas as pd
import matplotlib.pyplot as plt
from pathlib import Path
from improved_battery_processor import BatteryDataProcessor, Config

print("📦 라이브러리 재로드 완료!")

📦 라이브러리 재로드 완료!


In [35]:
# 간단한 설정
config = Config(
    MAX_FILES_PER_CHANNEL=5,  # 테스트용으로 제한
    PARALLEL_PROCESSING=True,
    MAX_WORKERS=2
)

processor = BatteryDataProcessor(config)
print("⚙️ 프로세서 준비 완료!")

⚙️ 프로세서 준비 완료!


In [36]:
# 테스트 데이터 경로 (실제 경로로 수정하세요)
test_path = r"C:\Users\Ryu\Python_project\data\Code\DataPreprocess_250826\Rawdata\250207_250307_3_김동진_1689mAh_ATL Q7M Inner 2C 상온수명 1-100cyc"

if Path(test_path).exists():
    print(f"✅ 데이터 경로 확인: {Path(test_path).name}")
else:
    print("❌ 데이터 경로가 존재하지 않습니다.")
    print("위의 test_path 변수를 실제 데이터 경로로 수정하세요.")

✅ 데이터 경로 확인: 250207_250307_3_김동진_1689mAh_ATL Q7M Inner 2C 상온수명 1-100cyc


In [37]:
# 데이터 처리 실행 (수정된 버전)
if Path(test_path).exists():
    print("🚀 데이터 처리 시작...")
    
    try:
        results = processor.process_paths([test_path])
        
        if results and results[0].channel_data:
            result = results[0]
            print(f"\n✅ 처리 완료!")
            print(f"📊 포맷: {result.data_format}")
            print(f"🔧 채널 수: {len(result.channel_data)}개")
            print(f"💾 CSV: {result.csv_file}")
            print(f"📊 그래프: {result.plot_file}")
            
            # 첫 번째 채널 데이터 확인
            first_channel = list(result.channel_data.keys())[0]
            df = result.channel_data[first_channel]
            
            print(f"\n📈 {first_channel} 데이터:")
            print(f"  - 데이터 포인트: {len(df):,}개")
            print(f"  - 컬럼: {list(df.columns)[:5]}...")
            
            if 'Voltage_V' in df.columns:
                print(f"  - 전압: {df['Voltage_V'].min():.2f}V ~ {df['Voltage_V'].max():.2f}V")
            if 'Current_A' in df.columns:
                print(f"  - 전류: {df['Current_A'].min():.3f}A ~ {df['Current_A'].max():.3f}A")
            if 'Capacity_Ah' in df.columns:
                print(f"  - 용량: {df['Capacity_Ah'].max():.3f}Ah")
            
        else:
            print("❌ 데이터 처리 실패")
            
    except Exception as e:
        print(f"❌ 오류 발생: {e}")
        import traceback
        print(traceback.format_exc())
        
else:
    print("⏭️ 경로가 없어 처리를 건너뜁니다.")

2025-09-14 20:28:53,626 - improved_battery_processor - INFO - Processing 1 paths
2025-09-14 20:28:53,627 - improved_battery_processor - INFO - Processing group: 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명
2025-09-14 20:28:53,637 - ToyoDataLoader - INFO - Processing 496 data files for full dataset
2025-09-14 20:28:53,638 - ToyoDataLoader - INFO - Processing batch 1: files 1-200 (40.3%)
2025-09-14 20:28:53,639 - ToyoDataLoader - INFO - Processing 496 data files for full dataset
2025-09-14 20:28:53,641 - ToyoDataLoader - INFO - Processing batch 1: files 1-200 (40.3%)


🚀 데이터 처리 시작...


2025-09-14 20:28:53,882 - ToyoDataLoader - INFO - Processing batch 2: files 201-400 (80.6%)
2025-09-14 20:28:53,888 - ToyoDataLoader - INFO - Processing batch 2: files 201-400 (80.6%)
2025-09-14 20:28:54,120 - ToyoDataLoader - INFO - Processing batch 3: files 401-496 (100.0%)
2025-09-14 20:28:54,129 - ToyoDataLoader - INFO - Processing batch 3: files 401-496 (100.0%)
2025-09-14 20:28:54,456 - ToyoDataLoader - INFO - Loaded Ch30: 19345 rows
2025-09-14 20:28:54,459 - ToyoDataLoader - INFO - Loaded Ch31: 19470 rows
2025-09-14 20:28:54,626 - improved_battery_processor - INFO - CSV saved: 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_processed.csv
2025-09-14 20:28:55,036 - improved_battery_processor - INFO - Plot saved: 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_plots.png



✅ 처리 완료!
📊 포맷: TOYO
🔧 채널 수: 2개
💾 CSV: 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_processed.csv
📊 그래프: 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_plots.png

📈 Ch30 데이터:
  - 데이터 포인트: 19,345개
  - 컬럼: ['Date', 'Time', 'Time_Sec', 'Voltage_V', 'Current_mA']...
  - 전압: 2.70V ~ 4.50V
  - 전류: 0.000A ~ 3.377A
  - 용량: 2.569Ah


In [38]:
# 생성된 파일 확인
import glob

csv_files = glob.glob('*_processed.csv')
png_files = glob.glob('*_plots.png')

print("📁 생성된 파일:")
print(f"  📄 CSV 파일: {len(csv_files)}개")
print(f"  🖼️ 이미지 파일: {len(png_files)}개")

if csv_files:
    print("\nCSV 파일:")
    for f in csv_files:
        print(f"  - {f}")

if png_files:
    print("\n이미지 파일:")
    for f in png_files:
        print(f"  - {f}")
        
# 처리 성공 여부 확인
if csv_files or png_files:
    print("\n✅ 데이터 처리가 성공적으로 완료되었습니다!")
else:
    print("\n⚠️ 생성된 파일이 없습니다. 위의 처리 과정에서 오류를 확인하세요.")

📁 생성된 파일:
  📄 CSV 파일: 1개
  🖼️ 이미지 파일: 1개

CSV 파일:
  - 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_processed.csv

이미지 파일:
  - 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_plots.png

✅ 데이터 처리가 성공적으로 완료되었습니다!


In [39]:
# CSV 파일이 있으면 내용 확인
if csv_files:
    csv_file = csv_files[0]
    print(f"📊 {csv_file} 내용 확인:")
    
    try:
        df = pd.read_csv(csv_file, encoding='utf-8-sig')
        print(f"  📈 데이터 형태: {df.shape}")
        print(f"  📋 컬럼: {list(df.columns)[:8]}...")
        
        print("\n처음 5행:")
        display(df.head())
        
        # 데이터 품질 확인
        if 'Capacity_Ah' in df.columns:
            max_capacity = df['Capacity_Ah'].max()
            print(f"\n📊 최대 용량: {max_capacity:.3f} Ah")
            
        if 'Voltage_V' in df.columns:
            voltage_range = f"{df['Voltage_V'].min():.2f}V ~ {df['Voltage_V'].max():.2f}V"
            print(f"📊 전압 범위: {voltage_range}")
        
    except Exception as e:
        print(f"❌ CSV 읽기 오류: {e}")
        print("파일 인코딩이나 형식에 문제가 있을 수 있습니다.")
        
else:
    print("📄 표시할 CSV 파일이 없습니다.")

📊 250207_250307_3_김동진_1689mAh_ATL_Q7M_Inner_2C_상온수명_processed.csv 내용 확인:
  📈 데이터 형태: (38815, 17)
  📋 컬럼: ['Date', 'Time', 'Time_Sec', 'Voltage_V', 'Current_mA', 'Temperature_C', 'Condition', 'Mode']...

처음 5행:


Unnamed: 0,Date,Time,Time_Sec,Voltage_V,Current_mA,Temperature_C,Condition,Mode,Cycle,TotalCycle,Temperature_C.1,Current_A,Capacity_Ah,Power_W,State,SOC_%,Channel
0,2025/02/09,15:52:19,0,4.1615,0.0,22.5,0,6,1,56,22.5,0.0,0.0,0.0,Rest,0.0,Ch30
1,2025/02/19,04:15:55,0,4.4995,0.0,22.4,0,10,1,495,22.4,0.0,0.0,0.0,Rest,0.0,Ch30
2,2025/02/16,16:35:56,0,3.6,0.0,22.4,0,8,1,388,22.4,0.0,0.0,0.0,Rest,0.0,Ch30
3,2025/02/16,16:36:03,0,3.7135,0.0,22.4,2,9,1,389,22.4,0.0,0.0,0.0,Rest,0.0,Ch30
4,2025/02/09,15:48:05,0,4.14,0.0,22.5,0,5,1,55,22.5,0.0,0.0,0.0,Rest,0.0,Ch30



📊 최대 용량: 2.570 Ah
📊 전압 범위: 2.68V ~ 4.50V


## 🎯 완료!

🎉 배터리 데이터 전처리 및 순서 정렬이 완료되었습니다.

### 생성된 파일:
- **원본 CSV**: 전처리된 원본 데이터
- **정렬 CSV**: 시간순으로 정렬된 데이터 (파일명에 `_sorted` 추가)
- **PNG 파일**: 시각화 그래프

### 주요 개선사항:
1. ✅ **시계열 데이터 순서 정렬**: Date + Time 기준으로 올바른 시간 순서
2. ✅ **데이터 무결성 보장**: 정렬 과정에서 데이터 손실 없음
3. ✅ **시각화 비교**: 정렬 전후 데이터 순서 변화를 그래프로 확인

### 다음 단계:
1. `*_sorted.csv` 파일을 시계열 분석에 활용하세요
2. PNG 파일을 확인하여 데이터 품질을 검토하세요
3. 필요에 따라 설정값을 조정하여 다시 실행하세요

### 📚 사용한 기술:
- **배터리 데이터 전처리**: TOYO 포맷 자동 감지 및 처리
- **시계열 정렬**: pandas DateTime 기반 정렬
- **데이터 검증**: 정렬 상태 자동 검증
- **시각화**: 정렬 전후 비교 그래프

In [None]:
# 정렬 결과 시각화 비교
if csv_files:
    try:
        # 원본과 정렬된 파일 모두 확인
        csv_file = csv_files[0]
        sorted_filename = csv_file.replace('.csv', '_sorted.csv')
        
        if Path(sorted_filename).exists():
            df_original = pd.read_csv(csv_file, encoding='utf-8-sig')
            df_sorted = pd.read_csv(sorted_filename, encoding='utf-8-sig')
            
            print("📊 정렬 전후 비교:")
            print(f"  원본 파일: {len(df_original):,} 행")
            print(f"  정렬 파일: {len(df_sorted):,} 행")
            
            # TotalCycle 분포 비교
            if 'TotalCycle' in df_original.columns:
                fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
                
                # 정렬 전
                cycle_range_orig = df_original['TotalCycle'][:100]  # 처음 100개
                ax1.plot(range(len(cycle_range_orig)), cycle_range_orig, 'r.-', alpha=0.7, markersize=3)
                ax1.set_title('정렬 전 - TotalCycle 순서 (처음 100개)')
                ax1.set_xlabel('데이터 순서')
                ax1.set_ylabel('TotalCycle')
                ax1.grid(True, alpha=0.3)
                
                # 정렬 후
                cycle_range_sorted = df_sorted['TotalCycle'][:100]  # 처음 100개
                ax2.plot(range(len(cycle_range_sorted)), cycle_range_sorted, 'b.-', alpha=0.7, markersize=3)
                ax2.set_title('정렬 후 - TotalCycle 순서 (처음 100개)')
                ax2.set_xlabel('데이터 순서')
                ax2.set_ylabel('TotalCycle')
                ax2.grid(True, alpha=0.3)
                
                plt.tight_layout()
                plt.show()
                
                print("📈 그래프 설명:")
                print("  - 정렬 전: 데이터 순서가 뒤섞여 있음")
                print("  - 정렬 후: TotalCycle이 순차적으로 증가")
                
        else:
            print("⚠️ 정렬된 파일이 아직 생성되지 않았습니다.")
            
    except Exception as e:
        print(f"❌ 비교 시각화 실패: {e}")
        import traceback
        print(traceback.format_exc())

In [None]:
# 생성된 CSV 파일의 데이터 순서 정렬
if csv_files:
    csv_file = csv_files[0]
    print(f"📄 정렬 대상: {csv_file}")
    
    try:
        # 원본 데이터 로드
        df_original = pd.read_csv(csv_file, encoding='utf-8-sig')
        print(f"📊 총 데이터: {len(df_original):,} 행")
        
        # 데이터 순서 정렬
        df_sorted = fix_data_order(df_original)
        
        # 정렬된 데이터를 새 파일로 저장
        sorted_filename = csv_file.replace('.csv', '_sorted.csv')
        df_sorted.to_csv(sorted_filename, index=False, encoding='utf-8-sig')
        
        print(f"\n💾 정렬된 파일 저장: {sorted_filename}")
        print(f"📊 저장된 데이터: {len(df_sorted):,} 행")
        
        # 데이터 손실 확인
        if len(df_original) == len(df_sorted):
            print("✅ 데이터 손실 없이 정렬 완료")
        else:
            print(f"⚠️ 데이터 개수 변경: {len(df_original)} → {len(df_sorted)}")
            
    except Exception as e:
        print(f"❌ 정렬 처리 실패: {e}")
        import traceback
        print(traceback.format_exc())
        
else:
    print("📄 정렬할 CSV 파일이 없습니다.")

In [None]:
# 데이터 순서 정렬 함수
def fix_data_order(df):
    """시계열 데이터를 Date + Time 기준으로 정렬"""
    print("📊 정렬 전 데이터 확인:")
    
    # 처음 5개 날짜/시간 출력
    if 'Date' in df.columns and 'Time' in df.columns:
        print("처음 5개 데이터:")
        for i in range(min(5, len(df))):
            row = df.iloc[i]
            print(f"  {i+1}: {row['Date']} {row['Time']} | TotalCycle: {row.get('TotalCycle', 'N/A')}")
        
        # DateTime 생성 및 정렬
        print("\n🔄 DateTime 기준 정렬 중...")
        try:
            df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'])
            df_sorted = df.sort_values('DateTime').reset_index(drop=True)
            df_sorted = df_sorted.drop('DateTime', axis=1)
            
            # 정렬 후 확인
            print("\n✅ 정렬 후 데이터:")
            print("처음 5개 데이터:")
            for i in range(min(5, len(df_sorted))):
                row = df_sorted.iloc[i]
                print(f"  {i+1}: {row['Date']} {row['Time']} | TotalCycle: {row.get('TotalCycle', 'N/A')}")
            
            # 시간 순서 검증
            df_sorted['DateTime'] = pd.to_datetime(df_sorted['Date'] + ' ' + df_sorted['Time'])
            is_sorted = df_sorted['DateTime'].is_monotonic_increasing
            df_sorted = df_sorted.drop('DateTime', axis=1)
            
            print(f"\n✅ 시간 순서 검증: {'정렬됨' if is_sorted else '비정렬'}")
            
            return df_sorted
            
        except Exception as e:
            print(f"❌ 정렬 실패: {e}")
            return df
    else:
        print("❌ Date 또는 Time 컬럼이 없습니다.")
        return df

# 🔄 데이터 순서 정렬

생성된 CSV 파일의 시계열 데이터 순서를 확인하고 정렬해보겠습니다.