In [1]:
""" libarary & init """

# libararies
import pandas as pd
import numpy as np
from pathlib import Path
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer

## 데이터 로드 및 EDA 수행
- branch : feat/7-dataload-eda
- tasks
    - 결측치 및 이상치 확인
    - 데이터 기본 통계량 확인
    - 타켓 변수 정의 (효율 계산식에 따른 타켓 변수)
    - 각 피처별 분포 시각화 (히스토그램)
    - 주요 인자들과 보일러 효율 간의 관계 시각화
    - 인자들 간의 상관관계 분석 (히트맵)

In [2]:
""" path settings & dataload """

def load_data(start_date, end_date):
    # 데이터 경로 설정
    data_path = '../data/rowdata-2025'
    data_dir = Path(data_path)

    # 시작일부터 종료일까지의 모든 날짜 생성
    dates_to_load = pd.date_range(start=start_date, end=end_date)

    # 각 날짜에 해당하는 csv 파일 리스트
    dfs_to_concat = []
    
    print(f"🔍 '{start_date}'부터 '{end_date}'까지의 데이터를 로드합니다...")
    
    # 각 날짜를 순회하며 파일 로드
    for date in dates_to_load:
        # 파일 이름 형식에 맞게 문자열 포맷팅 (예: 28_2025-01-05.csv)
        date_str = date.strftime('%Y-%m-%d')
        filename = f"28_{date_str}.csv"
        file_path = data_dir / filename
        
        # 5. 파일이 실제로 존재하는지 확인 후 로드
        if file_path.exists():
            try:
                temp_df = pd.read_csv(file_path, encoding='cp949')
                dfs_to_concat.append(temp_df)
                print(f"  - 로드 성공: {filename}")
            except Exception as e:
                print(f"  - ❌ 로드 실패: {filename} (에러: {e})")
        else:
            print(f"  - 파일 없음: {filename}")
            
    # 로드된 모든 데이터프레임을 하나로 합치기
    if dfs_to_concat:
        # ignore_index=True: 각 파일의 기존 인덱스를 무시하고 새로 인덱스를 부여 (0, 1, 2, ...)
        combined_df = pd.concat(dfs_to_concat, ignore_index=True)
        print(f"\n✅ 총 {len(dfs_to_concat)}개 파일, {len(combined_df)}개 행의 데이터를 성공적으로 합쳤습니다.")
        return combined_df
    else:
        print("\n❌ 해당 기간에 로드할 데이터 파일이 없습니다.")
        return None
    
start_date_input = '2025-01-01'
end_date_input = '2025-06-30'

rowdata_df = load_data(start_date=start_date_input, end_date=end_date_input)

if rowdata_df is not None:
    print("\n--- [결과] 로드된 데이터 확인 (상위 5개) ---")
    print(rowdata_df.head())
else:
    print("\n--- [결과] 최종 데이터프레임이 비어있어 출력할 내용이 없습니다. ---")


🔍 '2025-01-01'부터 '2025-06-30'까지의 데이터를 로드합니다...
  - 로드 성공: 28_2025-01-01.csv
  - 로드 성공: 28_2025-01-02.csv
  - 로드 성공: 28_2025-01-03.csv
  - 로드 성공: 28_2025-01-04.csv
  - 로드 성공: 28_2025-01-05.csv
  - 로드 성공: 28_2025-01-06.csv
  - 로드 성공: 28_2025-01-07.csv
  - 로드 성공: 28_2025-01-08.csv
  - 로드 성공: 28_2025-01-09.csv
  - 로드 성공: 28_2025-01-10.csv
  - 로드 성공: 28_2025-01-11.csv
  - 로드 성공: 28_2025-01-12.csv
  - 로드 성공: 28_2025-01-13.csv
  - 로드 성공: 28_2025-01-14.csv
  - 로드 성공: 28_2025-01-15.csv
  - 로드 성공: 28_2025-01-16.csv
  - 로드 성공: 28_2025-01-17.csv
  - 로드 성공: 28_2025-01-18.csv
  - 로드 성공: 28_2025-01-19.csv
  - 로드 성공: 28_2025-01-20.csv
  - 로드 성공: 28_2025-01-21.csv
  - 로드 성공: 28_2025-01-22.csv
  - 로드 성공: 28_2025-01-23.csv
  - 로드 성공: 28_2025-01-24.csv
  - 로드 성공: 28_2025-01-25.csv
  - 로드 성공: 28_2025-01-26.csv
  - 로드 성공: 28_2025-01-27.csv
  - 로드 성공: 28_2025-01-28.csv
  - 로드 성공: 28_2025-01-29.csv
  - 로드 성공: 28_2025-01-30.csv
  - 로드 성공: 28_2025-01-31.csv
  - 로드 성공: 28_2025-02-01.csv
  - 로드 성공: 28_2025-02-02.

  temp_df = pd.read_csv(file_path, encoding='cp949')


  - 로드 성공: 28_2025-02-06.csv
  - 로드 성공: 28_2025-02-07.csv
  - 로드 성공: 28_2025-02-08.csv
  - 로드 성공: 28_2025-02-09.csv
  - 로드 성공: 28_2025-02-10.csv
  - 로드 성공: 28_2025-02-11.csv
  - 로드 성공: 28_2025-02-12.csv
  - 로드 성공: 28_2025-02-13.csv
  - 로드 성공: 28_2025-02-14.csv
  - 로드 성공: 28_2025-02-15.csv
  - 로드 성공: 28_2025-02-16.csv
  - 로드 성공: 28_2025-02-17.csv
  - 로드 성공: 28_2025-02-18.csv
  - 로드 성공: 28_2025-02-19.csv
  - 로드 성공: 28_2025-02-20.csv
  - 로드 성공: 28_2025-02-21.csv
  - 로드 성공: 28_2025-02-22.csv
  - 로드 성공: 28_2025-02-23.csv
  - 로드 성공: 28_2025-02-24.csv
  - 로드 성공: 28_2025-02-25.csv
  - 로드 성공: 28_2025-02-26.csv
  - 로드 성공: 28_2025-02-27.csv
  - 로드 성공: 28_2025-02-28.csv
  - 로드 성공: 28_2025-03-01.csv
  - 로드 성공: 28_2025-03-02.csv
  - 로드 성공: 28_2025-03-03.csv
  - 로드 성공: 28_2025-03-04.csv
  - 로드 성공: 28_2025-03-05.csv
  - 로드 성공: 28_2025-03-06.csv
  - 로드 성공: 28_2025-03-07.csv
  - 로드 성공: 28_2025-03-08.csv
  - 로드 성공: 28_2025-03-09.csv
  - 로드 성공: 28_2025-03-10.csv
  - 로드 성공: 28_2025-03-11.csv
  - 로드 성공: 28_

  combined_df = pd.concat(dfs_to_concat, ignore_index=True)



✅ 총 181개 파일, 6143352개 행의 데이터를 성공적으로 합쳤습니다.

--- [결과] 로드된 데이터 확인 (상위 5개) ---
   ??????  ??????.1  ???? ???  ????? ???  ????? ????? ???  ????? ???.1  \
0    60.0       5.6       5.4       69.0             59.2          0.0   
1    60.0       5.6       5.4       69.0             59.3          0.0   
2    60.0       5.6       5.4       69.0             59.2          0.0   
3    60.0       5.6       5.4       69.0             59.3         75.0   
4    60.0       5.6       5.4       69.0             59.2         75.0   

   ??? ????  ??????? ???  ???? ????  ???? ???? ???  ...  운전시간  정상 운전 확률  \
0       0.0         30.0       30.5           35.0  ...   NaN       NaN   
1       0.0         30.0       30.8           35.0  ...   NaN       NaN   
2       0.0         30.0       30.8           35.0  ...   NaN       NaN   
3       0.0         30.0       30.8           35.0  ...   NaN       NaN   
4       0.0         30.0       30.6           35.0  ...   NaN       NaN   

   송풍기 고장 확률  AIR 댐퍼 고장 확률 

In [7]:
""" 결측치 및 이상치 확인 """

# 데이터 진단 : 결측치 확인(Check for missing values)
print("Missing values per column:\n", rowdata_df.isnull().sum())

# 결측치 핸들링
num_imputer = SimpleImputer(strategy='mean')

numeric_cols = rowdata_df.select_dtypes(include=['float64', 'int64'])

imputed_numeric_data = pd.DataFrame(
    num_imputer.fit_transform(numeric_cols),
    columns=numeric_cols.columns,
    index=numeric_cols.index
)

rowdata_df[numeric_cols.columns] = imputed_numeric_data

print("After handling missing values:\n", rowdata_df.isnull().sum())

index_array = rowdata_df.index.values
print("\nPreserved index:\n", index_array)


Missing values per column:
 ??????             6093381
??????.1           6093381
???? ???           6093381
????? ???          6093381
????? ????? ???    6093381
                    ...   
확률 업데이트 시간           49971
순간 스팀량               49971
입출력법 효율              49972
열 손실법 효율             49971
효율(입출력법-스팀)        6143352
Length: 94, dtype: int64




ValueError: Shape of passed values is (6143352, 80), indices imply (6143352, 82)