### 가상 데이터 만들기

In [1]:
!pip install pandas numpy




[notice] A new release of pip available: 22.3.1 -> 24.2
[notice] To update, run: C:\Users\taeyoung\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip


In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 데이터 생성
rows = 100000  # 총 행 수
num_files = 5  # 파일 수
rows_per_file = rows // num_files

# 가상 데이터 생성 함수
def generate_data(num_rows):
    base_time = datetime(2023, 1, 1)
    data = {
        '설비ID': np.random.randint(1000, 2000, num_rows),
        '설비이름': np.random.choice(['발전기1', '발전기2', '터빈1', '터빈2'], num_rows),
        '운전시작시간': [base_time + timedelta(minutes=np.random.randint(0, 100000)) for _ in range(num_rows)],
        '운전종료시간': [base_time + timedelta(minutes=np.random.randint(100000, 200000)) for _ in range(num_rows)],
        '운전시간(분)': np.random.randint(30, 300, num_rows),
        '상태': np.random.choice(['운전', '정지'], num_rows)
    }
    return pd.DataFrame(data)

# 데이터 프레임 생성 및 여러 파일로 분할 저장
for i in range(num_files):
    df = generate_data(rows_per_file)
    file_name = f"/mnt/data/전력_운전정지_이력_{i+1}.csv"
    df.to_csv(file_name, index=False)

"/mnt/data/에 5개의 CSV 파일을 저장했습니다."

## 설비 시설 지역별 가상의 데이터 만들기

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 30개의 임의적인 설비 이름
facility_names = [f"설비_{i}" for i in range(1, 31)]

# 대한민국 주요 지역의 위도와 경도 (서울, 부산, 대구 등)
locations = [
    {"지역": "서울", "위도": 37.5665, "경도": 126.9780},
    {"지역": "부산", "위도": 35.1796, "경도": 129.0756},
    {"지역": "대구", "위도": 35.8722, "경도": 128.6025},
    {"지역": "인천", "위도": 37.4563, "경도": 126.7052},
    {"지역": "광주", "위도": 35.1595, "경도": 126.8526},
    {"지역": "대전", "위도": 36.3504, "경도": 127.3845},
    {"지역": "울산", "위도": 35.5384, "경도": 129.3114},
    {"지역": "세종", "위도": 36.4802, "경도": 127.2891},
    {"지역": "경기도", "위도": 37.4138, "경도": 127.5183},
    {"지역": "강원도", "위도": 37.5558, "경도": 128.2093},
    {"지역": "충청북도", "위도": 36.6357, "경도": 127.4913},
    {"지역": "충청남도", "위도": 36.5184, "경도": 126.8000},
    {"지역": "전라북도", "위도": 35.7175, "경도": 127.1530},
    {"지역": "전라남도", "위도": 34.8679, "경도": 126.9910},
    {"지역": "경상북도", "위도": 36.4919, "경도": 128.8889},
    {"지역": "경상남도", "위도": 35.4606, "경도": 128.2132},
    {"지역": "제주도", "위도": 33.4996, "경도": 126.5312}
]

# 날짜 범위 생성: 2021년부터 2024년까지
date_range = pd.date_range(start='2021-01-01', end='2024-12-31', freq='H')
rows = len(date_range)
total_rows = 100000  # 각 파일에 대한 행 수

# 랜덤 전력 소비 데이터 생성 및 0값을 30개 랜덤 배치
def generate_power_data(num_rows):
    np.random.seed(42)
    power_data = np.random.randint(50, 500, size=num_rows)
    missing_indices = np.random.choice(range(num_rows), size=30, replace=False)
    power_data[missing_indices] = 0
    return power_data

# 데이터 프레임 생성 함수
def generate_data(num_rows):
    selected_facilities = np.random.choice(facility_names, num_rows)
    selected_locations = np.random.choice(locations, num_rows)
    power_data = generate_power_data(num_rows)
    start_times = pd.date_range(start='2021-01-01', periods=num_rows, freq='H')
    end_times = start_times + pd.to_timedelta(np.random.randint(30, 300, size=num_rows), unit='m')

    df = pd.DataFrame({
        '날짜': start_times,
        '설비이름': selected_facilities,
        '지역': [loc['지역'] for loc in selected_locations],
        '위도': [loc['위도'] for loc in selected_locations],
        '경도': [loc['경도'] for loc in selected_locations],
        '전력소비량': power_data,
        '운전시작시간': start_times,
        '운전종료시간': end_times
    })
    
    return df

# 5개의 CSV 파일 생성
for i in range(5):
    df = generate_data(total_rows)
    file_name = f"전력_운전정지_이력_누락데이터_{i+1}.csv"
    df.to_csv(file_name, index=False, encoding='utf-8-sig')

print("CSV 파일들이 성공적으로 생성되었습니다.")

  date_range = pd.date_range(start='2021-01-01', end='2024-12-31', freq='H')
  start_times = pd.date_range(start='2021-01-01', periods=num_rows, freq='H')


CSV 파일들이 성공적으로 생성되었습니다.


In [3]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 30개의 랜덤 설비 번호
facility_names = [f"설비_{i}" for i in range(1, 31)]

# 대한민국 주요 지역의 위도와 경도 (서울, 부산, 대구 등)
locations = [
    {"지역": "서울", "위도": 37.5665, "경도": 126.9780},
    {"지역": "부산", "위도": 35.1796, "경도": 129.0756},
    {"지역": "대구", "위도": 35.8722, "경도": 128.6025},
    {"지역": "인천", "위도": 37.4563, "경도": 126.7052},
    {"지역": "광주", "위도": 35.1595, "경도": 126.8526},
    {"지역": "대전", "위도": 36.3504, "경도": 127.3845},
    {"지역": "울산", "위도": 35.5384, "경도": 129.3114},
    {"지역": "세종", "위도": 36.4802, "경도": 127.2891},
    {"지역": "경기도", "위도": 37.4138, "경도": 127.5183},
    {"지역": "강원도", "위도": 37.5558, "경도": 128.2093},
    {"지역": "충청북도", "위도": 36.6357, "경도": 127.4913},
    {"지역": "충청남도", "위도": 36.5184, "경도": 126.8000},
    {"지역": "전라북도", "위도": 35.7175, "경도": 127.1530},
    {"지역": "전라남도", "위도": 34.8679, "경도": 126.9910},
    {"지역": "경상북도", "위도": 36.4919, "경도": 128.8889},
    {"지역": "경상남도", "위도": 35.4606, "경도": 128.2132},
    {"지역": "제주도", "위도": 33.4996, "경도": 126.5312}
]
# 날짜 범위 생성: 2021년부터 2024년까지
date_range = pd.date_range(start='2021-01-01', end='2024-12-31', freq='H')
total_rows = 100000  # 각 파일에 대한 행 수

# 누락값_0으로 가정하고 약 30개 랜덤으로 배치(전력소비량에만 넣을거임)
def generate_power_data(num_rows):
    np.random.seed(42)
    power_data = np.random.randint(50, 500, size=num_rows)
    missing_indices = np.random.choice(range(num_rows), size=30, replace=False)
    power_data[missing_indices] = 0
    return power_data

# 데이터 프레임 생성 함수(10만개 생성할거임)
def generate_data_for_location(location, num_rows):
    selected_facilities = np.random.choice(facility_names, num_rows)
    power_data = generate_power_data(num_rows)
    start_times = pd.date_range(start='2021-01-01', periods=num_rows, freq='H')
    end_times = start_times + pd.to_timedelta(np.random.randint(30, 300, size=num_rows), unit='m')

    df = pd.DataFrame({
        '날짜': start_times,
        '설비이름': selected_facilities,
        '지역': location['지역'],
        '위도': location['위도'],
        '경도': location['경도'],
        '전력소비량': power_data,
        '운전시작시간': start_times,
        '운전종료시간': end_times
    })
    
    return df

# 각 지역별로 CSV 파일 생성
for location in locations:
    df = generate_data_for_location(location, total_rows)
    file_name = f"전력_운전정지_이력_{location['지역']}.csv"
    df.to_csv(file_name, index=False, encoding='utf-8-sig') #

print("두근두근 생성완료")

  date_range = pd.date_range(start='2021-01-01', end='2024-12-31', freq='H')
  start_times = pd.date_range(start='2021-01-01', periods=num_rows, freq='H')


지역별 CSV 파일들이 성공적으로 생성되었습니다.
