In [55]:
import pandas as pd

# 일사량 데이터 로드
solar2024 = pd.read_csv("C:/kepco/sprint2/데이터/일사량.csv")

# 필요한 열만 추출 (날짜, 주소, 일사량, 위도, 경도)
solar_data = solar2024[['날짜', '주소', '일사량', 'latitude', 'longitude']]

# 결측치 처리 (일사량이 없는 데이터는 제거)
solar_data = solar_data.dropna(subset=['일사량'])

# 날짜를 datetime 형식으로 변환
solar_data['날짜'] = pd.to_datetime(solar_data['날짜'])

# 월별 일사량 총합계 계산
solar_data['연도'] = solar_data['날짜'].dt.year
solar_data['월'] = solar_data['날짜'].dt.month
monthly_solar = solar_data.groupby(['연도', '월', '주소']).agg({'일사량': 'sum'}).reset_index()
monthly_solar


Unnamed: 0,연도,월,주소,일사량
0,2024,1,강릉 안반덕이,331.29
1,2024,1,강진군 군동면,351.72
2,2024,1,거제시 거제면,281.30
3,2024,1,거창군 거창읍,179.91
4,2024,1,거창군 동변리,325.33
...,...,...,...,...
1822,2024,9,화성시 마도면,47.50
1823,2024,9,화성시 장안면,92.29
1824,2024,9,화순군 한천면,108.86
1825,2024,9,화천군 화천읍,72.05


In [68]:
# 전력 사용량 데이터 로드
power_usage = pd.read_csv("C:/kepco/sprint2/데이터/전력사용량.csv")

# 필요한 열만 추출 (연도, 월, 도시, 전력 사용량)
power_usage = power_usage[['year', 'month', 'metro', 'city', 'powerUsage']]

# 결측치 처리
power_usage = power_usage.dropna(subset=['powerUsage'])
power_usage

Unnamed: 0,year,month,metro,city,powerUsage
0,2022,1,서울특별시,성동구,247.53
1,2022,1,서울특별시,성북구,233.35
2,2022,1,서울특별시,동작구,213.16
3,2022,1,서울특별시,영등포구,225.24
4,2022,1,서울특별시,관악구,190.35
...,...,...,...,...,...
5565,2023,10,제주특별자치도,서귀포시,205.49
5566,2023,11,제주특별자치도,제주시,189.29
5567,2023,11,제주특별자치도,서귀포시,179.07
5568,2023,12,제주특별자치도,서귀포시,199.02


In [69]:
# 설비 용량 데이터 로드
capacity = pd.read_csv("C:/kepco/sprint2/데이터/설비용량.csv")

# 필요한 열만 추출 (설비용량, 주소, 위도, 경도)
capacity_data = capacity[['capacity', 'address', 'latitude', 'longitude']]

# 결측치 처리
capacity_data = capacity_data.dropna(subset=['capacity'])
capacity_data

Unnamed: 0,capacity,address,latitude,longitude
0,197.64,강원특별자치도 고성군 현내면 산학리 산 57번지 6호,38.487784,128.397384
1,99.00,강원특별자치도 고성군 현내면 산학리 산 57번지 6호,38.487784,128.397384
2,393.60,강원특별자치도 고성군 토성면 용촌리 555번지,38.236106,128.570488
3,83.20,강원특별자치도 고성군 거진읍 자산길 19,38.438013,128.445395
4,97.20,강원특별자치도 고성군 거진읍 봉평리 596-1,38.441105,128.433905
...,...,...,...,...
36121,99.00,"충청북도 보은군 장안면 봉비길 84-32, 축사",36.460978,127.797865
36122,99.96,충청북도 보은군 마로면 송현2길 4-14,36.433270,127.834969
36123,99.96,"충청북도 보은군 마로면 갈평길 217, 축사",36.446429,127.839726
36124,99.96,충청북도 보은군 마로면 수문불목로 83,36.443400,127.814388


In [70]:
# 기상 데이터 로드
weather_data = pd.read_csv("C:/kepco/sprint2/데이터/기상데이터발전량예측.csv")

# 필요한 열만 추출 (일시, 지역, 평균 기온, 강수량, 일사량)
weather_data = weather_data[['일시', '지점', '평균기온(°C)', '일강수량(mm)', '합계 일사량(MJ/m2)']]

# 날짜를 datetime 형식으로 변환
weather_data['일시'] = pd.to_datetime(weather_data['일시'])
weather_data

Unnamed: 0,일시,지점,평균기온(°C),일강수량(mm),합계 일사량(MJ/m2)
0,2024-01-01,90,2.7,0.4,3.34
1,2024-01-02,90,,0.0,3.34
2,2024-01-03,90,3.1,0.0,3.34
3,2024-01-04,90,2.9,0.0,3.34
4,2024-01-05,90,7.7,0.0,3.34
...,...,...,...,...,...
24437,2024-09-04,296,26.1,0.0,24.06
24438,2024-09-05,296,26.4,0.0,23.79
24439,2024-09-06,296,27.2,0.0,9.09
24440,2024-09-07,296,27.9,0.0,15.81


In [60]:
from math import radians, cos, sin, sqrt, atan2

# Haversine 거리 계산 함수
def haversine(lat1, lon1, lat2, lon2):
    R = 6371.0  # 지구의 반지름 (킬로미터 단위)
    dlat = radians(lat2 - lat1)
    dlon = radians(lon2 - lon1)
    a = sin(dlat / 2)**2 + cos(radians(lat1)) * cos(radians(lat2)) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    distance = R * c
    return distance


In [67]:
import requests

# 사용자 주소
address = '전주 한옥마을'

# Google Geocoding API 호출
def get_lat_lon(address):
    API_KEY = 'AIzaSyA4YgP4B-gZQLGg51u6puyDvWXr6oi1eJY'
    base_url = 'https://maps.googleapis.com/maps/api/geocode/json'
    params = {'address': address, 'key': API_KEY}
    response = requests.get(base_url, params=params)
    if response.status_code == 200:
        results = response.json()
        if results['status'] == 'OK':
            location = results['results'][0]['geometry']['location']
            return location['lat'], location['lng']
    return None, None

user_lat, user_lon = get_lat_lon(address)

# 공공시설 중 가장 가까운 5곳 찾기
capacity_data['distance'] = capacity_data.apply(lambda row: haversine(user_lat, user_lon, row['latitude'], row['longitude']), axis=1)
closest_facilities = capacity_data.nsmallest(5, 'distance')
closest_facilities

Unnamed: 0,capacity,address,latitude,longitude,distance
15424,97.94,"전라북도 전주시 완산구 강변로 242, 101동 1709호 (효자동1가, 남양아이좋...",35.811276,127.112866,3.600458
16516,99.0,"전라북도 익산시 선화로10길 17(모현동1가, 익산e편한세상)",35.946449,126.94453,23.558232
16517,99.0,"전라북도 익산시 선화로10길 17 (모현동1가, 익산e편한세상)",35.946449,126.94453,23.558232
21677,177.6,"대야면 접산리 1070-5 건물상부(주5, 주6, 주7, 주8)",35.933848,126.876536,27.990223
21683,177.6,"대야면 접산리 1070-5 건물상부(주1, 주2, 주3, 주4)",35.933848,126.876536,27.990223


In [71]:
# 공공시설의 위도와 경도로 일사량 데이터에서 가까운 위치 찾기
def find_closest_solar_sites(facilities, solar_data):
    results = []
    for index, facility in facilities.iterrows():
        facility_lat = facility['latitude']
        facility_lon = facility['longitude']
        solar_data['distance'] = solar_data.apply(lambda row: haversine(facility_lat, facility_lon, row['latitude'], row['longitude']), axis=1)
        closest_solar = solar_data.nsmallest(1, 'distance')
        results.append(closest_solar)
    return pd.concat(results)

# 가까운 공공시설과 가까운 일사량 측정 위치 찾기
closest_solar_sites = find_closest_solar_sites(closest_facilities, solar_data)
closest_solar_sites

Unnamed: 0,날짜,주소,일사량,latitude,longitude,연도,월,distance
21328,2024-01-01,완주군 반교리.1,9.32,35.851208,127.047132,2024,1,7.404908
21328,2024-01-01,완주군 반교리.1,9.32,35.851208,127.047132,2024,1,14.055831
21328,2024-01-01,완주군 반교리.1,9.32,35.851208,127.047132,2024,1,14.055831
15872,2024-01-01,군산시 개정면,8.7,35.960592,126.786104,2024,1,8.666693
15872,2024-01-01,군산시 개정면,8.7,35.960592,126.786104,2024,1,8.666693


In [72]:
# 패널 청소 필요 여부 판단 함수
def check_cleaning_need(user_solar, public_solar):
    # 공공시설과 사용자 패널의 일사량을 비교하여 청소 필요 여부 판단
    if user_solar < public_solar * 0.8:  # 예를 들어 공공시설 일사량의 80% 이하인 경우
        return "청소가 필요합니다"
    return "청소 필요 없음"

# 사용자 패널 일사량
user_solar = 5.0  # 예시값

# 공공시설 일사량 (가장 가까운 일사량 측정 위치의 값 사용)
public_solar = closest_solar_sites['일사량'].mean()

# 청소 필요 여부 확인
cleaning_need = check_cleaning_need(user_solar, public_solar)

print(user_solar)
print(public_solar)
print(cleaning_need)


5.0
9.072
청소가 필요합니다


In [None]:
##################################################################

In [113]:
import pandas as pd
import numpy as np
from geopy.distance import great_circle
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor
import lightgbm as lgb
import matplotlib.pyplot as plt

# 데이터 로드
solar2024 = pd.read_csv("C:/kepco/sprint2/데이터/일사량.csv")
power_usage = pd.read_csv("C:/kepco/sprint2/데이터/전력사용량.csv")
capacity = pd.read_csv("C:/kepco/sprint2/데이터/설비용량.csv")
yeongam = pd.read_csv("C:/kepco/sprint2/데이터/영암발전소실제발전량.csv", encoding='cp949')
predict_power = pd.read_csv("C:/kepco/sprint2/데이터/운량값넣기.csv", low_memory=False)
sunrise = pd.read_csv("C:/kepco/sprint2/데이터/일출일몰.csv")

# 데이터 전처리

# 1. 일사량 데이터 처리
solar2024['날짜'] = pd.to_datetime(solar2024['날짜'])
solar2024['월'] = solar2024['날짜'].dt.month
solar2024['일사량'] = solar2024['일사량'].astype(float)

# 2. 전력 사용량 데이터 처리
power_usage = power_usage.groupby(['year', 'month'])['powerUsage'].mean().reset_index()
power_usage.columns = ['year', 'month', 'avg_power_usage']

# 3. 공공시설 설비 용량 데이터 처리
capacity['latitude'] = capacity['latitude'].astype(float)
capacity['longitude'] = capacity['longitude'].astype(float)

# 4. 영암 발전소 데이터 처리
yeongam['일자'] = pd.to_datetime(yeongam['일자'])
yeongam['월'] = yeongam['일자'].dt.month

# 사용자 정보
user_capacity = int(input("패널 용량(kw) 입력: "))  # kW
user_install_date = pd.to_datetime(input("패널 설치 날짜 입력: ex) 2024-01-01 "))
user_month = int(input("몇 월을 분석하시겠습니까?: ex) 1 "))  # 8월
user_surplus_energy = int(input("당월 잉여량(kwh) 입력: ")) # kWh
user_address = input("주소 입력: ")

# 사용자 주소 위도 경도로 변환
def get_lat_lon(address):
    API_KEY = 'AIzaSyA4YgP4B-gZQLGg51u6puyDvWXr6oi1eJY'
    base_url = 'https://maps.googleapis.com/maps/api/geocode/json'
    params = {'address': address, 'key': API_KEY}
    response = requests.get(base_url, params=params)
    if response.status_code == 200:
        results = response.json()
        if results['status'] == 'OK':
            location = results['results'][0]['geometry']['location']
            return location['lat'], location['lng']
    return None, None

user_lat, user_lon = get_lat_lon(user_address)

# 거리 계산 함수 (하버사인 공식)
def haversine(lat1, lon1, lat2, lon2):
    coords_1 = (lat1, lon1)
    coords_2 = (lat2, lon2)
    return great_circle(coords_1, coords_2).kilometers

# 공공시설과 사용자 간의 거리 계산
capacity['distance'] = capacity.apply(lambda row: haversine(user_lat, user_lon, row['latitude'], row['longitude']), axis=1)

# 가장 가까운 5곳의 공공시설 선택
nearest_facilities = capacity.nsmallest(5, 'distance')

# 월별 태양광 발전량 예측
def predict_solar_power(capacity, solar_data, user_capacity):
    # 월별 평균 일사량 계산
    monthly_radiation = solar_data.groupby('월')['일사량'].mean().to_dict()
    
    # 'total_solar_power'를 공공시설 데이터프레임에 맞게 계산
    def calculate_power(row):
        return user_capacity * (monthly_radiation.get(user_month, 0) / 1000)
    
    capacity['total_solar_power'] = capacity.apply(calculate_power, axis=1)
    return capacity[['latitude', 'longitude', 'total_solar_power']]

predicted_power = predict_solar_power(nearest_facilities, solar2024[solar2024['월'] == user_month], user_capacity)

# 예측 모델 구축
# 데이터 준비
X = predicted_power[['total_solar_power']]
y = np.array([user_surplus_energy] * len(predicted_power))

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 정의
models = {
    'Random Forest': RandomForestRegressor(),
    'Gradient Boosting': GradientBoostingRegressor(),
    'XGBoost': XGBRegressor(),
    'LightGBM': lgb.LGBMRegressor()
}

# 모델 학습 및 평가
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    results[name] = score

# 최적 모델 선택
best_model = max(results, key=results.get)
print(f"최적 모델: {best_model} (점수: {results[best_model]})")

# 결과 출력
print("가장 가까운 5개의 공공시설과 예상 발전량:")
print(predicted_power)

# 유지보수 필요성 판별 (예: 잉여량 차이가 20kWh 이상이면 '청소 필요')
def check_maintenance(user_surplus, facility_surplus, threshold=20):
    if abs(user_surplus - facility_surplus) > threshold:
        return "청소가 필요합니다."
    else:
        return "청소가 필요하지 않습니다."

# 결과 비교
for _, row in predicted_power.iterrows():
    facility_surplus = row['total_solar_power']
    print(f"유지보수 상태: {check_maintenance(user_surplus_energy, facility_surplus)}")


패널 용량(kw) 입력:  3
패널 설치 날짜 입력: ex) 2024-01-01  2024-01-01
몇 월을 분석하시겠습니까?: ex) 1  8
당월 잉여량(kwh) 입력:  120
주소 입력:  전주 한옥마을


[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 4, number of used features: 0
[LightGBM] [Info] Start training from score 120.000000
최적 모델: Random Forest (점수: nan)
가장 가까운 5개의 공공시설과 예상 발전량:
        latitude   longitude  total_solar_power
15424  35.811276  127.112866           0.056426
16516  35.946449  126.944530           0.056426
16517  35.946449  126.944530           0.056426
21677  35.933848  126.876536           0.056426
21683  35.933848  126.876536           0.056426
유지보수 상태: 청소가 필요합니다.
유지보수 상태: 청소가 필요합니다.
유지보수 상태: 청소가 필요합니다.
유지보수 상태: 청소가 필요합니다.
유지보수 상태: 청소가 필요합니다.


