In [None]:
import os
import re
import json
import time
import math
import requests
import pandas as pd
from glob import glob
from bs4 import BeautifulSoup
from rapidfuzz import process, fuzz

# ----------------------------------------------------
# 🔹 0. 경로 설정
# ----------------------------------------------------
BASE_DIR = "C:/ESG_Project1/file/solar_data_file/"
CACHE_JSON = "C:/ESG_Project1/data_processing/json/namdong_mapping.json"
GEO_JSON = "C:/ESG_Project1/data_processing/json/namdong_geo.json"
REGION_FIX_JSON = "C:/ESG_Project1/data_processing/json/region_fix.json"
WEATHER_META = "C:/ESG_Project1/file/KMA_data_file/META_관측지점정보.csv"
YEARS = ["2025"]

OUT_MERGED = os.path.join(BASE_DIR, "남동발전량_지역매핑_시간행.csv")

# ----------------------------------------------------
# 🔹 1. 남동발전 발전소 지역 매핑 크롤러
# ----------------------------------------------------
def crawl_mapping():
    URL = "https://www.koenergy.kr/kosep/hw/fr/ov/ovhw25/main.do?menuCd=FN060202"
    print(f"🌐 크롤링 시작: {URL}")

    headers = {"User-Agent": "Mozilla/5.0"}
    res = requests.get(URL, headers=headers, timeout=10)
    res.raise_for_status()
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text, "html.parser")

    tables = soup.find_all("table", class_="table_list2")
    if len(tables) < 2:
        raise RuntimeError("❌ class='table_list2' 테이블이 2개 이상 존재하지 않습니다.")
    table = tables[1]

    mapping = {}
    for tr in table.find_all("tr"):
        tds = [td.get_text(strip=True) for td in tr.find_all("td")]
        if len(tds) < 2:
            continue
        사업명, 지역 = tds[0], tds[1]
        if "태양광" not in 사업명:
            continue
        발전구분 = 사업명.replace("발전소", "").replace(" ", "").strip()
        mapping[발전구분] = 지역

    os.makedirs(os.path.dirname(CACHE_JSON), exist_ok=True)
    with open(CACHE_JSON, "w", encoding="utf-8") as f:
        json.dump(mapping, f, ensure_ascii=False, indent=2)

    print(f"✅ {len(mapping)}개 항목 크롤링 완료 → {CACHE_JSON}")
    return mapping

# ----------------------------------------------------
# 🔹 2. CSV 유틸
# ----------------------------------------------------
def sniff_delimiter(path):
    with open(path, "rb") as f:
        raw = f.read(2048)
    text = raw.decode("utf-8", errors="ignore")
    return "," if text.count(",") >= text.count("\t") else "\t"

def read_csv_safe(path):
    delim = sniff_delimiter(path)
    try:
        return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
    except UnicodeDecodeError:
        return pd.read_csv(path, encoding="cp949", delimiter=delim, index_col=False)

def collect_files():
    files = []
    for y in YEARS:
        folder = os.path.join(BASE_DIR, y)
        files += glob(os.path.join(folder, "*.csv")) + glob(os.path.join(folder, "*.CSV"))
    return files

def normalize_columns(df):
    df.columns = df.columns.str.strip()
    if "발전구분" not in df.columns:
        expected = ["발전구분","호기","일자"] + [f"{i}시 발전량(MWh)" for i in range(1,25)] + \
                   ["총량(KW)","평균(KW)","최대(시간별)","최소(시간별)","최대","최소"]
        df = df.iloc[:, :len(expected)]
        df.columns = expected
    df["발전구분"] = df["발전구분"].astype(str).str.strip()
    df["일자"] = pd.to_datetime(df["일자"], errors="coerce")
    return df

def get_hour_cols(df):
    pat = re.compile(r"^\s*(\d{1,2})시")
    return [c for c in df.columns if pat.search(c)]

# ----------------------------------------------------
# 🔹 3. CSV 통합 및 호기 합산
# ----------------------------------------------------
files = collect_files()
if not files:
    raise FileNotFoundError("⚠️ CSV 파일이 없습니다. 폴더 구조를 확인하세요.")

frames = []
for f in files:
    try:
        tmp = read_csv_safe(f)
        tmp = normalize_columns(tmp)
        tmp["파일출처"] = os.path.basename(f)
        frames.append(tmp)
        print(f"불러옴: {os.path.basename(f)} ({len(tmp)}행)")
    except Exception as e:
        print(f"⚠️ {os.path.basename(f)} 읽기 실패: {e}")

df = pd.concat(frames, ignore_index=True)
before = len(df)
df = df.drop_duplicates()
print(f"🧹 완전 동일행 중복 제거: {before} → {len(df)}")

hour_cols = get_hour_cols(df)
long_df = df.melt(
    id_vars=["발전구분", "호기", "일자"],
    value_vars=hour_cols,
    var_name="시간대",
    value_name="발전량(MWh)"
)
long_df["시간"] = long_df["시간대"].str.extract(r"(\d{1,2})").astype(int)
long_df["일시"] = pd.to_datetime(long_df["일자"], errors="coerce") + pd.to_timedelta(long_df["시간"] - 1, "h")

hoqi_sum = (
    long_df.groupby(["발전구분", "일자", "시간"], as_index=False)["발전량(MWh)"]
           .sum(numeric_only=True)
           .rename(columns={"발전량(MWh)": "합산발전량(MWh)"})
)
hoqi_sum["일시"] = pd.to_datetime(hoqi_sum["일자"], errors="coerce") + pd.to_timedelta(hoqi_sum["시간"] - 1, "h")
hoqi_sum = hoqi_sum[["일시", "발전구분", "합산발전량(MWh)"]]
hoqi_sum = hoqi_sum.sort_values(["발전구분", "일시"]).reset_index(drop=True)

# ----------------------------------------------------
# 🔹 4. 발전소명 → 지역 매핑 + 보정테이블 적용
# ----------------------------------------------------
if os.path.exists(CACHE_JSON):
    print(f"📦 캐시 파일 발견 → {CACHE_JSON}")
    with open(CACHE_JSON, "r", encoding="utf-8") as f:
        mapping = json.load(f)
else:
    print("🔍 캐시 파일 없음 → 새로 크롤링 시작")
    mapping = crawl_mapping()

# 🔹 4-1. 지역 보정 테이블 자동 생성
default_region_fix = {
    "영흥": "인천광역시 옹진군 영흥면",
    "삼천포": "경상남도 고성군",
    "고성": "경상남도 고성군",
    "예천": "경상북도 예천군",
    "여수": "전라남도 여수시",
    "영동": "강원특별자치도 강릉시",
    "구미": "경상북도 구미시",
    "장성": "전라남도 장성군",
    "진주": "경상남도 진주시",
    "광양": "전라남도 광양시",
    "창원": "경상남도 창원시 마산합포구 해운동",
    "고흥": "전라남도 고흥군",
    "군산": "전라북도 군산시",
    "밀양": "경상남도 밀양시",
    "서산": "충청남도 서산시",
    "영암": "전라남도 영암군",
    "신안": "전라남도 신안군",
    "강릉": "강원특별자치도 강릉시",
    "전국": "대한민국",
    "진주 외": "경상남도 진주시 외"
}

if not os.path.exists(REGION_FIX_JSON):
    os.makedirs(os.path.dirname(REGION_FIX_JSON), exist_ok=True)
    with open(REGION_FIX_JSON, "w", encoding="utf-8") as f:
        json.dump(default_region_fix, f, ensure_ascii=False, indent=2)
    print(f"🆕 지역 보정 테이블 생성 완료 → {REGION_FIX_JSON}")
else:
    print(f"📦 기존 지역 보정 테이블 사용 → {REGION_FIX_JSON}")

with open(REGION_FIX_JSON, "r", encoding="utf-8") as f:
    region_fix = json.load(f)

def normalize_name(name):
    name = re.sub(r"\s+", "", str(name))
    name = name.replace("발전소", "").replace("태양광", "").replace("-", "").replace("_", "")
    return name.strip()

normalized_mapping = {normalize_name(k): v for k, v in mapping.items()}
hoqi_sum["발전구분_정규화"] = hoqi_sum["발전구분"].apply(normalize_name)

keys = list(normalized_mapping.keys())
match_cache = {}

def fast_match(name):
    if name in match_cache:
        return match_cache[name]
    for key in keys:
        if key in name or name in key:
            result = normalized_mapping[key]
            if result in region_fix:
                result = region_fix[result]
            match_cache[name] = result
            return result
    match = process.extractOne(name, keys, scorer=fuzz.partial_ratio)
    if match and match[1] >= 75:
        result = normalized_mapping[match[0]]
        if result in region_fix:
            result = region_fix[result]
        match_cache[name] = result
        return result
    match_cache[name] = None
    return None

mapping_result = {n: fast_match(n) for n in hoqi_sum["발전구분_정규화"].unique()}
hoqi_sum["지역"] = hoqi_sum["발전구분_정규화"].map(mapping_result)

# ----------------------------------------------------
# 🔹 5. 카카오 API + 최근접 기상관측소 매핑
# ----------------------------------------------------
KAKAO_API_KEY = "93c089f75a2730af2f15c01838e892d3"
KAKAO_URL = "https://dapi.kakao.com/v2/local/search/address.json"

def get_latlng(address):
    headers = {"Authorization": f"KakaoAK {KAKAO_API_KEY}"}
    params = {"query": address}
    try:
        res = requests.get(KAKAO_URL, headers=headers, params=params, timeout=5)
        res.raise_for_status()
        result = res.json()
        if result.get("documents"):
            doc = result["documents"][0]
            return float(doc["y"]), float(doc["x"])
        else:
            return None, None
    except Exception as e:
        print(f"⚠️ 주소 '{address}' 조회 실패: {e}")
        return None, None

# 🔹 기상청 관측지점 메타 불러오기
weather_df = read_csv_safe(WEATHER_META)
weather_df = weather_df.rename(columns=str.strip)
weather_df = weather_df[["지점", "지점명", "위도", "경도"]].dropna(subset=["위도", "경도"])

def haversine(lat1, lon1, lat2, lon2):
    R = 6371
    dlat = math.radians(lat2 - lat1)
    dlon = math.radians(lon2 - lon1)
    a = math.sin(dlat/2)**2 + math.cos(math.radians(lat1)) \
        * math.cos(math.radians(lat2)) * math.sin(dlon/2)**2
    return 2 * R * math.asin(math.sqrt(a))

def find_nearest_station(lat, lon, meta_df):
    meta_df["거리(km)"] = meta_df.apply(
        lambda r: haversine(lat, lon, r["위도"], r["경도"]), axis=1
    )
    nearest = meta_df.loc[meta_df["거리(km)"].idxmin()]
    return {
        "지점명": nearest["지점명"],
        "지점번호": int(nearest["지점"]),
        "지점위도": nearest["위도"],
        "지점경도": nearest["경도"],
        "거리(km)": round(nearest["거리(km)"], 2)
    }

if not os.path.exists(GEO_JSON):
    print("\n🌍 카카오 API로 지역 좌표 조회 및 최근접 기상관측소 매핑 시작...")
    geo_cache = {}

    for region in sorted(set(v for v in hoqi_sum["지역"] if v)):
        lat, lng = get_latlng(region)
        if lat is None or lng is None:
            geo_cache[region] = {"위도": None, "경도": None, "최근접관측소": None}
            continue

        nearest_station = find_nearest_station(lat, lng, weather_df)
        geo_cache[region] = {
            "위도": lat,
            "경도": lng,
            "최근접관측소": nearest_station
        }

        print(f" - {region}: ({lat}, {lng}) → 최근접지점 {nearest_station['지점명']} ({nearest_station['거리(km)']} km)")
        time.sleep(0.2)

    os.makedirs(os.path.dirname(GEO_JSON), exist_ok=True)
    with open(GEO_JSON, "w", encoding="utf-8") as f:
        json.dump(geo_cache, f, ensure_ascii=False, indent=2)
    print(f"✅ 지역 좌표+최근접 관측소 캐시 저장 완료 → {GEO_JSON}")
else:
    print(f"📦 좌표 캐시 파일 사용 → {GEO_JSON}")

# ----------------------------------------------------
# 🔹 6. 최종 CSV 저장 (지점번호 포함)
# ----------------------------------------------------
with open(GEO_JSON, "r", encoding="utf-8") as f:
    geo_cache = json.load(f)

def get_station_num(region):
    try:
        info = geo_cache.get(region)
        if info and info.get("최근접관측소"):
            return info["최근접관측소"].get("지점번호")
    except Exception:
        return None
    return None

hoqi_sum["지점번호"] = hoqi_sum["지역"].apply(get_station_num)
hoqi_sum = hoqi_sum[["일시", "발전구분", "지역", "지점번호", "합산발전량(MWh)"]]
hoqi_sum.to_csv(OUT_MERGED, index=False, encoding="utf-8-sig")

print(f"\n✅ 최종 완료: {OUT_MERGED}")
print(hoqi_sum.head(10))

  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2022_01.csv (682행)
불러옴: 남동발전량_2022_02.csv (616행)
불러옴: 남동발전량_2022_03.csv (682행)
불러옴: 남동발전량_2022_04.csv (660행)
불러옴: 남동발전량_2022_05.csv (682행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2022_06.csv (660행)
불러옴: 남동발전량_2022_07.csv (682행)
불러옴: 남동발전량_2022_08.csv (682행)
불러옴: 남동발전량_2022_09.csv (660행)
불러옴: 남동발전량_2022_10.csv (682행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2022_11.csv (660행)
불러옴: 남동발전량_2022_12.csv (682행)
불러옴: 남동발전량_2022_01.csv (682행)
불러옴: 남동발전량_2022_02.csv (616행)
불러옴: 남동발전량_2022_03.csv (682행)
불러옴: 남동발전량_2022_04.csv (660행)
불러옴: 남동발전량_2022_05.csv (682행)
불러옴: 남동발전량_2022_06.csv (660행)
불러옴: 남동발전량_2022_07.csv (682행)
불러옴: 남동발전량_2022_08.csv (682행)
불러옴: 남동발전량_2022_09.csv (660행)
불러옴: 남동발전량_2022_10.csv (682행)
불러옴: 남동발전량_2022_11.csv (660행)
불러옴: 남동발전량_2022_12.csv (682행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2023_01.csv (682행)
불러옴: 남동발전량_2023_02.csv (616행)
불러옴: 남동발전량_2023_03.csv (682행)
불러옴: 남동발전량_2023_04.csv (660행)
불러옴: 남동발전량_2023_05.csv (682행)
불러옴: 남동발전량_2023_06.csv (660행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2023_07.csv (682행)
불러옴: 남동발전량_2023_08.csv (682행)
불러옴: 남동발전량_2023_09.csv (690행)
불러옴: 남동발전량_2023_10.csv (713행)
불러옴: 남동발전량_2023_11.csv (690행)
불러옴: 남동발전량_2023_12.csv (713행)
불러옴: 남동발전량_2023_01.csv (682행)
불러옴: 남동발전량_2023_02.csv (616행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimit

불러옴: 남동발전량_2023_03.csv (682행)
불러옴: 남동발전량_2023_04.csv (660행)
불러옴: 남동발전량_2023_05.csv (682행)
불러옴: 남동발전량_2023_06.csv (660행)
불러옴: 남동발전량_2023_07.csv (682행)
불러옴: 남동발전량_2023_08.csv (682행)
불러옴: 남동발전량_2023_09.csv (690행)
불러옴: 남동발전량_2023_10.csv (713행)
불러옴: 남동발전량_2023_11.csv (690행)
불러옴: 남동발전량_2023_12.csv (713행)
불러옴: 남동발전량_2024_01.csv (713행)
불러옴: 남동발전량_2024_02.csv (667행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2024_03.csv (713행)
불러옴: 남동발전량_2024_04.csv (690행)
불러옴: 남동발전량_2024_05.csv (705행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)


불러옴: 남동발전량_2024_06.csv (660행)
불러옴: 남동발전량_2024_07.csv (682행)
불러옴: 남동발전량_2024_08.csv (682행)
불러옴: 남동발전량_2024_09.csv (659행)
불러옴: 남동발전량_2024_10.csv (694행)


  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimiter=delim, index_col=False)
  return pd.read_csv(path, encoding="utf-8", delimit

불러옴: 남동발전량_2024_11.csv (690행)
불러옴: 남동발전량_2024_12.csv (713행)
불러옴: 남동발전량_2024_01.csv (713행)
불러옴: 남동발전량_2024_02.csv (667행)
불러옴: 남동발전량_2024_03.csv (713행)
불러옴: 남동발전량_2024_04.csv (690행)
불러옴: 남동발전량_2024_05.csv (705행)
불러옴: 남동발전량_2024_06.csv (660행)
불러옴: 남동발전량_2024_07.csv (682행)
불러옴: 남동발전량_2024_08.csv (682행)
불러옴: 남동발전량_2024_09.csv (659행)
불러옴: 남동발전량_2024_10.csv (694행)
불러옴: 남동발전량_2024_11.csv (690행)
불러옴: 남동발전량_2024_12.csv (713행)
🧹 완전 동일행 중복 제거: 48900 → 24450
🔍 캐시 파일 없음 → 새로 크롤링 시작
🌐 크롤링 시작: https://www.koenergy.kr/kosep/hw/fr/ov/ovhw25/main.do?menuCd=FN060202
✅ 35개 항목 크롤링 완료 → C:/ESG_Project1/merge/cache/namdong_mapping.json
🆕 지역 보정 테이블 생성 완료 → C:/ESG_Project1/merge/cache/region_fix.json

🌍 카카오 API로 지역 좌표 조회 및 최근접 기상관측소 매핑 시작...
 - 강원특별자치도 강릉시: (37.7521116823526, 128.875906235799) → 최근접지점 강릉 (1.33 km)
 - 경상남도 고성군: (34.9730618412549, 128.32236130677) → 최근접지점 통영 (17.55 km)
 - 경상남도 진주시: (35.1802228341536, 128.107706335688) → 최근접지점 진주 (3.3 km)
 - 경상남도 창원시 마산합포구 해운동: (35.1799611525258, 128.563558712827)

In [None]:
import os
import pandas as pd
from glob import glob

# ----------------------------------------------------
# 🔹 경로 설정
# ----------------------------------------------------
BASE_DIR = "C:/ESG_Project1/file/"
SOLAR_CSV = os.path.join(BASE_DIR, "solar_data_file/남동발전량_지역매핑_시간행.csv")
WEATHER_DIR = os.path.join(BASE_DIR, "KMA/")
OUT_CSV = os.path.join(BASE_DIR, "solar_data_file/남동발전량_지역매핑_시간행_기상병합.csv")

# ----------------------------------------------------
# 🔹 CSV 읽기 유틸
# ----------------------------------------------------
def sniff_delimiter(path):
    with open(path, "rb") as f:
        raw = f.read(2048)
    text = raw.decode("utf-8", errors="ignore")
    return "," if text.count(",") >= text.count("\t") else "\t"

def read_csv_safe(path):
    delim = sniff_delimiter(path)
    try:
        return pd.read_csv(path, encoding="utf-8", delimiter=delim)
    except UnicodeDecodeError:
        return pd.read_csv(path, encoding="cp949", delimiter=delim)

# ----------------------------------------------------
# 🔹 1. 발전량 데이터 불러오기
# ----------------------------------------------------
print(f"🔹 발전량 데이터 불러오기: {SOLAR_CSV}")
solar = read_csv_safe(SOLAR_CSV)
solar["일시"] = pd.to_datetime(solar["일시"], errors="coerce")

# ----------------------------------------------------
# 🔹 2. 기상 데이터 통합
# ----------------------------------------------------
weather_files = sorted(glob(os.path.join(WEATHER_DIR, "OBS_ASOS_TIM_20*.csv")))
if not weather_files:
    raise FileNotFoundError("⚠️ 기상 데이터 파일이 없습니다. 경로를 확인하세요.")

frames = []
for wf in weather_files:
    try:
        tmp = read_csv_safe(wf)
        tmp["일시"] = pd.to_datetime(tmp["일시"], errors="coerce")
        tmp = tmp[["지점", "일시", "기온(°C)", "강수량(mm)", "일조(hr)", "일사(MJ/m2)"]]
        frames.append(tmp)
        print(f" - 불러옴: {os.path.basename(wf)} ({len(tmp)}행)")
    except Exception as e:
        print(f"⚠️ {os.path.basename(wf)} 읽기 실패: {e}")

weather = pd.concat(frames, ignore_index=True)
print(f"✅ 기상데이터 통합 완료: {len(weather):,}행")

# ----------------------------------------------------
# 🔹 3. 병합 (지점번호↔지점, 일시 기준)
# ----------------------------------------------------
merged = pd.merge(
    solar,
    weather,
    left_on=["지점번호", "일시"],
    right_on=["지점", "일시"],
    how="left"
)

# 중복 컬럼 제거
merged = merged.drop(columns=["지점"], errors="ignore")

# ----------------------------------------------------
# 🔹 4. NaN → 0 처리
# ----------------------------------------------------
weather_cols = ["기온(°C)", "강수량(mm)", "일조(hr)", "일사(MJ/m2)"]
merged[weather_cols] = merged[weather_cols].fillna(0)

# ----------------------------------------------------
# 🔹 5. 최종 CSV 저장
# ----------------------------------------------------
merged.to_csv(OUT_CSV, index=False, encoding="utf-8-sig")

print(f"\n✅ 최종 병합 및 NaN→0 처리 완료 → {OUT_CSV}")
print(merged.head(10))

🔹 발전량 데이터 불러오기: C:/ESG_Project1/file/solar_data_file/남동발전량_지역매핑_시간행.csv
 - 불러옴: OBS_ASOS_TIM_2022.csv (831719행)
 - 불러옴: OBS_ASOS_TIM_2023.csv (845510행)
 - 불러옴: OBS_ASOS_TIM_2024.csv (851256행)
 - 불러옴: OBS_ASOS_TIM_2025.csv (634874행)
✅ 기상데이터 통합 완료: 3,163,359행

✅ 최종 병합 및 NaN→0 처리 완료 → C:/ESG_Project1/file/solar_data_file/남동발전량_지역매핑_시간행_기상병합.csv
                   일시    발전구분        지역  지점번호  합산발전량(MWh)  기온(°C)  강수량(mm)  \
0 2022-01-01 00:00:00  경상대태양광  경상남도 진주시   192        0.00    -3.8      0.0   
1 2022-01-01 01:00:00  경상대태양광  경상남도 진주시   192        0.00    -4.2      0.0   
2 2022-01-01 02:00:00  경상대태양광  경상남도 진주시   192        0.00    -4.8      0.0   
3 2022-01-01 03:00:00  경상대태양광  경상남도 진주시   192        0.00    -5.4      0.0   
4 2022-01-01 04:00:00  경상대태양광  경상남도 진주시   192        0.00    -6.0      0.0   
5 2022-01-01 05:00:00  경상대태양광  경상남도 진주시   192        0.00    -6.3      0.0   
6 2022-01-01 06:00:00  경상대태양광  경상남도 진주시   192        0.00    -7.6      0.0   
7 2022-01-01 07:00:00  경상대태양광  경