In [15]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# 1. 파일 경로
climate_path = "data/기상청_연도별기온.csv"
health_path = "data/홍역.csv"

# 2. 컬럼 매핑 (자동 변환)
column_mapping = {
    "년월": "연도", 
    "날짜": "연도",
    "년": "연도", 
    "기온": "평균기온",
    "시도": "지역",
}

# 3. 관측지점 번호 -> 지역 매핑
station_to_region = {
    108: '서울', 159: '부산', 143: '대구', 112: '인천', 156: '광주',
    133: '대전', 152: '울산', 119: '경기', 105: '강원', 131: '충북',
    133: '충남', 146: '전북', 165: '전남', 136: '경북', 155: '경남',
    184: '제주', 133: '세종'  # 대전(133)과 세종 공유
}

# 4.기후 데이터 전처리 함수(기상청 데이터)
def preprocess_climate_data(filepath):
    df = pd.read_csv(filepath, skiprows=6)
    df.rename(columns=column_mapping, inplace=True)
    
    # 연도 컬럼 변환
    df["연도"] = pd.to_datetime(df["연도"], errors='coerce').dt.year
    
    # 컬럼명 표준화
    df.columns = ['연도', '지역', '평균기온(℃)', '평균최저기온(℃)', '평균최고기온(℃)']
    
    # 관측지점 번호 -> 지역명 변환
    df = df[df['지역'].isin(station_to_region.keys())]
    df['지역'] = df['지역'].map(station_to_region)
    
    return df

# 4. 감염병 데이터 전처리 함수(질병관리청 데이터)
def preprocess_health_data(filepath):
    df = pd.read_csv(filepath)
    
    # 파일명에서 질병명 추출
    disease_name = os.path.basename(filepath).split('.')[0]  # 확장자 제외

    # 컬럼명 표준화
    df.columns = ['지역', '2018', '2019', '2020', '2021', '2022', '2023', '2024']
    
    # Wide -> Long 형태 변환 (melt)
    df = pd.melt(
        df,
        id_vars=['지역'],  
        var_name='연도',   
        value_name=disease_name  # 파일명을 컬럼명으로 설정
    )
    
    # 연도 컬럼을 숫자로 변환
    df["연도"] = pd.to_numeric(df["연도"], errors='coerce')
    
    return df


df_health = preprocess_health_data(health_path)

df_health.to_csv(health_path, index=False, encoding='utf-8-sig')

print("✅ 데이터 전처리 및 저장 완료!")


✅ 데이터 전처리 및 저장 완료!


In [19]:
import pandas as pd

health_path = "data/홍역.csv"

# CSV 파일 읽기
df = pd.read_csv(health_path)

# 컬럼명 변경 (오타 수정)
df.columns = ['지역', '연도', '홍역']

# CSV 파일 저장 (utf-8-sig 인코딩 사용)
df.to_csv(health_path, index=False, encoding='utf-8-sig')
