In [26]:
import numpy as np
import pandas as pd

df = pd.read_csv('data/education/사설학원수.csv')
# df.head(), df.shape, df['지역별'].unique()

In [27]:
from scipy import interpolate

# 각 지역별로 처리
for region in df['지역별'].unique():
    region_data = df[df['지역별'] == region]
    
    # 시점과 사설학원 수를 가져오기
    x = region_data['시점'].values  # 연도
    y = region_data['사설학원수'].values  # 사설학원 수
    
    # 선형 보간 함수 생성
    f = interpolate.interp1d(x, y, kind='linear', fill_value="extrapolate")
    
    # 연도와 월별 데이터 생성
    for year in range(2003, 2024):
        x_monthly = np.linspace(year, year + 1, 13)[1:]  # 연도 범위에서 월별로
        y_monthly = f(x_monthly)
        
        # 월별 데이터를 데이터프레임에 추가
        for i, month in enumerate(range(1, 13)):  # 1월부터 12월까지
            df_monthly = pd.concat([df_monthly, pd.DataFrame({
                '시점': [f'{year}.{month:02d}'],
                '지역별': [region],
                '사설학원수': [int(y_monthly[i])]  # 소수점 제거
            })], ignore_index=True)

# 중복된 데이터 제거
df_monthly = df_monthly.drop_duplicates().reset_index(drop=True)

# 시점을 기준으로 정렬
df_monthly = df_monthly.sort_values(['지역별', '시점'])

# 결과 확인
df_monthly.tail(12), df_monthly.shape

# 업데이트된 데이터를 CSV 파일로 저장
# df_monthly.to_csv('comp_2122.csv.csv', index=False)


(           시점 지역별  사설학원수
 4272  2023.01  충북   2481
 4273  2023.02  충북   2489
 4274  2023.03  충북   2497
 4275  2023.04  충북   2504
 4276  2023.05  충북   2512
 4277  2023.06  충북   2520
 4278  2023.07  충북   2528
 4279  2023.08  충북   2536
 4280  2023.09  충북   2543
 4281  2023.10  충북   2551
 4282  2023.11  충북   2559
 4283  2023.12  충북   2567,
 (4284, 3))