In [2]:
import pandas as pd

# 여러 개의 CSV 파일 읽기
files = [
    '2021(01).csv', '2021(02).csv',
    '2022(01).csv', '2022(02).csv',
    '2023(01).csv', '2023(02).csv'
]

# 모든 데이터프레임 병합
dfs = [pd.read_csv(file, encoding='euc-kr') for file in files]

# 열 이름 수정 함수
def add_year_to_columns(columns):
    new_columns = []
    for col in columns:
        if len(col) >= 6 and col[6] == '월':
            new_col = col[:4] + '년' + col[4:]
            new_columns.append(new_col)
        else:
            new_columns.append(col)
    return new_columns

# 모든 데이터프레임의 열 이름 수정
for df in dfs:
    df.columns = add_year_to_columns(df.columns)

# 병합된 데이터프레임 생성
merged_data = pd.concat(dfs, ignore_index=True)

# 결측치 제거
merged_data = merged_data.dropna()

# 나이대 및 성별 정보
age_groups = [
    "0~9세", "10~19세", "20~29세", "30~39세",
    "40~49세", "50~59세", "60~69세", "70~79세",
    "80~89세", "90~99세", "100세 이상"
]

# 월별, 성별, 나이대 인구수를 합산할 열 이름들 생성
months = ["01월", "02월"]
years = ["2021", "2022", "2023"]

# 빈 DataFrame 생성
summary_df = pd.DataFrame()

# 데이터 처리
for year in years:
    for month in months:
        for age_group in age_groups:
            # 성별 데이터 합산
            male_col = f"{year}년{month}_남_{age_group}"
            female_col = f"{year}년{month}_여_{age_group}"
            total_col = f"{year}년{month}_계_{age_group}"
            
            # 성별 열이 모두 존재하는 경우 합산
            if male_col in merged_data.columns and female_col in merged_data.columns:
                merged_data[total_col] = merged_data[male_col].fillna(0) + merged_data[female_col].fillna(0)
            else:
                print(f"누락된 열: {male_col} 또는 {female_col}")

# 선택적으로, 결과 DataFrame 저장 (필요에 따라)
summary_df = merged_data.filter(like="_계_")  # 결과 DataFrame에서 '계'로 끝나는 열만 선택

# 결과 출력
print(summary_df.head())


누락된 열: 2022년01월_남_10~19세 또는 2022년01월_여_10~19세
누락된 열: 2022년01월_남_20~29세 또는 2022년01월_여_20~29세
누락된 열: 2022년01월_남_30~39세 또는 2022년01월_여_30~39세
누락된 열: 2022년01월_남_40~49세 또는 2022년01월_여_40~49세
누락된 열: 2022년01월_남_50~59세 또는 2022년01월_여_50~59세
누락된 열: 2022년01월_남_60~69세 또는 2022년01월_여_60~69세
누락된 열: 2022년01월_남_70~79세 또는 2022년01월_여_70~79세
누락된 열: 2022년01월_남_80~89세 또는 2022년01월_여_80~89세
누락된 열: 2022년01월_남_90~99세 또는 2022년01월_여_90~99세
누락된 열: 2022년01월_남_100세 이상 또는 2022년01월_여_100세 이상
누락된 열: 2022년02월_남_10~19세 또는 2022년02월_여_10~19세
누락된 열: 2022년02월_남_20~29세 또는 2022년02월_여_20~29세
누락된 열: 2022년02월_남_30~39세 또는 2022년02월_여_30~39세
누락된 열: 2022년02월_남_40~49세 또는 2022년02월_여_40~49세
누락된 열: 2022년02월_남_50~59세 또는 2022년02월_여_50~59세
누락된 열: 2022년02월_남_60~69세 또는 2022년02월_여_60~69세
누락된 열: 2022년02월_남_70~79세 또는 2022년02월_여_70~79세
누락된 열: 2022년02월_남_80~89세 또는 2022년02월_여_80~89세
누락된 열: 2022년02월_남_90~99세 또는 2022년02월_여_90~99세
누락된 열: 2022년02월_남_100세 이상 또는 2022년02월_여_100세 이상
누락된 열: 2023년01월_남_10~19세 또는 2023년01월_여_10~19세
누락된 열: 2023년01월_남_20~29세 또는 20

In [15]:
import pandas as pd

# 파일 경로 목록
file_paths = ['2021(01).csv', '2021(02).csv', '2022(01).csv', '2022(02).csv', '2023(01).csv', '2023(02).csv']

# 파일을 읽고 컬럼 이름을 변경하여 데이터프레임 목록에 추가
dataframes = []
for file in file_paths:
    try:
        # 파일을 'cp949' 인코딩으로 읽기
        df = pd.read_csv(file, encoding='cp949')
    except UnicodeDecodeError:
        # 'cp949'로 실패하면 'utf-8' 인코딩으로 시도
        df = pd.read_csv(file, encoding='utf-8')
    
    year = file[:4]
    month = file[6:8]
    
    # 컬럼 이름 변경 (예: 남자_0세 -> 2021년01월_남자_0세)
    new_columns = {col: f"{year}년{month}월_{col}" for col in df.columns if col not in ['연도', '월', '행정구역']}
    df.rename(columns=new_columns, inplace=True)
    
    dataframes.append(df)

# 모든 데이터프레임을 하나로 병합 (행 단위로)
combined_df = pd.concat(dataframes, ignore_index=True)

# 데이터프레임 구조 확인
print("Combined DataFrame Structure:")
print(combined_df.head())

# 연도와 나이대별 합산
age_groups = {
    '0~9세': [f"{gender}_{age}세" for age in range(10) for gender in ['남자', '여자']],
    '10~19세': [f"{gender}_{age}세" for age in range(10, 20) for gender in ['남자', '여자']],
    # 필요한 경우 나이대 그룹을 더 추가할 수 있습니다.
}

# 새로운 데이터프레임을 생성하여 나이대별로 합산
summed_data = pd.DataFrame()

# 연도와 나이대별로 데이터 합산
result_rows = []

for year in range(2021, 2024):
    for age_group, columns in age_groups.items():
        group_columns = [f"{year}년{month}월_{col}" for month in ['01', '02'] for col in columns]
        # 실제 존재하는 컬럼만 선택
        existing_columns = [col for col in group_columns if col in combined_df.columns]
        if existing_columns:
            summed_columns = combined_df.groupby('행정구역')[existing_columns].sum()
            summed_columns['연도'] = year
            summed_columns['나이대'] = age_group
            result_rows.append(summed_columns)

# 결과를 하나의 데이터프레임으로 병합
if result_rows:
    final_df = pd.concat(result_rows, axis=0).reset_index()
    
    # 필요한 열만 선택하여 구성
    final_columns = ['행정구역', '연도', '나이대'] + [col for col in final_df.columns if col.startswith('202')]
    final_df = final_df[final_columns]

    # 중간 결과 출력
    print("Final DataFrame Structure:")
    print(final_df.head())
    
    # 결과를 CSV 파일로 저장
    final_df.to_csv('summed_yearly_data.csv', index=False, encoding='utf-8-sig')
    print("File saved successfully.")
else:
    print("No data to save.")


Combined DataFrame Structure:
                           행정구역 2021년1)월_2021년01월_계_총인구수  \
0             경기도  (4100000000)               13,449,499   
1      경기도 경기도 수원시 (4111000000)                1,185,741   
2  경기도 경기도 수원시 장안구 (4111100000)                  273,324   
3  경기도 경기도 수원시 권선구 (4111300000)                  368,686   
4  경기도 경기도 수원시 팔달구 (4111500000)                  175,098   

  2021년1)월_2021년01월_계_연령구간인구수 2021년1)월_2021년01월_계_0~9세  \
0                  13,449,499                1,140,854   
1                   1,185,741                   96,331   
2                     273,324                   18,132   
3                     368,686                   32,303   
4                     175,098                    9,380   

  2021년1)월_2021년01월_계_10~19세 2021년1)월_2021년01월_계_20~29세  \
0                  1,327,712                  1,809,285   
1                    118,004                    186,382   
2                     28,542                     43,862   
3                     33