# Step 0. xlsx to csv

In [1]:
import pandas as pd
import os
from pathlib import Path


In [4]:
def convert_xlsx_to_csv(input_folder, output_folder):
    """
    특정 폴더의 xlsx 파일들을 UTF-8 CSV로 변환
    
    Args:
        input_folder (str): xlsx 파일들이 있는 폴더 경로
        output_folder (str, optional): CSV 파일을 저장할 폴더 경로. None이면 입력 폴더와 동일
    """
    
    # 입력 폴더 경로 설정
    input_path = Path(input_folder)
    
    # 출력 폴더 경로 설정 (지정하지 않으면 입력 폴더와 동일)
    if output_folder is None:
        output_path = input_path
    else:
        output_path = Path(output_folder)
        output_path.mkdir(parents=True, exist_ok=True)  # 폴더가 없으면 생성
    
    # xlsx 파일 찾기
    xlsx_files = list(input_path.glob("*.xlsx"))
    
    # 임시 파일 제외 (Excel 임시 파일은 ~$로 시작)
    xlsx_files = [f for f in xlsx_files if not f.name.startswith('~$')]
    
    if not xlsx_files:
        print(f"'{input_folder}' 폴더에 xlsx 파일이 없습니다.")
        return
    
    print(f"총 {len(xlsx_files)}개의 xlsx 파일을 찾았습니다.")
    
    # 찾은 파일 목록 출력 (디버깅용)
    print("\n찾은 파일 목록:")
    for i, xlsx_file in enumerate(xlsx_files, 1):
        print(f"{i}. {xlsx_file.name}")
    print()
    
    # 각 xlsx 파일을 CSV로 변환
    for xlsx_file in xlsx_files:
        try:
            # 해당 파일의 시트 이름 목록 가져오기
            sheet_name_list = pd.ExcelFile(xlsx_file, engine='openpyxl').sheet_names
            
            # Excel 파일 읽기 (한글 깨짐 방지)
            df = pd.read_excel(xlsx_file, sheet_name=sheet_name_list[2], engine='openpyxl')
            
            # CSV 파일명 생성 (확장자만 변경)
            csv_filename = xlsx_file.stem + ".csv"
            csv_path = output_path / csv_filename
            
            # UTF-8 BOM 포함하여 CSV 저장 (Excel에서도 한글 정상 표시)
            df.to_csv(csv_path, index=False, encoding='utf-8-sig')
            
            print(f"✓ {xlsx_file.name} → {csv_filename} 변환 완료")
            
        except Exception as e:
            print(f"✗ {xlsx_file.name} 변환 실패: {e}")

In [5]:
# 폴더 경로 설정 (현재 작업 디렉토리 기준)
# xlsx폴더 내부에 존재하는 2015~2025폴더를 순차적으로 접근하여 작업 진행
base_input_folder = "./xlsx"
base_output_folder = "./csv"
for year in range(2015, 2026):
    input_folder = os.path.join(base_input_folder, str(year))
    if os.path.exists(input_folder):
        convert_xlsx_to_csv(input_folder, base_output_folder)
    else:
        print(f"폴더가 존재하지 않습니다: {input_folder}")

총 8개의 xlsx 파일을 찾았습니다.

찾은 파일 목록:
1. (2015) 7월말+주민등록인구+및+외국인+현황 (1).xlsx
2. (2015) 9월말+주민등록인구+및+외국인+현황 (1).xlsx
3. (2015) 12월말+주민등록인구+및+외국인+현황 (1).xlsx
4. (2015) 5월말+주민등록인구+및+외국인+현황 (1).xlsx
5. (2015) 6월말+주민등록인구+및+외국인+현황 (1).xlsx
6. (2015) 11월말+주민등록인구+및+외국인+현황 (1).xlsx
7. (2015) 8월말+주민등록인구+및+외국인+현황 (1).xlsx
8. (2015) 10월말+주민등록인구+및+외국인+현황 (1).xlsx

✓ (2015) 7월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 7월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 9월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 9월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 12월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 12월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 5월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 5월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 6월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 6월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 11월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 11월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 8월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 8월말+주민등록인구+및+외국인+현황 (1).csv 변환 완료
✓ (2015) 10월말+주민등록인구+및+외국인+현황 (1).xlsx → (2015) 10월말+주민등록인구+및+외국인+현황 (1).csv 변환 