In [1]:
import os

def print_folder_structure(root_folder, indent=0):
    for item in os.listdir(root_folder):
        path = os.path.join(root_folder, item)
        print('    ' * indent + '|-- ' + item)
        if os.path.isdir(path):
            print_folder_structure(path, indent + 1)

# 사용 예시
root_path = '.'  # 현재 폴더를 기준으로 출력
print_folder_structure(root_path)

|-- 데이터
    |-- 중도탈락 학생 현황_학과별
        |-- 공학계열
            |-- 전처리 전
                |-- 2022_대학_공학계열.xlsx
                |-- 2022_전문대_공학계열.xlsx
                |-- 2023_대학_공학계열.xlsx
                |-- 2023_전문대_공학계열.xlsx
                |-- 2024_대학_공학계열.xlsx
                |-- 2024_전문대_공학계열.xlsx
            |-- 전처리 후
                |-- 2022_대학_공학계열.xlsx
                |-- 2022_전문대_공학계열.xlsx
                |-- 2023_대학_공학계열.xlsx
                |-- 2023_전문대_공학계열.xlsx
                |-- 2024_대학_공학계열.xlsx
                |-- 2024_전문대_공학계열.xlsx
        |-- 소속없음
            |-- 2022_대학.xlsx
            |-- 2022_전문대.xlsx
            |-- 2023_대학.xlsx
            |-- 2023_전문대.xlsx
            |-- 2024_대학.xlsx
            |-- 2024_전문대.xlsx
        |-- 예체능계열
            |-- 전처리 전
                |-- 2022_대학_예체능계열.xlsx
                |-- 2022_전문대_예체능계열.xlsx
                |-- 2023_대학_예체능계열.xlsx
                |-- 2023_전문대_예체능계열.xlsx
                |-- 2024_대학_예체능계열.xlsx
               

In [4]:
import os
import pandas as pd

def check_columns(folder_path):
    file_list = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]
    columns_set = []
    
    for file_name in file_list:
        file_path = os.path.join(folder_path, file_name)
        df = pd.read_excel(file_path, nrows=1)  # 빠른 로딩을 위해 1줄만 읽음
        columns_set.append((file_name, df.columns.tolist()))
    
    base_cols = columns_set[0][1]
    all_same = True
    
    for file_name, cols in columns_set:
        if cols != base_cols:
            all_same = False
            print(f"[❌ 다른 컬럼 구조] 파일명: {file_name}")
            print(f"현재 파일 컬럼: {cols}")
            print(f"기준 컬럼: {base_cols}")
            print("-" * 80)
    
    if all_same:
        print("[✅ 모든 파일 컬럼 동일]")
        print(f"공통 컬럼: {base_cols}")
    print("=" * 100)
    
# 1. 중도탈락 학생 현황_학교별평균값
print(">> 중도탈락 학생 현황_학교별평균값/전처리 후")
folder_path_school = './데이터/중도탈락 학생 현황_학교별평균값/전처리 후'
check_columns(folder_path_school)

# 2. 중도탈락 학생 현황_학과별 (소속없음 제외)
departments = ['공학계열', '예체능계열', '의학계열', '인문사회계열', '자연과학계열']

for dept in departments:
    print(f">> 중도탈락 학생 현황_학과별/{dept}/전처리 후")
    folder_path_dept = f'./데이터/중도탈락 학생 현황_학과별/{dept}/전처리 후'
    check_columns(folder_path_dept)


>> 중도탈락 학생 현황_학교별평균값/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '재적학생', '자퇴학생', '자퇴학생비율', '신입생_자퇴학생', '신입생_자퇴학생비율']
>> 중도탈락 학생 현황_학과별/공학계열/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '학과', '재적학생', '자퇴학생', '자퇴학생비율']
>> 중도탈락 학생 현황_학과별/예체능계열/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '학과', '재적학생', '자퇴학생', '자퇴학생비율']
>> 중도탈락 학생 현황_학과별/의학계열/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '학과', '재적학생', '자퇴학생', '자퇴학생비율']
>> 중도탈락 학생 현황_학과별/인문사회계열/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '학과', '재적학생', '자퇴학생', '자퇴학생비율']
>> 중도탈락 학생 현황_학과별/자연과학계열/전처리 후
[✅ 모든 파일 컬럼 동일]
공통 컬럼: ['기준연도', '학교종류', '설립구분', '지역', '학교명', '학과', '재적학생', '자퇴학생', '자퇴학생비율']
