# 교양 및 전공 CSV 데이터 결측치 제거

### 과제, 조모임, 성적 관련 데이터가 모두 0이거나 "없음"인 행 찾기


In [1]:
import pandas as pd
import os
import glob

In [2]:
# 데이터 폴더 경로 설정
gyoyang_path = "../data/crawling/교양/"
jeongong_path = "../data/crawling/전공/"

# 관련 컬럼들 정의
analysis_columns = [
    "과제_없음(%)",
    "과제_보통(%)",
    "과제_많음(%)",
    "조모임_없음(%)",
    "조모임_보통(%)",
    "조모임_많음(%)",
    "성적_너그러움(%)",
    "성적_보통(%)",
    "성적_깐깐함(%)",
]

print("분석 대상 컬럼들:", analysis_columns)

분석 대상 컬럼들: ['과제_없음(%)', '과제_보통(%)', '과제_많음(%)', '조모임_없음(%)', '조모임_보통(%)', '조모임_많음(%)', '성적_너그러움(%)', '성적_보통(%)', '성적_깐깐함(%)']


In [3]:
# CSV 파일들을 찾아서 읽기
def find_csv_files(folder_path):
    """폴더에서 모든 CSV 파일 찾기"""
    csv_files = glob.glob(os.path.join(folder_path, "*.csv"))
    return csv_files


def load_and_analyze_csv(file_path):
    """CSV 파일을 읽고 조건에 맞는 행 찾기"""
    try:
        df = pd.read_csv(file_path, encoding="utf-8")

        # 조건에 맞는 행 찾기 (모든 분석 컬럼이 0이거나 "없음")
        condition = True
        for col in analysis_columns:
            if col in df.columns:
                condition = condition & ((df[col] == 0) | (df[col] == "없음"))
            else:
                print(f"⚠️ 컬럼 '{col}'이 이 파일에 없습니다.")
                return pd.DataFrame()

        filtered_df = df[condition]
        print(f"조건에 맞는 행 수: {len(filtered_df)}")

        return filtered_df

    except Exception as e:
        print(f"파일 {file_path} 읽기 오류: {e}")
        return pd.DataFrame()


# 교양 CSV 파일들 찾기
gyoyang_csv_files = find_csv_files(gyoyang_path)
print("교양 CSV 파일들:", [os.path.basename(f) for f in gyoyang_csv_files])

# 전공 CSV 파일들 찾기
jeongong_csv_files = find_csv_files(jeongong_path)
print("전공 CSV 파일들:", [os.path.basename(f) for f in jeongong_csv_files])

교양 CSV 파일들: ['사회와세계영역.csv', '인문과예술영역.csv', '과학과기술영역.csv', '글로벌언어와문화영역.csv', '고전읽기영역.csv', '일반영역.csv', '영역없음.csv', '소프트웨어영역.csv', '가상대학영역.csv', '미래산업과창업영역.csv']
전공 CSV 파일들: ['도시공학과.csv', '기계공학부.csv', '건축공학부.csv', '자연환경공학과.csv', '반도체공학과.csv', '산업공학과.csv']


In [4]:
# 교양 데이터 분석

gyoyang_results = []
for csv_file in gyoyang_csv_files:
    result_df = load_and_analyze_csv(csv_file)
    if not result_df.empty:
        result_df["파일명"] = os.path.basename(csv_file)
        gyoyang_results.append(result_df)

if gyoyang_results:
    gyoyang_all_results = pd.concat(gyoyang_results, ignore_index=True)
    display(gyoyang_all_results[["교과목명", "교강사", "파일명"] + analysis_columns])
else:
    print("\n🚫 교양 과목 중 조건에 맞는 행이 없습니다.")

조건에 맞는 행 수: 4
조건에 맞는 행 수: 2
조건에 맞는 행 수: 1
조건에 맞는 행 수: 15
조건에 맞는 행 수: 0
조건에 맞는 행 수: 4
조건에 맞는 행 수: 34
조건에 맞는 행 수: 1
조건에 맞는 행 수: 1
조건에 맞는 행 수: 9


Unnamed: 0,교과목명,교강사,파일명,과제_없음(%),과제_보통(%),과제_많음(%),조모임_없음(%),조모임_보통(%),조모임_많음(%),성적_너그러움(%),성적_보통(%),성적_깐깐함(%)
0,헌법의이해,김휘홍,사회와세계영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
1,인간다운생활과사회보장법,장승혁,사회와세계영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
2,트랜스미디어상호작용설계,Tammy Ko Robinson,사회와세계영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
3,Fact versus Fiction: Media Literacy and Detect...,Caroline Sommerville Ward,사회와세계영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
4,동양철학의이해,나우권,인문과예술영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
...,...,...,...,...,...,...,...,...,...,...,...,...
66,창업실습2,강창규,미래산업과창업영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
67,창업심화:스타트업마케팅,김경열,미래산업과창업영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
68,항공업진로의탐색,김혜림,미래산업과창업영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
69,창업심화:스타트업경영전략,배태준,미래산업과창업영역.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음


In [5]:
# 전공 데이터 분석

jeongong_results = []
for csv_file in jeongong_csv_files:
    result_df = load_and_analyze_csv(csv_file)
    if not result_df.empty:
        result_df["파일명"] = os.path.basename(csv_file)
        jeongong_results.append(result_df)

if jeongong_results:
    jeongong_all_results = pd.concat(jeongong_results, ignore_index=True)
    display(jeongong_all_results[["교과목명", "교강사", "파일명"] + analysis_columns])
else:
    print("전공 과목 중 조건에 맞는 행이 없습니다.")

조건에 맞는 행 수: 16
조건에 맞는 행 수: 39
조건에 맞는 행 수: 27
조건에 맞는 행 수: 6
조건에 맞는 행 수: 12
조건에 맞는 행 수: 15


Unnamed: 0,교과목명,교강사,파일명,과제_없음(%),과제_보통(%),과제_많음(%),조모임_없음(%),조모임_보통(%),조모임_많음(%),성적_너그러움(%),성적_보통(%),성적_깐깐함(%)
0,실용공학연구1,최성택,도시공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
1,도시설계3,리나,도시공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
2,도시공학종합설계1(URIP),이수기,도시공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
3,실용공학연구3,이수기,도시공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
4,부동산금융및투자,유명한,도시공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
...,...,...,...,...,...,...,...,...,...,...,...,...
110,AI시대쓰기의힘,조소명,산업공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
111,산업공학종합설계1,김태복,산업공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
112,산업공학연구실현장실습3,송재욱,산업공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음
113,산업공학연구실현장실습3,이기천,산업공학과.csv,없음,없음,없음,없음,없음,없음,없음,없음,없음


In [6]:
# 이미 찾은 조건에 맞는 행들을 이용해 처리된 파일 생성

# 처리된 데이터를 저장할 폴더 생성
processed_base = "../data/crawling_processed"
processed_gyoyang = os.path.join(processed_base, "교양")
processed_jeongong = os.path.join(processed_base, "전공")

os.makedirs(processed_gyoyang, exist_ok=True)
os.makedirs(processed_jeongong, exist_ok=True)

print("📁 crawling_processed 폴더 구조 생성 완료")

# 교양 파일 처리
print("\n🎓 교양 파일 처리 중...")
for csv_file in gyoyang_csv_files:
    # 원본 파일 읽기
    df_original = pd.read_csv(csv_file, encoding="utf-8")
    original_count = len(df_original)

    # 해당 파일에서 제거할 행들 찾기
    if gyoyang_results:
        file_name = os.path.basename(csv_file)
        rows_to_remove = []

        for result_df in gyoyang_results:
            if "파일명" in result_df.columns:
                file_rows = result_df[result_df["파일명"] == file_name]
                if not file_rows.empty:
                    # 교과목명과 교강사로 매칭하여 제거할 행 찾기
                    for _, row in file_rows.iterrows():
                        mask = df_original["교과목명"] == row["교과목명"]
                        if pd.notna(row["교강사"]):
                            mask = mask & (df_original["교강사"] == row["교강사"])
                        else:
                            mask = mask & (df_original["교강사"].isna())
                        rows_to_remove.extend(df_original[mask].index.tolist())

        # 중복 제거
        rows_to_remove = list(set(rows_to_remove))

        # 해당 행들 제거
        df_processed = df_original.drop(rows_to_remove)
    else:
        df_processed = df_original

    # 처리된 파일 저장
    output_file = os.path.join(processed_gyoyang, os.path.basename(csv_file))
    df_processed.to_csv(output_file, index=False, encoding="utf-8-sig")

    removed_count = original_count - len(df_processed)
    print(
        f"✅ {os.path.basename(csv_file)}: {original_count}행 → {len(df_processed)}행 (제거: {removed_count}행)"
    )

# 전공 파일 처리
print("\n🏭 전공 파일 처리 중...")
for csv_file in jeongong_csv_files:
    # 원본 파일 읽기
    df_original = pd.read_csv(csv_file, encoding="utf-8")
    original_count = len(df_original)

    # 해당 파일에서 제거할 행들 찾기
    if jeongong_results:
        file_name = os.path.basename(csv_file)
        rows_to_remove = []

        for result_df in jeongong_results:
            if "파일명" in result_df.columns:
                file_rows = result_df[result_df["파일명"] == file_name]
                if not file_rows.empty:
                    # 교과목명과 교강사로 매칭하여 제거할 행 찾기
                    for _, row in file_rows.iterrows():
                        mask = df_original["교과목명"] == row["교과목명"]
                        if pd.notna(row["교강사"]):
                            mask = mask & (df_original["교강사"] == row["교강사"])
                        else:
                            mask = mask & (df_original["교강사"].isna())
                        rows_to_remove.extend(df_original[mask].index.tolist())

        # 중복 제거
        rows_to_remove = list(set(rows_to_remove))

        # 해당 행들 제거
        df_processed = df_original.drop(rows_to_remove)
    else:
        df_processed = df_original

    # 처리된 파일 저장
    output_file = os.path.join(processed_jeongong, os.path.basename(csv_file))
    df_processed.to_csv(output_file, index=False, encoding="utf-8-sig")

    removed_count = original_count - len(df_processed)
    print(
        f"✅ {os.path.basename(csv_file)}: {original_count}행 → {len(df_processed)}행 (제거: {removed_count}행)"
    )

print("\n🎉 모든 파일 처리 완료!")

📁 crawling_processed 폴더 구조 생성 완료

🎓 교양 파일 처리 중...
✅ 사회와세계영역.csv: 48행 → 44행 (제거: 4행)
✅ 인문과예술영역.csv: 75행 → 73행 (제거: 2행)
✅ 과학과기술영역.csv: 36행 → 35행 (제거: 1행)
✅ 글로벌언어와문화영역.csv: 64행 → 49행 (제거: 15행)
✅ 고전읽기영역.csv: 45행 → 45행 (제거: 0행)
✅ 일반영역.csv: 40행 → 36행 (제거: 4행)
✅ 영역없음.csv: 74행 → 40행 (제거: 34행)
✅ 소프트웨어영역.csv: 10행 → 9행 (제거: 1행)
✅ 가상대학영역.csv: 20행 → 19행 (제거: 1행)
✅ 미래산업과창업영역.csv: 54행 → 45행 (제거: 9행)

🏭 전공 파일 처리 중...
✅ 도시공학과.csv: 45행 → 29행 (제거: 16행)
✅ 기계공학부.csv: 117행 → 78행 (제거: 39행)
✅ 건축공학부.csv: 47행 → 20행 (제거: 27행)
✅ 자연환경공학과.csv: 30행 → 24행 (제거: 6행)
✅ 반도체공학과.csv: 24행 → 12행 (제거: 12행)
✅ 산업공학과.csv: 39행 → 24행 (제거: 15행)

🎉 모든 파일 처리 완료!


In [7]:
# 처리 결과 확인
print("=" * 60)
print("🔍 처리 결과 확인")
print("=" * 60)

processed_base = "../data/crawling_processed"

# 생성된 폴더 구조 확인
if os.path.exists(processed_base):
    print(f"\n📁 {processed_base} 폴더 내용:")
    for root, dirs, files in os.walk(processed_base):
        level = root.replace(processed_base, "").count(os.sep)
        indent = " " * 2 * level
        print(f"{indent}{os.path.basename(root)}/")
        subindent = " " * 2 * (level + 1)
        for file in files:
            if file.endswith(".csv"):
                file_path = os.path.join(root, file)
                try:
                    df_check = pd.read_csv(file_path, encoding="utf-8")
                    print(f"{subindent}{file} ({len(df_check)}행)")
                except:
                    print(f"{subindent}{file} (읽기 오류)")

print(f"\n✅ 모든 처리 완료!")
print(f"📂 처리된 파일들은 '{processed_base}' 폴더에 저장되었습니다.")
print(
    f"🗑️  조건에 맞는 행들(과제/조모임/성적 데이터가 모두 0이거나 '없음')이 제거되었습니다."
)

🔍 처리 결과 확인

📁 ../data/crawling_processed 폴더 내용:
crawling_processed/
  전공/
    도시공학과.csv (29행)
    기계공학부.csv (78행)
    건축공학부.csv (20행)
    자연환경공학과.csv (24행)
    반도체공학과.csv (12행)
    산업공학과.csv (24행)
  교양/
    사회와세계영역.csv (44행)
    인문과예술영역.csv (73행)
    과학과기술영역.csv (35행)
    글로벌언어와문화영역.csv (49행)
    고전읽기영역.csv (45행)
    일반영역.csv (36행)
    영역없음.csv (40행)
    소프트웨어영역.csv (9행)
    가상대학영역.csv (19행)
    미래산업과창업영역.csv (45행)

✅ 모든 처리 완료!
📂 처리된 파일들은 '../data/crawling_processed' 폴더에 저장되었습니다.
🗑️  조건에 맞는 행들(과제/조모임/성적 데이터가 모두 0이거나 '없음')이 제거되었습니다.
