In [1]:
import os
import pandas as pd
import re


def remove_duplicate_column_names(file_path):
    """
    TSV 파일에서 중복된 컬럼명을 제거하는 함수
    예: '강의평강의평' -> '강의평'
    """
    df = pd.read_csv(file_path, sep="\t")

    new_columns = []

    for col in df.columns:
        # 컬럼명이 두 번 반복되는지 확인
        mid_point = len(col) // 2
        if len(col) % 2 == 0 and col[:mid_point] == col[mid_point:]:
            # 중복된 경우 절반만 사용
            new_col = col[:mid_point]
            new_columns.append(new_col)
        else:
            # 중복되지 않은 경우 그대로 사용
            new_columns.append(col)

    # 컬럼명 변경
    df.columns = new_columns

    return df


def process_all_tsv_files(base_path):
    """
    모든 TSV 파일을 처리하는 함수
    """
    processed_files = []

    # 교양 폴더 처리
    gyoyang_path = os.path.join(base_path, "교양")
    if os.path.exists(gyoyang_path):
        for filename in os.listdir(gyoyang_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(gyoyang_path, filename)
                df = remove_duplicate_column_names(file_path)
                # 원본 파일 덮어쓰기
                df.to_csv(file_path, sep="\t", index=False)
                processed_files.append(file_path)
                print(f"처리 완료: {file_path}")

    # 전공 폴더 처리
    jeongong_path = os.path.join(base_path, "전공")
    if os.path.exists(jeongong_path):
        for filename in os.listdir(jeongong_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(jeongong_path, filename)
                df = remove_duplicate_column_names(file_path)
                # 원본 파일 덮어쓰기
                df.to_csv(file_path, sep="\t", index=False)
                processed_files.append(file_path)
                print(f"처리 완료: {file_path}")

    return processed_files


base_path = "../data"
processed_files = process_all_tsv_files(base_path)
print(f"\n총 {len(processed_files)}개 파일 처리 완료")

처리 완료: ../data/교양/미래산업과창업영역.tsv
처리 완료: ../data/교양/가상대학영역.tsv
처리 완료: ../data/교양/소프트웨어영역.tsv
처리 완료: ../data/교양/영역없음.tsv
처리 완료: ../data/교양/글로벌언어와문화영역.tsv
처리 완료: ../data/교양/일반영역.tsv
처리 완료: ../data/교양/고전읽기영역.tsv
처리 완료: ../data/교양/과학과기술영역.tsv
처리 완료: ../data/교양/인문과예술영역.tsv
처리 완료: ../data/교양/사회와세계영역.tsv
처리 완료: ../data/전공/건축학부.tsv
처리 완료: ../data/전공/산업공학과.tsv
처리 완료: ../data/전공/컴퓨터소프트웨어학부.tsv
처리 완료: ../data/전공/정보시스템학과.tsv
처리 완료: ../data/전공/반도체공학과.tsv
처리 완료: ../data/전공/생명공학과.tsv
처리 완료: ../data/전공/융합전자공학부.tsv
처리 완료: ../data/전공/화학공학과.tsv
처리 완료: ../data/전공/미래자동차공학과.tsv
처리 완료: ../data/전공/자연환경공학과.tsv
처리 완료: ../data/전공/건설환경공학과.tsv
처리 완료: ../data/전공/원자력공학과.tsv
처리 완료: ../data/전공/건축공학부.tsv
처리 완료: ../data/전공/신소재공학부.tsv
처리 완료: ../data/전공/기계공학부.tsv
처리 완료: ../data/전공/에너지공학과.tsv
처리 완료: ../data/전공/전기생체공학부.tsv
처리 완료: ../data/전공/데이터사이언스학부.tsv
처리 완료: ../data/전공/도시공학과.tsv
처리 완료: ../data/전공/유기나노공학과.tsv

총 30개 파일 처리 완료


In [2]:
# 불필요한 컬럼 제거
base_path = "../data"
processed_files = []

# 교양 폴더 처리
gyoyang_path = os.path.join(base_path, "교양")
if os.path.exists(gyoyang_path):
    for filename in os.listdir(gyoyang_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(gyoyang_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            columns_to_drop = ["강의평", "담은 인원", "유의사항"]
            df = df.drop(columns=columns_to_drop, errors="ignore")
            df.to_csv(file_path, sep="\t", index=False)
            processed_files.append(file_path)
            print(f"컬럼 제거 완료: {file_path}")

# 전공 폴더 처리
jeongong_path = os.path.join(base_path, "전공")
if os.path.exists(jeongong_path):
    for filename in os.listdir(jeongong_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(jeongong_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            columns_to_drop = ["강의평", "담은 인원", "유의사항"]
            df = df.drop(columns=columns_to_drop, errors="ignore")
            df.to_csv(file_path, sep="\t", index=False)
            processed_files.append(file_path)
            print(f"컬럼 제거 완료: {file_path}")

print(f"\n총 {len(processed_files)}개 파일에서 불필요한 컬럼 제거 완료")

컬럼 제거 완료: ../data/교양/미래산업과창업영역.tsv
컬럼 제거 완료: ../data/교양/가상대학영역.tsv
컬럼 제거 완료: ../data/교양/소프트웨어영역.tsv
컬럼 제거 완료: ../data/교양/영역없음.tsv
컬럼 제거 완료: ../data/교양/글로벌언어와문화영역.tsv
컬럼 제거 완료: ../data/교양/일반영역.tsv
컬럼 제거 완료: ../data/교양/고전읽기영역.tsv
컬럼 제거 완료: ../data/교양/과학과기술영역.tsv
컬럼 제거 완료: ../data/교양/인문과예술영역.tsv
컬럼 제거 완료: ../data/교양/사회와세계영역.tsv
컬럼 제거 완료: ../data/전공/건축학부.tsv
컬럼 제거 완료: ../data/전공/산업공학과.tsv
컬럼 제거 완료: ../data/전공/컴퓨터소프트웨어학부.tsv
컬럼 제거 완료: ../data/전공/정보시스템학과.tsv
컬럼 제거 완료: ../data/전공/반도체공학과.tsv
컬럼 제거 완료: ../data/전공/생명공학과.tsv
컬럼 제거 완료: ../data/전공/융합전자공학부.tsv
컬럼 제거 완료: ../data/전공/화학공학과.tsv
컬럼 제거 완료: ../data/전공/미래자동차공학과.tsv
컬럼 제거 완료: ../data/전공/자연환경공학과.tsv
컬럼 제거 완료: ../data/전공/건설환경공학과.tsv
컬럼 제거 완료: ../data/전공/원자력공학과.tsv
컬럼 제거 완료: ../data/전공/건축공학부.tsv
컬럼 제거 완료: ../data/전공/신소재공학부.tsv
컬럼 제거 완료: ../data/전공/기계공학부.tsv
컬럼 제거 완료: ../data/전공/에너지공학과.tsv
컬럼 제거 완료: ../data/전공/전기생체공학부.tsv
컬럼 제거 완료: ../data/전공/데이터사이언스학부.tsv
컬럼 제거 완료: ../data/전공/도시공학과.tsv
컬럼 제거 완료: ../data/전공/유기나노공학과.tsv

총 30개 파일에서 불필요한 컬럼 제거 완료


## 시간미지정강좌 체크


In [6]:
time_unspecified = []

# 교양 폴더 처리
gyoyang_path = os.path.join(base_path, "교양")
if os.path.exists(gyoyang_path):
    for filename in os.listdir(gyoyang_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(gyoyang_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            unspecified = df[df["시간"].str.contains("시간미지정강좌", na=False)]
            if not unspecified.empty:
                time_unspecified.append(unspecified)

# 전공 폴더 처리
jeongong_path = os.path.join(base_path, "전공")
if os.path.exists(jeongong_path):
    for filename in os.listdir(jeongong_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(jeongong_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            unspecified = df[df["시간"].str.contains("시간미지정강좌", na=False)]
            if not unspecified.empty:
                time_unspecified.append(unspecified)

# if time_unspecified:
#     result = pd.concat(time_unspecified)
#     result
# else:
#     print("시간미지정강좌가 없습니다.")

result = pd.concat(time_unspecified)
result

Unnamed: 0,학년,이수구분,학수번호-수업번호,교과목명,교강사,학점,시간,강의실
4,0,핵심교양/전공핵심,VEN2001-15348,창업기초:창업과기업가정신,배태준,3,"금(11:00-13:00),시간미지정강좌","사회과학관551강의실,"
12,0,핵심교양,CUL1185-15141,전기에너지개론,문준,3,"시간미지정강좌,시간미지정강좌",
13,0,핵심교양,GEN7045-15043,생태친화적기업경영,안광일,3,"시간미지정강좌,시간미지정강좌",
14,0,핵심교양,GEN6023-15044,상상과창조,이지은,3,"시간미지정강좌,시간미지정강좌",
50,0,핵심교양,GEN7046-15045,기업경영과비즈니스전략,신민수,3,"시간미지정강좌,시간미지정강좌",
...,...,...,...,...,...,...,...,...
29,2,교양필수,CUL1138-12546,인공지능과기계학습,성기혁,2,시간미지정강좌,비지정()
30,2,교양필수,CUL1138-12547,인공지능과기계학습,성기혁,2,시간미지정강좌,비지정()
31,2,교양필수,CUL1138-12548,인공지능과기계학습,성기혁,2,시간미지정강좌,비지정()
32,2,교양필수,CUL1138-12549,인공지능과기계학습,성기혁,2,시간미지정강좌,비지정()


In [None]:
# 시간미지정강좌와 요일이 함께 있는 경우 시간미지정강좌만 제거
def clean_time_column(df):
    def clean_time(time_str):
        if pd.isna(time_str):
            return time_str

        if "시간미지정강좌" in time_str:
            # 시간미지정강좌만 있는 경우는 그대로 유지
            if time_str.strip() == "시간미지정강좌":
                return time_str

            # 시간미지정강좌와 다른 시간이 함께 있는 경우
            parts = time_str.split(",")
            cleaned_parts = []
            for part in parts:
                if "시간미지정강좌" in part:
                    # 시간미지정강좌가 포함된 부분에서 요일/시간만 추출
                    cleaned = part.replace("시간미지정강좌", "").strip()
                    if cleaned:  # 요일/시간이 있는 경우만 추가
                        cleaned_parts.append(cleaned)
                else:
                    cleaned_parts.append(part.strip())

            return ",".join(cleaned_parts)

        return time_str

    df["시간"] = df["시간"].apply(clean_time)
    return df


# 모든 파일에 대해 처리
# 교양 폴더 처리
gyoyang_path = os.path.join(base_path, "교양")
if os.path.exists(gyoyang_path):
    for filename in os.listdir(gyoyang_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(gyoyang_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            df = clean_time_column(df)
            df.to_csv(file_path, sep="\t", index=False)
            print(f"시간 컬럼 정리 완료: {file_path}")

# 전공 폴더 처리
jeongong_path = os.path.join(base_path, "전공")
if os.path.exists(jeongong_path):
    for filename in os.listdir(jeongong_path):
        if filename.endswith(".tsv"):
            file_path = os.path.join(jeongong_path, filename)
            df = pd.read_csv(file_path, sep="\t")
            df = clean_time_column(df)
            df.to_csv(file_path, sep="\t", index=False)
            print(f"시간 컬럼 정리 완료: {file_path}")

In [None]:
def analyze_time_column(base_path):
    """
    시간 컬럼의 패턴을 분석하는 함수
    """
    all_time_values = []

    # 교양 폴더 처리
    gyoyang_path = os.path.join(base_path, "교양")
    if os.path.exists(gyoyang_path):
        for filename in os.listdir(gyoyang_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(gyoyang_path, filename)
                df = pd.read_csv(file_path, sep="\t")
                all_time_values.extend(df["시간"].tolist())

    # 전공 폴더 처리
    jeongong_path = os.path.join(base_path, "전공")
    if os.path.exists(jeongong_path):
        for filename in os.listdir(jeongong_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(jeongong_path, filename)
                df = pd.read_csv(file_path, sep="\t")
                all_time_values.extend(df["시간"].tolist())

    # 패턴별 분류
    pattern1 = []  # "시간미지정강좌" + 요일 및 시간
    pattern2 = []  # "시간미지정강좌" 단어가 여러 번 등장
    pattern3 = []  # 아무 값도 없는 경우 (NaN)
    pattern4 = []  # 정상적인 시간표 데이터

    for time_val in all_time_values:
        if pd.isna(time_val) or time_val == "" or str(time_val).strip() == "":
            # 3. 아무 값도 없으면
            pattern3.append(time_val)
        elif "시간미지정강좌" in str(time_val):
            # 시간미지정강좌가 포함된 경우
            time_str = str(time_val)
            unspecified_count = time_str.count("시간미지정강좌")

            if unspecified_count > 1:
                # 2. "시간미지정강좌" 단어가 여러 번 등장
                pattern2.append(time_val)
            elif (
                unspecified_count == 1
                and len(time_str.replace("시간미지정강좌", "").replace(",", "").strip())
                > 0
            ):
                # 1. "시간미지정강좌" + 요일 및 시간
                pattern1.append(time_val)
            else:
                # 시간미지정강좌만 있는 경우
                pattern2.append(time_val)
        else:
            # 4. 정상적인 시간표 데이터
            pattern4.append(time_val)

    return pattern1, pattern2, pattern3, pattern4


# 분석 실행
base_path = "../data"
p1, p2, p3, p4 = analyze_time_column(base_path)

print("=== 시간 컬럼 분석 결과 ===")
print(f"\n1. '시간미지정강좌' + 요일 및 시간 ({len(p1)}개):")
for i, val in enumerate(p1[:10]):  # 처음 10개만 보여주기
    print(f"   {val}")
if len(p1) > 10:
    print(f"   ... 외 {len(p1)-10}개 더")

print(f"\n2. '시간미지정강좌' 단어가 여러 번 등장하거나 단독 ({len(p2)}개):")
for i, val in enumerate(p2[:10]):
    print(f"   {val}")
if len(p2) > 10:
    print(f"   ... 외 {len(p2)-10}개 더")

print(f"\n3. 아무 값도 없는 경우 ({len(p3)}개):")
for i, val in enumerate(p3[:10]):
    print(f"   {repr(val)}")
if len(p3) > 10:
    print(f"   ... 외 {len(p3)-10}개 더")

print(f"\n4. 정상적인 시간표 데이터 ({len(p4)}개):")
for i, val in enumerate(p4[:10]):
    print(f"   {val}")
if len(p4) > 10:
    print(f"   ... 외 {len(p4)-10}개 더")

In [None]:
def clean_time_column(time_val):
    """
    시간 컬럼 값을 정리하는 함수
    """
    # NaN이나 빈 값인 경우
    if pd.isna(time_val) or time_val == "" or str(time_val).strip() == "":
        return "시간미지정강좌"

    time_str = str(time_val)

    # 시간미지정강좌가 포함된 경우
    if "시간미지정강좌" in time_str:
        unspecified_count = time_str.count("시간미지정강좌")

        if unspecified_count > 1:
            # 여러 번 등장하면 "시간미지정강좌"로 통일
            return "시간미지정강좌"
        elif unspecified_count == 1:
            # 시간미지정강좌와 함께 다른 시간 정보가 있는지 확인
            clean_str = time_str.replace("시간미지정강좌", "").replace(",", "").strip()
            if len(clean_str) > 0:
                # 다른 시간 정보가 있으면 그것만 남기기
                parts = time_str.split(",")
                valid_parts = [
                    part.strip()
                    for part in parts
                    if "시간미지정강좌" not in part and part.strip()
                ]
                if valid_parts:
                    return ",".join(valid_parts)
                else:
                    return "시간미지정강좌"
            else:
                return "시간미지정강좌"

    # 정상적인 시간 데이터는 그대로 반환
    return time_str


def process_time_columns(base_path):
    """
    모든 TSV 파일의 시간 컬럼을 정리하는 함수
    """
    processed_files = []

    # 교양 폴더 처리
    gyoyang_path = os.path.join(base_path, "교양")
    if os.path.exists(gyoyang_path):
        for filename in os.listdir(gyoyang_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(gyoyang_path, filename)
                df = pd.read_csv(file_path, sep="\t")
                df["시간"] = df["시간"].apply(clean_time_column)
                df.to_csv(file_path, sep="\t", index=False)
                processed_files.append(file_path)
                print(f"시간 컬럼 정리 완료: {file_path}")

    # 전공 폴더 처리
    jeongong_path = os.path.join(base_path, "전공")
    if os.path.exists(jeongong_path):
        for filename in os.listdir(jeongong_path):
            if filename.endswith(".tsv"):
                file_path = os.path.join(jeongong_path, filename)
                df = pd.read_csv(file_path, sep="\t")
                df["시간"] = df["시간"].apply(clean_time_column)
                df.to_csv(file_path, sep="\t", index=False)
                processed_files.append(file_path)
                print(f"시간 컬럼 정리 완료: {file_path}")

    return processed_files


# 시간 컬럼 정리 실행
print("=== 시간 컬럼 정리 시작 ===")
processed_files = process_time_columns(base_path)
print(f"\n총 {len(processed_files)}개 파일의 시간 컬럼 정리 완료")

In [None]:
# 정리 후 결과 확인
print("=== 정리 후 시간 컬럼 분석 결과 ===")
p1_after, p2_after, p3_after, p4_after = analyze_time_column(base_path)

print(f"\n1. '시간미지정강좌' + 요일 및 시간 ({len(p1_after)}개):")
for i, val in enumerate(p1_after[:5]):
    print(f"   {val}")
if len(p1_after) > 5:
    print(f"   ... 외 {len(p1_after)-5}개 더")

print(f"\n2. '시간미지정강좌' 단독 ({len(p2_after)}개):")
for i, val in enumerate(p2_after[:5]):
    print(f"   {val}")
if len(p2_after) > 5:
    print(f"   ... 외 {len(p2_after)-5}개 더")

print(f"\n3. 아무 값도 없는 경우 ({len(p3_after)}개):")
for i, val in enumerate(p3_after[:5]):
    print(f"   {repr(val)}")
if len(p3_after) > 5:
    print(f"   ... 외 {len(p3_after)-5}개 더")

print(f"\n4. 정상적인 시간표 데이터 ({len(p4_after)}개):")
for i, val in enumerate(p4_after[:5]):
    print(f"   {val}")
if len(p4_after) > 5:
    print(f"   ... 외 {len(p4_after)-5}개 더")

print(f"\n=== 변경 사항 요약 ===")
print(
    f"정리 전 - 패턴1: {len(p1)}개, 패턴2: {len(p2)}개, 패턴3: {len(p3)}개, 패턴4: {len(p4)}개"
)
print(
    f"정리 후 - 패턴1: {len(p1_after)}개, 패턴2: {len(p2_after)}개, 패턴3: {len(p3_after)}개, 패턴4: {len(p4_after)}개"
)