In [1]:
import os
import zipfile
import pandas as pd

# ✅ 압축 파일 경로
ZIP_FILE = "/home/sophia435256/workspace2/dataset/korea_china_word_bag.zip"
EXTRACT_PATH = "/home/sophia435256/workspace2/dataset/korea_china_word_bag"

# ✅ 1. ZIP 압축 해제
if not os.path.exists(EXTRACT_PATH):  # 폴더가 없을 때만 압축 해제
    with zipfile.ZipFile(ZIP_FILE, 'r') as zip_ref:
        zip_ref.extractall(EXTRACT_PATH)
    print(f"✅ 압축 해제 완료: {EXTRACT_PATH}")
else:
    print(f"✅ 이미 압축이 해제됨: {EXTRACT_PATH}")

# ✅ 2. 폴더 및 파일 구조 출력
print("\n📂 데이터셋 디렉토리 구조:")
for root, dirs, files in os.walk(EXTRACT_PATH):
    level = root.replace(EXTRACT_PATH, "").count(os.sep)
    indent = " " * 4 * level
    print(f"{indent}📁 {os.path.basename(root)}/")
    for file in files:
        print(f"{indent}    📄 {file}")

# ✅ 3. CSV 파일 목록 가져오기
csv_files = []
for root, _, files in os.walk(EXTRACT_PATH):
    for file in files:
        if file.endswith(".csv"):
            csv_files.append(os.path.join(root, file))

print(f"\n📌 총 {len(csv_files)}개의 CSV 파일이 발견됨.")

# ✅ 4. 첫 번째 CSV 파일 샘플 데이터 출력
if csv_files:
    sample_csv = csv_files[0]
    print(f"\n🔍 샘플 데이터 파일: {sample_csv}")

    # CSV 파일 불러오기 (UTF-8 또는 EUC-KR 인코딩 감지)
    try:
        df = pd.read_csv(sample_csv, encoding="utf-8-sig")
    except UnicodeDecodeError:
        df = pd.read_csv(sample_csv, encoding="euc-kr")

    # CSV 컬럼 확인
    print("\n📌 CSV 컬럼 목록:")
    print(df.columns.tolist())

    # 첫 5개 데이터 출력
    print("\n📌 첫 5개 샘플 데이터:")
    print(df.head())
else:
    print("❌ CSV 파일이 없습니다!")


✅ 압축 해제 완료: /home/sophia435256/workspace2/dataset/korea_china_word_bag

📂 데이터셋 디렉토리 구조:
📁 korea_china_word_bag/
    📁 korea_china_word_bag/
        📁 Validation/
            📄 ko2zh_auto_2_validation.csv
            📄 ko2zh_patent_2_validation.csv
            📄 ko2zh_medical_2_validation.csv
            📄 ko2zh_it_tech_2_validation.csv
        📁 Training/
            📄 ko2zh_medical_1_training.csv
            📄 ko2zh_auto_1_training.csv
            📄 ko2zh_patent_1_training.csv
            📄 ko2zh_it_tech_1_training.csv

📌 총 8개의 CSV 파일이 발견됨.

🔍 샘플 데이터 파일: /home/sophia435256/workspace2/dataset/korea_china_word_bag/korea_china_word_bag/Validation/ko2zh_auto_2_validation.csv

📌 CSV 컬럼 목록:
['관리번호', '분야', '한국어', '중국어', '한국어_어절수', '중국어_글자수', '길이_분류', '출처', '수행기관']

📌 첫 5개 샘플 데이터:
                     관리번호            분야  \
0  KO-ZH-2020-AUTO-240392  자동차/부품/교통/소재   
1  KO-ZH-2020-AUTO-240393  자동차/부품/교통/소재   
2  KO-ZH-2020-AUTO-240394  자동차/부품/교통/소재   
3  KO-ZH-2020-AUTO-240395  자동차/부품/교통/소재   
