<a href="https://colab.research.google.com/github/YisakJeong/-algorithm_team5/blob/main/Problem3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [8]:
from datetime import datetime

# 1. 시간순 정렬 함수
def sort_by_date(data):
    # data 열을 기준으로 sort.
    return sorted(data, key=lambda x: datetime.strptime(x['date'], "%Y-%m-%d"))

# 2. 중복 제거 함수 (기준 키로)
def remove_duplicates(data, key_field):
    # seen은 관찰된 item을 담는다
    seen = set()
    # result는 중복 제거된 리스트
    result = []
    # 중복 제거
    for item in data:
        # item의 key가 seen에 없는 경우, result 및 seen에 추가
        if item[key_field] not in seen:
            result.append(item)
            seen.add(item[key_field])
    return result

# 3. 가장 오래된 항목 추출 함수
def get_oldest_entry(data):
    # 정렬된 데이터의 첫번째 element 추출
    return data[0] if data else None

# 4. 이상치 제거 함수 (score가 0~100 범위를 벗어나면 제거)
def outlier(data):
    return [item for item in data if 0 <= item.get("score", 0) <= 100]

# 5. 누락된 값 처리 함수
def missing(data):
    # 빈 리스트 생성
    cleaned = []
    scores = []

    for item in data:
        # 각 item의 feature 추출
        name = item.get("name")
        date = item.get("date")
        score = item.get("score")

        # named이나 date가 비었으면 cleaned.append() 생략
        if not name or not date:
            continue

        # 정상 범위 내의 score를 scores에 추가
        if score is not None and 0 <= score <= 100:
            scores.append(score)

        cleaned.append(item)

    # score 평균
    avg_score = sum(scores) / len(scores) if scores else 0

    # score만 빈 아이템에 평균 점수 채우기
    for item in cleaned:
        if item.get("score") is None:
            item["score"] = round(avg_score)

    return cleaned

# ✅ 메인 전처리 함수
def preprocess_data(data, key_field='name'):
    print("=" * 30)
    print("데이터 전처리 결과")
    print("=" * 30)

    print("원본 데이터:")
    print(f"{len(data)}건")

    # 1. 누락값 처리
    data = missing(data)

    # 2. 이상치 제거
    data = outlier(data)

    # 3. 시간순 정렬
    data_sorted = sort_by_date(data)

    # 4. 중복 제거
    data_dedup = remove_duplicates(data_sorted, key_field)
    print("중복 제거 후:")
    print(f"{len(data_dedup)}건")

    # 5. 정렬된 데이터 출력
    final_sorted = sort_by_date(data_dedup)
    print("시간순 정렬 결과:")
    for item in final_sorted:
        print(f"- {item['date']} | {item['name']} | {item['score']}점")

    # 6. 가장 오래된 항목 출력
    oldest = get_oldest_entry(final_sorted)
    print("가장 오래된 항목:")
    if oldest:
        print(f"{oldest['name']} ({oldest['date']})")
    else:
        print("데이터가 없습니다.")

    return final_sorted


In [9]:
data = [
    {"name": "홍길동", "date": "2023-11-01", "score": 338},  # 이상치
    {"name": "김철수", "date": "2023-10-21", "score": 75},
    {"name": "홍길동", "date": "2023-11-15", "score": None}, # score 누락
    {"name": "이영희", "date": "2023-08-09", "score": 95},
    {"name": "", "date": "2023-10-01", "score": 50},         # name 누락
    {"name": "이민호", "date": "", "score": 70},              # date 누락
    {"name": "강다현", "date": "2023-10-10"}                  # score 누락
]

preprocess_data(data)

데이터 전처리 결과
원본 데이터:
7건
중복 제거 후:
4건
시간순 정렬 결과:
- 2023-08-09 | 이영희 | 95점
- 2023-10-10 | 강다현 | 85점
- 2023-10-21 | 김철수 | 75점
- 2023-11-15 | 홍길동 | 85점
가장 오래된 항목:
이영희 (2023-08-09)


[{'name': '이영희', 'date': '2023-08-09', 'score': 95},
 {'name': '강다현', 'date': '2023-10-10', 'score': 85},
 {'name': '김철수', 'date': '2023-10-21', 'score': 75},
 {'name': '홍길동', 'date': '2023-11-15', 'score': 85}]