<a href="https://colab.research.google.com/github/YisakJeong/-algorithm_team5/blob/main/Problem3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from datetime import datetime

# 1. 시간순 정렬 함수
def sort_by_date(data):
    return sorted(data, key=lambda x: datetime.strptime(x['date'], "%Y-%m-%d"))

# 2. 중복 제거 함수 (기준 키로)
def remove_duplicates(data, key_field):
    seen = set()
    result = []
    # 데이터에 있는 아이템 중에 seen()에 담기지 않은 것만 result에 넣기.
    for item in data:
        if item[key_field] not in seen:
            result.append(item)
            seen.add(item[key_field])
    return result

# 3. 가장 오래된 항목 추출 함수
def get_oldest_entry(data):
    # 정렬 되었으므로
    return data[0] if data else None

# ✅ 메인 전처리 함수
def preprocess_data(data, key_field='name'):
    print("=" * 30)
    print("데이터 전처리 결과")
    print("=" * 30)

    print("원본 데이터:")
    print(f"{len(data)}건")

    # 1. 시간순 정렬
    data_sorted = sort_by_date(data)

    # 2. 중복 제거
    data_dedup = remove_duplicates(data_sorted, key_field)
    print("중복 제거 후:")
    print(f"{len(data_dedup)}건")

    # 3. 다시 시간순 정렬 (정확한 가장 오래된 항목 보장)
    final_sorted = sort_by_date(data_dedup)
    print("시간순 정렬 결과:")
    # for을 이용하여 순서대로 프린트.
    for item in final_sorted:
        print(f"- {item['date']} | {item['name']} | {item['score']}점")

    # 4. 가장 오래된 항목 출력
    oldest = get_oldest_entry(final_sorted)
    print("가장 오래된 항목:")
    if oldest:
        print(f"{oldest['name']} ({oldest['date']})")
    else:
        print("데이터가 없습니다.")

    return final_sorted


In [None]:
data = [
    {"name": "홍길동", "date": "2023-11-01", "score": 88},
    {"name": "김철수", "date": "2023-10-21", "score": 75},
    {"name": "홍길동", "date": "2023-11-15", "score": 91},
    {"name": "이영희", "date": "2023-08-09", "score": 95}
]

preprocess_data(data)


 🤖 데이터 전처리 결과
원본 데이터:
4건
중복 제거 후:
3건
시간순 정렬 결과:
- 2023-08-09 | 이영희 | 95점
- 2023-10-21 | 김철수 | 75점
- 2023-11-01 | 홍길동 | 88점
가장 오래된 항목:
이영희 (2023-08-09)


[{'name': '이영희', 'date': '2023-08-09', 'score': 95},
 {'name': '김철수', 'date': '2023-10-21', 'score': 75},
 {'name': '홍길동', 'date': '2023-11-01', 'score': 88}]

다음을 참조해서 리스트 데이터를 정렬하고, 중복을 제거하고, 가장 오래된 값을 추출하는 preprocess_data 함수를 만들어줘

🧩 실무 알고리즘 문제 해결 가이드
문제 3: 리스트 데이터를 정렬하고, 중복을 제거하고, 가장 오래된 값을 추출하라.
✅ 1. 문제 개요 및 처리 흐름
입력: 데이터 리스트 (딕셔너리 또는 튜플 형태의 데이터)
예: 날짜, 이름, 값 등의 정보
처리 순서:
1. 시간순으로 정렬
2. 중복된 항목 제거 (기준 열로)
3. 가장 오래된 항목 출력
사용 알고리즘:
정렬: 시간순, 값 기준
해시: 중복 제거, 집계
재귀(선택적): 트리 형태 탐색 시 활용 가능
🔧 2. 전체 함수 구성 (예시 구조).
def preprocess_data(data):
 # 1. 시간순 정렬
 # 2. 중복 제거 (ex: 이름 또는 ID 기준)
 # 3. 가장 오래된 항목 반환
 pass
🧭 3. 서브 함수 구성
● 시간순 정렬 함수
def sort_by_date(data):
 # 날짜 문자열을 datetime으로 변환 후 정렬
 pass
🔍 힌트: sorted(data, key=...) 사용
datetime.strptime(date_str, "%Y-%m-%d") 활용
● 중복 제거 함수
def remove_duplicates(data, key_field):
 # key_field 기준으로 첫 항목만 유지 (나머지 제거)
 # 해시 테이블을 사용해 중복 감지 및 필터링
 pass
🔍 힌트:
아래 소스
seen = set()
result = []
for item in data:
 if item[key_field] not in seen:
 result.append(item)
 seen.add(item[key_field])
 ● 가장 오래된 값 추출 함수
def get_oldest_entry(data):
 # 정렬된 리스트에서 첫 번째 항목 반환
 pass
📂 4. 예제 데이터 구조 (리스트 of 딕셔너리)
data = [
 {"name": "홍길동", "date": "2023-11-01", "score": 88},
 {"name": "김철수", "date": "2023-10-21", "score": 75},
 {"name": "홍길동", "date": "2023-11-15", "score": 91}, # 중복 이름
 {"name": "이영희", "date": "2023-08-09", "score": 95}
]
🖥 5. 실행화면 예시
===============================
 🤖 데이터 전처리 결과
===============================
원본 데이터:
4건
중복 제거 후:
3건
시간순 정렬 결과:
- 2023-08-09 | 이영희 | 95점
- 2023-10-21 | 김철수 | 75점
- 2023-11-01 | 홍길동 | 88점
가장 오래된 항목:
이영희 (2023-08-09)


물론입니다. 아래는 **각 단계에 주석을 추가한 전체 코드**입니다. 각 함수는 무엇을 하고 왜 필요한지를 이해할 수 있도록 자세히 설명했습니다.

---

### ✅ 전처리 함수 전체 코드 (주석 포함)

```python
from datetime import datetime

# ✅ 1. 시간순 정렬 함수
def sort_by_date(data):
    """
    리스트 데이터를 'date' 필드를 기준으로 오름차순 정렬합니다.
    날짜 문자열을 datetime 객체로 변환하여 정확한 정렬을 수행합니다.
    """
    return sorted(data, key=lambda x: datetime.strptime(x['date'], "%Y-%m-%d"))

# ✅ 2. 중복 제거 함수
def remove_duplicates(data, key_field):
    """
    지정된 key_field(예: 'name')를 기준으로 중복된 항목을 제거합니다.
    먼저 등장한 항목만 유지하고, 이후 중복은 제거합니다.
    """
    seen = set()       # 중복 여부를 판단하기 위한 집합
    result = []        # 중복 제거된 결과 리스트
    for item in data:
        key_value = item[key_field]
        if key_value not in seen:
            result.append(item)
            seen.add(key_value)
    return result

# ✅ 3. 가장 오래된 항목 반환 함수
def get_oldest_entry(data):
    """
    시간순으로 정렬된 데이터 리스트 중 가장 오래된 항목(첫 번째)을 반환합니다.
    리스트가 비어 있으면 None 반환.
    """
    return data[0] if data else None

# ✅ 4. 메인 전처리 함수
def preprocess_data(data, key_field='name'):
    """
    전체 전처리 흐름을 담당합니다:
    1. 시간순으로 정렬
    2. 중복 제거 (기준 필드로)
    3. 다시 정렬하여 가장 오래된 항목 추출
    전처리 결과를 콘솔에 출력합니다.
    """
    print("=" * 30)
    print(" 🤖 데이터 전처리 결과")
    print("=" * 30)

    print("원본 데이터:")
    print(f"{len(data)}건")  # 전체 데이터 수

    # 1단계: 시간순 정렬
    data_sorted = sort_by_date(data)

    # 2단계: 중복 제거 (예: 'name' 기준)
    data_dedup = remove_duplicates(data_sorted, key_field)
    print("중복 제거 후:")
    print(f"{len(data_dedup)}건")  # 중복 제거 후 데이터 수

    # 3단계: 다시 시간순 정렬 (중복 제거 후에도 순서 보장)
    final_sorted = sort_by_date(data_dedup)
    print("시간순 정렬 결과:")
    for item in final_sorted:
        print(f"- {item['date']} | {item['name']} | {item['score']}점")

    # 4단계: 가장 오래된 항목 추출
    oldest = get_oldest_entry(final_sorted)
    print("가장 오래된 항목:")
    if oldest:
        print(f"{oldest['name']} ({oldest['date']})")
    else:
        print("데이터가 없습니다.")

    return final_sorted  # 전처리된 전체 데이터 반환
```

---

### 🧪 사용 예시

```python
data = [
    {"name": "홍길동", "date": "2023-11-01", "score": 88},
    {"name": "김철수", "date": "2023-10-21", "score": 75},
    {"name": "홍길동", "date": "2023-11-15", "score": 91},  # 중복
    {"name": "이영희", "date": "2023-08-09", "score": 95}
]

preprocess_data(data)
```

---

필요하시면 `score` 기준 정렬, 날짜 포맷 커스터마이징 등도 추가 가능합니다. 원하시나요?