# 🔍 검색 알고리즘(Search Algorithms)

데이터에서 원하는 값을 **찾기 위한 알고리즘**. 상황에 따라 성능이 크게 다르기 때문에 사용 목적과 데이터 구조에 따라 적절한 알고리즘을 선택해야 함.

---

## 1. 순차 검색 (선형 검색, Sequential Search)

* **설명**: 데이터를 **처음부터 끝까지 하나씩 비교**하며 찾는다.
* **조건**: 데이터가 **정렬되어 있지 않아도** 된다.
* **시간복잡도**:

  * 최악: O(n)
  * 평균: O(n/2) ≈ O(n)

```python
def linear_search(data, target):
    for i in range(len(data)):
        if data[i] == target:
            return i
    return -1
```

* **예시**

  ```text
  데이터: [1, 2, 3, 4, 5]
  찾는 값: 3 → 3번째에서 찾음 → O(3)
  ```

---

## 2. 색인 순차 검색 (Indexed Sequential Search)

* **설명**: **색인(index)** 정보를 먼저 검색해 **해당 범위만 순차적으로 검색**
* **전제**: 데이터는 **정렬되어 있어야** 함
* **특징**:

  * **색인 테이블** + **원본 데이터 영역**을 나눔
  * 색인 범위를 통해 검색 범위를 **좁힌 후** 순차 검색 수행
* **시간복잡도**: O(√n) 정도 (색인 탐색 + 범위 내 선형 탐색)

---

## 3. 이분 검색 (Binary Search)

* **설명**: 데이터를 **절반으로 나누어 탐색**.
  찾는 값이 **중간보다 작으면 왼쪽**, 크면 **오른쪽** 탐색.
* **조건**: 반드시 **정렬된 데이터**에서만 사용 가능
* **시간복잡도**: O(log₂n)

```python
def binary_search(data, target):
    left, right = 0, len(data) - 1
    while left <= right:
        mid = (left + right) // 2
        if data[mid] == target:
            return mid
        elif data[mid] < target:
            left = mid + 1
        else:
            right = mid - 1
    return -1
```

* **단점**:

  * 정렬되지 않은 데이터는 사용 불가
  * **데이터 변경이 잦은 경우** 매번 정렬해야 하므로 비효율적

---

## 4. 해시 검색 (Hash Search)

* **설명**: **해시 함수를 통해** 데이터를 저장하고 검색
* **시간복잡도**: 이론상 **O(1)** (충돌이 없다면)
* **구현 도구**:

  * Python의 `dict`
  * Java의 `HashMap`
  * C++의 `unordered_map`
* **단점**:

  * **메모리 사용량 많음**
  * 충돌 발생 시 별도의 처리 필요 (체이닝, 개방 주소법 등)
  * 구현이 비교적 복잡함

```python
data = {"apple": 3, "banana": 5}
print(data["apple"])  # O(1)
```

* **Trade-off (트레이드 오프)**:

  * 속도 vs. 메모리
  * 구현 단순성 vs. 복잡도

---

## 📊 비교 요약

| 알고리즘     | 정렬 필요 | 평균 시간복잡도 | 특징                    |
| -------- | ----- | -------- | --------------------- |
| 순차 검색    | ❌     | O(n)     | 단순, 정렬 불필요            |
| 색인 순차 검색 | ✅     | O(√n)    | 색인 + 범위 좁힌 후 선형 탐색    |
| 이분 검색    | ✅     | O(log n) | 빠름, 정렬 필요, 변경 잦으면 비효율 |
| 해시 검색    | ❌     | O(1)     | 매우 빠름, 메모리↑, 충돌 관리 필요 |


In [1]:
# 정수 리스트에서 값 찾기 (순차 검색)
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
key = 5  # 찾고자 하는 값
find = -1  # 못 찾은 상태를 의미

for i in range(len(a)):
    if key == a[i]:
        find = i
        break

# 일반화된 순차 검색 함수 (값이 같은 인덱스 반환, 없으면 -1)
def myfilter(a_list, key):
    for i in range(len(a_list)):
        if key == a_list[i]:
            return i
    return -1

# 예시:
# pos = myfilter(a, 4)
# print(pos)

# 문자열 리스트 예시
# colors = ["red", "green", "blue", "cyan", "gray"]
# pos = myfilter(colors, "cyan")
# print(pos)

# 딕셔너리 리스트 예시
a = [
    {"name": "A", "age": 10},
    {"name": "B", "age": 11},
    {"name": "C", "age": 12},
    {"name": "D", "age": 13},
    {"name": "E", "age": 14},
]

# pos = myfilter(a, {"name": "C", "age": 12})
# print(pos)

# 조건 함수를 받아서 검색하는 함수 (람다 등 활용)
def myfilter2(func_key, a_list):
    for i in range(len(a_list)):
        if func_key(a_list[i]):
            return i
    return -1

# 예시: name이 "C"인 딕셔너리의 인덱스 찾기
pos = myfilter2(lambda x: x["name"] == "C", a)
print(pos)


2


# 🔃 정렬(Sorting)

**정렬**이란 데이터를 \*\*특정 순서(오름차순/내림차순)\*\*로 **정리**하는 과정이다.
정렬은 **검색**, **분석**, **시각화** 등 여러 작업의 전처리로 매우 중요하다.

---

## 🧩 정렬과 데이터베이스

* **SQL 기반 데이터베이스**에서는 정렬이 쿼리에서 자동으로 지원됨:

  ```sql
  SELECT * FROM users ORDER BY age ASC;
  ```
* 하지만 **파일 기반 처리나 메모리 처리** 상황에서는 **프로그래머가 직접 구현**해야 한다.

---

## 📈 정렬 방식

* **오름차순 정렬**: 작은 값 → 큰 값
* **내림차순 정렬**: 큰 값 → 작은 값

---

## 🛠️ 대표적인 정렬 알고리즘

| 정렬 알고리즘                | 시간복잡도 (평균) | 특징            |
| ---------------------- | ---------- | ------------- |
| 선택 정렬 (Selection Sort) | O(n²)      | 구현 간단, 느림     |
| 버블 정렬 (Bubble Sort)    | O(n²)      | 느림, 거의 사용 안 함 |
| 퀵 정렬 (Quick Sort)      | O(n log n) | 빠름, 실무 사용 많음  |

---

## 🔎 선택 정렬 (Selection Sort)

### 💡 개념 요약

> **"리스트에서 가장 작은(또는 큰) 값을 찾아서 맨 앞에 보내고,
> 다음 작은 값을 찾아 그 다음 위치로 보내는 방식"**

* 총 **N개의 원소**가 있으면, **N-1번 반복**함
* 각 반복에서 \*\*최솟값(또는 최댓값)\*\*의 위치를 찾아 현재 위치와 **교환(swap)**

---

### 📘 오름차순 선택 정렬 예시

초기 데이터:
`[5, 1, 2, 4, 3]`

#### ✅ 단계별 정리

| 단계 | 작업 내용                       | 리스트 상태            |
| -- | --------------------------- | ----------------- |
| 1  | 0번째 이후에서 가장 작은 값 1 → 0번과 교환 | `[1, 5, 2, 4, 3]` |
| 2  | 1번째 이후에서 가장 작은 값 2 → 1번과 교환 | `[1, 2, 5, 4, 3]` |
| 3  | 2번째 이후에서 가장 작은 값 3 → 2번과 교환 | `[1, 2, 3, 4, 5]` |
| 4  | 3, 4 중 4가 가장 작으므로 교환 없음     | `[1, 2, 3, 4, 5]` |

---

### 🧪 Python 구현 예시

```python
def selection_sort(arr):
    n = len(arr)
    for i in range(n - 1):
        min_idx = i
        for j in range(i + 1, n):
            if arr[j] < arr[min_idx]:
                min_idx = j
        arr[i], arr[min_idx] = arr[min_idx], arr[i]

data = [5, 1, 2, 4, 3]
selection_sort(data)
print("정렬 결과:", data)  # [1, 2, 3, 4, 5]
```

---

## 🧠 요약

* 선택 정렬은 **단순하고 구현하기 쉬움**
* 그러나 \*\*시간복잡도 O(n²)\*\*로 대규모 데이터에는 부적합
* 학습용/이해용으로 적합하고, 정렬 알고리즘의 기본 개념 파악에 유용


In [4]:
def selectSort(dataList, key):
    """
    선택 정렬(Selection Sort) 알고리즘.
    dataList의 원소를 key 함수 기준으로 오름차순 정렬한 새로운 리스트를 반환.
    원본 dataList는 변경하지 않음(깊은 복사 사용).

    Args:
        dataList (list): 정렬할 데이터 리스트
        key (function): 정렬 기준이 될 함수

    Returns:
        list: 정렬된 새로운 리스트
    """
    # 깊은 복사(원본 변경 방지)
    aList = [x for x in dataList]
    n = len(aList)
    for i in range(n - 1):
        min_idx = i
        for j in range(i + 1, n):
            # key 함수 기준으로 더 작은 값 찾기
            if key(aList[j]) < key(aList[min_idx]):
                min_idx = j
        # 최솟값을 현재 위치와 교환
        aList[i], aList[min_idx] = aList[min_idx], aList[i]
    return aList

In [5]:
# 숫자 리스트 예시
a = [5, 1, 2, 4, 3]
b = selectSort(a, key=lambda x: x)
print(a)  # 원본 리스트
print(b)  # 정렬된 리스트

[5, 1, 2, 4, 3]
[1, 2, 3, 4, 5]


In [6]:
# 딕셔너리 리스트 예시
a = [
    {"name": "A", "age": 12},
    {"name": "C", "age": 11},
    {"name": "E", "age": 13},
    {"name": "D", "age": 14},
    {"name": "B", "age": 15}
]
b = selectSort(a, key=lambda x: x["name"])
print(a)  # 원본 리스트
print(b)  # name 기준 정렬된 리스트

[{'name': 'A', 'age': 12}, {'name': 'C', 'age': 11}, {'name': 'E', 'age': 13}, {'name': 'D', 'age': 14}, {'name': 'B', 'age': 15}]
[{'name': 'A', 'age': 12}, {'name': 'B', 'age': 15}, {'name': 'C', 'age': 11}, {'name': 'D', 'age': 14}, {'name': 'E', 'age': 13}]


# 가변 매개함수
함수의 매개변수 개수가 바뀌는 경우에 사용

# 가변 매개변수
매개변수 앞에 *을 붙이면 여러 개의 인자를 tuple로 받을 수 있음

In [8]:
def myadd(*args):
    """
    전달받은 모든 인자를 출력하는 함수
    """
    print(type(args))  # args는 tuple 타입
    for a in args:
        print(a)

myadd(1, 2)
myadd(1, 2, 3)

<class 'tuple'>
1
2
<class 'tuple'>
1
2
3


In [9]:
def myadd2(*data):
    """
    전달받은 모든 숫자를 더해서 반환하는 함수
    """
    s = 0
    for i in data:
        s += i
    return s

print(myadd2(1, 3, 5))
print(myadd2(1, 3, 5, 7, 9))
print(myadd2(1, 3, 5, 10, 12, 13))

9
25
44


In [10]:
# 일반 인자와 가변 인자를 함께 쓸 때는 일반 인자가 먼저 와야 함
def myadd3(n, *data):
    """
    첫 번째 인자 n과, 이후 가변 인자 data를 출력
    """
    print("n:", n)
    for i in data:
        print(i)

myadd3(1, 2, 3, 4, 5)

n: 1
2
3
4
5


In [11]:
# 딕셔너리 타입을 매개변수로 넘길 수도 있음
def myfunc(d):
    """
    딕셔너리 인자를 받아 출력
    """
    print(d)

person = {"name": "홍길동", "age": 12}
myfunc(person)

{'name': '홍길동', 'age': 12}


In [12]:
# **을 사용하면 키워드 인자를 dict로 받을 수 있음
def myfunc2(**d):
    """
    키워드 인자를 dict로 받아 출력
    """
    print(d)

myfunc2(name="홍길동", age=23)

{'name': '홍길동', 'age': 23}


In [13]:
# 일반 인자, tuple 인자, dict 인자를 모두 사용하는 예제 (순서 중요)
def profile(rule, *skills, **details):
    """
    rule: 일반 인자
    *skills: 가변 positional 인자 (tuple)
    **details: 가변 keyword 인자 (dict)
    """
    print("rule:", rule)
    print("skills:", skills)
    print("details:", details)

profile(
    "programmer", "python", "react", "deeplearnning",
    yearpay=100000000000, position="개발자"
)

rule: programmer
skills: ('python', 'react', 'deeplearnning')
details: {'yearpay': 100000000000, 'position': '개발자'}
