<a href="https://colab.research.google.com/github/WooHyunJ/Data_Algorithm/blob/main/0_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D_%EA%B8%B0%EB%B3%B8_%EB%8D%B0%EC%9D%B4%ED%84%B0_%ED%83%80%EC%9E%85_2%ED%8E%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **0. 오늘의 목표**

* `list / tuple / dict / set`를 **데이터 분석 관점**에서 구분하고, 상황별로 올바르게 선택할 수 있다.
* 컨테이너 타입을 **순서/중복/가변성/접근 방식(인덱스 vs 키 vs 포함)** 기준으로 설명할 수 있다.
* 중첩 구조를 통해 **행렬(matrix)** 과 **텐서(tensor)** 를 “shape(형태)” 관점에서 이해한다.
* 패턴(집계/그룹화/중복 제거/멤버십 체크/행렬 카운팅)을 파이썬 코드로 구현할 수 있다.

## **1. 데이터 분석에서 컨테이너 타입을 보는 관점(4가지 기준)**

- 데이터 분석에서는 “문법”보다도 **어떤 구조가 어떤 작업에 유리한지**가 중요하다.

- `list / tuple / dict / set`은 아래 4가지 기준으로 빠르게 결정한다.


### **1-1) 순서가 중요한가? (ordered)**

* 중요함: `list`, `tuple`
* 덜 중요함: `dict`(키 접근이 중심), `set`(순서 없음)


### **1-2) 중복을 허용해야 하는가?**

* 허용: `list`, `tuple`
* 제한: `dict`(키는 중복 불가), `set`(원소 중복 불가)

### **1-3) 수정이 필요한가? (mutable)**

* 수정 가능: `list`, `dict`, `set`
* 수정 불가(기록형): `tuple`

### **1-4) 어떻게 접근해야 하는가?**

* 인덱스로 접근: `list`, `tuple`
* 키로 접근: `dict`
* 존재 여부(포함 검사): `set`

| 구분 기준                       | `list` | `tuple`   | `dict`                  | `set`          |
| --------------------------- | ------ | --------- | ----------------------- | -------------- |
| **순서(ordered)가 중요한가?** | 중요함    | 중요함       | 덜 중요함(키 접근 중심, 삽입순서 유지) | 해당 없음(순서 없음)   |
| **중복을 허용해야 하는가?**      | 허용     | 허용        | 키 중복 불가(값은 가능)          | 원소 중복 불가       |
| **수정(mutable)이 필요한가?** | 수정 가능  | 수정 불가(불변) | 수정 가능                   | 수정 가능          |
| **어떻게 접근하는가?**         | 인덱스 접근 | 인덱스 접근    | 키(key) 접근               | 포함 검사(`in`) 중심 |


## **2. list: “순서가 있는 값의 모음(수정 가능)”**

### **2-1) 생성과 인덱싱**

In [None]:
nums = [10, 20, 30]


In [None]:
# print(nums[0])     # 10
# print(nums[-2])    # 30
# print(nums[1:])   # [10, 20]

[20, 30]


### **2-2) list가 데이터 분석에서 자주 쓰이는 이유**

* 데이터를 “일단 모아두기”에 최적

  * 예: 필터링 결과, 전처리 결과, 레코드 리스트
* 순서가 유지되므로, 시간순/입력순 데이터에 자연스럽다.
* 중첩하면 2차원(행렬)도 만들 수 있다.


### **2-3) 자주 쓰는 메서드**
```python
arr = [1, 2, 3]
arr.append(4)          # 끝에 추가
arr.extend([5, 6])     # 여러 개 붙이기
arr.insert(1, 99)      # 특정 위치에 삽입

x = arr.pop()          # 끝 원소 꺼내며 삭제
arr.remove(99)         # 값 기준 삭제(첫 번째만)
```

In [None]:
arr = [1, 2, 3]
# arr.append(5)          # 끝에 추가
# arr.extend([5, 6, 7])     # 여러 개 붙이기
arr.insert(1, [1,99])      # 특정 위치에 삽입

# x = arr.pop()          # 끝 원소 꺼내며 삭제
# arr.remove(99)         # 값 기준 삭제(첫 번째만)

arr

[1, [1, 99], 2, 3]

In [None]:
arr = [1, 2, 3]
in_ = [1,99]

arr[1:1] = in_

arr

[1, 1, 99, 2, 3]

### **2-4) 리스트 컴프리헨션(변환/필터)**

```python
scores = [50, 80, 90]

scaled = [s / 100 for s in scores]          # 변환
passed = [s for s in scores if s >= 60]     # 필터
labels = ["P" if s >= 60 else "F" for s in scores]

In [None]:
scores = [50, 80, 90]

scores

scaled = [s / 100 for s in scores]          # 변환
passed = [s for s in scores if s >= 60]     # 필터
labels = ["P" if s >= 60 else "F" for s in scores]

labels

['F', 'P', 'P']

### **2-5) 중첩 리스트(행렬)**

```python
mat = [
    [1, 2, 3],
    [4, 5, 6],
]
print(mat[0][1])  # 2 (0행 1열)
```

In [None]:
mat = [
    [1, 2, 3],
    [4, 5, 6],
]

mat

[[1, 2, 3], [4, 5, 6]]

### **2-6) 매우 중요: 얕은 복사 함정**

행렬을 만들 때 아래 코드는 **거의 반드시 사고**가 난다.

```python
bad = [[0]*3]*2
bad[0][0] = 9
print(bad)  # [[9,0,0],[9,0,0]]  <-- 둘 다 바뀜
```

정답:

```python
good = [[0]*3 for _ in range(2)]
good[0][0] = 9
print(good)  # [[9,0,0],[0,0,0]]
```


## **3. tuple: “순서가 있는 값의 모음(수정 불가)”**



### **3-1) tuple이 필요한 순간**

* “이 값들은 세트로 묶이지만 바뀌면 안 된다”
* 데이터 분석에서 **좌표/복합키/기록**을 안전하게 표현할 때

```python
point = (3, 5)
# point[0] = 10  # 에러: tuple은 수정 불가
```


### **3-2) 언패킹**

```python
user = ("kim", 29, "Seoul")
name, age, city = user
print(name, age, city)
```

### **3-3) tuple은 dict의 키가 될 수 있다**

```python
sales = {
    ("A", "2025-12-01"): 10,
    ("A", "2025-12-02"): 7,
}
print(sales[("A", "2025-12-02")])
```

## **4. dict: “키 → 값 매핑(레코드/집계/그룹화의 중심)”**


key가 될 수 있는 것과 없는 것

### **4-1) 레코드 1개는 dict 1개로 표현 가능**

```python
row = {"user": "kim", "text": "hi", "len": 2}
print(row["user"])
```

In [None]:
row = {"user": "kim", "text": "hi", "len": 2}
print(row["user"])

kim


### **4-2) 안전한 조회: get**

```python
row = {"user": "kim"}
print(row.get("age"))       # None
print(row.get("age", 0))    # 기본값
```

### **4-3) 카운팅(집계) 패턴**

```python
names = ["kim", "lee", "kim", "park", "kim"]

counts = {}
for n in names:
    counts[n] = counts.get(n, 0) + 1

print(counts)  # {'kim': 3, 'lee': 1, 'park': 1}
```

In [None]:
names = ["kim", "lee", "kim", "park", "kim"]

counts = {}

for n in names:
  if n not in counts:
    counts[n] = 1
  else :
    counts[n] += 1

print(counts)

{'kim': 3, 'lee': 1, 'park': 1}


In [None]:
cnt = {}

for n in names:
  cnt[n] = names.count(n)

cnt


{'kim': 3, 'lee': 1, 'park': 1}

### **4-4) 그룹화(group by) 패턴**

```python
rows = [
    {"user": "kim", "score": 80},
    {"user": "lee", "score": 90},
    {"user": "kim", "score": 70},
]

group = {}  # user -> [scores]
for r in rows:
    u = r["user"]
    group.setdefault(u, []).append(r["score"])

print(group)  # {'kim': [80, 70], 'lee': [90]}
```

In [None]:
rows = [
    {"user": "kim", "score": 80},
    {"user": "lee", "score": 90},
    {"user": "kim", "score": 70},
]

group = {}  # user -> [scores]


In [None]:
# for r in rows:
#     u = r["user"]
#     group.setdefault(u, []).append(r["score"])

# print(group)

{'kim': [80, 70], 'lee': [90]}


### **4-5) dict 컴프리헨션**

```python
scores = {"kim": 80, "lee": 92, "park": 55}
grade = {name: ("A" if s >= 90 else "B" if s >= 70 else "C")
         for name, s in scores.items()}
print(grade)
```

In [None]:
scores = {"kim": 80, "lee": 92, "park": 55}


grade = {name: ("A" if s >= 90 else "B" if s >= 70 else "C") for name, s in scores.items()}

print(grade)

{'kim': 'B', 'lee': 'A', 'park': 'C'}


## **5. set: “중복 제거 + 빠른 포함 검사 + 집합 연산”**

### **5-1) 중복 제거**

```python
vals = [1, 1, 2, 3, 3, 3]
unique = set(vals)
print(unique)  # {1, 2, 3}
```

### **5-2) 빠른 멤버십 체크**

```python
banned = {"spam", "ad", "bot"}
msg = "spam"
print(msg in banned)  # True
```

### **5-3) 집합 연산(교집합/합집합/차집합)**

```python
A = {"kim", "lee", "park"}
B = {"lee", "choi"}

print(A & B)  # {'lee'}
print(A | B)  # 합집합
print(A - B)  # 차집합
```

In [None]:
A = {"kim", "lee", "park"}
B = {"lee", "choi"}

print(A & B)
print(A | B)  # 합집합
print(B-A)  # 차집합


{'lee'}
{'kim', 'choi', 'park', 'lee'}
{'choi'}


{'choi', 'kim', 'park'}


### **5-4) 데이터 비교에서 자주 쓰는 자카드 유사도**

```python
A = {"a", "b", "c"}
B = {"b", "c", "d"}
jaccard = len(A & B) / len(A | B)
print(jaccard)  # 0.5
```

## **6. 행렬(matrix): “2차원 데이터(행, 열) = 2D 텐서”**



### **6-1) 행렬은 shape가 (행, 열)**

```python
mat = [
    [1, 2, 3],
    [4, 5, 6],
]
rows = len(mat)
cols = len(mat[0])
print(rows, cols)  # 2 3
```

### **6-2) 전치(transpose): 행↔열**

```python
mat = [
    [1, 2, 3],
    [4, 5, 6],
]

T = [[mat[r][c] for r in range(len(mat))] for c in range(len(mat[0]))]
print(T)  # [[1,4],[2,5],[3,6]]
```


### **6-3) 행/열 합(기초 집계)**

```python
row_sums = [sum(row) for row in mat]
col_sums = [sum(mat[r][c] for r in range(len(mat))) for c in range(len(mat[0]))]
print(row_sums, col_sums)
```

## **7. 텐서(tensor): “n차원 배열(행렬의 일반화)”**

### **7-1) 텐서의 핵심 용어**

* `ndim`: 차원 수
* `shape`: 각 차원의 길이

예시:

* 0D 스칼라: `()`
* 1D 벡터: `(D,)`
* 2D 행렬: `(R, C)`
* 3D 텐서: `(A, B, C)`


In [None]:
[[[1,2,3,4,5,6],[1,2,3,4,5,6]],[[1,2,3,4,5,6],[1,2,3,4,5,6]]]

### **7-2)  예시로 이해하기**

* 흑백 이미지 1장: `(height, width)`
* 컬러 이미지 1장: `(height, width, channel)`
* 이미지 여러 장(배치): `(batch, height, width, channel)`
* 시계열 데이터: `(time, features)` 또는 `(batch, time, features)`

### **7-3) NumPy로 텐서 감각 잡기**

```python
import numpy as np

x = np.zeros((2, 3, 4))   # 3D 텐서
print(x.ndim)             # 3
print(x.shape)            # (2, 3, 4)

print(x[0].shape)         # (3, 4)
```

In [None]:
import numpy as np

x = np.zeros((2, 3, 4))   # 3D 텐서
print(x.ndim)             # 3
print(x.shape)            # (2, 3, 4)

print(x[0].shape)         # (3, 4)


3
(2, 3, 4)
(3, 4)


### **7-4) reshape: 모양만 바꾸기(원소 수는 유지)**

```python
v = np.arange(12)
m = v.reshape(3, 4)
t = v.reshape(2, 2, 3)

print(m.shape, t.shape)   # (3,4) (2,2,3)
```

## **8. 연습 문제(문제만)**

아래는 채팅 로그(레코드 1개 = dict 1개)이다.

```python
logs = [
  {"user": "kim", "text": "hi"},
  {"user": "lee", "text": "hello"},
  {"user": "kim", "text": "bye"},
  {"user": "park", "text": "hi"},
  {"user": "kim", "text": "hi"},
]
```