# 10. NumPy 기초

## 문법 설명

### 1. NumPy 배열 (ndarray)

**정의**: 다차원 배열을 효율적으로 처리하는 자료구조입니다.

**임포트**:
```python
import numpy as np
```

**배열 생성**:
| 함수 | 설명 | 예시 |
|------|------|------|
| `np.array(리스트)` | 리스트에서 배열 생성 | `np.array([1,2,3])` |
| `np.zeros(shape)` | 0으로 채운 배열 | `np.zeros((3,3))` |
| `np.ones(shape)` | 1로 채운 배열 | `np.ones((2,2))` |
| `np.arange(시작, 끝, 증가분)` | 범위 배열 | `np.arange(0, 10, 2)` |
| `np.linspace(시작, 끝, 개수)` | 균등 간격 배열 | `np.linspace(0, 1, 5)` |
| `np.random.rand(shape)` | 랜덤 배열 (0~1) | `np.random.rand(3,3)` |

**배열 속성**:
- `arr.shape`: 차원 크기 `(행, 열)`
- `arr.dtype`: 데이터 타입
- `arr.size`: 전체 요소 개수
- `arr.ndim`: 차원 수

---

### 2. 배열 연산

**산술 연산** (요소별):
- `+`, `-`, `*`, `/`: 요소별 연산
- `**`: 거듭제곱
- `np.sqrt()`, `np.exp()`, `np.log()`: 수학 함수

**집계 함수**:
| 함수 | 설명 | 예시 |
|------|------|------|
| `np.sum()` | 합계 | `np.sum(arr)` |
| `np.mean()` | 평균 | `np.mean(arr)` |
| `np.std()` | 표준편차 | `np.std(arr)` |
| `np.min()`, `np.max()` | 최소/최대 | `np.min(arr)` |
| `axis` 파라미터 | 축 지정 | `np.sum(arr, axis=0)` |

**인덱싱과 슬라이싱**:
- `arr[인덱스]`: 요소 접근
- `arr[시작:끝]`: 슬라이싱
- `arr[조건]`: 불리언 인덱싱

---

## 실습 시작

아래 실습을 통해 위 문법들을 직접 사용해봅니다.

---

## NumPy가 AI에서 중요한 이유

- **수치 연산 최적화**: Python 리스트보다 수십 배 빠른 연산
- **다차원 배열**: 이미지, 텍스트 임베딩, 시계열 등 다양한 데이터 표현
- **생태계 기반**: PyTorch, TensorFlow, scikit-learn 등 모든 AI 라이브러리가 NumPy 기반

---
## 10.1 NumPy 배열 기초

### 10.1.1 ndarray 생성

In [None]:
# 스칼라 (0차원) - 단일 값

In [None]:
# 벡터 (1차원) - AI에서 특성 벡터, 임베딩 등에 사용

In [None]:
# 행렬 (2차원) - 데이터셋, 이미지 등에 사용

In [None]:
# 텐서 (3차원 이상) - 배치 데이터, 컬러 이미지, 시계열 등
# 예: (배치 크기, 높이, 너비) 또는 (샘플 수, 시간 스텝, 특성 수)

### 10.1.2 배열 생성 함수

In [None]:
# zeros, ones - 초기화에 자주 사용

In [None]:
# arange, linspace - 연속 데이터 생성

In [None]:
# random - AI 학습에서 가중치 초기화 등에 사용

### 10.1.3 dtype (데이터 타입)

In [None]:
# dtype 확인 및 지정

In [None]:
# dtype 명시적 지정 (AI에서 메모리 최적화에 중요)

---
## 10.2 인덱싱과 슬라이싱

### 10.2.1 기본 인덱싱

```
2D 배열 인덱싱: arr[행, 열]

       열 0  열 1  열 2
      +----+----+----+
행 0  |  1 |  2 |  3 |
      +----+----+----+
행 1  |  4 |  5 |  6 |
      +----+----+----+
행 2  |  7 |  8 |  9 |
      +----+----+----+
```

### 10.2.2 슬라이싱

`arr[시작:끝:간격]` - 끝 인덱스는 포함하지 않음

In [None]:
# 행 슬라이싱

In [None]:
# 열 슬라이싱

In [None]:
# 행과 열 동시 슬라이싱

### 10.2.3 조건부 인덱싱 (Boolean Indexing)

AI 데이터 전처리에서 매우 자주 사용됩니다.

In [None]:
# 조건을 만족하는 요소만 추출

In [None]:
# 조건 마스크 확인

In [None]:
# 여러 조건 조합
# 80점 이상 AND 90점 미만
# 75점 미만 OR 95점 이상

In [None]:
# 2D 배열에서 조건부 인덱싱
# 음수를 0으로 변환 (ReLU 활성화 함수와 유사)

### 10.2.4 팬시 인덱싱 (Fancy Indexing)

In [None]:
# 인덱스 배열로 선택
# 2D 배열에서

---
## 10.3 배열 연산과 브로드캐스팅

### 10.3.1 요소별 연산 (Element-wise)

### 10.3.2 집계 함수

In [None]:
# axis 매개변수: 연산 방향 지정
# axis=0: 열 방향 (위→아래), axis=1: 행 방향 (왼→오른)

In [None]:
# argmax, argmin: 최대/최소값의 인덱스

### 10.3.3 브로드캐스팅 (Broadcasting)

크기가 다른 배열 간의 연산을 가능하게 하는 NumPy의 핵심 기능입니다.

**브로드캐스팅 규칙:**
1. 차원이 다르면 작은 쪽의 shape 앞에 1을 추가
2. 각 차원에서 크기가 1이거나 같으면 브로드캐스팅 가능
3. 크기가 1인 차원은 다른 배열의 크기에 맞게 확장

In [None]:
# 스칼라와 배열

In [None]:
# 1D 배열과 2D 배열

---
## 연습문제

### 문제 1: 배열 생성과 속성
다음 조건의 NumPy 배열을 생성하고 shape, dtype, size를 출력하세요.
1. 1부터 20까지의 정수 배열
2. 0부터 1까지 100개로 균등 분할된 배열
3. 평균 5, 표준편차 2인 정규분포에서 (3, 4) 형태의 랜덤 배열

In [None]:
# 여기에 코드 작성

### 문제 2: 조건부 인덱싱
다음 성적 데이터에서 조건부 인덱싱을 사용하여:
1. 80점 이상인 점수만 추출
2. 60점 미만인 점수를 60점으로 변경 (하한선 적용)
3. 평균 이상인 점수의 개수 계산

In [None]:
# 여기에 코드 작성

### 문제 3: 브로드캐스팅 활용
다음 데이터를 열별로 정규화(각 열에서 최소값 빼고 범위로 나누기)하세요.
```python
data = np.array([[10, 100, 1000],
                 [20, 200, 2000],
                 [30, 300, 3000],
                 [40, 400, 4000]])
```

In [None]:
# 여기에 코드 작성