# 1. [NumPy 입문] 5차시 수업 목차 (총 5시간)
- 1차시: 데이터 과학의 엔진, NumPy 시동 걸기

왜 리스트(List) 대신 넘파이(Array)를 쓸까? (속도와 효율성)

배열 생성하기 (array, zeros, ones, arange)

데이터 과학 사례: 디지털 이미지는 사실 거대한 숫자 배열이다?

- 2차시: 데이터 콕 집어내기 (인덱싱과 슬라이싱)

원하는 데이터만 가져오기 (기본 인덱싱)

데이터 자르고 나누기 (슬라이싱)

데이터 과학 사례: 엑셀 데이터에서 특정 행/열만 추출하는 원리

- 3차시: 데이터 모양 주무르기 (차원 변경)

배열의 정보 확인 (ndim, shape, dtype)

모양 바꾸기 (reshape, flatten)

데이터 과학 사례: 인공지능 모델에 데이터를 넣기 위해 모양 맞추기 (이미지 평탄화)

- 4차시: 똑똑한 계산기 (연산과 브로드캐스팅)

배열 간의 사칙연산

크기가 다른 배열끼리의 연산 (브로드캐스팅)

데이터 과학 사례: 전교생의 점수를 한 번에 5점씩 올려주려면?

- 5차시: 데이터 분석 맛보기 (통계와 필터링)

기초 통계 (sum, mean, max, argmax)

조건에 맞는 데이터 찾기 (불리언 인덱싱)

데이터 과학 사례: 이상치(Outlier) 탐지 및 제거하기

## 1차시: 데이터 과학의 엔진, NumPy 시동 걸기
핵심 설명: 파이썬의 리스트는 유연하지만 대량의 데이터를 처리하기엔 느립니다. NumPy는 C언어로 만들어져 있어 엄청나게 빠르고 메모리를 적게 차지합니다. 데이터 과학의 첫걸음은 리스트를 ndarray(N-dimensional Array)로 바꾸는 것입니다.

재미있는 사례 (Storytelling):

"여러분이 보는 유튜브 고화질 영상이나 인스타그램 사진도 컴퓨터 눈에는 그저 0부터 255 사이의 숫자로 채워진 거대한 넘파이 배열일 뿐입니다. 넘파이를 배우면 여러분은 이미지의 색상을 조작하는 마법사가 될 수 있습니다!"

In [1]:
import numpy as np

# 1. 리스트 vs 넘파이 생성
my_list = [1, 2, 3, 4, 5]
my_array = np.array([1, 2, 3, 4, 5])

print("리스트:", my_list)
print("배열:", my_array)

# 2. 편리한 생성 함수들
zeros = np.zeros(5) # 0으로 채우기 (초기화할 때 사용)
range_arr = np.arange(10) # 0부터 9까지 자동 생성

print("0 배열:", zeros)
print("범위 배열:", range_arr)

리스트: [1, 2, 3, 4, 5]
배열: [1 2 3 4 5]
0 배열: [0. 0. 0. 0. 0.]
범위 배열: [0 1 2 3 4 5 6 7 8 9]


## 2차시: 데이터 콕 집어내기 (인덱싱과 슬라이싱)
핵심 설명: 데이터 분석의 8할은 데이터를 다듬는 전처리입니다. 방대한 데이터셋에서 내가 분석하고 싶은 부분만 정확히 잘라내는 기술을 배웁니다.

재미있는 사례 (Storytelling):

"넷플릭스 데이터베이스에 수만 개의 영화가 있습니다. 여기서 '액션' 장르이면서 '2024년'에 개봉한 영화만 찾으려면 어떻게 해야 할까요? 바로 인덱싱 기술이 필요합니다."

In [None]:
import numpy as np

data = np.array([
    [80, 90, 100], # 학생 A의 국영수 점수
    [70, 85, 95],  # 학생 B의 국영수 점수
    [60, 70, 80]   # 학생 C의 국영수 점수
])

# 1. 인덱싱 (학생 A의 수학 점수 가져오기)
math_score_A = data[0, 2] # 0행 2열
print("학생 A 수학:", math_score_A)

# 2. 슬라이싱 (모든 학생의 영어 점수만 가져오기)
eng_scores = data[:, 1] # 모든 행(:), 1열
print("전체 영어 점수:", eng_scores)

## 3차시: 데이터 모양 주무르기 (차원 변경)
핵심 설명: 데이터는 수집된 형태 그대로 쓸 수 없는 경우가 많습니다. 1줄로 길게 늘어선 데이터를 표(2차원)로 만들거나, 반대로 표 데이터를 1줄로 펴야 할 때가 있습니다.

재미있는 사례 (Storytelling):

"인공지능(딥러닝)에게 글자를 가르칠 때, 28x28칸짜리 정사각형 글자 그림을 784칸짜리 긴 한 줄로 펴서 넣어줘야 컴퓨터가 이해를 잘합니다. 이때 reshape가 필수적입니다."

In [2]:
import numpy as np

# 1. 0부터 11까지 생성
arr = np.arange(12)
print("원본(1차원):", arr)

# 2. 3행 4열로 모양 바꾸기 (Reshape)
reshaped_arr = arr.reshape(3, 4)
print("\n변형(2차원 3x4):\n", reshaped_arr)

# 3. 다시 1차원으로 펴기 (Flatten)
flattened = reshaped_arr.flatten()
print("\n다시 펴기:", flattened)

원본(1차원): [ 0  1  2  3  4  5  6  7  8  9 10 11]

변형(2차원 3x4):
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

다시 펴기: [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [8]:
import numpy as np

# 3행 4열 데이터 준비
reshaped_arr = np.arange(12).reshape(3, 4)

# 방법 A: flatten() 사용 (명시적)
flat_A = reshaped_arr.flatten()

# 방법 B: reshape(-1) 사용 (관용적 표현)
flat_B = reshaped_arr.reshape(-1)

print("원본 모양:", reshaped_arr.shape)   # (3, 4)
print("방법 A 결과:", flat_A)            # [0 1 2 ... 11]
print("방법 B 결과:", flat_B)            # [0 1 2 ... 11]

원본 모양: (3, 4)
방법 A 결과: [ 0  1  2  3  4  5  6  7  8  9 10 11]
방법 B 결과: [ 0  1  2  3  4  5  6  7  8  9 10 11]


안전하게 따로 쓰고 싶다  flatten()

빠르게 모양만 바꾸고 싶다 (딥러닝 입력 데이터 처리 등)  reshape(-1)

### -1의 의미는 무엇인가요?
reshape 함수 안에 들어가는 -1은 "자동 계산(Unknown Dimension)"을 의미합니다.

넘파이에게 "전체 원소 개수는 정해져 있으니, 나머지 차원은 네가 알아서 계산해서 맞춰라"라고 명령하는 것입니다.

행이나 열 중 하나만 지정하고 나머지에 -1을 넣으면, 남은 차원은 자동으로 결정됩니다. 여기서는 차원을 하나만(-1) 적었으므로, "모든 원소를 포함하는 1개의 차원(즉, 1차원 배열)으로 펴라"는 뜻이 됩니다.

###  `flatten()` vs `reshape(-1)` 핵심 비교

결과물은 똑같아 보이지만, **메모리 처리 방식(Copy vs View)**에 결정적인 차이가 있습니다.

| 비교 항목   | `flatten()`            | `reshape(-1)`                |
|:--------|:-----------------------|:-----------------------------|
| **성격**  | **복사본 (Deep Copy)** 생성 | **뷰 (View)** 생성 (대부분의 경우)    |
| **메모리** | 새로운 메모리 공간을 할당함 (무거움)  | 원본 데이터의 메모리를 공유함 (가벼움, 효율적)  |
| **영향**  | 결과를 수정해도 **원본은 안전함**   | 결과를 수정하면 **원본 데이터도 바뀔 수 있음** |
| **용도**  | 원본을 보존하고 따로 작업할 때 | 메모리를 아끼고 단순히 모양만 바뀔 때        |
---
*참고: reshape은 메모리 구조상 불가능한 경우 복사본을 만들기도 하지만, 기본적으로는 원본을 참조(View)하려 합니다.


####  주의: 코드로 확인하는 차이점

**1. `flatten()`을 사용한 경우 (안전)**
새로운 종이에 내용을 옮겨 적는 것과 같습니다. 복사본을 찢어도 원본은 멀쩡합니다.
```python
import numpy as np

original = np.array([[1, 2], [3, 4]])
flat = original.flatten()  # 새로운 메모리에 복사

flat[0] = 999  # 복사본을 수정함
print(original)
# 결과: [[1, 2], [3, 4]] (원본은 그대로 유지됨!)

In [4]:
arr = np.arange(12)
print("원본(1차원):", arr)

# 2. 3행 4열로 모양 바꾸기 (Reshape)
new_arr = arr.reshape(3, 4)
print(new_arr)

print(new_arr.reshape(1,-1))

원본(1차원): [ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3  4  5  6  7  8  9 10 11]]


In [5]:
new_arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [6]:
print(new_arr)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


## 4차시: 똑똑한 계산기 (연산과 브로드캐스팅)
핵심 설명: 리스트는 덧셈을 하면 데이터가 연결([1]+[2]=[1,2])되지만, 넘파이는 실제 수학 연산(1+2=3)을 수행합니다. 특히 크기가 다른 배열끼리 연산할 때 넘파이가 알아서 크기를 맞춰주는 **브로드캐스팅(Broadcasting)**은 가장 강력한 기능 중 하나입니다.

재미있는 사례 (Storytelling):

"선생님이 기분이 좋아서 우리 반 모든 학생의 수행평가 점수에 +5점을 해주려고 합니다. 엑셀에서는 복사/붙여넣기를 해야 하지만, 넘파이에서는 점수_배열 + 5 한 줄이면 끝납니다!"

In [None]:
import numpy as np

scores = np.array([70, 80, 90])

# 1. 모든 원소에 더하기 (브로드캐스팅)
bonus_scores = scores + 5
print("보너스 점수:", bonus_scores)

# 2. 배열끼리의 연산 (중간고사 + 기말고사)
midterm = np.array([50, 60, 70])
final = np.array([40, 30, 20])
total = midterm + final
print("총점:", total)

## 5차시: 데이터 분석 맛보기 (통계와 필터링)
핵심 설명: 데이터의 평균, 표준편차를 구하고 특정 조건(예: 80점 이상)을 만족하는 데이터만 걸러내는 **불리언 인덱싱(Boolean Indexing)**을 배웁니다. 이것이 데이터 분석의 핵심입니다.

재미있는 사례 (Storytelling):

"공장에 센서가 1,000개 있습니다. 온도가 100도가 넘으면 경보가 울려야 합니다. 수천 개의 데이터 중 100보다 큰 숫자만 즉시 찾아내는 코드를 짜볼까요?"

In [7]:
import numpy as np

temps = np.array([25.5, 30.1, 102.3, 28.4, 110.5, 29.0])

# 1. 기초 통계
print(f"평균 온도: {np.mean(temps):.1f}")
print(f"가장 높은 온도: {np.max(temps)}")

# 2. 불리언 인덱싱 (이상치 탐지)
# 온도가 100도 넘는 것만 찾기
danger_mask = temps > 100
danger_temps = temps[danger_mask]

print("위험 경보(100도 초과):", danger_temps)
print("위험 감지 횟수:", len(danger_temps))

평균 온도: 54.3
가장 높은 온도: 110.5
위험 경보(100도 초과): [102.3 110.5]
위험 감지 횟수: 2
