NumPy(넘파이)는 'Numerical Python'의 줄임말로,
파이썬에서 대규모 다차원 배열과 행렬 연산을 쉽고 빠르게 처리할 수 있도록
도와주는 필수적인 라이브러리입니다.
🚀 특히 데이터 과학, 머신러닝, 공학 계산 분야에서 핵심적인 역할을 합니다.



 NumPy를 왜 사용할까요?

파이썬의 기본 리스트(list)도 데이터를 담을 수 있지만,
수치 계산, 특히 대용량 데이터 처리에서는 속도가 느립니다.

1
NumPy는 내부적으로 C언어로 구현되어 있어 엄청나게 빠른 연산 속도를 자랑하며,
적은 메모리로 데이터를 관리할 수 있습니다.

2. 핵심은 ndarray

NumPy의 가장 중요한 핵심은 **ndarray (N-dimensional array)**라는
다차원 배열 객체입니다. 이 ndarray는 다음과 같은 특징이 있습니다.

동일한 자료형:
배열의 모든 요소는 같은 자료형(예: 정수, 실수)이어야 합니다.
이 덕분에 메모리를 효율적으로 사용하고 연산 속도를 높일 수 있습니다.

빠른 연산:
배열 전체에 대해 반복문 없이
한 번에 연산(벡터화 연산)을 수행할 수 있어
코드가 간결해지고 속도가 매우 빠릅니다.

다양한 차원: 1차원(벡터), 2차원(행렬), 3차원 이상의 배열도 쉽게 만들 수 있습니다.

NumPy를 사용하려면 먼저 라이브러리를 설치하고 불러와야 합니다.
pip install numpy

numpy는 관례적으로 np라는 별칭으로 불러옵니다.
import numpy as np

In [2]:
## 간단한 사용 예시
# 1. NumPy 배열 생성
# 파이썬 리스트를 np.array() 함수에 전달하여 NumPy 배열을 만듭니다.
# 1차원 배열 생성
import numpy as np

my_list = [1, 2, 3, 4, 5] # 일반리스트
print(f"my_list 타입: {type(my_list)}")
arr1d = np.array(my_list) # 일반리스트 -> 넘파이 형식의 배열로 변환.
print(f"arr1d 타입: {type(arr1d)}")

print("1차원 배열:")
print(arr1d)

# 2차원 배열 (행렬) 생성
my_list2d = [[1, 2, 3],
             [4, 5, 6]]
print(f"my_list2d 타입: {type(my_list2d)}")
arr2d = np.array(my_list2d)# 일반리스트 -> 넘파이 형식의 배열로 변환.
print(f"arr2d 타입: {type(arr2d)}")

print("\n2차원 배열:")
print(arr2d)

# 배열 정보 확인.
# shape, ndim, dtype 등의 속성으로 배열의 정보를 확인할 수 있습니다.
print(f"배열의 모양 (shape): {arr2d.shape}") # (행, 열)
print(f"배열의 차원 (ndim): {arr2d.ndim}")
print(f"배열 요소의 자료형 (dtype): {arr2d.dtype}")

my_list 타입: <class 'list'>
arr1d 타입: <class 'numpy.ndarray'>
1차원 배열:
[1 2 3 4 5]
my_list2d 타입: <class 'list'>
arr2d 타입: <class 'numpy.ndarray'>

2차원 배열:
[[1 2 3]
 [4 5 6]]
배열의 모양 (shape): (2, 3)
배열의 차원 (ndim): 2
배열 요소의 자료형 (dtype): int64


In [3]:
# NumPy의 강력한 연산 (벡터화 연산)
#
# NumPy의 가장 큰 장점은 반복문 없이
# 배열의 모든 요소에 동일한 연산을 적용할 수 있다는 것입니다.
#
# 예를 들어,
# 배열의 모든 요소에 2를 곱해야 하는 상황을 가정해 보겠습니다.

# 파이썬 리스트의 경우 (반복문 필요):
data_list = [1, 2, 3, 4, 5]
result_list = []
for item in data_list:
    result_list.append(item * 2)

print(f"파이썬 리스트 결과: {result_list}")

파이썬 리스트 결과: [2, 4, 6, 8, 10]


In [4]:
# NumPy 배열의 경우 (반복문 불필요):
data_np = np.array([1, 2, 3, 4, 5])
result_np = data_np * 2 # 배열에 그냥 숫자를 곱하면 됨!

print(f"NumPy 배열 결과: {result_np}")

NumPy 배열 결과: [ 2  4  6  8 10]


In [6]:
# 자주 사용하는 방식
# 1. 배열 생성하기
# 가장 기본이 되는 배열 생성 방법입니다.
# 파이썬 리스트보다 훨씬 다양한 방식으로 배열을 만들 수 있습니다.
#
# np.arange(): 특정 범위의 연속된 값을 가진 배열을 생성합니다.
#
# np.zeros() / np.ones(): 모든 요소가 0 또는 1인 배열을 생성합니다.
# 주로 데이터 공간을 미리 할당할 때 사용합니다.
#
# np.linspace(): 특정 범위 내에서 균등한 간격의 값을 가진 배열을 생성합니다.

# 0부터 9까지의 값을 가진 1차원 배열 생성
arr_range = np.arange(10)
print(f"arange 결과:\n{arr_range}")

# 2행 3열 크기에 모든 요소가 0인 배열 생성
arr_zeros = np.zeros((2, 3))
print(f"\nzeros 결과:\n{arr_zeros}")

# 0부터 10까지의 범위를 5개의 균등한 간격으로 나눈 배열 생성
arr_linspace = np.linspace(0, 10, 5)
print(f"\nlinspace 결과:\n{arr_linspace}")

arange 결과:
[0 1 2 3 4 5 6 7 8 9]

zeros 결과:
[[0. 0. 0.]
 [0. 0. 0.]]

linspace 결과:
[ 0.   2.5  5.   7.5 10. ]


In [8]:
# ## 2. 배열 모양 변경하기 (Reshape)
# 기존 배열의 차원이나 모양을 원하는 형태로 바꿀 수 있습니다.
# 데이터의 형태를 모델에 맞게 조정할 때 매우 유용합니다.
#
# reshape(): 배열의 전체 요소 수를 유지하면서 모양을 변경합니다.

# 0부터 11까지의 값을 가진 1차원 배열 생성
arr = np.arange(12)
print(f"원본 배열:\n{arr}")

# 1차원 배열을 3행 4열의 2차원 배열로 변경
reshaped_arr = arr.reshape(3, 4)
print(f"\nReshape 결과 (3, 4):\n{reshaped_arr}")

reshaped_arr2 = arr.reshape(2,3,2)
print(f"\nReshape 결과 (2,3,2):\n{reshaped_arr2}")

원본 배열:
[ 0  1  2  3  4  5  6  7  8  9 10 11]

Reshape 결과 (3, 4):
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

Reshape 결과 (2,3,2):
[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


In [5]:
## 3. 배열 인덱싱과 슬라이싱
# 배열의 특정 위치에 있는 값이나
# 특정 범위의 값들을 잘라내서 사용하는 것은 데이터 처리에 필수적입니다.
# 2차원 배열 생성 (위 예제의 reshaped_arr 사용)

arr2d = np.arange(12).reshape(3, 4)
print(f"원본 2차원 배열:\n{arr2d}\n")

# 1행 2열의 요소 접근 (0부터 시작)
element = arr2d[1, 2]
print(f"1행 2열의 요소: {element}") # 결과: 6

# 첫 번째 행 전체 가져오기
first_row = arr2d[0, :] # 또는 간단히 arr2d[0]
print(f"첫 번째 행: {first_row}") # 결과: [0 1 2 3]

# 두 번째 열 전체 가져오기
second_col = arr2d[:, 1]
print(f"두 번째 열: {second_col}") # 결과: [1 5 9]

# 부분적인 2x2 배열 잘라내기 (0~1행, 2~3열)
sub_array = arr2d[0:2, 2:4]
print(f"부분 배열 (0:2, 2:4):\n{sub_array}")

원본 2차원 배열:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

1행 2열의 요소: 6
첫 번째 행: [0 1 2 3]
두 번째 열: [1 5 9]
부분 배열 (0:2, 2:4):
[[2 3]
 [6 7]]


In [10]:
## 4. 조건에 맞는 데이터 선택 (불리언 인덱싱)
# 배열 내에서 특정 조건을 만족하는 요소들만
# 골라내는 매우 강력하고 자주 사용되는 기능입니다.
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# 조건 정의: 요소가 5보다 큰가?
condition = arr > 5 # 넘파이, 브로드 캐스팅 연산이 가능해서, 반복문 없이 바로 비교 가능.
print(f"5보다 큰가? (boolean mask):\n{condition}\n")

# 조건을 만족하는 요소들만 추출하여 1차원 배열로 반환
filtered_arr = arr[condition]
print(f"5보다 큰 요소들만 추출:\n{filtered_arr}")

5보다 큰가? (boolean mask):
[[False False False]
 [False False  True]
 [ True  True  True]]

5보다 큰 요소들만 추출:
[6 7 8 9]


In [6]:
## 5. 기본 통계 연산
# 데이터의 합계, 평균, 최댓값, 최솟값 등
# 기본 통계량을 매우 빠르게 계산할 수 있습니다.
# axis 축을 지정하여 행 또는 열 방향으로 연산하는 것이 핵심입니다.

arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(f"전체 합계: {np.sum(arr)}")
print(f"전체 평균: {np.mean(arr)}")

# axis=0 : 각 열(column)을 기준으로 연산
print(f"각 열의 합계 (axis=0): {np.sum(arr, axis=0)}")

# axis=1 : 각 행(row)을 기준으로 연산
print(f"각 행의 최댓값 (axis=1): {np.max(arr, axis=1)}")
print(f"각 행의 최솟값 (axis=1): {np.min(arr, axis=1)}")

전체 합계: 21
전체 평균: 3.5
각 열의 합계 (axis=0): [5 7 9]
각 행의 최댓값 (axis=1): [3 6]
각 행의 최솟값 (axis=1): [1 4]


In [13]:
# 중급 및 고급, 자주 사용되는 활용 방안
## 1. 배열 합치기 (Concatenation) 🧩
# 여러 개의 배열을 하나로 합치는 기능은 데이터를 통합할 때 매우 유용합니다.

# 기본 문법
# np.concatenate((arr1, arr2, ...), axis=0)
#
# arr1, arr2, ...: 합치고자 하는 배열들을 튜플 () 형태로 전달합니다.
#
# axis: 어느 축(방향)을 기준으로 합칠지 지정합니다.
#
# axis=0: 세로 방향(행 추가). 열의 개수가 같아야 합니다.
#
# axis=1: 가로 방향(열 추가). 행의 개수가 같아야 합니다.
#
# np.vstack((arr1, arr2)): concatenate의 axis=0과 동일한 기능 (수직으로 쌓기).
#
# np.hstack((arr1, arr2)): concatenate의 axis=1과 동일한 기능 (수평으로 쌓기).

import numpy as np

arr1 = np.array([[1, 2],
                 [3, 4]])
arr2 = np.array([[5, 6],
                 [7, 8]])

# 세로 방향(axis=0)으로 두 배열을 합치기
v_concat = np.concatenate((arr1, arr2), axis=0)
print(f"세로 합치기 (axis=0):\n{v_concat}\n")

# 가로 방향(axis=1)으로 두 배열을 합치기
h_concat = np.concatenate((arr1, arr2), axis=1)
print(f"가로 합치기 (axis=1):\n{h_concat}")

세로 합치기 (axis=0):
[[1 2]
 [3 4]
 [5 6]
 [7 8]]

가로 합치기 (axis=1):
[[1 2 5 6]
 [3 4 7 8]]


In [14]:
## 2 고유값 찾기 및 개수 세기 (Unique) 📊
# 배열에 어떤 고유한 값들이 있는지 확인하거나,
# 각 값의 개수를 셀 때 사용합니다. 데이터의 분포를 파악할 때 필수적입니다.
#
# 기본 문법
# np.unique(arr, return_counts=False)
#
# arr: 입력 배열.
#
# return_counts=True: 고유값과 함께
# 각 고유값이 나타난 횟수(count)를 함께 반환합니다.

arr = np.array([1, 2, 5, 2, 3, 1, 5, 5, 6])

# 배열 내 고유값 찾기
unique_vals = np.unique(arr)
print(f"고유한 값들: {unique_vals}\n")

# 고유값과 각 값의 개수 세기
unique_vals, counts = np.unique(arr, return_counts=True)
print(f"고유값: {unique_vals}")
print(f"각 값의 개수: {counts}")

고유한 값들: [1 2 3 5 6]

고유값: [1 2 3 5 6]
각 값의 개수: [2 2 1 3 1]


In [15]:
# 3 배열 정렬하기 (Sorting) 📈
# 배열의 요소를 오름차순 또는 내림차순으로 정렬합니다.
#
# 기본 문법
# np.sort(arr): 배열의 복사본을 만들어 정렬하여 반환합니다.
# 원본 배열은 바뀌지 않습니다. -> 불변성 유지 한다.
#
# arr.sort(): 배열 자체를 제자리에서 정렬합니다.
# 반환값은 None이며 원본 배열이 변경됩니다.

arr = np.array([5, 1, 9, 3, 7])

# np.sort() 사용: 원본 배열은 그대로 유지됨
sorted_arr = np.sort(arr)
print(f"np.sort() 결과: {sorted_arr}")
print(f"np.sort() 후 원본 배열: {arr}\n")

# arr.sort() 사용: 원본 배열 자체가 바뀜
arr.sort()
print(f"arr.sort() 실행 후 원본 배열: {arr}")

# 내림차순 정렬은 슬라이싱을 활용
desc_sorted_arr = np.sort(arr)[::-1]
print(f"내림차순 정렬: {desc_sorted_arr}")

np.sort() 결과: [1 3 5 7 9]
np.sort() 후 원본 배열: [5 1 9 3 7]

arr.sort() 실행 후 원본 배열: [1 3 5 7 9]
내림차순 정렬: [9 7 5 3 1]


In [21]:
# 4 난수(무작위 수) 생성하기 (Random Sampling) 🎲
# 시뮬레이션, 데이터 샘플링, 머신러닝 모델의 초기 가중치 설정
# 등 다양한 분야에서 무작위 숫자를 생성하는 기능은 필수적입니다.

# 기본 문법
# np.random.rand(d0, d1, ...): 0과 1 사이의 균일 분포에서 무작위 실수를 생성합니다. d0, d1, ...은 생성할 배열의 모양(shape)입니다.
#
# np.random.randn(d0, d1, ...): 평균이 0이고 표준편차가 1인 표준 정규 분포에서 무작위 실수를 생성합니다.
#
# np.random.randint(low, high=None, size=None): 주어진 범위(low 이상 high 미만)에서 무작위 정수를 생성합니다.
#
# size: 생성할 배열의 모양입니다.

# 2행 3열 모양으로 0과 1 사이의 균일 분포 난수 생성
rand_uniform = np.random.rand(2, 3)
print(f"균일 분포 난수:\n{rand_uniform}\n")

# 2행 3열 모양으로 표준 정규 분포 난수 생성
rand_normal = np.random.randn(2, 3)
print(f"표준 정규 분포 난수:\n{rand_normal}\n")

# 1부터 100 사이의 정수 5개를 무작위로 추출
rand_integers = np.random.randint(1, 101, size=5)
print(f"1~100 사이의 랜덤 정수: {rand_integers}")

균일 분포 난수:
[[0.66779674 0.06778686 0.10269966]
 [0.5422926  0.73298057 0.29527623]]

표준 정규 분포 난수:
[[-0.71721309 -0.38429798  1.0662367 ]
 [ 0.64026132  1.22562147  0.47531654]]

1~100 사이의 랜덤 정수: [49 56 11 59 55]


In [8]:
# 5 행렬 연산 (Matrix Operations) 📐
# NumPy는 선형대수학에서 사용하는 다양한
# 행렬 연산을 강력하게 지원합니다.
# 특히 행렬 곱셈은 머신러닝과 딥러닝에서 핵심적인 연산입니다.

# 기본 문법
# 전치 행렬 (Transpose): arr.T
#
# 행렬의 행과 열을 서로 맞바꿉니다.
#
# 행렬 곱셈 (Dot Product): arr1 @ arr2 또는 np.dot(arr1, arr2)
#
# 첫 번째 행렬의 열 개수와 두 번째 행렬의 행 개수가 같아야 합니다.

# 행렬 생성
matrix_a = np.array([[1, 2],
                     [3, 4]])
matrix_b = np.array([[5, 6],
                     [7, 8]])

# 전치 행렬 구하기
transpose_a = matrix_a.T
print(f"A의 전치 행렬 (A.T):\n{transpose_a}\n")

# 행렬 곱셈 수행
matrix_product = matrix_a @ matrix_b
# np.dot(matrix_a, matrix_b)와 동일합니다.
print(f"A와 B의 행렬 곱셈 (A @ B):\n{matrix_product}")

A의 전치 행렬 (A.T):
[[1 3]
 [2 4]]

A와 B의 행렬 곱셈 (A @ B):
[[19 22]
 [43 50]]


In [None]:
# 다음 시간에 이어서 여기서 부터 설명.
# 조건에 따라 값 선택하기 (where) ↔️

# if-else 문을 배열 전체에 효율적으로 적용하고 싶을 때 np.where()를 사용합니다. 특정 조건을 만족하면 A값을, 만족하지 못하면 B값을 반환하는 새로운 배열을 만들 수 있습니다.

# 기본 문법
# np.where(condition, x, y)
#
# condition: 조건을 담은 불리언(boolean) 배열입니다.
#
# x: 조건이 True일 때 선택할 값이나 배열입니다.
#
# y: 조건이 False일 때 선택할 값이나 배열입니다.

import numpy as np

# 1부터 10까지의 배열 생성
arr = np.arange(1, 11)
print(f"원본 배열: {arr}\n")

# 배열의 요소가 5보다 크면 'Big', 작거나 같으면 'Small'로 바꾸기
# Python의 리스트 컴프리헨션 [('Big' if i > 5 else 'Small') for i in arr] 보다 훨씬 빠릅니다.
result = np.where(arr > 5, 'Big', 'Small')
print(f"np.where 결과:\n{result}")

# 응용: 짝수이면 원래 값을 그대로 두고, 홀수이면 0으로 바꾸기
result_even = np.where(arr % 2 == 0, arr, 0)
print(f"\n짝수만 남기기:\n{result_even}")

In [None]:
# 7 최댓값/최솟값의 인덱스 찾기 (argmax, argmin) 🔍
# 배열에서 가장 큰 값이나 작은 값이 **어디에 위치하는지(인덱스)**를 찾아야 할 때가 많습니다. 예를 들어, '가장 판매량이 높은 날짜 찾기' 같은 경우에 유용합니다.

# 기본 문법
# np.argmax(arr, axis=None): 배열 arr에서 최댓값의 인덱스를 반환합니다.
#
# np.argmin(arr, axis=None): 배열 arr에서 최솟값의 인덱스를 반환합니다.
#
# axis: 연산을 수행할 축을 지정합니다 (axis=0: 열 기준, axis=1: 행 기준).

# 일별 판매량 데이터 (가상)
sales = np.array([250, 310, 280, 450, 420, 390])
days = np.array(['월', '화', '수', '목', '금', '토'])

# 가장 많이 팔린 날의 인덱스 찾기
max_sales_index = np.argmax(sales)
print(f"최대 판매량의 인덱스: {max_sales_index}")

# 인덱스를 사용하여 요일 찾기
print(f"가장 많이 팔린 요일: {days[max_sales_index]} (판매량: {sales[max_sales_index]})")

# 가장 적게 팔린 날의 인덱스 찾기
min_sales_index = np.argmin(sales)
print(f"가장 적게 팔린 요일: {days[min_sales_index]} (판매량: {sales[min_sales_index]})")

In [None]:
# 8 결측치(NaN) 다루기 💧
# 실제 데이터에는 값이 누락된 경우가 많으며, NumPy에서는 이를 **np.nan (Not a Number)**으로 표현합니다. np.nan은 연산에 포함되면 전체 결과를 nan으로 만들기 때문에 특별한 처리가 필요합니다.

# 기본 문법
# np.isnan(arr): 배열의 각 요소가 nan인지 아닌지 확인하여 불리언 배열을 반환합니다.
#
# np.nansum(arr): nan 값을 0으로 취급하고 합계를 계산합니다.
#
# np.nanmean(arr): nan 값을 무시하고 평균을 계산합니다.

# 결측치가 포함된 데이터 배열 생성
data = np.array([1, 2, np.nan, 4, 5, np.nan])
print(f"결측치가 포함된 배열: {data}\n")

# 일반적인 sum 함수는 nan을 반환
print(f"일반 sum() 결과: {np.sum(data)}")

# nan을 제외하고 합계 계산
print(f"nansum() 결과: {np.nansum(data)}\n")

# nan이 어디에 있는지 확인
print(f"결측치 위치 확인 (isnan):\n{np.isnan(data)}")

# nan을 특정 값(예: 0)으로 대체하기
# np.where와 np.isnan을 조합하여 사용
data_filled = np.where(np.isnan(data), 0, data)
print(f"\n결측치를 0으로 채운 배열:\n{data_filled}")

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
슬라이싱한 배열 : 
[[ 7  8  9]
 [12 13 14]
 [17 18 19]]


[[105 110 115]
 [220 225 230]]


[ 3  9 15]


In [None]:
# **문제 5: 통계 연산 (축 기준)**
# 다음은 4일간 3개 상점의 일일 매출 데이터입니다.
# `sales = np.array([[50, 60, 55], [80, 95, 75], [40, 100, 90], [70, 85, 80]])`
# 각 상점별(열 기준) 평균 매출과 각 날짜별(행 기준) 총매출을 각각 계산하세요.
sales = np.array([[50, 60, 55], [80, 95, 75], [40, 100, 90], [70, 85, 80]])