NumPy(넘파이)는 'Numerical Python'의 줄임말로,
파이썬에서 대규모 다차원 배열과 행렬 연산을 쉽고 빠르게 처리할 수 있도록
도와주는 필수적인 라이브러리입니다.
🚀 특히 데이터 과학, 머신러닝, 공학 계산 분야에서 핵심적인 역할을 합니다.



 NumPy를 왜 사용할까요?

파이썬의 기본 리스트(list)도 데이터를 담을 수 있지만,
수치 계산, 특히 대용량 데이터 처리에서는 속도가 느립니다.

1
NumPy는 내부적으로 C언어로 구현되어 있어 엄청나게 빠른 연산 속도를 자랑하며,
적은 메모리로 데이터를 관리할 수 있습니다.

2. 핵심은 ndarray

NumPy의 가장 중요한 핵심은 **ndarray (N-dimensional array)**라는
다차원 배열 객체입니다. 이 ndarray는 다음과 같은 특징이 있습니다.

동일한 자료형:
배열의 모든 요소는 같은 자료형(예: 정수, 실수)이어야 합니다.
이 덕분에 메모리를 효율적으로 사용하고 연산 속도를 높일 수 있습니다.

빠른 연산:
배열 전체에 대해 반복문 없이
한 번에 연산(벡터화 연산)을 수행할 수 있어
코드가 간결해지고 속도가 매우 빠릅니다.

다양한 차원: 1차원(벡터), 2차원(행렬), 3차원 이상의 배열도 쉽게 만들 수 있습니다.

NumPy를 사용하려면 먼저 라이브러리를 설치하고 불러와야 합니다.
pip install numpy

numpy는 관례적으로 np라는 별칭으로 불러옵니다.
import numpy as np

In [3]:
## 간단한 사용 예시
# 1. NumPy 배열 생성
# 파이썬 리스트를 np.array() 함수에 전달하여 NumPy 배열을 만듭니다.
# 1차원 배열 생성
import numpy as np

my_list = [1, 2, 3, 4, 5] # 일반리스트
print(f"my_list 타입: {type(my_list)}")
arr1d = np.array(my_list) # 일반리스트 -> 넘파이 형식의 배열로 변환.
print(f"arr1d 타입: {type(arr1d)}")

print("1차원 배열:")
print(arr1d)

# 2차원 배열 (행렬) 생성
my_list2d = [[1, 2, 3],
             [4, 5, 6]]
print(f"my_list2d 타입: {type(my_list2d)}")
arr2d = np.array(my_list2d)# 일반리스트 -> 넘파이 형식의 배열로 변환.
print(f"arr2d 타입: {type(arr2d)}")

print("\n2차원 배열:")
print(arr2d)

# 배열 정보 확인.
# shape, ndim, dtype 등의 속성으로 배열의 정보를 확인할 수 있습니다.
print(f"배열의 모양 (shape): {arr2d.shape}") # (행, 열)
print(f"배열의 차원 (ndim): {arr2d.ndim}")
print(f"배열 요소의 자료형 (dtype): {arr2d.dtype}")

my_list 타입: <class 'list'>
arr1d 타입: <class 'numpy.ndarray'>
1차원 배열:
[1 2 3 4 5]
my_list2d 타입: <class 'list'>
arr2d 타입: <class 'numpy.ndarray'>

2차원 배열:
[[1 2 3]
 [4 5 6]]
배열의 모양 (shape): (2, 3)
배열의 차원 (ndim): 2
배열 요소의 자료형 (dtype): int64


In [4]:
# NumPy의 강력한 연산 (벡터화 연산)
#
# NumPy의 가장 큰 장점은 반복문 없이
# 배열의 모든 요소에 동일한 연산을 적용할 수 있다는 것입니다.
#
# 예를 들어,
# 배열의 모든 요소에 2를 곱해야 하는 상황을 가정해 보겠습니다.

# 파이썬 리스트의 경우 (반복문 필요):
data_list = [1, 2, 3, 4, 5]
result_list = []
for item in data_list:
    result_list.append(item * 2)

print(f"파이썬 리스트 결과: {result_list}")

파이썬 리스트 결과: [2, 4, 6, 8, 10]


In [5]:
# NumPy 배열의 경우 (반복문 불필요):
data_np = np.array([1, 2, 3, 4, 5])
result_np = data_np * 2 # 배열에 그냥 숫자를 곱하면 됨!

print(f"NumPy 배열 결과: {result_np}")

NumPy 배열 결과: [ 2  4  6  8 10]


In [6]:
# 자주 사용하는 방식
# 1. 배열 생성하기
# 가장 기본이 되는 배열 생성 방법입니다.
# 파이썬 리스트보다 훨씬 다양한 방식으로 배열을 만들 수 있습니다.
#
# np.arange(): 특정 범위의 연속된 값을 가진 배열을 생성합니다.
#
# np.zeros() / np.ones(): 모든 요소가 0 또는 1인 배열을 생성합니다.
# 주로 데이터 공간을 미리 할당할 때 사용합니다.
#
# np.linspace(): 특정 범위 내에서 균등한 간격의 값을 가진 배열을 생성합니다.

# 0부터 9까지의 값을 가진 1차원 배열 생성
arr_range = np.arange(10)
print(f"arange 결과:\n{arr_range}")

# 2행 3열 크기에 모든 요소가 0인 배열 생성
arr_zeros = np.zeros((2, 3))
print(f"\nzeros 결과:\n{arr_zeros}")

# 0부터 10까지의 범위를 5개의 균등한 간격으로 나눈 배열 생성
arr_linspace = np.linspace(0, 10, 5)
print(f"\nlinspace 결과:\n{arr_linspace}")

arange 결과:
[0 1 2 3 4 5 6 7 8 9]

zeros 결과:
[[0. 0. 0.]
 [0. 0. 0.]]

linspace 결과:
[ 0.   2.5  5.   7.5 10. ]


In [8]:
# ## 2. 배열 모양 변경하기 (Reshape)
# 기존 배열의 차원이나 모양을 원하는 형태로 바꿀 수 있습니다.
# 데이터의 형태를 모델에 맞게 조정할 때 매우 유용합니다.
#
# reshape(): 배열의 전체 요소 수를 유지하면서 모양을 변경합니다.

# 0부터 11까지의 값을 가진 1차원 배열 생성
arr = np.arange(12)
print(f"원본 배열:\n{arr}")

# 1차원 배열을 3행 4열의 2차원 배열로 변경
reshaped_arr = arr.reshape(3, 4)
print(f"\nReshape 결과 (3, 4):\n{reshaped_arr}")

reshaped_arr2 = arr.reshape(2,3,2)
print(f"\nReshape 결과 (2,3,2):\n{reshaped_arr2}")

원본 배열:
[ 0  1  2  3  4  5  6  7  8  9 10 11]

Reshape 결과 (3, 4):
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

Reshape 결과 (2,3,2):
[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


In [9]:
## 3. 배열 인덱싱과 슬라이싱
# 배열의 특정 위치에 있는 값이나
# 특정 범위의 값들을 잘라내서 사용하는 것은 데이터 처리에 필수적입니다.
# 2차원 배열 생성 (위 예제의 reshaped_arr 사용)

arr2d = np.arange(12).reshape(3, 4)
print(f"원본 2차원 배열:\n{arr2d}\n")

# 1행 2열의 요소 접근 (0부터 시작)
element = arr2d[1, 2]
print(f"1행 2열의 요소: {element}") # 결과: 6

# 첫 번째 행 전체 가져오기
first_row = arr2d[0, :] # 또는 간단히 arr2d[0]
print(f"첫 번째 행: {first_row}") # 결과: [0 1 2 3]

# 두 번째 열 전체 가져오기
second_col = arr2d[:, 1]
print(f"두 번째 열: {second_col}") # 결과: [1 5 9]

# 부분적인 2x2 배열 잘라내기 (0~1행, 2~3열)
sub_array = arr2d[0:2, 2:4]
print(f"부분 배열 (0:2, 2:4):\n{sub_array}")

원본 2차원 배열:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

1행 2열의 요소: 6
첫 번째 행: [0 1 2 3]
두 번째 열: [1 5 9]
부분 배열 (0:2, 2:4):
[[2 3]
 [6 7]]


In [10]:
## 4. 조건에 맞는 데이터 선택 (불리언 인덱싱)
# 배열 내에서 특정 조건을 만족하는 요소들만
# 골라내는 매우 강력하고 자주 사용되는 기능입니다.
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# 조건 정의: 요소가 5보다 큰가?
condition = arr > 5 # 넘파이, 브로드 캐스팅 연산이 가능해서, 반복문 없이 바로 비교 가능.
print(f"5보다 큰가? (boolean mask):\n{condition}\n")

# 조건을 만족하는 요소들만 추출하여 1차원 배열로 반환
filtered_arr = arr[condition]
print(f"5보다 큰 요소들만 추출:\n{filtered_arr}")

5보다 큰가? (boolean mask):
[[False False False]
 [False False  True]
 [ True  True  True]]

5보다 큰 요소들만 추출:
[6 7 8 9]


In [12]:
## 5. 기본 통계 연산
# 데이터의 합계, 평균, 최댓값, 최솟값 등
# 기본 통계량을 매우 빠르게 계산할 수 있습니다.
# axis 축을 지정하여 행 또는 열 방향으로 연산하는 것이 핵심입니다.

arr = np.array([[1, 2, 3],
                [4, 5, 6]])

print(f"전체 합계: {np.sum(arr)}")
print(f"전체 평균: {np.mean(arr)}")

# axis=0 : 각 열(column)을 기준으로 연산
print(f"각 열의 합계 (axis=0): {np.sum(arr, axis=0)}")

# axis=1 : 각 행(row)을 기준으로 연산
print(f"각 행의 최댓값 (axis=1): {np.max(arr, axis=1)}")
print(f"각 행의 최솟값 (axis=1): {np.min(arr, axis=1)}")

전체 합계: 21
전체 평균: 3.5
각 열의 합계 (axis=0): [5 7 9]
각 행의 최댓값 (axis=1): [3 6]
각 행의 최솟값 (axis=1): [1 4]
