# NumPy 란
- Numpy는 파이썬의 고성능 과학 계산을 위한 라이브러리로, 다차원 배열을 효율적으로 처리합니다. 
- 주로 데이터 분석, 머신러닝, 과학 연구, 엔지니어링 분야에서 활용됩니다.

# NumPy 기본 사용법
### 1. NumPy 라이브러리 가져오기

- NumPy를 사용하기 위해서는 먼저 라이브러리를 import 해야 합니다.

In [1]:
import numpy as np

### 2. ndarray(N-dimensional array) 생성하기
- **ndarray**는 NumPy의 다차원 배열로, 수치 데이터를 효율적으로 저장하고 연산하기 위한 핵심 데이터 구조입니다. 동형 데이터(모든 요소가 같은 타입)를 가지며, 벡터화된 연산과 브로드캐스팅을 통해 반복문 없이 대규모 데이터를 빠르게 처리할 수 있습니다. 다양한 인덱싱, 슬라이싱, 배열 모양 변경 기능을 제공하며, 고성능 수학 연산을 지원합니다.
- **ndarray** 예
- ![Alt text for broken image link](../resources/ndarray.png)

#### 2-1. binary 파일(비정형Data)을 읽어서 ndarray로 변환

In [2]:
# 파일을 바이너리 모드로 열기
f = open('../resources/data.bin', 'rb')
bin_data = f.read() # binary type의 data
# 파일 닫기
f.close()

print(f"data 길이 {len(bin_data)} byte, data 일부 발췌 : {bin_data[:20]}")

data 길이 40000 byte, data 일부 발췌 : b'd\x14\x10>Q2r>\xb0\x96O?\x8c\xcb\x03=\x89Vq?'


In [3]:
# float32 타입의 ndarray로 변환
# - 32bit(4byte) 길이의 float type의 data로 구성
np_data = np.frombuffer(bin_data, dtype=np.float32)

print(np_data)
print(np_data.size)
print(type(np_data))

[0.14070278 0.23652007 0.81089306 ... 0.7500107  0.33982688 0.48760268]
10000
<class 'numpy.ndarray'>


#### 2-2. list를 ndarray 형태로 변환

In [4]:
# 1차원 list
list_1d = [1, 2, 3, 4, 5]

arr_1d = np.array(list_1d)

print(arr_1d)
# 출력: [1 2 3 4 5]

print(type(arr_1d))
# 출력: <class 'numpy.ndarray'>

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [5]:
# 2차원 list
list_2d = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

arr_2d = np.array(list_2d)
print(arr_2d)
# 출력:
# [[1 2 3]
#  [4 5 6]
#  [7 8 9]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]


#### 2-3. ndarray 배열 요소(element)의 데이터 타입(Type) 확인 또는 지정

In [6]:
print(arr_2d.dtype)  # 배열 요소의 데이터 타입 반환
# 출력: int64 (integer 64bit)

int32


In [7]:
arr_2d_uint8 = np.array(list_2d, dtype='uint8')

print(arr_2d_uint8.dtype)  # 배열 요소의 데이터 타입 반환
# 출력: uint8 (unsigned integer 8bit)


uint8


### 3. 배열 속성 확인

- ndarray 객체의 다양한 속성을 확인할 수 있습니다.

In [8]:
""" 
arr_2d =
 [[1 2 3]
  [4 5 6]
  [7 8 9]]
"""
print(arr_2d.shape)  # 배열의 형태를 튜플로 반환
# 출력: (3, 3)

print(arr_2d.ndim)   # 배열의 차원 수 반환
# 출력: 2

print(arr_2d.size)   # 배열의 데이터 개수 반환
# 출력: 9

print(arr_2d.dtype)  # 배열 데이터 타입 반환
# 출력: int64

(3, 3)
2
9
int32


In [9]:
""" 
arr_2d[0] = [1 2 3]
"""

print(arr_2d[0].shape)  # 배열의 형태를 튜플로 반환
# 출력: (3,)

print(arr_2d[0].ndim)   # 배열의 차원 수 반환
# 출력: 1

print(arr_2d[0].size)   # 배열의 데이터 개수 반환
# 출력: 3

print(arr_2d[0].dtype)  # 배열 데이터 타입 반환
# 출력: int64

(3,)
1
3
int32


### 4. 같은 형태(Shape) 배열 연산
- 같은 형태(Shape)를 가진 NumPy 배열간 요소별 연산이 가능합니다.

In [10]:
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([5, 6, 7, 8])
print(f"arr1 : {arr1}, arr2 : {arr2}")
# 출력: arr1 : [1 2 3 4], arr2 : [5 6 7 8]

# 덧셈
result_add = arr1 + arr2
print(f'add : {result_add}')
# 출력: [ 6  8 10 12]

# 곱셈
result_mul = arr1 * arr2
print(f'mul : {result_mul}')
# 출력: [ 5 12 21 32]

arr1 : [1 2 3 4], arr2 : [5 6 7 8]
add : [ 6  8 10 12]
mul : [ 5 12 21 32]


### 5. 배열과 스칼라(Scala)간 연산
- ndarray와 스칼라(Scala)간 연산이 가능합니다.

In [11]:
import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 스칼라 값
scalar = 10

In [12]:
# 배열과 스칼라 덧셈
result_add = arr + scalar
# (참고) 명시적 메소드 호출 : arr.__add__(scalar)

print("배열과 스칼라 덧셈:")
print(result_add)
# 출력: [11 12 13 14 15]

배열과 스칼라 덧셈:
[11 12 13 14 15]


In [None]:
# 배열에서 스칼라 값 빼기
result_sub1 = arr - scalar

print("배열에서 스칼라 값 빼기:")
print(result_sub1)
# 출력: [-9 -8 -7 -6 -5]

In [None]:
# 스칼라 값에서 배열 빼기
result_sub2 = scalar - arr
# (참고) 명시적 메소드 호출 : arr.__rsub__(scalar)

print("스칼라 값에서 배열 빼기:")
print(result_sub2)
# 출력: [9 8 7 6 5]

In [None]:
# 배열과 스칼라 곱셈
result_mul = arr * scalar

print("배열과 스칼라 곱셈:")
print(result_mul)
# 출력: [10 20 30 40 50]

# 배열과 스칼라 나눗셈
result_div = arr / scalar

print("배열과 스칼라 나눗셈:")
print(result_div)
# 출력: [0.1 0.2 0.3 0.4 0.5]

# 배열과 스칼라 지수 연산
result_pow = arr ** scalar

print("배열과 스칼라 지수 연산:")
print(result_pow)
# 출력: [    1   100  1000 10000 100000]

### 6. 인덱싱과 슬라이싱
- ndarray는 파이썬 리스트처럼 인덱싱과 슬라이싱이 가능합니다.

In [16]:
# 1차원 배열에서의 인덱싱과 슬라이싱
arr = np.array([1, 2, 3, 4, 5])

# 인덱싱
print(arr[0])
# (참고) 명시적 메소드 호출 : arr.__getitem__(0)
# 출력: 1

# 슬라이싱
print(arr[1:4])
# (참고) 명시적 메소드 호출 : arr.__getitem__((slice(1, 4)))
# 출력: [2 3 4]

1
[2 3 4]


In [None]:
# 2차원 배열에서의 인덱싱과 슬라이싱
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(arr_2d[1, 2])  # 1행 2열 요소
# (참고) 명시적 메소드 호출 : arr_2d.__getitem__((1, 2))
# 출력: 6

print(arr_2d[:2, 1:])  # 0~1행, 1~2열 슬라이싱
# (참고) 명시적 메소드 호출 : arr_2d.__getitem__((slice(None, 2), slice(1, None)))
# 출력:
# [[2 3]
#  [5 6]]

In [None]:
# 인덱싱과 슬라이싱 혼합 (인텍싱을 하면 차원(ndim)이 줄어드는 것에 주목)
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

arr_mixed = arr_2d[1, 1:] # 1행 고정, 1~2열 슬라이싱
# (참고) 명시적 메소드 호출 : arr_2d.__getitem__((1, slice(1, None)))

print(arr_mixed.ndim, arr_mixed)
# 출력:
# 1 [5 6]

- 문제

In [None]:
"""
문제 :
    ndarray 변수 arr_44 를 slicing해서
    [[6 7], [10 11]] 를 만들어서 변수 arr_22 에 할당하세요

예상 출력:
    [[6 7]
     [10 11]]
""" 
arr_44 = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12],
                   [13, 14, 15, 16]])

arr_22 = arr_44[...]

print(arr_22)

### 7. ndarray 생성 시 값 지정
#### 7-1. 고정값 지정

In [None]:
# 0으로 채워진 배열 생성
zeros_arr = np.zeros((2, 3))
print(zeros_arr)
# 출력:
# [[0. 0. 0.]
#  [0. 0. 0.]]

ones_arr = np.ones((3, 2))
print(ones_arr)
# 출력:
# [[1. 1.]
#  [1. 1.]
#  [1. 1.]]

# 2x3 형태의 2차원 배열을 5로 채움
arr_2d_five = np.full((2, 3), 5)
print(arr_2d_five)
# 출력:
# [[5 5 5]
#  [5 5 5]]

#### 7-2.  랜덤(random)값 지정

In [None]:
# 1. 실수 난수 생성
# 0부터 1 사이의 실수로 이루어진 1차원 배열
random_floats = np.random.rand(5)
print(random_floats)
# 출력: [0.48772369 0.32645563 0.93481944 0.60790383 0.19452714]

# 2x3 형태의 2차원 배열
random_floats_2d = np.random.rand(2, 3)
print(random_floats_2d)
# 출력:
# [[0.42448742 0.75828409 0.83611169]
#  [0.54386223 0.81086794 0.81912079]]

# 2. 정수 난수 생성
# 0에서 9 사이의 정수로 이루어진 1차원 배열
random_ints = np.random.randint(0, 10, size=5)
print(random_ints)
# 출력: [6 0 4 9 6]

# 1에서 20 사이의 정수로 이루어진 2x3 형태의 2차원 배열
random_ints_2d = np.random.randint(1, 21, size=(2, 3))
print(random_ints_2d)
# 출력:
# [[ 5  4  8]
#  [16 10 11]]

### 8. 배열 형태 변경(reshape)
- reshape 함수는 NumPy 배열의 형태(모양)를 변경할 때 사용됩니다. 즉, 배열의 차원을 바꾸거나, 행과 열의 개수를 조절할 수 있습니다.
#### 8-1. 차원 변경

In [None]:
arr_1d = np.array([1, 2, 3, 4, 5, 6])
arr_2d = arr_1d.reshape(2, 3)

print("2차원 배열:")
print(arr_2d)
# 출력:
# [[1 2 3]
#  [4 5 6]]

In [None]:
# shape (2, 3, 2)
arr_3d = np.array([[[1, 2],
                    [3, 4],
                    [5, 6]],
                   
                   [[7, 8],
                    [9, 10],
                    [11, 12]]])

arr_2d_reshaped = arr_3d.reshape(3, 4)

print("arr_2d_reshaped shape:", arr_2d_reshaped.shape)
print(arr_2d_reshaped)
# 출력:
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]

#### 8-2. `-1`을 사용한 자동 계산

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])
arr_reshaped = arr.reshape(2, -1, 3)
# arr_reshaped의 shape 항목들의 곱(2 * x * 3) = arr의 shape 항목들의 곱(12)
# => x = 2

print("3차원 배열:")
print(arr_reshaped)
# 출력:
#[[[ 1  2  3]
#  [ 4  5  6]]
# [[ 7  8  9]
#  [10 11 12]]]


In [None]:
arr.shape

#### 8-3. 다차원 배열을 1차원 배열로 변경

In [None]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

arr_flattened = arr.reshape(-1)
# arr_flattened의 shape 항목들의 곱(x) = arr의 shape 항목들의 곱(3 * 3)
# => x = 9

print("원래 배열:")
print(arr)
# 출력:
# [[1 2 3]
#  [4 5 6]
#  [7 8 9]]

print("1차원 배열:")
print(arr_flattened)
# 출력: [1 2 3 4 5 6 7 8 9]

- 문제

In [None]:
"""
문제 :
    NumPy array 변수 orig_arr를 reshape해서
    [[1 2 3 4]
     [5 6 7 8]
     [9 10 11 12]]
    로 만들어서 변수 new_arr에 할당하세요

예상 출력:
    [[1 2 3 4]
     [5 6 7 8]
     [9 10 11 12]]
""" 
orig_arr = np.array([[1, 2, 3],
                     [4, 5, 6],
                     [7, 8, 9],
                     [10, 11, 12]])

new_arr = ...
print(new_arr)

### 9. 배열 붙이기(append)
- `append`는 배열에 새로운 요소를 추가한 복사본을 반환합니다. 원본 배열은 변경되지 않습니다.
- 추가하려는 요소의 형태와 배열의 형태(shape)가 일치해야 합니다. 열을 추가할 때는 차원이 맞아야 합니다.

#### 9-1. 1차원 배열에 요소 추가

In [None]:
arr = np.array([1, 2, 3])

# 요소 4를 배열에 추가
arr_appended = np.append(arr, 4)
print(arr_appended)
# 출력: [1 2 3 4]

# 요소 5, 6, 7을 배열에 추가
arr_appended_multiple = np.append(arr, [5, 6, 7])
print(arr_appended_multiple)
# 출력: [1 2 3 5 6 7]

#### 9-2. 다차원 배열 붙이기

In [None]:
arr_2d_1 = np.array([[1, 2, 3],
                   [4, 5, 6]])

arr_2d_2 = np.array([[7, 8, 9],
                    [10, 11, 12]])

# 첫번째 차원에 붙이기
appended_row = np.append(arr_2d_1, arr_2d_2, axis=0)
print(appended_row)
# 출력:
# [[1 2 3]
#  [4 5 6]
#  [7 8 9]
#  [10 11 12]]

# 두번째 차원에 붙이기
appended_col = np.append(arr_2d_1, arr_2d_2, axis=1)
print(appended_col)
# 출력:
# [[ 1  2  3  7  8  9]
# [ 4  5  6 10 11 12]]

# shape 출력
print('arr_2d_1 arr_2d_2 형태 : ', arr_2d_1.shape, arr_2d_2.shape)
print('appended_row 형태 : ', appended_row.shape)
print('appended_col 형태 : ', appended_col.shape)

## Wrap up
1. **ndarray (NumPy Array) 의 특성 확인**

	차원(`ndim`), 형태(`shape`), 데이터 개수(`size`), 데이터 타입(`dtype`) 네 가지 Numpy Array 속성을 사용하여 배열의 특성을 파악합니다.
2. **배열 연산의 기본**:

	ndarray 간, 또는 ndarray와 스칼라 값 간의 4칙 연산이 가능합니다.
3. **배열의 인덱싱과 슬라이싱**:

	ndarray는 리스트(list)와 유사한 방식으로 인덱싱과 슬라이싱이 가능하며, 이를 통해 배열의 특정 부분을 선택하거나 조작할 수 있습니다.
4. **배열 형태 변경 및 데이터 처리**:

	ndarray의 형태를 변경하는 다양한 함수(예: `reshape`, `split`, `append`)를 제공합니다. 