## NumPy 배열 생성

In [None]:
import numpy as np

# 1차원 배열 
array1 = np.array([1,2,3])
print(f"array1:{array1}")
print(f"array1 shape: {array1.shape}\n")

# 2차원 배열 
array2 = np.array([[1,2,3],
                   [4,5,6]])
print(f'array2: {array2}')
print(f"array2 shape: {array2.shape}\n")

# array1과의 차이를 이해 
array3 = np.array([[1,2,3]])
print(f'array3: {array3}')
print(f"array3 shape: {array3.shape}\n")

array1:[1 2 3]
array1 shape: (3,)

array2: [[1 2 3]
 [4 5 6]]
array2 shape: (2, 3)

array3: [[1 2 3]]
array3 shape: (1, 3)



In [5]:
print(f"array1 dim: {array1.ndim}")
print(f"array3 dim: {array3.ndim}")

array1 dim: 1
array3 dim: 2


## ndarray의 데이터 타입

숫자, 문자열, bool 모두 가능하되, ndarray내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다.
- 다른 데이터 유형이 섞여 있는 리스트를 변경하면 데이터 크기가 더 큰 데이터 타입으로 형변환 일괄 적용 

In [7]:
list1 = [1,2,3]
print(type(list1))

array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [None]:
list2 = [1,2,'test']
array2 = np.array(list2)
print(array2, array2.dtype) # int와 string 중 string으로 형변환 

list3 = [1, 2, 3.]
array3 = np.array(list3)
print(array3, array3.dtype) # int와 float 중 float으로 형변환

['1' '2' 'test'] <U11
[1. 2. 3.] float64


In [10]:
## data type 변경 가능

array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(f"변환 전:{array_int.dtype}")
print(f"변환 후:{array_float.dtype}")

변환 전:int32
변환 후:float64


## ndarray 생성 (arange, zeros, ones)

In [None]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

sequence_array2 = np.arange(start=1, stop = 10) # start, stop, step 등 정의 가능 
print(sequence_array2)
print(sequence_array2.dtype, sequence_array2.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)
[1 2 3 4 5 6 7 8 9]
int32 (9,)


In [18]:
zero_array = np.zeros((3,2), dtype = "int32")
print(zero_array.dtype, zero_array.shape) # zero_array 데이터 타입, 형태 
print(zero_array.size) # array의 크기 
print(zero_array)

print("="* 30)

ones_array = np.ones((3,2), dtype = "float64")
print(ones_array.dtype, ones_array.shape)
print(ones_array)

int32 (3, 2)
6
[[0 0]
 [0 0]
 [0 0]]
float64 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]


## ndarray 차원과 크기 변경
- `reshape()`는 지정된 사이즈로 변경이 불가능하면 오류 발생
  - 예를 들어, (10,) 형태의 ndarray를 (3,4) Shape 형태로 변경할 수 없다. 
- 실전에서는 인자를 -1로 하여 원래 ndarray와 호환되는 새로운 shape 반환

In [22]:
array1 = np.arange(10)
print(f"array1:\n{array1}")
print("=" * 30)

array2 = array1.reshape(2,5) # array1의 1차원 ndarray를 5 row, 2 column의 형태로 변환 
print(f"array2:\n{array2}")
print("=" * 30)

array3 = array1.reshape(5,2)
print(f"array3:\n{array3}")

array1:
[0 1 2 3 4 5 6 7 8 9]
array2:
[[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [None]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1, 5) # -1 인자가 원래 ndarray의 Shape에 맞게 자동으로 변환 
print(f"array2:\n{array2}")

[0 1 2 3 4 5 6 7 8 9]
array2:
[[0 1 2 3 4]
 [5 6 7 8 9]]


## ndarray 결합과 분리

In [39]:
matrix = np.array([[0,1,2,3],
                   [4,5,6,7]])
print(matrix)
print("shape : ", matrix.shape, "\n")

m = np.concatenate((matrix, matrix), axis = 0) # axis 0축(row)을 기준으로 결합, 즉 두 배열을 세로로 결합
print(f"두 개의 배열 세로로 결합:\n {m}")

n = np.concatenate((matrix, matrix), axis = 1) # axis 1축(column)을 기준으로 결합, 즉 두 배열을 가로로 결합
print(f"두 개의 배열을 가로로 결합:\n {n}")

[[0 1 2 3]
 [4 5 6 7]]
shape :  (2, 4) 

두 개의 배열 세로로 결합:
 [[0 1 2 3]
 [4 5 6 7]
 [0 1 2 3]
 [4 5 6 7]]
두 개의 배열을 가로로 결합:
 [[0 1 2 3 0 1 2 3]
 [4 5 6 7 4 5 6 7]]


In [36]:
matrix = np.array([[ 0, 1, 2, 3],
                   [ 4, 5, 6, 7],
                   [ 8, 9,10,11], 
                   [12,13,14,15]])
print(matrix, "\n")

a, b = np.split(matrix, [3], axis = 0) # matrix를 [3]행에서 axis = 0으로 나누기
print(a, "\n")
print(b, "\n")
print("=" * 30)

c, d = np.split(matrix, [1], axis = 1) # matrix를 [1]행에서 axis = 1으로 나누기
print(c, "\n")
print(d, "\n")

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]] 

[[12 13 14 15]] 

[[ 0]
 [ 4]
 [ 8]
 [12]] 

[[ 1  2  3]
 [ 5  6  7]
 [ 9 10 11]
 [13 14 15]] 



## ndarray를 list로 변환

In [25]:
array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
print(f"array3d:\n {array3d}")

array3d_to_list = array3d.tolist() # tolist() 메서드를 이용하여 리스트 자료형으로 변환 
print(f"array3d_to_list:\n{array3d_to_list}")

array3d:
 [[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]
array3d_to_list:
[[[0, 1], [2, 3]], [[4, 5], [6, 7]]]


## 인덱싱(Indexing)
- 슬라이싱(Slicing)
- 팬시 인덱싱(Fancy Indexing)
- 불린 인덱싱(Boolean Indexing)

---
## 축(axis)
- axis 0은 로우 방향의 축을 의미하며, axis 1은 컬럼 방향의 축을 의미
  - 2차원에서는 axis 0, axis 1로 2개의 축을 가지게 된다(행, 열)
  - 3차원에서는 axis 0, axis 1, axis 2로 3개의 축을 가지게 된다(행, 열, 높이)

In [27]:
array1 = np.arange(start = 1, stop = 10)
print(f"array1: {array1}")

value = array1[2] # 단일 값 추출
print(f"value: {value}")
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


In [30]:
array1d = np.arange(start = 1, stop = 10)
array2 = array1d.reshape(-1, 3)
print(f"array2:\n {array2}")

# 2차원 행렬 (matrix) 인덱싱 
print(f"(axis 0= 0, axis 1= 0) indexing: {array2[0,0]}")
print(f"(axis 0= 1, axis 1= 0) indexing: {array2[1,0]}")
print(f"(axis 0= 2, axis 1= 1) indexing: {array2[2,1]}")

array2:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
(axis 0= 0, axis 1= 0) indexing: 1
(axis 0= 1, axis 1= 0) indexing: 4
(axis 0= 2, axis 1= 1) indexing: 8


In [None]:
# Boolean indexing

array1d = np.arange(start = 1, stop = 10)
array3 = array1d[array1d > 5] # 5 이상인 데이터만 인덱싱 
print(f"array3:\n {array3}")

array3:
 [6 7 8 9]


## 행렬의 정렬 
- `np.sort`: 넘파이에서 sort()를 호출하는 방식
- `ndarray.sort`: ndarray 행렬 자체에서 sort()를 호출하는 방식
- `argsort`: 정렬된 행렬의 인덱스 반환 

In [None]:
org_array = np.array([3,1,9,5])
print(f"원본 행렬: {org_array}")

sort_array1 = np.sort(org_array) # 원 행렬을 그대로 유지한 채 원 행렬의 정렬된 행렬 반환
print(f"정렬된 행렬: {sort_array1}")

sort_array2 = org_array.sort() # 원 행렬 자체를 정렬하므로 return 값 존재하지 않음
print(f"org_array.sort() 호출 후 반환된 행렬: {sort_array2}")
print(f"org_array.sort() 호출 후 원본 행렬: {org_array}")

# 내림차순 정렬
sort_array1_desc = np.sort(org_array)[::-1]
print(f"내림차순 정렬: {sort_array1_desc}")

원본 행렬: [3 1 9 5]
정렬된 행렬: [1 3 5 9]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]
내림차순 정렬: [9 5 3 1]


In [49]:
## 행렬이 2차원 이상일 경우 axis 0, axis 1등의 축 값 설정을 통해 row 또는 column 방향으로 정렬 가능
array2d = np.array([[8,12],
                    [7,1]])
print(f"원본 행렬:\n{array2d}\n")

sort_array2d_axis0 = np.sort(array2d, axis = 0) # axis 0, 즉 로우를 기준으로 정렬
print(f"axis 0축을 기준으로 정렬:\n {sort_array2d_axis0}\n")

sort_array2d_axis1 = np.sort(array2d, axis = 1) # axis 1, 즉 컬럼을 기준으로 정렬
print(f"axis 1축을 기준으로 정렬:\n {sort_array2d_axis1}")

원본 행렬:
[[ 8 12]
 [ 7  1]]

axis 0축을 기준으로 정렬:
 [[ 7  1]
 [ 8 12]]

axis 1축을 기준으로 정렬:
 [[ 8 12]
 [ 1  7]]


In [51]:
org_array = np.array([3,1,9,5])
sort_idx = np.argsort(org_array)
print(type(sort_idx))
print(f"행렬 정렬 시 원본 행렬의 인덱스:{sort_idx}")

sort_idx_desc = np.argsort(org_array)[::-1]
print(f"행렬 내림차순 정렬 시 원본 행렬의 인덱스:{sort_idx_desc}")

<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스:[1 0 3 2]
행렬 내림차순 정렬 시 원본 행렬의 인덱스:[2 3 0 1]


## 행렬 내적

In [52]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])
dot_product = np.dot(A,B)

print(f"행렬 내적 결과: {dot_product}")

행렬 내적 결과: [[ 58  64]
 [139 154]]


## 전치 행렬

In [54]:
A = np.array([[1,2],
              [3,4]])
transpose_mat = np.transpose(A)
print(f"A의 전치 행렬: \n{transpose_mat}")

transpose_mat2 = A.T
print(f"A의 전치 행렬: \n{transpose_mat2}")

A의 전치 행렬: 
[[1 3]
 [2 4]]
A의 전치 행렬: 
[[1 3]
 [2 4]]


## NumPy 연산
- Broadcasting: Shape이 다른 array끼리 연산할 때, 부족한 shape을 동일한 값으로 채워 연산을 수행함

In [None]:
array1 = np.arange(start = 1, stop = 6)

print(f"array1에 5를 더한 배열: {array1 + 5}")
print(f"array1에 5를 뺀 배열: {array1 - 5}")
print(f"array1에 5를 곱한 배열: {array1 * 5}")
print(f"array1에 5를 나눈 배열: {array1 / 5}")

# 행렬
matrix = np.array([[2,4,2],
                   [6,5,9],
                   [9,4,7]])

print(matrix + 5)

array1에 5를 더한 배열: [ 6  7  8  9 10]
array1에 5를 뺀 배열: [-4 -3 -2 -1  0]
array1에 5를 곱한 배열: [ 5 10 15 20 25]
array1에 5를 나눈 배열: [0.2 0.4 0.6 0.8 1. ]
[[ 7  9  7]
 [11 10 14]
 [14  9 12]]


In [62]:
A = np.arange(6).reshape(3,2)
print(f"배열 A:\n{A}")

B = np.arange(3).reshape(3,-1)
print(f"배열 B:\n{B}")
# 브로드캐스팅
print(f'브로드캐스팅 연산 결과:\n{A+B}')

배열 A:
[[0 1]
 [2 3]
 [4 5]]
배열 B:
[[0]
 [1]
 [2]]
브로드캐스팅 연산 결과:
[[0 1]
 [3 4]
 [6 7]]


## 집계함수(aggregation)
데이터에 대한 요약 통계

In [69]:
x = np.arange(8).reshape(2,4)
print(f"원본 배열:\n{x}\n")

print(f"x의 총합: {np.sum(x)}")
print(f"x의 최솟값: {np.min(x)}")
print(f"x의 최댓값: {np.max(x)}")
print(f"x의 평균: {np.mean(x)}")

# 축을 설정하여 특정 축에 해당하는 값끼리 덧셈 가능
print(f"axis 0을 기준으로 총합: {np.sum(x, axis = 0)}") # 각 컬럼의 행끼리 덧셈
print(f"axis 1을 기준으로 총합: {np.sum(x, axis = 1)}") # 각 행의 컬럼끼리의 덧셈

원본 배열:
[[0 1 2 3]
 [4 5 6 7]]

x의 총합: 28
x의 최솟값: 0
x의 최댓값: 7
x의 평균: 3.5
axis 0을 기준으로 총합: [ 4  6  8 10]
axis 1을 기준으로 총합: [ 6 22]


In [2]:
# 양치기 소년의 거짓말 횟수 구하기
# 거짓말: 0
import numpy as np

daily_liar_data = [0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0]
print(np.sum(np.array(daily_liar_data) == 0))

71
