# numpy 기초
배열 기반 연산 패키지인 numpy의 기초 사용법을 공부한다.

In [3]:
import numpy as np

## ndarray의 차원 - shape, ndim
- [1,2,3] -> 1차원 데이터 (3, )
- [[1,2,3]] -> 2차원 데이터 (1, 3)

In [None]:
array1 = np.array([1,2,3])
print(type(array1))
print(array1.shape)
print(array1.ndim)

array2 = np.array([[1,2,3],[4,5,6]])
print(type(array2))
print(array2.shape)
print(array2.ndim)

array3 = np.array([[1,2,3]])
print(type(array3))
print(array3.shape)
print(array3.ndim)

In [12]:
print(array1.dtype)

int64


## ndarray 데이터 타입 변경 - astype
대용량 데이터로 인한 메모리 차지를 줄이기 위해 사용

In [10]:
array_int = np.array([1,2,3])
array_float = array_int.astype('float64')
print(array_int.dtype, array_float.dtype)

int64 float64


## ndrray를 초기화하여 생성 - arange, zeros, ones

In [17]:
array1 = np.arange(10)
print(array1)

array2 = np.zeros((3, 2))
print(array2)

array3 = np.ones((3, 2), 'int32')
print(array3)

[0 1 2 3 4 5 6 7 8 9]
[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[1 1]
 [1 1]
 [1 1]]


## 차원 및 크기 변경 - reshape
- 지정한 사이즈로 변경이 가능해야 함 (ex. [10,] -> [2, 5])
- -1을 인자로 사용하면 자동으로 호환되는 shape로 변환해줌
    - 하나만 사용 가능
- reshape(-1, 1): 어떤 형태이든, column이 1개인 ndarray로 자동 변환
    - ex. 3차원 데이터 -> 2차원 데이터로 변환

In [None]:
array = np.arange(10)
array2 = array.reshape(2, 5)
print(array2)

array3 = array.reshape(3, 4)

In [None]:
array4 = array.reshape(5, -1)
print(array4.shape)

array5 = array.reshape(-1, -1)

In [None]:
# 자동 호환되지 않는 shape
array6 = array.reshape(-1, 3)

In [28]:
array = np.arange(8)
array3d = array.reshape((2,2,2))
print(array3d.tolist())
print(array3d.shape, end='\n\n')

array2d = array3d.reshape(-1,1)
print(array2d.tolist())
print(array2d.shape)

[[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
(2, 2, 2)

[[0], [1], [2], [3], [4], [5], [6], [7]]
(8, 1)


## Indexing

### 1. 데이터 접근

In [30]:
array = np.arange(10)
print(array)
print(array[5], array[-1])

[0 1 2 3 4 5 6 7 8 9]
5 9


### 1-1. 2차원 데이터 접근
- [axis 0, axis 1]
- axis 0 = row number
- axis 1 = column number

In [33]:
array2 = array.reshape(2, 5)
print(array2)
print(array2[1, 2])
print(array2[1][2])

[[0 1 2 3 4]
 [5 6 7 8 9]]
7
7


### 2. Slicing

In [37]:
print(array[0:4])
print(array[4:])
print(array[:4])
print(array[:])

[0 1 2 3]
[4 5 6 7 8 9]
[0 1 2 3]
[0 1 2 3 4 5 6 7 8 9]


### 2-1. 2차원 Slicing

In [42]:
print(array2)
print(array2[:, 3:])
print(array2[0])
print(array2[:,1])

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[3 4]
 [8 9]]
[0 1 2 3 4]
[1 6]


### 3. Fancy Indexing
- 인덱스 집합을 이용해 slicing
- array[[1,2], 0] => row의 인덱스가 1, 2이고 column의 인덱스가 0인 데이터 집합

In [46]:
array = np.arange(1, 10)
array2d = array.reshape(3,3)
print(array2d)

print(array2d[[1, 2], 0])
print(array2d[[1, 2], 0:2])
print(array2d[[1, 2]])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 7]
[[4 5]
 [7 8]]
[[4 5 6]
 [7 8 9]]


### 4. Boolean Indexing
- Step1. 필터링 조건을 [] 안에 기재
- Step2. True 값에 해당하는 **인덱스값**을 저장
- Step3. 저장된 인덱스 set으로 ndarray 조회

In [49]:
print(array > 5)
print(array[array > 5])
print(array[[5,6,7,8]])

array2 = np.arange(11, 20)
print(array2[array > 5])

[False False False False False  True  True  True  True]
[6 7 8 9]
[6 7 8 9]
[16 17 18 19]


## 정렬 - sort, argsort
- np.sort(arr) : arr를 정렬한 ndarray를 반환 (arr는 원형 유지)
- arr.sort() : arr를 정렬하고, None을 반환

In [50]:
origin_arr = np.array([3, 1, 2, 4])
print(origin_arr)

print(np.sort(origin_arr))
print(origin_arr)

[3 1 2 4]
[1 2 3 4]
[3 1 2 4]


In [51]:
print(origin_arr.sort())
print(origin_arr)

None
[1 2 3 4]


- 내림차순으로 정렬 : [::-1] slicing 이용

In [52]:
origin_arr = np.array([3, 1, 2, 4])
print(np.sort(origin_arr)[::-1])

[4 3 2 1]


### 2차원 정렬 - axis 설정
- axis=0 : row를 기준으로 정렬
- axis=1 : column을 기준으로 정렬

In [57]:
array2d = np.array([[8, 12], [7, 1]])
print("original array:\n", array2d)

newarr1 = np.sort(array2d, axis=0)
print("sorted by row:")
print(newarr1)

newarr2 = np.sort(array2d, axis=1)
print("sorted by col:")
print(newarr2)

original array:
 [[ 8 12]
 [ 7  1]]
sorted by row:
[[ 7  1]
 [ 8 12]]
sorted by col:
[[ 8 12]
 [ 1  7]]


### argsort(arr)
- 정렬 후 원본 행렬의 원소에 대한 index 반환
- [::-1]로 내림차순 index 반환

In [60]:
origin_arr = np.array([3, 1, 9, 5])
sort_indices = np.argsort(origin_arr)
print(sort_indices)
print(sort_indices[::-1])

[1 0 3 2]
[2 3 0 1]


- 활용 예시

In [65]:
name = np.array(['john', 'mike', 'sarah', 'kate'])
score = np.array([78, 95, 84, 98])

sort_indices = np.argsort(score)[::-1]
print(sort_indices)
print("성적 순: ", name[sort_indices])

[3 1 2 0]
성적 순:  ['kate' 'mike' 'sarah' 'john']


## 선형대수 연산
### 행렬 곱 - np.dot

In [66]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])
print(np.dot(A, B))

[[ 58  64]
 [139 154]]


### 전치 행렬 - np.transpose

In [67]:
print(np.transpose(A))

[[1 4]
 [2 5]
 [3 6]]
