# **NumPy의 기초 (2)**

#### **다룰 내용**
1. array에 데이터 넣기
    - arange
    - linspace, logspace
    - random: seed, rand, randn, randint, shuffle, choice
2. unique
3. stack & concatente
    - stack
    - concatenate
    - column/row 결합
4. split
5. sort

In [1]:
import numpy as np

## **1. array에 데이터 넣기**

### 1.1 arange
- range와 사용 방법이 같음
- 하지만 range보다 속도가 빠름

In [2]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
np.arange(5, 10)

array([5, 6, 7, 8, 9])

In [4]:
np.arange(5, 10, 2)  # step 지정

array([5, 7, 9])

In [5]:
# 속도 비교
size = 10 ** 6
# size = int(1E6)
size

1000000

In [6]:
# range보다 arange를 사용하는 것이 더 빠르다!
%time for x in range(size): x**2
%time for x in np.arange(size): x**2

Wall time: 270 ms
Wall time: 169 ms


### 1.2 linspace, logspace

#### (1) linspace
- 범위 사이를 n-1 등분(point는 n개가 됨) (선형적으로 공간을 나눔)

In [7]:
# 0과 100 사이를 3점으로 나눔
np.linspace(0, 100, 3) 

array([  0.,  50., 100.])

In [8]:
# 0과 100 사이를 5점으로 나눔
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

#### (2) logspace 
- log 범위 사이를 n-1 등분(point는 n개가 됨)

In [9]:
# log10(x1)=2, log10(x2)=3, log10(x3)=4
# x1=100, x2=1000, x3=10000
np.logspace(2, 4, 3)

array([  100.,  1000., 10000.])

In [10]:
# 2, 2.5, 3
# log10(x1)=2, log10(x2)=2.5, log10(x3)=4
np.logspace(2, 3, 3)

array([ 100.        ,  316.22776602, 1000.        ])

In [11]:
10**2, 10**2.5, 10**3

(100, 316.22776601683796, 1000)

### 1.3 random
array에 랜덤하게 수를 발생시켜 넣어주는 방법을 알아보자.
- seed: 랜덤변수의 설정값
    - seed 값을 동일하게 주면 같은 동일한 결과를 반복해서 얻을 수 있음 
- rand: 균등분포(uniform)로 난수를 발생시킴
- randn: 정규분포(Gaussian)로 난수를 발생시킴
- randint: 정수로 난수를 발생시킴 (균등분포)
- suffle: 행렬 데이터를 섞어줌
- choice: 특정 범위의 숫자를 선택해줌 (확률 설정이 가능)

#### (1) seed, rand, randn
 - `np.random.rand(size)`  <br>
 - `np.random.randn(size)`

In [13]:
np.random.seed(0)
rd = np.random.rand(2, 5)       # uniform 으로 난수 발생 (균등분포)
rdn = np.random.randn(2, 5)     # Gaussian 으로 난수 발생 (정규분포 - 0에 가까운수가 많이 나옴)
print(rd)
print(rdn)

[[0.5488135  0.71518937 0.60276338 0.54488318 0.4236548 ]
 [0.64589411 0.43758721 0.891773   0.96366276 0.38344152]]
[[ 0.14404357  1.45427351  0.76103773  0.12167502  0.44386323]
 [ 0.33367433  1.49407907 -0.20515826  0.3130677  -0.85409574]]


In [14]:
# seed 값을 바꾸면 다른 값이 나온다.
np.random.seed(1)
rd = np.random.rand(2, 5) 
rdn = np.random.randn(2, 5) 
print(rd)
print(rdn)

[[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
  1.46755891e-01]
 [9.23385948e-02 1.86260211e-01 3.45560727e-01 3.96767474e-01
  5.38816734e-01]]
[[ 1.74481176 -0.7612069   0.3190391  -0.24937038  1.46210794]
 [-2.06014071 -0.3224172  -0.38405435  1.13376944 -1.09989127]]


In [15]:
np.random.seed(1)
rd = np.random.rand(4)
rdn = np.random.randn(4)
print(rd)
print(rdn)

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01]
[-0.52817175 -1.07296862  0.86540763 -2.3015387 ]


In [16]:
# rand로 3차원 행렬 만들기
r = np.random.rand(2, 3, 4)
r

array([[[0.41919451, 0.6852195 , 0.20445225, 0.87811744],
        [0.02738759, 0.67046751, 0.4173048 , 0.55868983],
        [0.14038694, 0.19810149, 0.80074457, 0.96826158]],

       [[0.31342418, 0.69232262, 0.87638915, 0.89460666],
        [0.08504421, 0.03905478, 0.16983042, 0.8781425 ],
        [0.09834683, 0.42110763, 0.95788953, 0.53316528]]])

In [17]:
# rand로 2차원 행렬 만들기
r = np.random.rand(2, 3)
r

array([[0.69187711, 0.31551563, 0.68650093],
       [0.83462567, 0.01828828, 0.75014431]])

#### (2) randint
- `np.random.randint(from, to, size)`

In [18]:
r = np.random.randint(5, 10, (3, 3))
r

array([[5, 9, 6],
       [7, 7, 6],
       [5, 6, 8]])

In [19]:
r = np.random.randint(5, size=(3, 3))
r

array([[4, 3, 1],
       [3, 0, 0],
       [2, 2, 1]])

#### (3) shuffle
- 데이터의 순서를 바꿀수 있음
- 행의 순서만 바뀜 (행 안의 데이터는 바뀌지 않음)
- 데이터를 다 바꾸려면? 1열로 reshape 후 shuffle, 그 후 다시 reshape

In [20]:
r

array([[4, 3, 1],
       [3, 0, 0],
       [2, 2, 1]])

In [21]:
np.random.shuffle(r)
r

array([[3, 0, 0],
       [2, 2, 1],
       [4, 3, 1]])

In [22]:
# 데이터를 전부 뒤섞기
r = r.reshape(9 ,1)
np.random.shuffle(r)
r = r.reshape(3,3)
r

array([[0, 1, 2],
       [3, 2, 4],
       [0, 1, 3]])

#### (4) choice
 - `numpy.random.choice(a, size=None, replace=True, p=None)`
     - a: 1-D array-like or int
     - size: int or tuple of int, optional
     - replace: boolen, optional (False: equivalent to permutation - 비복원추출!)
     - p: 1-D array-like, optional (입력하지 않으면 a에 대해 uniform distribution)

In [27]:
np.random.choice(5, 3)

array([1, 0, 2])

In [30]:
# p의 확률로 range(5)를 10개 추출
a = list(range(5))
p = [0.1, 0, 0.4, 0.2, 0.3]     # p= 0 나올 확률, 1 나올 확률, 2 나올 확률, 3 나올 확률, 4 나올 확률
print(a)
print(p)

[0, 1, 2, 3, 4]
[0.1, 0, 0.4, 0.2, 0.3]


In [31]:
np.random.choice(a, 10, p)

array([1, 2, 1, 4, 2, 0, 0, 1, 0, 1])

In [34]:
np.random.choice(range(5, 10), (2, 2), replace=False, p=p) 

array([[7, 9],
       [5, 8]])

## **2. unique**
- 행렬 데이터에서 유일값(중복없는 list)과 유일값의 개수를 확인할 수 있음

In [35]:
r

array([[0, 1, 2],
       [3, 2, 4],
       [0, 1, 3]])

In [38]:
index, counts = np.unique(r, return_counts=True)
print(index, type(index))
print(counts, type(counts))

[0 1 2 3 4] <class 'numpy.ndarray'>
[2 2 2 2 1] <class 'numpy.ndarray'>


## **3. stack & concatenate**

### 3.1 stack
- 행렬을 쌓는 것과 같이 합치는 방법
- `numpy.stack(arrays, axis=0, out=None)`
  - arrays: sequence of array_like (각 array는 같은 shape여야 함!)
  - axis: The axis in the result array along which the input arrays are stacked (몇번째 차원의 방향으로 쌓는가)

#### (1) 1차원 행렬의 stack

In [40]:
na1 = np.arange(1, 6)
na2 = np.arange(6, 11)
print(na1)
print(na2)

[1 2 3 4 5]
[ 6  7  8  9 10]


In [42]:
na3 = np.stack([na1, na2])   
# na3 = np.stack((na1, na2)) 
print(na3)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [43]:
na3 = np.stack((na1, na2), axis = 1)   # axis=1: 각 행렬의 shape인 (1, 5)에서 1번째인 '5'가 나타내는 열방향으로 쌓음)
print(na3)

[[ 1  6]
 [ 2  7]
 [ 3  8]
 [ 4  9]
 [ 5 10]]


#### (2) 2차원 행렬의 stack

In [52]:
na1 = np.arange(1, 7).reshape(2, 3)
na2 = np.arange(7, 13).reshape(2, 3)
print(na1)
print(na2)
print("shape of na1:", na1.shape)
print("shape of na2:", na2.shape)

[[1 2 3]
 [4 5 6]]
[[ 7  8  9]
 [10 11 12]]
shape of na1: (2, 3)
shape of na2: (2, 3)


In [53]:
na3 = np.stack((na1, na2))   
print(na3)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [54]:
print("shape of 'na3':", na3.shape)

shape of 'na3': (2, 2, 3)


In [49]:
na3 = np.stack((na1, na2), axis = 1)   # 한 차원 안으로 들어가서 행끼리 짝지어 쌓음
print(na3)

[[[ 1  2  3]
  [ 7  8  9]]

 [[ 4  5  6]
  [10 11 12]]]


In [95]:
na3 = np.stack((na1, na2), axis = 2)  # 한 차원 더 들어가서 원소들을 짝지어 쌓음
print(na3)

[[[ 1  7]
  [ 2  8]
  [ 3  9]]

 [[ 4 10]
  [ 5 11]
  [ 6 12]]]


### 3.2 concatenate (결합)
- 세로 결합(axis=0, default)은 열의 갯수가 같아야 함
- 가로 결합(axis=1)은 행의 갯수가 같아야 함

In [55]:
na1 = np.random.randint(10, size=(2, 3))
na1

array([[8, 9, 2],
       [7, 5, 5]])

In [56]:
na2 = np.random.randint(10, size=(3, 2))
na2

array([[4, 5],
       [8, 5],
       [8, 1]])

In [57]:
na3 = np.random.randint(10, size=(3, 3))
na3

array([[1, 8, 7],
       [0, 3, 4],
       [2, 0, 3]])

In [58]:
np.concatenate((na1, na3))           # axis=0이 default: 세로결합

array([[8, 9, 2],
       [7, 5, 5],
       [1, 8, 7],
       [0, 3, 4],
       [2, 0, 3]])

In [59]:
np.concatenate((na2, na3), axis=1)   # axix=1: 가로 결합

array([[4, 5, 1, 8, 7],
       [8, 5, 0, 3, 4],
       [8, 1, 2, 0, 3]])

### 3.3 column/row 결합
- `c_[array1, array2]`: column 결합
- `r_[array1, array2]`: row 결합 → 결과가 1행 행렬이 됨
- stack이나 concatenate이 더 빠름

In [60]:
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6]) ]

array([[1, 4],
       [2, 5],
       [3, 6]])

In [61]:
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6]) ]

array([1, 2, 3, 4, 5, 6])

## **4. split**

In [62]:
ab = np.arange(0, 10)
ab

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
np.split(ab, [5])     # 앞에서 5번째를 기준으로 나눈다

[array([0, 1, 2, 3, 4]), array([5, 6, 7, 8, 9])]

In [64]:
# split 해서 여러개의 array로 받을 수 있음
r1, r2 = np.split(ab, [5])  
r1, r2

(array([0, 1, 2, 3, 4]), array([5, 6, 7, 8, 9]))

In [65]:
# split 기준을 여러개 둘 수 있음: 2, 4, 6, 8 번째 원소 기준으로 5개로 나눈다
np.split(ab, [2, 4, 6, 8])

[array([0, 1]), array([2, 3]), array([4, 5]), array([6, 7]), array([8, 9])]

### 4.1 vsplit / hsplit
- 행렬을 수직, 수평으로 나눈다

In [66]:
r = np.random.randint(10, size=(4, 6))
r

array([[5, 1, 2, 4, 3, 0],
       [6, 0, 7, 2, 8, 3],
       [0, 8, 4, 2, 9, 0],
       [3, 8, 1, 4, 3, 3]])

In [67]:
# vsplit: 위 아래 각각의 행렬로 분리함
r1, r2 = np.vsplit(r, [2])     # 2번째 행 기준으로
print(r1)
print(r2)

[[5 1 2 4 3 0]
 [6 0 7 2 8 3]]
[[0 8 4 2 9 0]
 [3 8 1 4 3 3]]


In [68]:
# hsplit: 좌 우 행렬로 분리함, 수직을 자름
n1, n2 = np.hsplit(r, [3])    # 3번째 열 기준으로
print(n1)
print(n2)

[[5 1 2]
 [6 0 7]
 [0 8 4]
 [3 8 1]]
[[4 3 0]
 [2 8 3]
 [2 9 0]
 [4 3 3]]


In [72]:
n1, n2, n3 = np.hsplit(r, [2, 4])
print(n1)
print(n2)
print(n3)

[[5 1]
 [6 0]
 [0 8]
 [3 8]]
[[2 4]
 [7 2]
 [4 2]
 [1 4]]
[[3 0]
 [8 3]
 [9 0]
 [3 3]]


In [73]:
n1, n2, n3 = np.hsplit(r, 3)      # int를 넣으면 n등분을 함
print(n1)
print(n2)
print(n3)

[[5 1]
 [6 0]
 [0 8]
 [3 8]]
[[2 4]
 [7 2]
 [4 2]
 [1 4]]
[[3 0]
 [8 3]
 [9 0]
 [3 3]]


## **5. sort**

In [74]:
r1 = np.random.randint(10, size=(3,3))
print(r1)

[[6 7 3]
 [5 3 2]
 [4 4 0]]


In [75]:
# 가로로 sorting
r1.sort()          # axis -1과 1은 같은 동작을 한다   sort는 r1에 바로 반영됨
r1

array([[3, 6, 7],
       [2, 3, 5],
       [0, 4, 4]])

In [76]:
# 세로로 sorting : axis=0 (각 열이 독립적으로 정렬됨)
r1.sort(axis=0)
r1

array([[0, 3, 4],
       [2, 4, 5],
       [3, 6, 7]])

#### 참고자료
- NumPy v1.16 Manual [(https://docs.scipy.org/doc/numpy/index.html)](https://docs.scipy.org/doc/numpy/index.html)
- 패스트캠퍼스, ⟪데이터사이언스스쿨 8기⟫ 수업자료