## NumPy

### NumPy 소개
Numpy는 Pandas와 함께 데이터사이언스에서 수치 배열 데이터를 다루는데 필수적 패키지로,  


### 다룰 내용
- Make
- array
- reshape
- index
- zeros
- ones
- eye
- like
- empty
- arange
- linspace, logspace
- rand, randn
- stack
- concatenate
- split
- sort

설치하기
- `pip3 install numpy`

In [1]:
import numpy as np

## 1. 배열 만들기

### 1.1 배열(ndarray)
- `ndarray`: NumPy의 array class (alias: `array`)
- 중요 속성
    - `ndarray.ndim` : array의 차원 수
    - `ndarray.shape` : array 각 차원의 사이즈

### 1.2 array 만들기
#### (1) 1차원 배열 (vector, 행벡터)

In [3]:
array = np.array([0,1,2,3,4,5])
# array = np.array(range(6))      # 같은 결과가 나옴
print(type(array))
print(array)

<class 'numpy.ndarray'>
[0 1 2 3 4 5]


#### (2) 2차원 배열 (matrix)

##### 열벡터 (`n*1` matrix)

In [4]:
array = np.array([[0],[1],[2]])
print(array)

[[0]
 [1]
 [2]]


##### `n*m` matrix

In [6]:
array = np.array([[1, 2, 3],
                  [4, 5, 6]])
print(array)
print("array의 ndim(차원 수):", array.ndim)
print("array의 shape:", array.shape)

[[1 2 3]
 [4 5 6]]
array의 차원 수: 2
array의 shape: (2, 3)


#### (3) 3차원 배열 (`n*m*o` matrix)

In [8]:
array = np.array([[[0,1,2,3],
                   [4,5,6,7],
                   [8,9,10,11]],
                  [[0,1,2,3],
                   [4,5,100,7],
                   [8,9,10,11]]])
print(array)
print("array의 ndim(차원 수):", array.ndim)
print("array의 shape:", array.shape)   # 바깥에서 안(상위에서 하위로)으로 모양을 나타낸다고 생각하면 편함

[[[  0   1   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]

 [[  0   1   2   3]
  [  4   5 100   7]
  [  8   9  10  11]]]
array의 ndim(차원 수): 3
array의 shape: (2, 3, 4)


## 2. reshape
- 행렬의 모양을 바꿀수 있다.

In [10]:
na = np.array([1,2,3,4,5,6,7,8])
na

array([1, 2, 3, 4, 5, 6, 7, 8])

In [11]:
rna = na.reshape(2,4)          # 아래보다는 이렇게 쓰는게 좀 더 편한 방법
rna

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [12]:
rna = np.reshape(na, (4,2))    # np의 함수 reshape을 사용
rna

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [13]:
# 전치행렬 (.T는 속성)
rna.T

array([[1, 3, 5, 7],
       [2, 4, 6, 8]])

## 3. index
- 행렬 데이터를 수정하거나, 가져오거나, 자를 때 사용
- 행렬의 특정 위치 데이터 값 가져오기
- 행렬 자르기

In [10]:
array

array([[[  0,   1,   2,   3],
        [  4,   5,   6,   7],
        [  8,   9,  10,  11]],

       [[  0,   1,   2,   3],
        [  4,   5, 100,   7],
        [  8,   9,  10,  11]]])

In [14]:
print(array[1][1][2])  # 바깥차원부터 indexing
print(array[1,1,2])    # 이렇게 줄여서 써도 OK

100
100


In [15]:
# indexing 이용한 slicing
result = array[1:,1:,2:]
print(result)
print(result.ndim, result.shape)    # 3차원이라는 점!

[[[100   7]
  [ 10  11]]]
3 (1, 2, 2)


In [16]:
print(result[0])
result[0].ndim

[[100   7]
 [ 10  11]]


2

## 4. 데이터 수정

In [14]:
ls = np.array(range(5))
ls

array([0, 1, 2, 3, 4])

In [15]:
ls[2] = 0
ls

array([0, 1, 0, 3, 4])

In [16]:
ls[3:] = 0
ls

array([0, 1, 0, 0, 0])

## 5. 특수 행렬 만들기

### 5.1 zeros
- 행렬을 만들고 0을 채움
- dtype으로 데이터 타입 설정 가능 (default는 float)

In [21]:
z = np.zeros(5)
z

array([0., 0., 0., 0., 0.])

In [22]:
## data type을 parameter로 넣어주기
zz = np.zeros((2 ,3), dtype=int)  
zz

array([[0, 0, 0],
       [0, 0, 0]])

In [23]:
zz.ndim

2

In [24]:
# 고차원도 만들 수 있음 (모양을 상상할 수는 없지만)
z5 = np.zeros((2, 3, 2, 3, 2), dtype=int)
z5.ndim, z5.shape

(5, (2, 3, 2, 3, 2))

### 5.2 ones
- 행렬을 만들고 1을 채움
- dtype으로 데이터 타입 설정 가능 (default는 float)

In [25]:
one = np.ones((2, 3), dtype=int)
one

array([[1, 1, 1],
       [1, 1, 1]])

### 5.3 eye
- 단위 행렬 데이터를 만듦

In [28]:
print(np.eye(5))
print(np.identity(5))

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


### 5.4 like
- 행렬 안에 있는 모든 데이터를 0이나 1로 바꿀수 있음
- `np.zeros_like(matrix)`: 0으로 바꾸기
- `np.ones_lie(matrix)`: 1로 바꾸기

In [36]:
z = np.zeros(5)
z

array([0., 0., 0., 0., 0.])

In [37]:
ls = np.ones_like(z)
ls

array([1., 1., 1., 1., 1.])

In [38]:
np.zeros_like(one)

array([[0, 0, 0],
       [0, 0, 0]])

### 5.5 empty
- 빈 행렬을 만듦
- 실제로는 빈데이터가 아니라 더미 데이터가 들어감
- 실제로는 empty보다는 zeros나 ones를 많이 사용

In [39]:
np.empty((5, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

## 6. array에 데이터 넣기

### 6.1 arange
- range와 사용 방법이 같음
- 하지만 range보다 속도가 빠름

In [40]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.arange(5, 10)

array([5, 6, 7, 8, 9])

In [42]:
np.arange(5, 10, 2)  # step 지정

array([5, 7, 9])

In [43]:
# 속도 비교
size = 10 ** 6
# size = int(1E6)
size

1000000

In [44]:
%time for x in range(size): x**2
%time for x in np.arange(size): x**2

Wall time: 683 ms
Wall time: 473 ms


### 6.2 linspace, logspace

#### (1) linspace
- 범위 사이를 n-1 등분(point는 n개가 됨) (선형적으로 공간을 나눔)

In [41]:
# 0과 100 사이를 3점으로 나눔
np.linspace(0, 100, 3) 

array([  0.,  50., 100.])

In [42]:
# 0과 100 사이를 4점으로 나눔
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

#### (2) logspace 
- log 범위 사이를 n-1 등분(point는 n개가 됨)

In [45]:
# log10(x1)=2, log10(x2)=3, log10(x3)=4
# x1=100, x2=1000, x3=10000
np.logspace(2, 4, 3)

array([  100.,  1000., 10000.])

In [46]:
# 2, 2.5, 3
# log10(x1)=2, log10(x2)=2.5, log10(x3)=4
np.logspace(2, 3, 3)

array([ 100.        ,  316.22776602, 1000.        ])

In [47]:
10**2, 10**2.5, 10**3

(100, 316.22776601683796, 1000)

### 6.3 random
- seed: 랜덤변수의 설정값
- rand: 균등분포(uniform)로 난수를 발생시킴
- randn: 정규분포(Gaussian)로 난수를 발생시킴
- randint: 정수로 난수를 발생시킴 (균등분포)
- suffle: 행렬 데이터를 섞어줌
- choice: 특정 범위의 숫자를 선택해줌 (확률 설정이 가능)

#### (1) seed, rand, randn

In [58]:
np.random.seed(0)
rd = np.random.rand(10)       # uniform 으로 난수 발생 (균등분포)
rdn = np.random.randn(10)     # gaussian 으로 난수 발생 (정규분포 - 0에 가까운수가 많이 나옴)
print(rd)
print(rdn)

[0.5488135  0.71518937 0.60276338 0.54488318 0.4236548  0.64589411
 0.43758721 0.891773   0.96366276 0.38344152]
[ 0.14404357  1.45427351  0.76103773  0.12167502  0.44386323  0.33367433
  1.49407907 -0.20515826  0.3130677  -0.85409574]


In [20]:
# seed 값을 바꾸면 다른 값이 나옴
np.random.seed(1)
rd = np.random.rand(10) 
rdn = np.random.randn(10) 
print(rd)
print(rdn)

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01]
[ 1.74481176 -0.7612069   0.3190391  -0.24937038  1.46210794 -2.06014071
 -0.3224172  -0.38405435  1.13376944 -1.09989127]


In [21]:
np.random.seed(1)
rd = np.random.rand(4)
rdn = np.random.randn(4)
print(rd)
print(rdn)

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01]
[-0.52817175 -1.07296862  0.86540763 -2.3015387 ]


In [22]:
# rand로 3차원 행렬 만들기
r = np.random.rand(2, 3, 4)
r

array([[[0.41919451, 0.6852195 , 0.20445225, 0.87811744],
        [0.02738759, 0.67046751, 0.4173048 , 0.55868983],
        [0.14038694, 0.19810149, 0.80074457, 0.96826158]],

       [[0.31342418, 0.69232262, 0.87638915, 0.89460666],
        [0.08504421, 0.03905478, 0.16983042, 0.8781425 ],
        [0.09834683, 0.42110763, 0.95788953, 0.53316528]]])

In [23]:
# rand로 2차원 행렬 만들기
r = np.random.rand(2, 3)
r

array([[0.69187711, 0.31551563, 0.68650093],
       [0.83462567, 0.01828828, 0.75014431]])

#### (2) randint

In [49]:
r = np.random.randint(5,10,(3,3))
r

array([[5, 9, 5],
       [7, 6, 8],
       [8, 8, 7]])

In [109]:
r = np.random.randint(5,size=(3,3))
r

array([[4, 2, 4],
       [4, 3, 3],
       [1, 1, 0]])

#### (3) shuffle
- 데이터의 순서를 바꿀수 있음
- 행의 순서만 바뀜 (행 안의 데이터는 바뀌지 않음)
- 데이터를 다 바꾸려면? 1열로 reshape 후 shuffle, 그 후 다시 reshape

In [110]:
r

array([[4, 2, 4],
       [4, 3, 3],
       [1, 1, 0]])

In [111]:
np.random.shuffle(r)
r

array([[1, 1, 0],
       [4, 3, 3],
       [4, 2, 4]])

In [118]:
# 데이터를 전부 뒤섞기
r = r.reshape(9 ,1)
np.random.shuffle(r)
r = r.reshape(3,3)
r

array([[4, 2, 0],
       [3, 4, 3],
       [1, 4, 1]])

#### (4) choice

In [116]:
# p의 확률로 range(5)를 10개 추출
print(list(range(5)))
print([0.1, 0, 0.4, 0.2, 0.3])
np.random.choice(5, 10, p=[0.1, 0, 0.4, 0.2, 0.3]) 
    # p= 0나올 확률, 1나올 확률, 2 나올 확률, 3 나올 확률, 4 나올 확률

[0, 1, 2, 3, 4]
[0.1, 0, 0.4, 0.2, 0.3]


array([3, 4, 0, 2, 4, 2, 0, 2, 2, 2], dtype=int64)