## Intro

In [1]:
pip install jupyterlab # 주피터랩 설치 방법

Note: you may need to restart the kernel to use updated packages.


ERROR: Invalid requirement: '#'


- 데이터가 다양하지만 모든 데이터는 근본적으로 **숫자 배열**로 간주하는 것은 도움이 됨  
  - 이미지(픽셀배열), 사운드(시간, 강도), 텍스트(범주화, 빈도)  
- $\Rightarrow$ 따라서 데이터를 숫자 배열로 변환하는 것은 데이터를 분석의 첫 단계  
  - **숫자 배열을 효과적으로 저장하고 가공하는 것**은 데이터 과학을 수행하는 절차에서 가장 근본적인 작업
- 이번 장에서는 **NumPy**에 대해 자세히 다룬다.
---

## 1. NumPy 소개

+ NumPy(Numerical Python)
+ NumPy배열은 파이썬의 내장 타입인 list와 비슷하지만 배열의 규모가 커질수록 데이터 저장 및 처리에 훨씬 효율적
+ NumPy 배열은 파이썬의 데이터 과학 도구로 구성된 전체 생태계의 핵심을 이루고 있음
+ [튜토리얼 및 참고문서](http://www.numpy.org)

### 1.1 임포트 및 버전 확인

In [2]:
import numpy as np
np.__version__

'1.19.2'

### 1.2 내장문서

In [3]:
np?

#### 자동 완성 기능

In [4]:
np.<TAB>

SyntaxError: invalid syntax (<ipython-input-4-cafe7d82c7d0>, line 1)

---
## 2. List vs NumPy
### 2.1 List
+ 여러개의 요소를 담는 가변적인 표준 컨테이너는 리스트다.
  + 리스트의 장점은 유연성
  + 리스트의 각 요소가 데이터와 타입의 정보를 포함하는 구조체 $\Rightarrow$ 유연한 타입을 허용하기 위해 오버해드 존재

In [5]:
sample = [True, '2', 3.0, 4]
[type(item) for item in sample]

[bool, str, float, int]

### 2.2 NumPy
+ **고정 타입의 배열** $\Rightarrow$ 유연성은 부족하지만 데이터를 저장하고 가공하기에 훨씬 효율적
+ 파이썬에 고정 타입의 배열도 존재하지만, NumPy는 효율적인 연산을 추가(ndarray 객체)

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/array_vs_list.png" alt="fig01" width="600"/>


---
## 3. Numpy 배열 만들기

### 3.1 기본

In [6]:
np.array([1,3,5,7,9])

array([1, 3, 5, 7, 9])

In [7]:
type(np.array([1,3,5,7,9]))

numpy.ndarray

### 3.2 연속된 배열

### 0부터 0.1씩 증가하는 배열, 1보다 작다

In [None]:
print(np.arange(0,1,0.1))
print(np.arange(1,101,2))

### 3.3 '0'으로 채워진 배열

In [None]:
np.zeros(10)
np.zeros(10, dtype=int)

### 3.4 '1'로 채워진 배열

In [None]:
np.ones((2,3), dtype=float)

### 3.5 특정 숫자로 채워진 배열

In [None]:
np.full((3,3), 3.14)

In [None]:
sample = np.array([1,3,'5',7,9]) # 배열은 모두 같은 타입이어야 함
[type(item) for item in sample] # 서로 다른 타입 존재시 상위 타입으로 변경

### 3.6 반복되는 배열

In [None]:
st = np.array(["a","b","c"])
print(st)

#### 각 요소마다 반복

In [None]:
st.repeat(2)

In [None]:
np.repeat(st,2)

#### 전체 패턴을 반복

In [None]:
np.tile(st,2) 

---
## 4. 속성 확인하기

#### SAMPLE 생성

In [None]:
np.random.seed(0)
x3 = np.random.randint(10, size=(3,4,5))
print(x3)

In [None]:
np.random.randint?

### 4.1 차원

In [None]:
x3.ndim 

### 4.2 각 차원의 크기

In [None]:
x3.shape

### 4.3 전체 배열 크기

In [None]:
x3.size

### 4.3 데이터 타입

In [None]:
x3.dtype

---
## 5. 인덱싱

#### SAMPLE 생성

In [86]:
np.random.seed(0)
x1 = np.random.randint(10, size=6)
print(x1)

[5 0 3 3 7 9]


### 5.1 일차원 배열

In [87]:
x1[3] # 인덱스는 0부터 시작

3

In [88]:
x1[-2] # 배열의 끝에서부터 인덱싱할 경우 '-' 사용

7

### 5.2 다차원 배열

In [89]:
np.random.seed(0)
x2 = np.random.randint(10, size=(3,4))
print(x2)

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]


In [91]:
x2[1,1]

9

In [92]:
x2[0,-1]

3

### 5.3 인덱스를 이용한 값 변경

In [93]:
x2[-1,-1] = 9 # 특정 요소의 값 변경
x2

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 9]])

In [94]:
x2[-1,-1] = 10.5 # 값 변경시 NumPy배열은 고정타입을 가진 다는 점에 주의
x2

array([[ 5,  0,  3,  3],
       [ 7,  9,  3,  5],
       [ 2,  4,  7, 10]])

### 5.4 Fancy 인덱싱

In [96]:
x = np.arange(10,16)
x

array([10, 11, 12, 13, 14, 15])

In [97]:
idx = np.array([1,2,0,3]) # [x[1], x[2], x[0], x[3]]
x[idx]

array([11, 12, 10, 13])

In [98]:
idx = np.array([[1,2],
                [0,3]])
x[idx] # 인덱스 배열의 형상으로 결과가 나타남
       # [[x[1], x[2]], 
       #  [x[0], x[3]]]

array([[11, 12],
       [10, 13]])

In [99]:
x = np.arange(12).reshape(3,4)
print(x) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [100]:
row = np.array([0,2])
col = np.array([2,1,3])

In [101]:
row[:,np.newaxis]

array([[0],
       [2]])

In [102]:
x[row[:,np.newaxis],col]
#          x[:,2], x[:,1], x[:,3]
#  x[0,:]  x[0,2], x[0,1], x[0,3]
#  x[2,:]  x[2,2], x[2,1], x[2,3]

array([[ 2,  1,  3],
       [10,  9, 11]])

---
## 6. 슬라이싱
+ 콜론(:)을 사용한 슬라이스 표기법 

### 6.1 일차원 배열

```python
x[start:stop:step]
# 기본 start=0, stop=차원 크기, step=1
```

In [103]:
# Sample
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [104]:
x[:5] #첫 다섯 개

array([0, 1, 2, 3, 4])

In [105]:
x[5:] # 인덱스 5부터 끝까지

array([5, 6, 7, 8, 9])

In [106]:
x[4:7] # 중간

array([4, 5, 6])

In [107]:
x[::2] # 하나 걸러 하나

array([0, 2, 4, 6, 8])

In [108]:
x[1::2] # 인덱스 1부터 하나 걸러 하나

array([1, 3, 5, 7, 9])

In [109]:
x[::-1] # step을 음수로 줄 경우 배열을 거꾸로 나열

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [110]:
x[5::-2] # 인덱스 5부터 하나 걸러 하나, 거꾸로 나열

array([5, 3, 1])

### 6.2 다차원 배열
+ 콤마로 구분된 다중 슬라이스를 사용해 같은 방식으로 동작

In [111]:
# Sample
np.random.seed(0)
x2 = np.random.randint(10, size=(3,4))
x2

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [112]:
x2[:2, :3] # 두 개의 행, 세 개의 열

array([[5, 0, 3],
       [7, 9, 3]])

In [None]:
x2[:3, ::2] # 모든 행, 한 열 걸러 하나씩

In [None]:
x2[::-1, ::-1]

In [None]:
x2[:,0] # 한 열만 선택

In [None]:
x2[0,:] # 한 행만 선택

In [None]:
x2[0] # x2[0, :]와 동일한 결과

---
## 7. Copy vs View
+ NumPy 배열 슬라이스는 배열 데이터의 사본(Copy)가 아닌 뷰(View)를 반환
  + 파이썬 리스트 슬라이싱과 차이점

### 7.1 View

In [113]:
# Sample
np.random.seed(0)
x2 = np.random.randint(10, size=(3,4))
x2

array([[5, 0, 3, 3],
       [7, 9, 3, 5],
       [2, 4, 7, 6]])

In [114]:
x2_sub = x2[:2, :2]
x2_sub

array([[5, 0],
       [7, 9]])

In [115]:
x2_sub[0,0] = 99
x2_sub

array([[99,  0],
       [ 7,  9]])

In [116]:
x2

array([[99,  0,  3,  3],
       [ 7,  9,  3,  5],
       [ 2,  4,  7,  6]])

### 7.2 Copy

In [117]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[99,  0],
       [ 7,  9]])

In [118]:
x2_sub_copy[0,0] = 42
x2_sub_copy

array([[42,  0],
       [ 7,  9]])

In [119]:
x2

array([[99,  0,  3,  3],
       [ 7,  9,  3,  5],
       [ 2,  4,  7,  6]])

---
## 8. 배열 변형

### 8.1 형상 변경

In [123]:
grid = np.arange(1,7).reshape((3,2))
grid

array([[1, 2],
       [3, 4],
       [5, 6]])

### 8.2 연결

#### concatenate

In [124]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

In [125]:
np.concatenate?

[1;31mDocstring:[0m
concatenate((a1, a2, ...), axis=0, out=None)

Join a sequence of arrays along an existing axis.

Parameters
----------
a1, a2, ... : sequence of array_like
    The arrays must have the same shape, except in the dimension
    corresponding to `axis` (the first, by default).
axis : int, optional
    The axis along which the arrays will be joined.  If axis is None,
    arrays are flattened before use.  Default is 0.
out : ndarray, optional
    If provided, the destination to place the result. The shape must be
    correct, matching that of what concatenate would have returned if no
    out argument were specified.

Returns
-------
res : ndarray
    The concatenated array.

See Also
--------
ma.concatenate : Concatenate function that preserves input masks.
array_split : Split an array into multiple sub-arrays of equal or
              near-equal size.
split : Split array into a list of multiple sub-arrays of equal size.
hsplit : Split array into multiple sub-arrays ho

In [126]:
z = [99,99,99]
np.concatenate([x,y,z]) # 2개 이상 결합 가능

array([ 1,  2,  3,  3,  2,  1, 99, 99, 99])

#### 수직방향 연결

In [127]:
grid1 = np.arange(6).reshape(2,3)
grid2 = np.arange(7,13).reshape(2,3)
print(grid1)
print(grid2)

[[0 1 2]
 [3 4 5]]
[[ 7  8  9]
 [10 11 12]]


In [128]:
np.concatenate([grid1,grid2]) # 아래로 붙임

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 7,  8,  9],
       [10, 11, 12]])

In [129]:
np.vstack([grid1,grid2]) # vstack

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 7,  8,  9],
       [10, 11, 12]])

#### 수평방향 연결

In [130]:
np.concatenate([grid1,grid2], axis=1) # 옆으로 붙임

array([[ 0,  1,  2,  7,  8,  9],
       [ 3,  4,  5, 10, 11, 12]])

In [131]:
np.hstack([grid1,grid2]) # hstack

array([[ 0,  1,  2,  7,  8,  9],
       [ 3,  4,  5, 10, 11, 12]])

### 8.3 분할

#### split

In [132]:
x = np.arange(1,11)
x

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [133]:
x1,x2,x3 = np.split(x, [3,6]) # 분할, N개의 분할점은 N+1개의 하위 배열 생성
print(x1, x2, x3)

[1 2 3] [4 5 6] [ 7  8  9 10]


#### 수직 방향으로 분할

In [134]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [135]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


#### 수평방향으로 분할

In [136]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
