# 2.1. 파이썬 Numpy 소개

- Numerical Python

- 파이썬의 내장 타입인 리스트보다 데이터의 저장 및 처리에 있어 효율적인 Numpy 배열을 제공

- 선형 대수와 관련된 기능을 제공

- 파이썬을 기반으로 한 데이터 과학 도구의 핵심 패키지

- 데이터 사이언스 영역의 대부분의 도구(Pandas, Scipy, scikit-learn 등)가 Numpy기반으로 만들어져 있다.


# 2.2. Numpy 주요 기능

### 배열(ndarray) 객체



In [1]:
import numpy as np

- 별칭으로 np 사용

In [6]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

- array() 함수 사용

- array의 경우에는 동질의 데이터를 다룰 수 있는 구조

In [7]:
np.array([1, 4, 2, 5, 3], dtype=np.float)

array([1., 4., 2., 5., 3.])

- 데이터 타입을 지정하여 구성 할 수 있음

In [5]:
np.array([range(i, i+3) for i in [1, 4, 7]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 2차원 구조를 가진 행렬

### 초기화가 가능한 여러 가지 함수 제공

In [16]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

- 1차원을 만드는 zeros

In [13]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [15]:
np.full((2, 3), 5)

array([[5, 5, 5],
       [5, 5, 5]])

- 초기값을 임의로 채움

In [18]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

- 배열을 생성하는 np.arange()
- range()와 사용법이 유사함

In [20]:
np.linspace(0, 100, 5, dtype=int)

array([  0,  25,  50,  75, 100])

- 균등하게 interval을 구성할 수 있는 linspace
- 구간을 나눔

### 난수와 관련된 부분
테스트용 데이터를 만들때 많이 사용함

In [25]:
np.random.random((3, 3))

array([[0.76479099, 0.77915986, 0.93668991],
       [0.2174754 , 0.10023194, 0.1301609 ],
       [0.68776077, 0.47090621, 0.51572396]])

- np.random.random(size))

In [23]:
np.random.randint(0, 10, (3, 3))

array([[6, 2, 1],
       [2, 3, 3],
       [3, 6, 0]])

- 범위를 제공하는 randint()

In [24]:
np.random.normal(0, 1, (3, 3))

array([[-0.68142585, -0.46699814,  1.97989139],
       [-1.2271463 , -1.01094442, -0.40013344],
       [ 0.40150389, -0.00327347,  0.38362782]])

- 정규분포를 나타내는 normal

- np.random.normal(평균, 표준편차, size)

### 랜덤값의 재현성 문제

In [35]:
np.random.seed(0)

arr1 = np.random.randint(10, size=6)
arr2 = np.random.randint(10, size=(2, 3))

print(f"arr1: {arr1}")
print(f"ndim: {arr1.ndim}, shape: {arr1.shape}, size: {arr1.size}, dtype: {arr1.dtype}")

print(f"arr2: \n{arr2}")
print(f"ndim: {arr2.ndim}, shape: {arr2.shape}, size: {arr2.size}, dtype: {arr2.dtype}")

arr1: [5 0 3 3 7 9]
ndim: 1, shape: (6,), size: 6, dtype: int32
arr2: 
[[3 5 2]
 [4 7 6]]
ndim: 2, shape: (2, 3), size: 6, dtype: int32


- seed 함수에 seed값을 주면 재현성 문제가 해결됨

- nidm: 차원 정보
- shape: 행/열, 원소의 구조 정보

- size: 원소의 개수

- dtype: data type



### 객체의 인덱싱

- 단일 원소에 접근하는 기법

In [42]:
arr1

array([5, 0, 3, 3, 7, 9])

In [38]:
arr1[0], arr1[5]

(5, 9)

In [39]:
arr1[-6], arr1[-1]

(5, 9)

- 음수를 이용하는 인덱싱

In [43]:
arr2

array([[3, 5, 2],
       [4, 7, 6]])

In [41]:
arr2[0]

array([3, 5, 2])

In [45]:
arr2[0, 0], arr2[0, 2]

(3, 2)

- \[  \]를 사용
- \[행, 열\]

In [46]:
arr2[-1, -3], arr2[-1, -1]

(4, 6)

In [47]:
arr2[0, 0] = 9

arr2

array([[9, 5, 2],
       [4, 7, 6]])

- 인덱스를 이용해서 새로운값 생성

### 객체의 슬라이싱

- 배열의 부분집합 출력

In [48]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
arr1[0:5:1]

array([0, 1, 2, 3, 4])

- arr\[start:end:step\]
- start 생략 가능(처음부터)
- step 생략 가능


In [53]:
arr1[:5:1]

array([0, 1, 2, 3, 4])

In [52]:
arr1[:5:], arr1[:5]

(array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4]))

- 위 두개는 같은 표현
- start의 : 생략 가능

In [55]:
arr1[2:9:2], arr1[2::2]

(array([2, 4, 6, 8]), array([2, 4, 6, 8]))

- end를 생략하면 끝까지를 의미함

In [59]:
arr1[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

- step이 -1이면 거꾸로 출력

In [57]:
arr1[-1:-11:-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

- -11은 범위에 포함되지 않으므로 -1 ~ -10까지 출력됨

In [60]:
arr1[5::-1]

array([5, 4, 3, 2, 1, 0])

- 5에서 거꾸로 끝까지 출력

#### 형태 변환

In [67]:
arr2 = np.arange(12)
print(f"arr2: {arr2}")

arr2 = np.arange(12).reshape(-1, 4)
arr2

arr2: [ 0  1  2  3  4  5  6  7  8  9 10 11]


array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

- reshape(행, 열)
- 행/열 변환

In [68]:
arr2[:3, :4]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [66]:
arr2[:, :]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [69]:
arr2[:2, :3]

array([[0, 1, 2],
       [4, 5, 6]])

- 2x3 구조의 부분집합 추출

In [73]:
arr2[:2, 2::-1]

array([[2, 1, 0],
       [6, 5, 4]])

In [71]:
arr2[1:, -1]

array([ 7, 11])

- 행에 대해서는 슬라이싱
- 열에 대해서는 인덱싱

In [74]:
arr2[-1, :], arr2[-1]

(array([ 8,  9, 10, 11]), array([ 8,  9, 10, 11]))

### 객체의 연결

In [77]:
list1 = [1, 2, 3]
list2 = [4, 5, 6]

print(list1)
print(list2)

[1, 2, 3]
[4, 5, 6]


In [78]:
np.concatenate([list1, list2])

array([1, 2, 3, 4, 5, 6])

- np.concatenate(리스트로 담은 값들)

In [86]:
arr1 = np.concatenate([list1, list2], axis=0)
arr1

array([1, 2, 3, 4, 5, 6])

- axis 파라미터
    - 방향 지정

In [82]:
arr2 = arr1.reshape(-1, 3)
arr2

array([[1, 2, 3],
       [4, 5, 6]])

In [83]:
np.concatenate([arr2, arr2], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [84]:
np.concatenate([arr2, arr2], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

- 축이 2개인 경우 0과 1 두개의 축이 생김

- axis=0
    - 세로 연결

- axis=1
    - 가로 연결

In [88]:
np.vstack([arr2, arr2])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

- np.vstack()
    - vertical stack
    - => axis=0



In [89]:
np.hstack([arr2, arr2])

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

- np.hstack()
    - horizontal stack
    - => axis=1

### 객체의 내장 함수 사용

- 빠른 연산이 가능한 벡터화 함수(vectorize function)

- ufunction(universal function) 사용 권장

In [95]:
np.random.seed(0)

arr2 = np.random.randint(1, 10, (3, 4))
arr2

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [92]:
np.sum(arr2), arr2.sum()

(65, 65)

- sum()

- axis가 지정이 안되면 => axis=None
    - 모든 원소를 의미함

In [97]:
np.sum(arr2, axis=0), arr2.sum(axis=0)

(array([19, 13, 17, 16]), array([19, 13, 17, 16]))

- axis=0을 하면 세로(열) 방향으로 sum()

In [94]:
np.sum(arr2, axis=1), arr2.sum(axis=1)

(array([15, 21, 29]), array([15, 21, 29]))

- axis=1을 하면 가로(행) 방향으로 sum()

In [98]:
np.min(arr2, axis=0), np.max(arr2, axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

- min(), max()

- ufunction을 이용해 빠르게 연산 가능
- 루프를 사용하는것 보다 내장함수를 사용하는 것이 더 좋음


In [102]:
arr2.min(axis=0), arr2.max(axis=0)

(array([5, 1, 4, 3]), array([8, 8, 7, 9]))

- axis를 이용해 방향 지정 가능

In [103]:
np.min(arr2, axis=1), np.max(arr2, axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

In [101]:
arr2.min(axis=1), arr2.max(axis=1)

(array([1, 3, 5]), array([6, 8, 9]))

### Numpy 배열 객체와 브로드캐스팅


- 행렬끼리 연산을 하기 위해서는 각행렬의 행과 열의 정보가 일치되어야 함
- shape가 일치해야 함


- 브로드캐스팅: 행열 구조를 동일하게 맞춰주는 것

In [108]:
np.random.seed(0)

X = np.random.random((10, 3))
X

array([[0.5488135 , 0.71518937, 0.60276338],
       [0.54488318, 0.4236548 , 0.64589411],
       [0.43758721, 0.891773  , 0.96366276],
       [0.38344152, 0.79172504, 0.52889492],
       [0.56804456, 0.92559664, 0.07103606],
       [0.0871293 , 0.0202184 , 0.83261985],
       [0.77815675, 0.87001215, 0.97861834],
       [0.79915856, 0.46147936, 0.78052918],
       [0.11827443, 0.63992102, 0.14335329],
       [0.94466892, 0.52184832, 0.41466194]])

In [121]:
Xmean = X.mean(axis=0)
Xmean

array([0.52101579, 0.62614181, 0.59620338])

- mean()

- axis를 이용해 방향 지정 가능

In [109]:
Xcentered = X - Xmean
Xcentered

array([[ 0.02779771,  0.08904756,  0.00655999],
       [ 0.02386739, -0.20248701,  0.04969073],
       [-0.08342858,  0.26563119,  0.36745938],
       [-0.13757427,  0.16558323, -0.06730846],
       [ 0.04702877,  0.29945483, -0.52516732],
       [-0.43388649, -0.60592341,  0.23641646],
       [ 0.25714096,  0.24387034,  0.38241496],
       [ 0.27814277, -0.16466245,  0.18432579],
       [-0.40274137,  0.01377921, -0.45285009],
       [ 0.42365312, -0.10429349, -0.18154144]])

In [117]:
print(X.shape)
print(Xmean.shape)

(10, 3)
(3,)


- `-`

- 행렬의 빼기 연산

- 중심화


### Numpy 배열 객체의 부울 배열과 마스킹 연산

- 부울 배열을 이용한 마스킹 연산


In [122]:
np.random.seed(0)

X = np.random.randint(1, 10, size=(3, 4))
X

array([[6, 1, 4, 4],
       [8, 4, 6, 3],
       [5, 8, 7, 9]])

In [123]:
(X > 5) & (X < 8)

array([[ True, False, False, False],
       [False, False,  True, False],
       [False, False,  True, False]])

- 조건을 만족하는 배열 구성

- 조건을 만족하면 True 아니면 False

In [124]:
np.sum((X > 5) & (X < 8))

3

- True가 나오는 지점의 데이터를 sum()

In [127]:
(X > 5) | (X < 8)

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

In [125]:
np.sum((X > 5) | (X < 8))

12

- 조건을 만족하는 지점의 데이터를 sum()

In [128]:
np.sum((X > 5) & (X < 8), axis=0)

array([1, 0, 2, 0])

- axis
    - 적용할 방향 지정

In [131]:
np.sum((X > 5) & (X < 8), axis=1)

array([1, 1, 1])

In [130]:
X[(X > 5) & (X < 8)]

array([6, 6, 7])

- 부울 배열과 마스킹 연산으로 결과 추출

- 조건을 만족하는 데이터를 출력

### Numpy 배열 객체와 팬시 인덱싱

- 팬시 인덱싱: 인덱스를 담고 있는 배열

In [134]:
X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [135]:
row = np.array([0, 1, 2])
col = np.array([1, 2, 3])

print(row)
print(col)

[0 1 2]
[1 2 3]


- row 인덱스와 col 인덱스

In [137]:
X[row]

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

- X에 row 전달
- 0, 1, 2 번째 행 출력


- 인덱스 배열을 만족하는 부분집합을 추출하는 팬시 인덱싱

In [139]:
X[:, col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

- 1, 2, 3번째 열을 출력
- 행은 전부

In [143]:
X[row, col]

array([ 1,  6, 11])

- 행과 열 모두 만족하는 값들이 출력

In [144]:
X[row.reshape(-1, 1), col]

array([[ 1,  2,  3],
       [ 5,  6,  7],
       [ 9, 10, 11]])

In [142]:
row.reshape(-1, 1)

array([[0],
       [1],
       [2]])

- reshape를 이용해 구조를 변환해도 동일한 결과를 내는 팬시 인덱싱

### Numpy 배열 객체와 복합 인덱싱

In [147]:
X = np.zeros(12).reshape((3, 4))
X

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [148]:
X[1, 0] = 1
X

array([[0., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [149]:
X[1, [1, 3]] = 1
X

array([[0., 0., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 0.]])

- 팬시 인덱싱



In [150]:
X[[0, 2], [1, 3]] = 2
X

array([[0., 2., 0., 0.],
       [1., 1., 0., 1.],
       [0., 0., 0., 2.]])

In [152]:
X[0:3, [0, 2]] = 3
X

array([[3., 2., 3., 0.],
       [3., 1., 3., 1.],
       [3., 0., 3., 2.]])

- 팬시 인덱싱 + 슬라이싱 = 범위 집합 추출

### Numpy 배열 객체의 정렬


In [153]:
np.random.seed(0)

X = np.array(np.random.randint(10, size=5))
X

array([5, 0, 3, 3, 7])

In [154]:
np.sort(X)

array([0, 3, 3, 5, 7])

In [155]:
X

array([5, 0, 3, 3, 7])

In [156]:
X.sort()

In [157]:
X

array([0, 3, 3, 5, 7])

- np.sort(X) 와 X.sort()의 결과는 다름

- np.sort를 이용해 정렬하면 X는 바꾸지 않고 array 반환

- X.sort()를 사용하면 실제 데이터가 정렬됨, 객체가 가지고 있는 sort

In [160]:
np.random.seed(0)

X = np.array(np.random.randint(10, size=5))
X

array([5, 0, 3, 3, 7])

In [161]:
idx = np.argsort(X)
idx

array([1, 2, 3, 0, 4], dtype=int64)

In [162]:
X[idx]

array([0, 3, 3, 5, 7])

- np.argsort()
    - sort된 인덱스를 전달 


- 이를 이용하면 팬시 인덱싱을 할 수 있음

<br/>

### Reference

https://www.youtube.com/watch?v=rfTin5JeAas
