# 1. Numpy

- 파이썬에서 배열을 사용하기 위한 표준 패키지
- ndarray 클래스
- 배열 객체(array)는 모든 원소가 같은 자료형

## 벡터화 연산 

In [4]:
import numpy as np

#### 배열 생성 

In [5]:
ar = np.array(range(10))
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#### 배열 연산

In [10]:
ar * 2 

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

### 배열 논리 연산

In [7]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [8]:
a == 2

array([False,  True, False])

In [9]:
b > 10

array([False,  True,  True])

## 2차원 배열 만들기

- 안쪽 리스트는 → 방향 
- 바깥쪽 리스트는 ↓ 방향 

In [11]:
c = np.array([[0, 1, 2], [3, 4, 5]])
c

array([[0, 1, 2],
       [3, 4, 5]])

In [12]:
# 배열의 행의 갯수
len(c)

2

In [15]:
# 배열의 열의 갯수
len(c[0]) # 첫째 행의 수를 읽으면 그게 열의 갯수가 된다.

3

In [18]:
d = np.array(range(10, 90, 10)).reshape(2,4)  # 2행 4열 
d

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

## 3차원 배열 만들기

- 2행 3열 4깊이의 배열 만들기
- 제일 안쪽 리스트부터 바깥으노 나가면서 생성, 즉 깊이 - 열 - 행 순으로 배열을 생성

In [19]:
e = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]]) 

In [29]:
print(e.ndim)   # 배열의 차원 
print(e.shape)  # 배열 모양 알아내기 

3
(2, 3, 4)


## 배열 인덱싱

In [31]:
a = np.array([[0, 1, 2], [3, 4, 5]])

In [33]:
a[0, 0]  # 0행 0열

0

## 배열 슬라이싱

In [34]:
b = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])

In [35]:
b[0, :]  # 0번쨰 행, 모든 열 

array([0, 1, 2, 3])

In [36]:
a = np.array(range(20))

In [37]:
a[::2]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [38]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
              11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [41]:
x[x % 3 == 0]

array([ 3,  6,  9, 12, 15, 18])

In [53]:
x[x % 4 == 1]

array([ 1,  5,  9, 13, 17])

In [55]:
x[(x % 3 == 0) & (x % 4 == 1)]  # boolean indexing에서 두 조건을 지정하는 방법 

array([9])

# 2. 배열의 생성과 변형

## 배열 생성

-  zeros, ones
- zeros_like, ones_like
- empty
- arange
- linspace, logspace
- rand, randn

### 크기가 정해져 있고 모든 값이 0인 배열 : zeros

In [58]:
a = np.zeros(5)  # 5개 생성
a

array([0., 0., 0., 0., 0.])

In [61]:
b = np.zeros((2, 3)) # 2행, 3열의 zeors 생성 
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [62]:
c = np.zeros((5, 2), dtype='i')
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

### 크기가 정해져 있고 모든 값이 1인 배열 : ones

In [64]:
e = np.ones((2, 3, 4), dtype='float32')
e

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float32)

### Numpy버전의 range : arange

In [66]:
np.arange(10)  # 0 ~ 9 까지 순서가 있는 10개 리스트 생성 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [68]:
np.arange(0, 20, 2).reshape(5, 2)  # 시작, 끝(포함 x), 증가분

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10],
       [12, 14],
       [16, 18]])

### 선형 구간 혹은 로그 구간을 지정한 구간의 수 만큼 분할 : linspace, logspace

In [69]:
np.linspace(0, 100, 5)  # 시작, 끝(포함), 갯수

array([  0.,  25.,  50.,  75., 100.])

In [70]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

### 전치 : T

In [74]:
a = np.arange(1, 7).reshape(2, 3)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [75]:
a.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 배열의 크기 변형 : reshape, flatten

In [76]:
a.reshape(2, 3)  # 행, 열 

array([[1, 2, 3],
       [4, 5, 6]])

In [78]:
a.flatten()  # 1차원으로 펼치기 

array([1, 2, 3, 4, 5, 6])

## 배열 연결 

- hstack : 새로운 열 (→)
- vstack : 새로운 행 (↓)
- dstack : 새로운 깊이 
- r_
- c_
- tile

### 새로운 열에 추가 : `hstack[a1, a2]` 
- → 방향으로 새로운 열을 생성하겠다.
- 합치고자 하는 배열의 `행의 수`가 같아야함.

In [79]:
a1 = np.ones((2, 3))  
a1


array([[1., 1., 1.],
       [1., 1., 1.]])

In [80]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [83]:
np.hstack([a1, a2])  # 두 배열의 행의 갯수가 같아아함

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

### 새로운 행에 추가 : `vstack[a1, a2]` 
- ↓ 방향으로 새로운 열을 생성하겠다.
- 합치고자 하는 배열의 `열의 수`가 같아야함.

In [84]:
b1 = np.ones((3, 3))
b2 = np.zeros((5, 3))

In [85]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### 새로운 깊이 추가 : `dstack[a1, a2]`

- 동일한 행, 열 배열이 새로운 깊이로 추가

In [91]:
d1 = np.ones((3, 4))
d2 = np.zeros((3, 4))  

In [89]:
d = np.dstack([d1, d2])
d

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [90]:
d.shape

(3, 4, 2)

### 연습문제

In [112]:
a1 = np.zeros((3,3))
a1

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [113]:
a2 = np.hstack([a1, np.ones((3, 2))])
a2

array([[0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.],
       [0., 0., 0., 1., 1.]])

In [114]:
a3 = np.vstack([a2, np.arange(10, 160, 10).reshape(3, 5)])
a3

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])

In [116]:
a4 = np.tile(a3, (2, 1))
a4

array([[  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [  0.,   0.,   0.,   1.,   1.],
       [ 10.,  20.,  30.,  40.,  50.],
       [ 60.,  70.,  80.,  90., 100.],
       [110., 120., 130., 140., 150.]])

# 3. 배열의 연산

- 벡터화 연산을 사용하면, 반복문 없이 모든 원소에 대한 반복 연산이 가능하다.

In [117]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [118]:
%%time 

x + y 

Wall time: 0 ns


array([10002, 10004, 10006, ..., 29996, 29998, 30000])

## 각각의 원소 비교

In [120]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

a == b  # 각 원소에 대해 같은 값을 bool 형태로 반환 

array([False,  True, False,  True])

In [121]:
a > b 

array([False, False,  True, False])

## 모든 원소를 비교 : np.all

In [122]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [124]:
np.all(a == b)  # a배열과 b배열의 모든 원소가 같은가?

False

## 스칼라와 벡터/행렬의 곱셈

In [126]:
x = np.arange(10)
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

## 브로드캐스팅

- 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방벙이다.

In [127]:
x = np.arange(5)
y = np.ones_like(x)

x + y 

array([1, 2, 3, 4, 5])

In [128]:
x = np.vstack([range(7)[i:i+3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [133]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [134]:
x + y 

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

## 차원 축소 연산

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.

- 최대/최소: min, max, argmin, argmax
- 통계: sum, mean, median, std, var
- 불리언: all, any

In [137]:
x = np.arange(1, 5)
print(x)
print(type(x))

[1 2 3 4]
<class 'numpy.ndarray'>


In [139]:
print(np.sum(x))
print(x.sum())

10
10


In [142]:
print(x.min())     # 최소값
print(x.argmin())  # 최소값의 인덱스 위치 

1
0


In [146]:
print(x.max())     # 최대값 
print(x.argmax())  # 최대값의 인덱스 위치  

4
3


In [147]:
print(x.mean())      # 평균 
print(np.median(x))  # 중앙값, x.median()은 사용할 수 없음 

2.5
2.5


In [149]:
print(np.all([True, True, False]))  # 모두 True여야 True 출력 

False


In [151]:
print(np.any([True, False]))  # 하나라도 True면 True 출력 

True


In [153]:
a = np.zeros((100, 100))
a

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [154]:
np.any(a != 0 )  # a의 모든 원소 중 0이 아닌것이 하나라도 있다면, True 반환

False

In [155]:
np.all(a == 0)  # a의 모든 원소가 모두 0이라면 True 반환 

True

## 2차원에서 배열의 행,열 덧셈

In [156]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [157]:
x.sum(axis = 0)  # 열 합계 

array([3, 3])

In [159]:
x.sum(axis = 1)  # 행 합계

array([2, 4])

### 연습문제 

실수로 이루어진 5 x 6 형태의 데이터 행렬을 만들고 이 데이터에 대해 다음과 같은 값을 구한다.

- 전체의 최댓값
- 각 행의 합
- 각 열의 평균

In [173]:
t = np.arange(30).reshape(5, 6)
t

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [174]:
t.max()

29

In [175]:
t.sum(axis=1)  # 각 행의 합

array([ 15,  51,  87, 123, 159])

In [179]:
np.hstack([t, t.sum(axis=1).reshape(5, 1)])

array([[  0,   1,   2,   3,   4,   5,  15],
       [  6,   7,   8,   9,  10,  11,  51],
       [ 12,  13,  14,  15,  16,  17,  87],
       [ 18,  19,  20,  21,  22,  23, 123],
       [ 24,  25,  26,  27,  28,  29, 159]])

In [169]:
t.mean(axis=0) # 각 열의 평균

array([12., 13., 14., 15., 16., 17.])

## **axis 이해하기**

### 2차원 행렬

In [183]:
a = np.arange(15).reshape(5, 3)
a

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

### axis = 0 : 행

- 위의 (5, 3) 행렬에서 axis=0은 5행을 의미하고. 이를 축소하겠다는 의미다.
- 즉, (5, 3)행렬을 (1, 3)행렬로 축소한다.

In [184]:
a.sum(axis=0)

array([30, 35, 40])

### axis  = 1 : 열

In [185]:
a.sum(axis=1)

array([ 3, 12, 21, 30, 39])

### 3차원 행렬

- axis = 0 : 행
- axis = 1 : 열
- axis = 2 : 깊이

In [190]:
b = np.random.randint(10, size=(5,3,2))   # (5행, 3열, 2깊이)의 행렬
b 

array([[[7, 2],
        [7, 9],
        [7, 6]],

       [[9, 9],
        [2, 5],
        [2, 8]],

       [[9, 7],
        [8, 0],
        [8, 2]],

       [[5, 9],
        [1, 6],
        [5, 3]],

       [[9, 1],
        [0, 7],
        [2, 2]]])

In [191]:
b2 = b.sum(axis=0)  # 행을 축소하고, (3 x 2) 행렬이 남음 
b2.shape

(3, 2)

In [192]:
b3 = b.sum(axis=1)  # 열을 축소하고, (5 x 2) 행렬이 남음 
b3.shape

(5, 2)

In [194]:
b4 = b.sum(axis=2)  # 깊이를 축소하고, (5 x 3) 행렬이 남음 
b4.shape

(5, 3)

## 정렬

sort 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다. axis=0이면 각각의 행을 따로따로 정렬하고 axis=1이면 각각의 열을 따로따로 정렬한다. 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원이다.

In [196]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [199]:
np.sort(a, axis=1)  # 각 열을 기준으로 첫 번째 열이 가장 낮은 수 

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [200]:
np.sort(a, axis=0) # 각 행을 기준으로 첫 번째 행이 가장 낮은 수 

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])